高性能推理优化算法工程师 北京 全职 互联网 / 电子 / 网游 职位描述 1、高性能算子开发与优化:负责AI模型(尤其是大语言模型及多模态模型)在GPU上的核心算子(Kernel)的设计、开发与极致性能优化,支撑训练和推理场景的高效运行。2、性能分析与调优:深入分析GPU应用程序的性能瓶颈,通过优化内存访问模式、线程调度、执行效率等手段,显著提升计算密集型任务的吞吐量和降低延迟。3、技术集成与应用:研究并应用业界前沿的优化技术(如模型量化QAT/PTQ、算子融合、动态形状支持、FlashAttention等),并将其集成至推理/训练引擎。 职位要求 1、编程能力:具备3年及以上GPU编程与高性能计算优化经验,深入理解GPU架构、并行计算原理、计算机体系结构,具备高性能计算内核的开发与优化经验。2、精通C/C++,具备扎实的编程基础、良好的编程风格和丰富的调试经验;熟练掌握Python;熟悉Linux开发环境。3、性能优化经验:能够熟练使用Nsight Compute、Nsight Systems等GPU性能分析工具,有实际的性能优化案例和成果,能独立定位和解决复杂的性能问题。4、算法基础:熟悉基础数学函数、线性代数、矩阵运算、数值计算等数学库相关算法,了解深度学习常见算子的计算方式 投递...
大模型训练加速工程师 / 高级专家 北京 全职 通用智能板块 职位描述 【岗位职责】训练加速与优化: 负责大模型训练场景下的性能分析 (Profiling) 与全链路优化,包括显存管理、计算加速及通信优化 (NCCL),提升集群训练吞吐率。算子开发与协同设计 (Co-design): 负责高性能算子 (Kernel) 的开发与调优;与算法团队紧密协作,针对特定模型结构(如 Transformer, MoE)进行定制化算子设计。分布式框架建设: 基于 Megatron-LM, DeepSpeed, FSDP 等框架进行二次开发与优化,设计适应大规模集群的并行训练方案。稳定性保障: 负责大规模训练过程中的问题定位与解决,包括但不限于 NCCL 超时、显存溢出 (OOM)、训练速度波动等,保障训练任务的高效稳定运行。 职位要求 理论基础: 计算机基础扎实,深刻理解深度学习训练原理(计算图、自动微分、混合精度),熟悉主流并行策略及 FlashAttention 等加速算法。编程能力: 熟练掌握 Python/C++,熟悉 GPU 编程模型,具备 CUDA /
C++实习生 - 性能优化 - 北京海淀 北京 实习 职位描述 职位描述1. 负责自动驾驶系统感知在线模块的性能优化;2. 使用AI等工具分析感知模块,定位性能瓶颈并推动CPU、GPU等多维度优化落地。 职位要求 职位要求1. 计算机或相关专业本科以上学历;2. 优秀的编程能力,Linux开发经验、扎实的C++基础;3. 扎实的数据结构与算法基础;4. 有较强的独立解决问题能力,学习能力,动手能力及沟通能力。若能满足如下条件的其中一个,会适当加分1. 具备良好的代码风格、代码品味与工程化意识;2. 了解常用的 CPU/GPU 性能分析方法或工具,如 gprof、Nsight System、perf等;3. 了解多线程优化、并发性能优化、 GPU 编程模型、显存管理、kernel 调优等相关知识;4. 在自动驾驶行业有实习经验、或由高性能计算工程项目;5. 实习期6个月及以上,能尽快入职。 投递...
顶尖应届-大模型推理框架研发工程师-基础技术平台 北京 校招 正式 软件研发类 27届未来星 职位描述 1、负责基于 SGLang 等技术的大模型推理框架的开发工作,包括但不限于设计和实现高效的推理引擎架构,优化推理过程中的计算流程,提高推理性能。以满足不同规模大模型的实时推理需求复杂大模型框架性能评估和调优工作,构建并完善性能监控体系,通过实时监测训练指标,定位性能瓶颈,提出优化方案,确保在不同硬件上达到最优性能。2、负责Cuda Kernel优化,开发高性能的GPU算子, 提升大模型推理性能。 职位要求 1、计算机/电子/数学等相关专业硕士及以上学历;2、精通C/C++,熟悉Python,具备扎实的数据结构与算法基础,ACM/ICPC、NOI等竞赛获奖者优先;3、熟悉NVIDIA GPU架构及编程模型,掌握CUDA核函数优化、显存管理、多流并发等技术,有实际性能调优经验;4、熟悉PyTorch、Megatron、vLLM/SGLang等深度学习训练和推理框架;5、有分布式系统开发经验,熟悉MPI、NCCL等通信库,或参与过大模型训练/推理项目者优先。 投递...
Company Description 该岗位现面向所有经验阶段的候选人开放,包括社会招聘、应届毕业生,同时开放实习生岗位。工作地点为北京。欢迎申请,期待你的加入! Notice: This position is open to candidates at all experience levels, including experienced candidates, graduates, as well as internship opportunities. The role is based in Beijing. We welcome your application and look forward
WeRide is a smart mobility start-up whose mission is to transform mobility with autonomous driving. We are committed to build better transportation experience that’s safe, efficient, affordable and joyful. We have an elite team of entrepreneurs
NVIDIA has been transforming computer graphics, PC gaming, and accelerated computing for more than 25 years. It’s a unique legacy of innovation that’s fueled by great technology—and amazing people. Today, we’re tapping into the unlimited potential
自动驾驶 - 大模型部署优化算法工程师(实习)-2027届 北京 校招 实习 算法类 职位描述 1. 负责自动驾驶端侧大模型的部署和优化工作2. 参与模型部署&优化工具链的研发3. 对大模型部署优化技术展开研究,并落地到自动驾驶,包括算子实现和优化、投机采样、AI 优化 Kernel 等 职位要求 1. 有参与模型部署优化的经验,有高性能计算经验者优先2. 扎实的(Python/C++)编程基础与良好的工程习惯,熟悉常用的数据结构及算法3. 熟悉 NV GPU 硬件架构与 CUDA 编程模型4. 熟悉 Claude/Codex/OpenCode 等 Agentic Coding 工具 投递...
VLA训练infra算法工程师 - XiaomiRobotics 北京 社招 全职 职位 ID:A243642 职位描述 1. 基于 PyTorch 生态(FSDP / DeepSpeed / Megatron 等)设计并实现 VLA 模型的分布式训练方案(DP / TP / PP / MoE),构建稳定高效的训练框架2. 推动混合精度(BF16 / FP8)与算子融合(FlashAttention / Triton kernel)3. 构建高吞吐数据pipeline,设计数据格式与 shard 策略,实现高效的数据加载4. 支持大规模实验追踪、管理、指标可视化 职位要求
Linux内核调度专家 北京 社招 全职 职位 ID:A123340 职位描述 1. 基于Linux Kernel进行调度优化,结合Android应用生态设计和优化内核调度器2. 熟悉SoC资源管控机制,构建CPU/GPU/DDR/Cache等资源的统一频率管控和性能瓶颈拆解3. 熟悉微架构,能够拆解指令的微架构性能瓶颈并进行优化,基于微架构指标进行调度器的优化和改造4. 跟踪和调研行业最新的调度优化方向,快速进行方案验证和产品导入5. 逆向分析领先的友商技术,对于下一代调度器的方向有一定的认知6. 跟踪和解决内核调度器相关的问题,包括死锁、优先级反转以及稳定性问题7. 对于调度器进行评估,能够建立调度器的评价体系 职位要求 1. 本科及以上学历,计算机相关专业2. 熟悉Linux操作系统和内核开发,具有扎实的C/C++编程能力3. 熟悉操作系统调度算法和原理,了解EEVDF/CFS/EAS等调度算法,关注Linux的新型特性4. 具有良好的架构设计能力,有过一定的移动端方案设计经验,能够快速洞察行业内新技术并进行快速落地5. 具有良好的团队合作精神和沟通能力,能够与其他团队合作完成项目 投递...
MiMo-大模型推理框架开发工程师 北京 社招 全职 职位 ID:A252073 职位描述 - 负责基于 vLLM、SGLang 等技术的大模型推理框架的开发工作,包括但不限于设计和实现高效的推理引擎架构,优化推理过程中的计算流程,提高推理性能,以满足不同规模大模型的实时推理需求- 复杂大模型框架性能评估和调优工作,构建并完善性能监控体系,通过实时监测训练指标,定位性能瓶颈,提出优化方案,确保在不同硬件上达到最优性能。- 负责Cuda Kernel优化,开发高性能的GPU算子, 提升大模型推理性能 职位要求 - 硕士及以上学历,计算机、软件工程、数学等相关专业,具备扎实计算机理论基础和丰富编程经验,在深度学习领域有深入研究与实践。- 精通 Python,熟练掌握至少一种深度学习框架(如 PyTorch),理解深度学习原理算法,有丰富模型开发与调优经验,能独立搭建复杂模型并优化性能。- 熟悉 C++ 和 CUDA 编程,具备代码优化能力,能针对 GPU 等硬件高效编写和优化代码,了解硬件体系结构并进行针对性优化。- 熟悉大模型推理框架的基本原理和流程,了解 vLLM、SGLang 等大模型推理框架的核心技术和实现优先- 有良好团队协作与沟通能力,能与不同背景成员有效沟通协作,责任心强、敬业热情,能承受工作压力,保证项目按时高质量交付。 投递...
Company: Qualcomm China Job Area:Engineering Group, Engineering Group Machine Learning Engineering General Summary: About us: We are Qualcomm AI Research that are advancing AI to make its core capabilities – perception, reasoning, and action – ubiquitous
Company Description 该岗位现面向所有经验阶段的候选人开放,包括社会招聘、应届毕业生,同时开放实习生岗位。工作地点为北京。欢迎申请,期待你的加入! Notice: This position is open to candidates at all experience levels, including experienced candidates, 2025 and 2026 graduates, as well as internship opportunities. The role is based in Beijing. We welcome your application