AI推理框架工程师-2026届上海、北京校招正式互联网 / 电子 / 网游 - 研发2026届校园招聘职位描述1. 针对NLP、语音、CV等任务的训练性能优化2. 针对NLP、语音、CV等任务的推理性能优化3. 架构设计、评审、优化、技术攻坚4. 神经网络算子开发5. 推理、训练框架维护工作职位要求1)计算机相关专业本科以上学历;2)熟悉PyTorch、TensorFlow等主流深度学习工具及其演进和发展 3)熟悉AI框架和异构并行计算,对GPU/OpenCL/CUDA/OpenMP有深刻理解 4)丰富的软件和算法架构设计能力,精通深度学习、强化学习、运筹优化、分布式计算等软件架构,主导或者参与过关键领域的架构和软件系统设计、开发交付等工作。投递...
训练框架研发工程师-2026届上海、北京校招正式互联网 / 电子 / 网游 - 研发2026届校园招聘职位描述1. 参与公司训练底层框架研发, 负责超大规模训练技术在公司实际业务场景中的计算效率优化.2. 超大规模训练场景下,探索前沿的分布式系统设计,包括不限于通信优化、内存优化、计算优化等。3. 参与建设 PyTorch 2.0/TorchDynamo/TorchInductor/Triton 等编译技术优化.职位要求1. 扎实系统功底和编程能力,熟悉 C++/Python,熟悉常见数据结构和设计模式;2. 熟悉深度学习基本原理和 AI 框架 (TensorFlow/PyTorch/JAX等), 有对 Pytorch 二次开发经验者优先3. 熟悉深度学习框架优化/问题定位相关工具链基本原理, 有二次开发经验者优先4. 拥有高性能计算或模型优化经验和兴趣 (CUDA/Triton/OpenMP);5. 热爱技术、有较强的学习能力、复杂问题归纳梳理能力.投递...
【26届校招】算子库开发工程师-上海上海正式互联网 / 电子 / 网游 - 研发职位描述1、基于类 cuda 环境, 设计并实现高性能算子, 例如 gemm, Attention, FFN, CNN 等.2、结合芯片微架构特性进行极致调优, 优化核心算子性能逼近理论设计上限.3、开发性能评估工具, 并总结性能测试报告.4、编写算子设计文档与交付文档,保障算子库的稳定性与可维护性。职位要求1、精通 C/C++, 熟悉 Linux 开发环境, 掌握 CMake, Git 等工程化工具, 必须具备良好的代码风格与调试能力.2、深入理解 CPU/GPU 并行计算原理(如 SIMD/SIMT 架构), 有 CUDA/OpenCL/OpenMP 等编程经验者优先, 能独立完成简单算子的汇编实现者优先.3、扎实的线性代数(矩阵运算, 特征分解), 数值分析(精度优化、数值稳定性)基础,
【27届暑期】算子库开发实习生上海、武汉实习研发 - 电子 / 半导体职位描述1、基于类 cuda 环境, 设计并实现高性能算子, 例如 gemm, Attention, FFN, CNN 等。2、结合芯片微架构特性进行极致调优, 优化核心算子性能逼近理论设计上限。3、开发性能评估工具, 并总结性能测试报告。4、编写算子设计文档与交付文档,保障算子库的稳定性与可维护性。职位要求1. 精通 C/C++, 熟悉 Linux 开发环境, 掌握 CMake, Git 等工程化工具, 必须具备良好的代码风格与调试能力。2. 深入理解 CPU/GPU 并行计算原理(如 SIMD/SIMT 架构), 有 CUDA/OpenCL/OpenMP 等编程经验者优先, 能独立完成简单算子的汇编实现者优先。3. 扎实的线性代数(矩阵运算, 特征分解),
高性能计算研究员北京全职本科及以上职位描述1. 主导科学智能领域核心项目的高性能优化工作,重点突破OpenLAM系统级性能瓶颈,包括: - 面向上亿级科学数据的大模型训练场景,优化分布式训练框架的通信效率与计算资源利用率; - 软硬结合优化算子效率,极限压榨硬件性能; - 探索CUDA内核级优化与PyTorch计算图编译技术的前沿应用; - 构建超大规模晶体材料数据库(亿级原子体系)的高效数据预处理与并行计算方案;2. 深度参与AI for Science基础设施体系建设: - 将优化成果沉淀为通用加速组件,持续提升DeePMD-kit等开源软件的计算效率; - 构建面向材料、能源等领域的端到端加速方案,驱动工业级科学软件的研发。职位要求- 计算机/应用数学/计算材料学等相关专业硕士及以上学历(非常优秀的本科生也可考虑),2年以上HPC优化经验- 精通CUDA编程与GPU性能分析工具(Nsight/VTune),有PyTorch/TensorFlow框架层优化经验- 掌握MPI/OpenMP并行编程技术,具有千卡级分布式训练实战经验者优先- 熟悉典型AI模型计算特征(Attention/卷积/稀疏计算),能针对性设计内存/通信优化方案职位信息部门: OpenLAM投递...
高性能计算实习生北京实习本科及以上职位描述1. 主导科学智能领域核心项目的高性能优化工作,重点突破OpenLAM系统级性能瓶颈,包括: - 面向上亿级科学数据的大模型训练场景,优化分布式训练框架的通信效率与计算资源利用率; - 软硬结合优化算子效率,极限压榨硬件性能; - 探索CUDA内核级优化与PyTorch计算图编译技术的前沿应用; - 构建超大规模晶体材料数据库(亿级原子体系)的高效数据预处理与并行计算方案;2. 深度参与AI for Science基础设施体系建设: - 将优化成果沉淀为通用加速组件,持续提升DeePMD-kit等开源软件的计算效率; - 构建面向材料、能源等领域的端到端加速方案,驱动工业级科学软件的研发。职位要求- 计算机/应用数学/计算材料学等相关专业硕士及以上学历(非常优秀的本科生也可考虑)- 精通CUDA编程与GPU性能分析工具(Nsight/VTune),有PyTorch/TensorFlow框架层优化经验- 掌握MPI/OpenMP并行编程技术,具有千卡级分布式训练实战经验者优先- 熟悉典型AI模型计算特征(Attention/卷积/稀疏计算),能针对性设计内存/通信优化方案职位信息部门: OpenLAM投递...
高性能计算优化专家北京全职硕士及以上职位描述1. 主导科学智能领域核心项目的高性能优化工作,重点突破OpenLAM系统级性能瓶颈,包括: - 面向上亿级科学数据的大模型训练场景,优化分布式训练框架的通信效率与计算资源利用率; - 软硬结合优化算子效率,极限压榨硬件性能; - 探索CUDA内核级优化与PyTorch计算图编译技术的前沿应用; - 构建超大规模晶体材料数据库(亿级原子体系)的高效数据预处理与并行计算方案;2. 深度参与AI for Science基础设施体系建设: - 将优化成果沉淀为通用加速组件,持续提升DeePMD-kit等开源软件的计算效率; - 构建面向材料、能源等领域的端到端加速方案,驱动工业级科学软件的研发。职位要求【必要项】- 计算机/应用数学/计算材料学等相关专业硕士及以上学历(非常优秀的本科生也可考虑),2年以上HPC优化经验- 精通CUDA编程与GPU性能分析工具(Nsight/VTune),有PyTorch/TensorFlow框架层优化经验- 掌握MPI/OpenMP并行编程技术,具有千卡级分布式训练实战经验者优先- 熟悉典型AI模型计算特征(Attention/卷积/稀疏计算),能针对性设计内存/通信优化方案【加分项】- 有MLSys/SC/PPoPP等体系结构顶会论文- 熟悉科学计算典型负载(DFT/MD等)的加速技巧,或参与过Deep Modeling社区其他明星项目或AlphaFold等其他知名科学智能项目- 具备物理化学场景计算优化经验,或超大规模图数据处理实战经历成长地图- 学术纵深:顶会/期刊论文发表,与北京大学/普林斯顿等顶尖实验室深度合作- 产业落地:对接知名材料、制药产业伙伴,见证技术成果转化为工业软件- 职业弹性:获得AI算法研发与材料计算(院士团队)双重培养路径职位信息部门: OpenLAM投递...
Company: Qualcomm China Job Area:Engineering Group, Engineering Group Software Engineering General Summary: Job overview: As a member of Qualcomm Chinas engineering team dedicated to automotive infotainment and ADAS platforms, you will play a pivotal role in
高性能计算工程师 上海 正式 算法类 职位描述 1. 研发,跟踪,改进模型训练和云端推理性能优化,包括但不限于效率提升、资源利用率优化、稳定性增强;2. 研究,跟踪,改进深度学习相关的通信、计算等技术,致力于GPU或其他异构硬件的高性能系统开发; 3. 了解大规模计算集群中并行计算、低延迟网络、并行文件系统等内容,实现大规模并行计算系统的落地。 职位要求 1. 对人工智能技术充满热情和信仰,具有强烈的探索精神和创新意识。2. 具备坚实的并行编程基础:有CUDA/OpenCL/OpenMP相关项目经历。3. 参与卷积、矩阵乘、矩阵分解、BatchNorm、attention等AI相关算法开发的研发经历。4. 精通掌握C/C++,具备出色的程序开发、设计和调试能力。5. 精通各种基本算法,对操作系统、计算机体系结构有深入的认识。6. 具备较强的创新能力和团队协作精神,能够在高压环境下保持冷静、推动解决复杂问题。 投递...
机器学习平台研发工程师 北京 全职 互联网 / 电子 / 网游 - 研发 职位描述 -负责机器学习平台与算力基础设施的研发与演进,为模型训练、推理、评测及数据处理等流程提供稳定、高效、可扩展的平台能力,主要包括:- 参与并主导大规模算力平台的设计与研发,覆盖资源调度、任务编排、容器与运行时管理等关键方向,持续提升集群整体资源利用率,保障训练与推理场景的稳定运行;- 基于 Kubernetes、Docker 等云原生技术,参与调度器扩展及 CRD/Controller 等核心能力建设,支撑大规模分布式训练与推理场景。- 持续推进平台的易用性与性能优化,完善工具链与开发体验,降低算法与模型团队的使用门槛,提升整体研发效率。 职位要求 - 本科及以上学历,3 年及以上研发经验,有大规模容器集群或平台型系统建设经验,有千卡及以上规模集群管理或调度经验者优先;- 熟练掌握 Golang,具备扎实的数据结构与算法基础,能够独立定位和解决复杂系统问题;- 熟悉 Kubernetes 核心机制与组件(如调度、网络、存储、Controller/CRD 等),了解容器运行时及云原生相关技术体系;- 熟悉常见分布式数据处理或计算框架(如 Ray / Spark / Flink 等),理解其架构设计与运行模型;-