高性能优化实习生 北京 实习 本科及以上 职位描述 1、使用性能分析工具(如Nsight Systems/Compute, VTune, rocProf等),定位ABACUS在不同硬件(CPU/GPU/DCU)上的性能瓶颈与热点函数;2、针对识别出的热点函数(如矩阵乘法、卷积、注意力机制等核心算子),开展深入的代码级优化;3、设计并实现高性能并行计算方案,充分利用现代硬件的多核、向量化及大规模并行计算能力;4、将优化代码集成到主项目,编写基准测试,验证性能提升效果并确保代码的正确性。 职位要求 1、本科及以上在读,专业背景为数学、计算机科学与技术等相关专业;2、有并行优化的项目经历; 3、有实际GPU开源项目的贡献经历加分;4、熟练掌握C++/CUDA、Git、Linux;5、实习周期:6个月及以上,每周可到岗4天及以上优先,能长期实习者优先。 职位信息 部门: OpenLAM 投递...
Tätigkeitsbereich:Forschung & Entwicklung incl. Design Fachabteilung:MBOS Software Architecture & Base Software Gesellschaft:Mercedes-Benz Digital Tech Ltd. Standort:Shanghai, Xingchi Tower, No. 399, Keqiao Road, Jinqiao, Pudong Startdatum:sofort Veröffentlichungsdatum:26.05.2026 Stellennummer:MER0003XSU Arbeitszeit:Vollzeit Bewerben Aufgaben Objective: Lead a small-scale outsourcing engineer
算法嵌入式部署工程师 上海 正式 智能制造 / 工业互联网 / 工业自动化 职位描述 - 负责将PyTorch/TensorFlow训练模型转换为嵌入式设备支持的格式(如ONNX、TensorRT、TFLite)- 在目标平台上集成和调优推理引擎(如TensorRT、OpenVINO、TFLite、RKNN),实现低延迟、高吞吐的算法推理。- 编写高性能C++代码,利用NEON/SIMD指令集、多线程、内存池等技术进行底层优化。- 使用Nsight Systems、vtune、perf等工具进行端到端性能剖析,精准定位性能瓶颈(算子、内存、IO等)。- 与硬件团队协作,充分利用NPU/DPU、DSP、GPU等异构计算单元的算力,设计高效的任务调度与数据流。- 构建自动化部署流水线,编写部署脚本,并进行严格的精度、速度、功耗和稳定性测试。 职位要求 必需条件 - 计算机、电子、自动化等相关专业研究生(985)及以上学历。- 精通C/C++,熟悉现代C++特性,具备高性能编程和内存优化能力。- 熟练使用Python,用于模型转换、测试和自动化脚本编写。- 精通ONNX及相关工具链,熟悉至少一种推理引擎(TensorRT、OpenVINO、TFLite等)。- 熟悉Linux开发环境,具备交叉编译、驱动、系统调优经验。- 有扎实的计算机体系结构基础,了解CPU缓存、内存管理等原理。优先考虑条件 1. 硬件架构专家:熟悉Jetson、海思、地平线、瑞芯微等主流AI芯片架构,有BSP开发经验。2. 编译器技术:了解TVM、MLIR等编译器技术,有相关经验者极具优势。3. 机器人/自动驾驶:熟悉ROS 2,有感知、规划、控制算法部署经验。4. 计算机视觉:有CV算法(目标检测、分割、分类)的极致优化经验。 投递...
AI模型部署与性能优化工程师 深圳 社招 全职 数字技术 - 芯片研发 本科及以上 3-5 年 职位描述 1. 负责将客户常见智能辅助驾驶算法模型(CNN,Transformer,LLM,多模态等)部署到公司大算力芯片平台,解决过程中可能涉及的算子不支持、模型规格不匹配的兼容性问题。2. 运用性能分析工具对模型进行全栈性能剖析,识别计算、内存、调度瓶颈,通过图融合、算子替换、内存优化以及其他软硬件优化技术,提升推理速度和吞吐量。3. 配合客户实施PTQ/QAT量化方案,定位并解决量化或其他过程引入的精度损失问题。4. 系统性地诊断并解决单模型部署和多模型并发场景下的稳定性问题。深入定位Core Dump / Crash的根本原因(内存越界、资源竞争等)并推动解决。5. 深入理解客户需求,提供部署、性能调优方案和建议。建设并维护车载/机器人场景 Model Zoo,输出最佳实践案例文档,降低客户使用门槛。 职位要求 1. 硕士以上学历,具备2年以上AI模型在端/边/云平台部署优化经验。有车载或机器人芯片平台项目经验者优先。2. 精通Python和C++编程,熟悉PyTorch、TensorFlow、ONNX等深度学习框架中的一种或多种。3. 熟悉TensorRT、TVM、ONNX Runtime、vLLM、llama.cpp等主流推理引擎中的一种或多种。4. 熟悉常见网络模型结构和算子,具备模型部署、算子开发和调优经验。掌握系统级别和算子级别 Debug & Profiling 实战技能,熟悉Nsight Systems、perf、Vtune等性能分析工具。5. 熟悉GPGPU或NPU等AI加速芯片硬件特性、了解AI软件栈,有软硬协同经验者优先。6. 积极主动,勇于承担, 具备良好的团队合作精神、沟通协调能力和技术推动力。
智能辅助驾驶算法工程岗位 - 模型训练方向 AD内推 上海 社招 全职 数字技术 本科及以上 3-5 年 职位描述 我们希望找到一位兼具算法理解与工程落地能力的同学,加入智能辅助驾驶核心研发团队,共同建设高可靠、高性能的车云协同链路体系。您将参与从算法模块设计、工程集成、系统优化到车端实车部署的全流程,面对真实场景、真实挑战,构建支撑量产智能辅助驾驶产品的关键基础设施。该岗位将与端侧、大模型、规划、仿真、云平台等多个团队协作,因此需要你具备跨模块协作能力和扎实的系统工程素养。主要职责:1. 算法模块集成与实车部署- 深度参与智能辅助驾驶诸多算法模块的集成与工程化改造- 开发统一集成算法模块的工程链路,并可跨平台(arm/x86)部署,支持链路快速调试和部署- 对接云端与仿真验证体系,建设统一的车云工程体系2. 车云链路系统设计与性能优化- 负责车云链路集成架构的设计,开发与迭代,包括数据格式、调度机制等- 持续优化链路时延、吞吐与系统稳定性,保障算法模块在车端的高可靠运行- 解决车云链路中的高并发、数据一致性,跨版本伴生下发等诸多工程难题3. CI/CD 与自动化质量体系建设- 构建稳定可靠的 CI/CD 流程(构建、编译、自动部署、回归验证)- 设计多层级的拦截系统,拦截所有上车模块的质量问题- 设计工程质量度量体系,提升整个团队的交付效率与代码质量4. 工程质量与系统级问题攻关- 推进 C++/Python 工程规范、性能 profiling、内存、日志管理优化等专项工作- 参与定位和解决系统级崩溃、性能瓶颈、线程安全、内存泄漏等复杂问题- 主导关键模块的工程重构,使系统具备可扩展性、可维护性 职位要求
智能辅助驾驶-系统集成工程师 AD内推 蔚来自动驾驶研发团队 北京、上海 社招 全职 数字技术 - 软件研发 本科及以上 5-7 年 职位描述 主要职责:1. 算法模块集成与实车部署- 深度参与智能辅助驾驶驾驶诸多算法模块的集成与工程化改造- 开发统一集成算法模块的工程链路,并可跨平台(arm/x86)部署,支持链路快速调试和部署- 对接云端与仿真验证体系,建设统一的车云工程体系2. 车云链路系统设计与性能优化- 负责车云链路集成架构的设计,开发与迭代,包括数据格式、调度机制等- 持续优化链路时延、吞吐与系统稳定性,保障算法模块在车端的高可靠运行- 解决车云链路中的高并发、数据一致性,跨版本伴生下发等诸多工程难题3. CI/CD 与自动化质量体系建设- 构建稳定可靠的 CI/CD 流程(构建、编译、自动部署、回归验证)- 设计多层级的拦截系统,拦截所有上车模块的质量问题- 设计工程质量度量体系,提升整个团队的交付效率与代码质量4. 工程质量与系统级问题攻关- 推进 C++/Python 工程规范、性能 profiling、内存、日志管理优化等专项工作- 参与定位和解决系统级崩溃、性能瓶颈、线程安全、内存泄漏等复杂问题- 主导关键模块的工程重构,使系统具备可扩展性、可维护性
系统交付与优化专家/工程师 上海、北京 社招 全职 职位 ID:A256373 职位描述 1. 负责自动驾驶系统链路的端到端交付、部署与优化,确保系统在实车环境下的实时性、稳定性与可靠性;2. 从系统全局视角对CPU、GPU、DDR、内存等资源进行统一调度、性能分析与瓶颈优化;3. 针对自驾场景(如感知、规划、控制等)的特点,设计并实现资源分配策略与性能优化方案;4. 参与自驾系统架构设计,推动软硬件协同优化,提升系统整体能效与用户体验;5. 跟踪并定位系统性能问题,结合芯片特性、模型特点与场景需求进行跨栈优化。 职位要求 1. 计算机、软件工程、系统工程等相关专业本科及以上学历,3年以上嵌入式系统或自驾系统优化经验;2. 熟悉Linux系统、资源调度机制、内存管理与性能分析工具(如perf、ftrace、VTune等);3. 具备自驾系统交付或优化经验,了解自驾场景对延迟、算力、带宽的约束与需求;4. 熟悉异构计算平台(CPU/GPU等)的资源管理与任务调度,有系统级调优经验;5. 具备良好的跨团队协作能力,能够与算法、软件等团队高效沟通;6. 有实车部署、问题排查或自驾中间件(如ROS、DDS)相关经验者优先。 投递...
高性能算子库开发工程师 北京 社招 全职 职位 ID:A202179 职位描述 1. 设计、开发并优化面向NPU的高性能算子库,覆盖卷积、矩阵运算、归一化等核心算子;2.基于类CUDA编程语言或NPU专用指令集,实现算子极致性能优化,降低延迟与功耗;3.深入理解NPU硬件架构(如计算单元、内存层级、数据流),针对硬件特性进行算子级优化;4.与芯片团队紧密协作,反馈算子性能瓶颈并提出硬件改进建议;5.编写高性能计算代码、汇编级优化及Benchmark测试。 职位要求 1.计算机科学、电子工程、数学等相关专业,本科及以上学历;2. 熟悉cuda/C++/Python中至少一种编程语言;3. 具备类CUDA编程经验(CUDA/OpenCL/HIP等)或NPU SDK开发经验;4. 熟悉并行计算体系结构,有NPU/GPU开发和优化经验优先;5. 对性能优化有极致追求,能通过Profiling工具(如Nsight、VTune)定位瓶颈6. 良好的团队沟通能力, 责任心强。 投递...