Date Posted

Location

Job Type

Employer/Recruiter

All Filters

Vtune Jobs In China - 8 Job Positions Available

Top Cities:

Shanghai

vtune jobs in China

1 – 8 of 8 jobs

高性能优化实习生

北京科学智能研究院 AI For Science Institute, Beijing ( Beijing )

高性能优化实习生北京实习本科及以上职位描述 1、使用性能分析工具（如Nsight Systems/Compute, VTune, rocProf等），定位ABACUS在不同硬件（CPU/GPU/DCU）上的性能瓶颈与热点函数；2、针对识别出的热点函数（如矩阵乘法、卷积、注意力机制等核心算子），开展深入的代码级优化；3、设计并实现高性能并行计算方案，充分利用现代硬件的多核、向量化及大规模并行计算能力；4、将优化代码集成到主项目，编写基准测试，验证性能提升效果并确保代码的正确性。职位要求 1、本科及以上在读，专业背景为数学、计算机科学与技术等相关专业；2、有并行优化的项目经历； 3、有实际GPU开源项目的贡献经历加分；4、熟练掌握C++/CUDA、Git、Linux；5、实习周期：6个月及以上，每周可到岗4天及以上优先，能长期实习者优先。职位信息部门： OpenLAM 投递...

Premium Full-time

北京科学智能研究院 AI For Science Institute, Beijing 29 days ago

Performance Software Architect 软件性能架构师

Mercedes-Benz Group AG ( Shanghai )

Tätigkeitsbereich:Forschung & Entwicklung incl. Design Fachabteilung:MBOS Software Architecture & Base Software Gesellschaft:Mercedes-Benz Digital Tech Ltd. Standort:Shanghai, Xingchi Tower, No. 399, Keqiao Road, Jinqiao, Pudong Startdatum:sofort Veröffentlichungsdatum:26.05.2026 Stellennummer:MER0003XSU Arbeitszeit:Vollzeit Bewerben Aufgaben Objective: Lead a small-scale outsourcing engineer

Premium Full-time Product Development Intel Memory Management Programming Languages Fostering

Mercedes-Benz Group AG 29 days ago

Upload Your Resume — Let employers contact you directly

算法嵌入式部署工程师

Sharpa ( Shanghai )

算法嵌入式部署工程师上海正式智能制造 / 工业互联网 / 工业自动化职位描述 - 负责将PyTorch/TensorFlow训练模型转换为嵌入式设备支持的格式（如ONNX、TensorRT、TFLite）- 在目标平台上集成和调优推理引擎（如TensorRT、OpenVINO、TFLite、RKNN），实现低延迟、高吞吐的算法推理。- 编写高性能C++代码，利用NEON/SIMD指令集、多线程、内存池等技术进行底层优化。- 使用Nsight Systems、vtune、perf等工具进行端到端性能剖析，精准定位性能瓶颈（算子、内存、IO等）。- 与硬件团队协作，充分利用NPU/DPU、DSP、GPU等异构计算单元的算力，设计高效的任务调度与数据流。- 构建自动化部署流水线，编写部署脚本，并进行严格的精度、速度、功耗和稳定性测试。职位要求必需条件 - 计算机、电子、自动化等相关专业研究生（985）及以上学历。- 精通C/C++，熟悉现代C++特性，具备高性能编程和内存优化能力。- 熟练使用Python，用于模型转换、测试和自动化脚本编写。- 精通ONNX及相关工具链，熟悉至少一种推理引擎（TensorRT、OpenVINO、TFLite等）。- 熟悉Linux开发环境，具备交叉编译、驱动、系统调优经验。- 有扎实的计算机体系结构基础，了解CPU缓存、内存管理等原理。优先考虑条件 1. 硬件架构专家：熟悉Jetson、海思、地平线、瑞芯微等主流AI芯片架构，有BSP开发经验。2. 编译器技术：了解TVM、MLIR等编译器技术，有相关经验者极具优势。3. 机器人/自动驾驶：熟悉ROS 2，有感知、规划、控制算法部署经验。4. 计算机视觉：有CV算法（目标检测、分割、分类）的极致优化经验。投递...

Premium Full-time

Sharpa 18 days ago

AI模型部署与性能优化工程师

NIO ( Shenzhen )

AI模型部署与性能优化工程师深圳社招全职数字技术 - 芯片研发本科及以上 3-5 年职位描述 1. 负责将客户常见智能辅助驾驶算法模型（CNN，Transformer，LLM，多模态等）部署到公司大算力芯片平台，解决过程中可能涉及的算子不支持、模型规格不匹配的兼容性问题。2. 运用性能分析工具对模型进行全栈性能剖析，识别计算、内存、调度瓶颈，通过图融合、算子替换、内存优化以及其他软硬件优化技术，提升推理速度和吞吐量。3. 配合客户实施PTQ/QAT量化方案，定位并解决量化或其他过程引入的精度损失问题。4. 系统性地诊断并解决单模型部署和多模型并发场景下的稳定性问题。深入定位Core Dump / Crash的根本原因（内存越界、资源竞争等）并推动解决。5. 深入理解客户需求，提供部署、性能调优方案和建议。建设并维护车载/机器人场景 Model Zoo，输出最佳实践案例文档，降低客户使用门槛。职位要求 1. 硕士以上学历，具备2年以上AI模型在端/边/云平台部署优化经验。有车载或机器人芯片平台项目经验者优先。2. 精通Python和C++编程，熟悉PyTorch、TensorFlow、ONNX等深度学习框架中的一种或多种。3. 熟悉TensorRT、TVM、ONNX Runtime、vLLM、llama.cpp等主流推理引擎中的一种或多种。4. 熟悉常见网络模型结构和算子，具备模型部署、算子开发和调优经验。掌握系统级别和算子级别 Debug & Profiling 实战技能，熟悉Nsight Systems、perf、Vtune等性能分析工具。5. 熟悉GPGPU或NPU等AI加速芯片硬件特性、了解AI软件栈，有软硬协同经验者优先。6. 积极主动，勇于承担，具备良好的团队合作精神、沟通协调能力和技术推动力。

Premium Full-time Profiling Dump

NIO 7 days ago

智能辅助驾驶算法工程岗位 - 模型训练方向

NIO ( Shanghai )

智能辅助驾驶算法工程岗位 - 模型训练方向 AD内推上海社招全职数字技术本科及以上 3-5 年职位描述我们希望找到一位兼具算法理解与工程落地能力的同学，加入智能辅助驾驶核心研发团队，共同建设高可靠、高性能的车云协同链路体系。您将参与从算法模块设计、工程集成、系统优化到车端实车部署的全流程，面对真实场景、真实挑战，构建支撑量产智能辅助驾驶产品的关键基础设施。该岗位将与端侧、大模型、规划、仿真、云平台等多个团队协作，因此需要你具备跨模块协作能力和扎实的系统工程素养。主要职责：1. 算法模块集成与实车部署- 深度参与智能辅助驾驶诸多算法模块的集成与工程化改造- 开发统一集成算法模块的工程链路，并可跨平台（arm/x86）部署，支持链路快速调试和部署- 对接云端与仿真验证体系，建设统一的车云工程体系2. 车云链路系统设计与性能优化- 负责车云链路集成架构的设计，开发与迭代，包括数据格式、调度机制等- 持续优化链路时延、吞吐与系统稳定性，保障算法模块在车端的高可靠运行- 解决车云链路中的高并发、数据一致性，跨版本伴生下发等诸多工程难题3. CI/CD 与自动化质量体系建设- 构建稳定可靠的 CI/CD 流程（构建、编译、自动部署、回归验证）- 设计多层级的拦截系统，拦截所有上车模块的质量问题- 设计工程质量度量体系，提升整个团队的交付效率与代码质量4. 工程质量与系统级问题攻关- 推进 C++/Python 工程规范、性能 profiling、内存、日志管理优化等专项工作- 参与定位和解决系统级崩溃、性能瓶颈、线程安全、内存泄漏等复杂问题- 主导关键模块的工程重构，使系统具备可扩展性、可维护性职位要求

Premium Full-time CUDA C++ Linux Python

NIO 7 days ago

智能辅助驾驶-系统集成工程师

NIO ( Shanghai )

智能辅助驾驶-系统集成工程师 AD内推蔚来自动驾驶研发团队北京、上海社招全职数字技术 - 软件研发本科及以上 5-7 年职位描述主要职责：1. 算法模块集成与实车部署- 深度参与智能辅助驾驶驾驶诸多算法模块的集成与工程化改造- 开发统一集成算法模块的工程链路，并可跨平台（arm/x86）部署，支持链路快速调试和部署- 对接云端与仿真验证体系，建设统一的车云工程体系2. 车云链路系统设计与性能优化- 负责车云链路集成架构的设计，开发与迭代，包括数据格式、调度机制等- 持续优化链路时延、吞吐与系统稳定性，保障算法模块在车端的高可靠运行- 解决车云链路中的高并发、数据一致性，跨版本伴生下发等诸多工程难题3. CI/CD 与自动化质量体系建设- 构建稳定可靠的 CI/CD 流程（构建、编译、自动部署、回归验证）- 设计多层级的拦截系统，拦截所有上车模块的质量问题- 设计工程质量度量体系，提升整个团队的交付效率与代码质量4. 工程质量与系统级问题攻关- 推进 C++/Python 工程规范、性能 profiling、内存、日志管理优化等专项工作- 参与定位和解决系统级崩溃、性能瓶颈、线程安全、内存泄漏等复杂问题- 主导关键模块的工程重构，使系统具备可扩展性、可维护性

Premium Full-time CUDA C++ Linux Python

NIO 7 days ago

Get Hired 2x Faster
Connect with Top Employers Directly

系统交付与优化专家/工程师

Xiaomi ( Shanghai )

系统交付与优化专家/工程师上海、北京社招全职职位 ID：A256373 职位描述 1. 负责自动驾驶系统链路的端到端交付、部署与优化，确保系统在实车环境下的实时性、稳定性与可靠性；2. 从系统全局视角对CPU、GPU、DDR、内存等资源进行统一调度、性能分析与瓶颈优化；3. 针对自驾场景（如感知、规划、控制等）的特点，设计并实现资源分配策略与性能优化方案；4. 参与自驾系统架构设计，推动软硬件协同优化，提升系统整体能效与用户体验；5. 跟踪并定位系统性能问题，结合芯片特性、模型特点与场景需求进行跨栈优化。职位要求 1. 计算机、软件工程、系统工程等相关专业本科及以上学历，3年以上嵌入式系统或自驾系统优化经验；2. 熟悉Linux系统、资源调度机制、内存管理与性能分析工具（如perf、ftrace、VTune等）；3. 具备自驾系统交付或优化经验，了解自驾场景对延迟、算力、带宽的约束与需求；4. 熟悉异构计算平台（CPU/GPU等）的资源管理与任务调度，有系统级调优经验；5. 具备良好的跨团队协作能力，能够与算法、软件等团队高效沟通；6. 有实车部署、问题排查或自驾中间件（如ROS、DDS）相关经验者优先。投递...

Premium Full-time

Xiaomi 1 day ago

高性能算子库开发工程师

Xiaomi ( Beijing )

高性能算子库开发工程师北京社招全职职位 ID：A202179 职位描述 1. 设计、开发并优化面向NPU的高性能算子库，覆盖卷积、矩阵运算、归一化等核心算子；2.基于类CUDA编程语言或NPU专用指令集，实现算子极致性能优化，降低延迟与功耗；3.深入理解NPU硬件架构（如计算单元、内存层级、数据流），针对硬件特性进行算子级优化；4.与芯片团队紧密协作，反馈算子性能瓶颈并提出硬件改进建议；5.编写高性能计算代码、汇编级优化及Benchmark测试。职位要求 1.计算机科学、电子工程、数学等相关专业，本科及以上学历；2. 熟悉cuda/C++/Python中至少一种编程语言；3. 具备类CUDA编程经验（CUDA/OpenCL/HIP等）或NPU SDK开发经验；4. 熟悉并行计算体系结构，有NPU/GPU开发和优化经验优先；5. 对性能优化有极致追求，能通过Profiling工具（如Nsight、VTune）定位瓶颈6. 良好的团队沟通能力, 责任心强。投递...

Premium Full-time

Xiaomi 9 hours ago

Jobs
Vtune

Upload Your ResumeLet employers contact you directly

Vtune Jobs In China - 8 Job Positions Available

Subscribe for job alerts and resources to make your job search easier!