Refine Reset All
Sort by
Location
Job Type
Employer/Recruiter
Date Posted
Location
Job Type
Employer/Recruiter
All Filters

Vtune Jobs In China - 8 Job Positions Available

Top Cities:
1 – 8 of 8 jobs
北京科学智能研究院 AI for Science Institute, Beijing jobs

高性能优化实习生 北京 实习 本科及以上 职位描述 1、使用性能分析工具(如Nsight Systems/Compute, VTune, rocProf等),定位ABACUS在不同硬件(CPU/GPU/DCU)上的性能瓶颈与热点函数;2、针对识别出的热点函数(如矩阵乘法、卷积、注意力机制等核心算子),开展深入的代码级优化;3、设计并实现高性能并行计算方案,充分利用现代硬件的多核、向量化及大规模并行计算能力;4、将优化代码集成到主项目,编写基准测试,验证性能提升效果并确保代码的正确性。 职位要求 1、本科及以上在读,专业背景为数学、计算机科学与技术等相关专业;2、有并行优化的项目经历; 3、有实际GPU开源项目的贡献经历加分;4、熟练掌握C++/CUDA、Git、Linux;5、实习周期:6个月及以上,每周可到岗4天及以上优先,能长期实习者优先。 职位信息 部门: OpenLAM 投递...

Premium Full-time
北京科学智能研究院 AI For Science Institute, Beijing  29 days ago
Mercedes-Benz Group AG jobs

Tätigkeitsbereich:Forschung & Entwicklung incl. Design Fachabteilung:MBOS Software Architecture & Base Software Gesellschaft:Mercedes-Benz Digital Tech Ltd. Standort:Shanghai, Xingchi Tower, No. 399, Keqiao Road, Jinqiao, Pudong Startdatum:sofort Veröffentlichungsdatum:26.05.2026 Stellennummer:MER0003XSU Arbeitszeit:Vollzeit Bewerben Aufgaben Objective: Lead a small-scale outsourcing engineer

Mercedes-Benz Group AG  29 days ago
Sharpa jobs

算法嵌入式部署工程师 上海 正式 智能制造 / 工业互联网 / 工业自动化 职位描述 - 负责将PyTorch/TensorFlow训练模型转换为嵌入式设备支持的格式(如ONNX、TensorRT、TFLite​)- 在目标平台上集成和调优推理引擎(如TensorRT、OpenVINO、TFLite、RKNN​),实现低延迟、高吞吐的算法推理。- 编写高性能C++代码,利用NEON/SIMD指令集、多线程、内存池等技术进行底层优化。- 使用Nsight Systems、vtune、perf等工具进行端到端性能剖析,精准定位性能瓶颈(算子、内存、IO等)。- 与硬件团队协作,充分利用NPU/DPU、DSP、GPU等异构计算单元的算力,设计高效的任务调度与数据流。- 构建自动化部署流水线,编写部署脚本,并进行严格的精度、速度、功耗和稳定性测试。 职位要求 必需条件 - 计算机、电子、自动化等相关专业研究生(985)及以上学历。- 精通C/C++​,熟悉现代C++特性,具备高性能编程和内存优化能力。- 熟练使用Python​,用于模型转换、测试和自动化脚本编写。- 精通ONNX及相关工具链,熟悉至少一种推理引擎(​TensorRT、OpenVINO、TFLite等)。- 熟悉Linux开发环境,具备交叉编译、驱动、系统调优经验。- 有扎实的计算机体系结构基础,了解CPU缓存、内存管理等原理。优先考虑条件 1. 硬件架构专家​:熟悉Jetson、海思、地平线、瑞芯微等主流AI芯片架构,有BSP开发经验。2. 编译器技术​:了解TVM、MLIR等编译器技术,有相关经验者极具优势。3. 机器人/自动驾驶​:熟悉ROS 2​,有感知、规划、控制算法部署经验。4. 计算机视觉​:有CV算法(目标检测、分割、分类)的极致优化经验。 投递...

Premium Full-time
Sharpa  18 days ago
NIO jobs

AI模型部署与性能优化工程师 深圳 社招 全职 数字技术 - 芯片研发 本科及以上 3-5 年 职位描述 1. 负责将客户常见智能辅助驾驶算法模型(CNN,Transformer,LLM,多模态等)部署到公司大算力芯片平台,解决过程中可能涉及的算子不支持、模型规格不匹配的兼容性问题。2. 运用性能分析工具对模型进行全栈性能剖析,识别计算、内存、调度瓶颈,通过图融合、算子替换、内存优化以及其他软硬件优化技术,提升推理速度和吞吐量。3. 配合客户实施PTQ/QAT量化方案,定位并解决量化或其他过程引入的精度损失问题。4. 系统性地诊断并解决单模型部署和多模型并发场景下的稳定性问题。深入定位Core Dump / Crash的根本原因(内存越界、资源竞争等)并推动解决。​​5. 深入理解客户需求,提供部署、性能调优方案和建议。建设并维护车载/机器人场景 Model Zoo,输出最佳实践案例文档,降低客户使用门槛。 职位要求 1. 硕士以上学历,具备2年以上AI模型在端/边/云平台部署优化经验。有车载或机器人芯片平台项目经验者优先。2. 精通Python和C++编程,熟悉PyTorch、TensorFlow、ONNX等深度学习框架中的一种或多种。3. 熟悉TensorRT、TVM、ONNX Runtime、vLLM、llama.cpp等主流推理引擎中的一种或多种。4. 熟悉常见网络模型结构和算子,具备模型部署、算子开发和调优经验。掌握系统级别和算子级别 Debug & Profiling 实战技能,熟悉Nsight Systems、perf、Vtune等性能分析工具。5. 熟悉GPGPU或NPU等AI加速芯片硬件特性、了解AI软件栈,有软硬协同经验者优先。6. 积极主动,勇于承担, 具备良好的团队合作精神、沟通协调能力和技术推动力。

NIO  7 days ago
NIO jobs

智能辅助驾驶算法工程岗位 - 模型训练方向 AD内推 上海 社招 全职 数字技术 本科及以上 3-5 年 职位描述 我们希望找到一位兼具算法理解与工程落地能力的同学,加入智能辅助驾驶核心研发团队,共同建设高可靠、高性能的车云协同链路体系。您将参与从算法模块设计、工程集成、系统优化到车端实车部署的全流程,面对真实场景、真实挑战,构建支撑量产智能辅助驾驶产品的关键基础设施。该岗位将与端侧、大模型、规划、仿真、云平台等多个团队协作,因此需要你具备跨模块协作能力和扎实的系统工程素养。主要职责:1. 算法模块集成与实车部署- 深度参与智能辅助驾驶诸多算法模块的集成与工程化改造- 开发统一集成算法模块的工程链路,并可跨平台(arm/x86)部署,支持链路快速调试和部署- 对接云端与仿真验证体系,建设统一的车云工程体系2. 车云链路系统设计与性能优化- 负责车云链路集成架构的设计,开发与迭代,包括数据格式、调度机制等- 持续优化链路时延、吞吐与系统稳定性,保障算法模块在车端的高可靠运行- 解决车云链路中的高并发、数据一致性,跨版本伴生下发等诸多工程难题3. CI/CD 与自动化质量体系建设- 构建稳定可靠的 CI/CD 流程(构建、编译、自动部署、回归验证)- 设计多层级的拦截系统,拦截所有上车模块的质量问题- 设计工程质量度量体系,提升整个团队的交付效率与代码质量4. 工程质量与系统级问题攻关- 推进 C++/Python 工程规范、性能 profiling、内存、日志管理优化等专项工作- 参与定位和解决系统级崩溃、性能瓶颈、线程安全、内存泄漏等复杂问题- 主导关键模块的工程重构,使系统具备可扩展性、可维护性 职位要求

NIO  7 days ago
NIO jobs

智能辅助驾驶-系统集成工程师 AD内推 蔚来自动驾驶研发团队 北京、上海 社招 全职 数字技术 - 软件研发 本科及以上 5-7 年 职位描述 主要职责:1. 算法模块集成与实车部署- 深度参与智能辅助驾驶驾驶诸多算法模块的集成与工程化改造- 开发统一集成算法模块的工程链路,并可跨平台(arm/x86)部署,支持链路快速调试和部署- 对接云端与仿真验证体系,建设统一的车云工程体系2. 车云链路系统设计与性能优化- 负责车云链路集成架构的设计,开发与迭代,包括数据格式、调度机制等- 持续优化链路时延、吞吐与系统稳定性,保障算法模块在车端的高可靠运行- 解决车云链路中的高并发、数据一致性,跨版本伴生下发等诸多工程难题3. CI/CD 与自动化质量体系建设- 构建稳定可靠的 CI/CD 流程(构建、编译、自动部署、回归验证)- 设计多层级的拦截系统,拦截所有上车模块的质量问题- 设计工程质量度量体系,提升整个团队的交付效率与代码质量4. 工程质量与系统级问题攻关- 推进 C++/Python 工程规范、性能 profiling、内存、日志管理优化等专项工作- 参与定位和解决系统级崩溃、性能瓶颈、线程安全、内存泄漏等复杂问题- 主导关键模块的工程重构,使系统具备可扩展性、可维护性

NIO  7 days ago
Xiaomi jobs

系统交付与优化专家/工程师 上海、北京 社招 全职 职位 ID:A256373 职位描述 1. 负责自动驾驶系统链路的端到端交付、部署与优化,确保系统在实车环境下的实时性、稳定性与可靠性;2. 从系统全局视角对CPU、GPU、DDR、内存等资源进行统一调度、性能分析与瓶颈优化;3. 针对自驾场景(如感知、规划、控制等)的特点,设计并实现资源分配策略与性能优化方案;4. 参与自驾系统架构设计,推动软硬件协同优化,提升系统整体能效与用户体验;5. 跟踪并定位系统性能问题,结合芯片特性、模型特点与场景需求进行跨栈优化。 职位要求 1. 计算机、软件工程、系统工程等相关专业本科及以上学历,3年以上嵌入式系统或自驾系统优化经验;2. 熟悉Linux系统、资源调度机制、内存管理与性能分析工具(如perf、ftrace、VTune等);3. 具备自驾系统交付或优化经验,了解自驾场景对延迟、算力、带宽的约束与需求;4. 熟悉异构计算平台(CPU/GPU等)的资源管理与任务调度,有系统级调优经验;5. 具备良好的跨团队协作能力,能够与算法、软件等团队高效沟通;6. 有实车部署、问题排查或自驾中间件(如ROS、DDS)相关经验者优先。 投递...

Premium Full-time
Xiaomi  1 day ago
Xiaomi jobs

高性能算子库开发工程师 北京 社招 全职 职位 ID:A202179 职位描述 1. 设计、开发并优化面向NPU的高性能算子库,覆盖卷积、矩阵运算、归一化等核心算子;2.基于类CUDA编程语言或NPU专用指令集,实现算子极致性能优化,降低延迟与功耗;3.深入理解NPU硬件架构(如计算单元、内存层级、数据流),针对硬件特性进行算子级优化;4.与芯片团队紧密协作,反馈算子性能瓶颈并提出硬件改进建议;5.编写高性能计算代码、汇编级优化及Benchmark测试。 职位要求 1.计算机科学、电子工程、数学等相关专业,本科及以上学历;2. 熟悉cuda/C++/Python中至少一种编程语言;3. 具备类CUDA编程经验(CUDA/OpenCL/HIP等)或NPU SDK开发经验;4. 熟悉并行计算体系结构,有NPU/GPU开发和优化经验优先;5. 对性能优化有极致追求,能通过Profiling工具(如Nsight、VTune)定位瓶颈6. 良好的团队沟通能力, 责任心强。 投递...

Premium Full-time
Xiaomi  9 hours ago

Subscribe for job alerts and resources to make your job search easier!

Confirmation email sent to

Check your email and click on the link to start receiving your job alerts

Receive the latest job openings for:

vtune

Confirmation email sent to

Check your email and click on the link to start receiving your job alerts

All Filters Apply
Sort by
Location
Job Type
Employer/Recruiter