【27届暑期】算子库开发实习生上海、武汉实习研发 - 电子 / 半导体职位描述1、基于类 cuda 环境, 设计并实现高性能算子, 例如 gemm, Attention, FFN, CNN 等。2、结合芯片微架构特性进行极致调优, 优化核心算子性能逼近理论设计上限。3、开发性能评估工具, 并总结性能测试报告。4、编写算子设计文档与交付文档,保障算子库的稳定性与可维护性。职位要求1. 精通 C/C++, 熟悉 Linux 开发环境, 掌握 CMake, Git 等工程化工具, 必须具备良好的代码风格与调试能力。2. 深入理解 CPU/GPU 并行计算原理(如 SIMD/SIMT 架构), 有 CUDA/OpenCL/OpenMP 等编程经验者优先, 能独立完成简单算子的汇编实现者优先。3. 扎实的线性代数(矩阵运算, 特征分解),
异构算子开发工程师 - 自动驾驶上海全职算法类职位描述1. 负责在CPU(ARM/Neon)、GPU(CUDA/OpenCL)、DSP(高通Hexagon/HVX )等异构平台上完成算子开发与性能优化。2. 参与异构计算软件架构设计,协同硬件及算法团队完成软硬件联合调优。3. 输出算子实现文档、性能测试报告及优化方法论,支撑产品在嵌入式平台的高效落地。职位要求1. 电子工程、通信工程、计算机、自动化等相关专业,3年以上高性能计算经验。2. 精通C/C++,深入理解计算机体系结构(缓存、流水线、DMA等)。3. 拥有至少一类异构计算平台的算子开发经验:DSP(Hexagon/C66x/CEVA等)、SIMD(Neon/SVE)、GPU(CUDA/OpenCL)。4. 熟练掌握性能剖析工具(如perf、NSight Systems、SDP profiler),具备从指令级到应用级的系统性能分析与调优能力。5. 熟悉异构计算中的内存管理、核间通信(IPC)及任务调度机制,能够设计高效的数据流与并行策略。6. 具备雷达信号处理或AI算子优化经验者优先。投递...
Company: Qualcomm China Job Area:Engineering Group, Engineering Group Software Engineering General Summary: Job overview: As a member of Qualcomm Chinas engineering team dedicated to automotive infotainment and ADAS platforms, you will play a pivotal role in
表征算法实习生 北京 实习 本科及以上 职位描述 1. 算法工程化落地:开发并优化显微图像预处理、自动分割、特征提取及多维分析算法,将研究级的原型转化为稳定、高性能的生产代码。2. 高精度统计建模:利用最大似然估计(MLE)、高斯混合模型(GMM)、贝叶斯推断等统计方法,对显微数据进行高精度建模,实现超越衍射极限或低信噪比环境下的信息提取。3. 数值优化与重建:设计并实现复杂的数值算法,解决图像重建、参数反演及非线性拟合问题,通过代码逻辑提升系统对噪声的容忍度。4. 数据质量保障:建立严谨的统计检验体系,开发自动化评估工具,量化分析结果的置信区间与可靠性。5. 计算效能提升:利用并行计算(CUDA/OpenCL)、分布式架构或底层代码优化(C++/SIMD),显著缩短TB级显微图像数据的处理耗时。 职位要求 1. 物理学、计算数学、统计学、计算机视觉或相关视觉计算领域的本科及以上学历。2. 深厚的理论功底:精通图像处理理论,并在统计建模(如马尔可夫链蒙特卡罗 MCMC、变分推断)或数值优化方向有深入研究。3. 卓越的编程能力:精通 Python(SciPy, NumPy, PyTorch/TensorFlow)及 C++,具备良好的算法复杂度分析能力。4. 工具与框架:熟练掌握 OpenCV、ITK、MATLAB 或 ImageJ 插件开发,能够根据需求快速构建原型并进行重构优化。5. 高性能计算经验:具备多线程、多进程编程经验,熟悉 GPU 加速计算(CUDA)或大规模数据处理框架者优先。 职位信息 部门: 表征 投递...
NPU编译器实习工程师 合肥、上海 校招 实习 互联网 / 电子 / 网游 职位描述 1. 参与自研 NPU/RPU 编译器开发,完善前端、IR、优化 Pass、代码生成、运行时对接等模块。2. 参与面向 NPU 的易编程 DSL 设计与实现,提升算子开发效率、表达能力和可维护性。3. 对接 Triton、PyTorch、MLIR、TVM 等开源编程框架或编译生态,探索主流模型和算子在自研芯片上的落地路径。4. 编写和优化 RPU 算子、DSL 算子、Triton 算子,包括矩阵计算、归约、Attention、激活函数、数据搬运等核心算子。5. 参与算子性能分析与调优,包括内存访问、并行划分、数据布局、流水调度、指令生成等方向。6. 建设编译器和算子相关测试,包括功能正确性测试、性能回归测试、端到端模型验证等。7. 阅读和分析开源编译器、AI 框架、GPU/NPU 编程模型相关代码,为内部编译器和 DSL 设计提供参考。 职位要求
端侧工程-异构计算实习生 北京 社招 实习 数字技术 - 算法 本科及以上 工作年限不限 职位描述 1. 负责自动驾驶算法车端的工程优化2. 负责现有异构计算模块的runtime优化 职位要求 1. 计算机、软件工程、自动化、通信、电子等相关专业本科及以上;2. 熟练掌握 C/C++和Python,有良好的代码编写习惯;3. 熟悉Arm-Linux,计算机体系架构,熟悉多进程,多线程编程,并具有相应调试经验;4. 以下掌握其一优先 1. 熟练掌握 CUDA 并行编程模式,熟悉 CUDA toolkit/TensorRT库; 2. 熟悉 TVM/XLA//NCNN/MNN/ONNX 等 DL 编译栈/推理框架 3. 熟悉NEON等SIMD指令5. 优秀的编程风格习惯、文档撰写能力,团队沟通协作能力;6. 有深度学习、计算机视觉、自动驾驶背景优先 投递...
VisionDSP开发(架构+算子) 上海 全职 芯片板块 职位描述 1、精通Cadence Tensilica Vision DSP(P/Q系列)硬件架构,基于SIMD/VLIW、向量寄存器、iDMA等特性,设计并实现CNN/Transformer/视觉基础算子(Conv、GEMM、LayerNorm等)。2、用C/C++、Xtensa汇编/Intrinsic开发算子,结合TIE指令扩展优化性能,解决访存墙、指令并行等瓶颈,逼近硬件理论峰值。3、对接ONNX/PyTorch/XNNC框架,完成算子编译器适配、模型部署验证,解决兼容性与精度问题。4、负责算子库迭代、自动化测试,指导初级工程师,反馈硬件架构优化建议,推动技术沉淀。 职位要求 1、本科及以上,计算机/电子工程/微电子相关专业。2、5-10年Cadence Vision DSP(P6/Q6/Q7/Q8)开发经验,有完整算子库/模型部署项目经验。3、精通Xtensa ISA、SIMD/VLIW架构,熟练用C/C++、Xtensa汇编/Intrinsic开发优化算子;熟悉TIE指令扩展、XT-XRAY等工具。4、深入理解CNN/Transformer算子原理,掌握PTQ/QAT量化算子开发;具备访存优化、指令级调优、多核并行优化能力。5、加分项:1)有车载ASIL-B/D功能安全开发、XNNC编译器开发经验。2)熟悉OpenCV/NNAPI,有端侧AI模型部署经验;了解CEVA/Qualcomm Hexagon等其他DSP。 投递...
AI多核架构师 急招 上海 全职 芯片板块 职位描述 1.多核系统架构设计•根据产品需求制定 Core × NoC × Cache × DRAM × Die-to-Die 总体架构;•有能力设计调度,总线,多层Cache存储架构,同步硬件架构。2.软硬件协同•与 Compiler / Runtime / 框架团队沟通 Graph Compiler + Kernel Scheduler + 弹性分布式通信库,分解硬件架构需求;•有能力根据 PyTorch / vLLM 等需求做端到端 Benchmark Sign-off。 职位要求
算法嵌入式部署工程师 上海 正式 智能制造 / 工业互联网 / 工业自动化 职位描述 - 负责将PyTorch/TensorFlow训练模型转换为嵌入式设备支持的格式(如ONNX、TensorRT、TFLite)- 在目标平台上集成和调优推理引擎(如TensorRT、OpenVINO、TFLite、RKNN),实现低延迟、高吞吐的算法推理。- 编写高性能C++代码,利用NEON/SIMD指令集、多线程、内存池等技术进行底层优化。- 使用Nsight Systems、vtune、perf等工具进行端到端性能剖析,精准定位性能瓶颈(算子、内存、IO等)。- 与硬件团队协作,充分利用NPU/DPU、DSP、GPU等异构计算单元的算力,设计高效的任务调度与数据流。- 构建自动化部署流水线,编写部署脚本,并进行严格的精度、速度、功耗和稳定性测试。 职位要求 必需条件 - 计算机、电子、自动化等相关专业研究生(985)及以上学历。- 精通C/C++,熟悉现代C++特性,具备高性能编程和内存优化能力。- 熟练使用Python,用于模型转换、测试和自动化脚本编写。- 精通ONNX及相关工具链,熟悉至少一种推理引擎(TensorRT、OpenVINO、TFLite等)。- 熟悉Linux开发环境,具备交叉编译、驱动、系统调优经验。- 有扎实的计算机体系结构基础,了解CPU缓存、内存管理等原理。优先考虑条件 1. 硬件架构专家:熟悉Jetson、海思、地平线、瑞芯微等主流AI芯片架构,有BSP开发经验。2. 编译器技术:了解TVM、MLIR等编译器技术,有相关经验者极具优势。3. 机器人/自动驾驶:熟悉ROS 2,有感知、规划、控制算法部署经验。4. 计算机视觉:有CV算法(目标检测、分割、分类)的极致优化经验。 投递...
运动控制算法专家(运动控制架构师) 急招岗位 深圳 社招 全职 职位描述 岗位职责:1. 技术架构与规划: 负责运动控制算法的整体技术架构设计、技术选型与路线图规划。2. 核心算法攻坚: 主导前瞻Look-ahead、微小线段连续插补、自适应速度规划、振动抑制、RTCP等核心运动控制算法的研发、仿真与优化。3. 性能与精度保障: 解决高速高精运动下的动态性能、轨迹精度与表面光洁度等关键技术难题,定义系统性能指标与测试方案。4. 技术指导与传承: 指导并评审中级算法工程师与软件工程师的工作,负责团队运动控制领域的技术培训与知识沉淀。5. 跨部门协作: 与G代码解释、人机交互、底层驱动及机械硬件团队紧密协作,确保运动控制系统整体性能最优。 职位要求 任职要求:1. 学历与专业: 硕士及以上学历,自动化、数学、机械电子、计算机等相关专业。2. 工作经验: 5年以上运动控制算法开发经验,至少主导或深度参与过一款数控系统(CNC、激光切割、3D打印)或工业机器人控制器的核心算法研发并成功量产。3. 专业技能: - 数学功底深厚,精通刚体运动学、数值分析、优化理论及现代控制理论。 - 精通C/C++语言,具备高性能算法优化(如SIMD、缓存优化)的实战经验。 - 精通MATLAB/Simulink,能独立完成算法的建模、仿真与验证。 - 深入理解CNC系统内核,精通G代码解释、刀具补偿、坐标系变换等原理。4. 优先考虑: - 有在LinuxCNC、RTCP或类似实时平台上进行深度开发或定制经验者。 - 有带领小型技术团队或作为技术核心攻克重大难题的成功经验。
异构算子开发工程师 上海 职位描述 负责在CPU(ARM/Neon)、GPU(CUDA/OpenCL)、DSP(高通Hexagon/HVX )等异构平台上完成算子开发与性能优化。参与异构计算软件架构设计,协同硬件及算法团队完成软硬件联合调优。输出算子实现文档、性能测试报告及优化方法论,支撑产品在嵌入式平台的高效落地。 职位要求 电子工程、通信工程、计算机、自动化等相关专业,3年以上高性能计算经验。精通C/C++,深入理解计算机体系结构(缓存、流水线、DMA等)。拥有至少一类异构计算平台的算子开发经验:DSP(Hexagon/C66x/CEVA等)、SIMD(Neon/SVE)、GPU(CUDA/OpenCL)。熟练掌握性能剖析工具(如perf、NSight Systems、SDP profiler),具备从指令级到应用级的系统性能分析与调优能力。熟悉异构计算中的内存管理、核间通信(IPC)及任务调度机制,能够设计高效的数据流与并行策略。具备雷达信号处理或AI算子优化经验者优先。 职位信息 招聘数量: 3 投递...
NVIDIA is seeking a highly skilled and motivated CPU Optimization Engineer to join our Compute Developer Technology (Devtech) team. In this role, you’ll research, design, and implement performance optimization strategies across a broad range of workloads—including