Refine Reset All
Sort by
Location
Job Type
Employer/Recruiter
Experience
Date Posted
Location
Job Type
Employer/Recruiter
Experience
All Filters

Dsl Jobs In China - 19 Job Positions Available

Top Cities:
1 – 17 of 19 jobs
Nvidia jobs

Are you excited about building world-class quality systems for advanced GPU software? Do you enjoy combining automation, product validation, and code analysis to support fast-moving compiler and kernel innovation? We are seeking a strong test engineer

Nvidia  14 days ago
Nvidia jobs

Are you passionate about programming languages, compiler technology, and GPU performance? Do you want to help shape the future of high-performance kernel development for AI? We are looking for outstanding engineers to build CUTLASS DSL, a Python-native

Nvidia  9 days ago
Warner Bros. Discovery jobs

Welcome to Warner Bros. Discovery… the stuff dreams are made of. Who We Are… When we say, “the stuff dreams are made of,” we’re not just referring to the world of wizards, dragons and superheroes, or

Warner Bros. Discovery  28 days ago
XPENG jobs

【27届暑期】AI编译器开发实习生上海实习研发 - 电子 / 半导体职位描述1. 针对大模型的下一代图编译器、算子编译器和量化压缩算法开发。2. Triton、Tilelang、Cutlass/Cute、Cute DSL/CuTile、Torch(torch.compile)等AI生态软件支持。3. 基于LLVM的GPGPU特定的指令编译方案设计与开发,包含指令选择、指令调度等。4. 与相关领域专家一起深度程参与自研芯片项目架构设计、硅前硅后AI大模型测试验证、汽车与机器人等场景量产部署全流程。职位要求1. 重点大学硕士及以上学历,985院校本科及以上学历,计算机、人工智能、数学、电子信息、自动化、机器人等专业背景。2. 自我驱动能力强,对技术有追求,工作细致,良好的代码习惯。3. C++/Python编程能力良好。加分项1. 熟悉Triton/IREE/Torch-MLIR/ONNX-MLIR/TPU-MLIR等。2. 熟悉Tilelang/MLC-LLM/Relay/Relax/Ansor等。3. 熟悉Cutlass/Cute/Cute DSL/CuTile/TensorRT/TensorRT-LLM等。4. 熟悉Clang与LLVM编译框架,熟悉SIMT编译优化经验,熟悉CUDA C兼容。5. 熟悉大模型编译部署优化,尤其是跨级优化如图算融合、算子-指令编译融合等优化。6. 熟悉CUDA C/Cutlass/CuteDSL/Triton编程。7. 熟悉Flash Attention系列或相关Attention优化算法。8. 有编程竞赛获奖。投递...

Premium Full-time
XPENG  26 days ago
Medtronic jobs

At Medtronic you can begin a life-long career of exploration and innovation, while helping champion healthcare access and equity for all. You’ll lead with purpose, breaking down barriers to innovation in a more connected, compassionate world.

Medtronic  23 days ago
识渊科技 Zhiyuan Technology jobs

AI系统研究员(北京) 北京 正式 研发 - 算法 职位描述 1. 负责视觉算法中基础算子的性能优化,例如游程编码,DSL,指令集(SSE指令集、MMX)加速,CUDA等并行计算设计与实现;2. 负责视觉加速算法的产品化,包括封装、编译、构建、优化等工作等;3. 根据具体需求,进行算法前沿调研,进行算法性能优化设计达到算法优化加速的目的,包括但不限于模型蒸馏,量化等;4. 具有研究GPU、NPU、ARM、DSP等平台高性能计算技术经验的优先;5. 具有核心算法在GPU、NPU、ARM、DSP平台上的移植与优化经验的优先。 职位要求 1. 2024届计算机、软件工程、电子信息、自动化等相关专业优秀本科生、硕士或博士毕业 ;2. 较强的系统工程和编程能力,包括linux,cmake,python,shell,c/c++等等;3. 较好的底层基础知识,对计算机体系结构有一定的理解能力;4. 对训练/部署框架有一定了解者优先(PyTorch/TensorFlow/OneFlow, NCNN/MNN,TVM/MLIR) ;5. 了解CPU或GPU体系结构,对以下其中一种技术有研究和实践经验的优先:6. 具备arm、X86等CPU体系结构的性能调优经验,熟悉相关平台汇编指令,熟悉多核并行编程;7. 具备GPU体系结构上的性能调优经验,熟悉CUDA或OpenCL在GPU上的开发调优;8. 对技术有热情。喜欢追根究底。 投递...

Premium Full-time
识渊科技 Zhiyuan Technology  15 days ago
识渊科技 Zhiyuan Technology jobs

AI系统研究员(上海) 上海 正式 研发 - 算法 职位描述 1. 负责视觉算法中基础算子的性能优化,例如游程编码,DSL,指令集(SSE指令集、MMX)加速,CUDA等并行计算设计与实现;2. 负责视觉加速算法的产品化,包括封装、编译、构建、优化等工作等;3. 根据具体需求,进行算法前沿调研,进行算法性能优化设计达到算法优化加速的目的,包括但不限于模型蒸馏,量化等;4. 具有研究GPU、NPU、ARM、DSP等平台高性能计算技术经验的优先;5. 具有核心算法在GPU、NPU、ARM、DSP平台上的移植与优化经验的优先。 职位要求 1. 2024届计算机、软件工程、电子信息、自动化等相关专业优秀本科生、硕士或博士毕业 ;2. 较强的系统工程和编程能力,包括linux,cmake,python,shell,c/c++等等;3. 较好的底层基础知识,对计算机体系结构有一定的理解能力;4. 对训练/部署框架有一定了解者优先(PyTorch/TensorFlow/OneFlow, NCNN/MNN,TVM/MLIR) ;5. 了解CPU或GPU体系结构,对以下其中一种技术有研究和实践经验的优先:6. 具备arm、X86等CPU体系结构的性能调优经验,熟悉相关平台汇编指令,熟悉多核并行编程;7. 具备GPU体系结构上的性能调优经验,熟悉CUDA或OpenCL在GPU上的开发调优;8. 对技术有热情。喜欢追根究底。 投递...

Premium Full-time
识渊科技 Zhiyuan Technology  15 days ago
识渊科技 Zhiyuan Technology jobs

AI系统研究员(深圳) 深圳 正式 研发 - 算法 职位描述 1. 负责视觉算法中基础算子的性能优化,例如游程编码,DSL,指令集(SSE指令集、MMX)加速,CUDA等并行计算设计与实现;2. 负责视觉加速算法的产品化,包括封装、编译、构建、优化等工作等;3. 根据具体需求,进行算法前沿调研,进行算法性能优化设计达到算法优化加速的目的,包括但不限于模型蒸馏,量化等;4. 具有研究GPU、NPU、ARM、DSP等平台高性能计算技术经验的优先;5. 具有核心算法在GPU、NPU、ARM、DSP平台上的移植与优化经验的优先。 职位要求 1. 2025届计算机、软件工程、电子信息、自动化等相关专业优秀本科生、硕士或博士毕业 ;2. 较强的系统工程和编程能力,包括linux,cmake,python,shell,c/c++等等;3. 较好的底层基础知识,对计算机体系结构有一定的理解能力;4. 对训练/部署框架有一定了解者优先(PyTorch/TensorFlow/OneFlow, NCNN/MNN,TVM/MLIR) ;5. 了解CPU或GPU体系结构,对以下其中一种技术有研究和实践经验的优先:6. 具备arm、X86等CPU体系结构的性能调优经验,熟悉相关平台汇编指令,熟悉多核并行编程;7. 具备GPU体系结构上的性能调优经验,熟悉CUDA或OpenCL在GPU上的开发调优;8. 对技术有热情。喜欢追根究底。 投递...

Premium Full-time
识渊科技 Zhiyuan Technology  15 days ago
辉羲智能 jobs

NPU编译器实习工程师 合肥、上海 校招 实习 互联网 / 电子 / 网游 职位描述 1. 参与自研 NPU/RPU 编译器开发,完善前端、IR、优化 Pass、代码生成、运行时对接等模块。2. 参与面向 NPU 的易编程 DSL 设计与实现,提升算子开发效率、表达能力和可维护性。3. 对接 Triton、PyTorch、MLIR、TVM 等开源编程框架或编译生态,探索主流模型和算子在自研芯片上的落地路径。4. 编写和优化 RPU 算子、DSL 算子、Triton 算子,包括矩阵计算、归约、Attention、激活函数、数据搬运等核心算子。5. 参与算子性能分析与调优,包括内存访问、并行划分、数据布局、流水调度、指令生成等方向。6. 建设编译器和算子相关测试,包括功能正确性测试、性能回归测试、端到端模型验证等。7. 阅读和分析开源编译器、AI 框架、GPU/NPU 编程模型相关代码,为内部编译器和 DSL 设计提供参考。 职位要求 1. 计算机、电子、自动化、软件工程、数学等相关专业,硕士或博士在读。2. 熟悉

辉羲智能  15 days ago
Nvidia jobs

NVIDIA has been transforming computer graphics, PC gaming, and accelerated computing for more than 25 years. It’s a unique legacy of innovation that’s fueled by great technology—and amazing people. Today, we’re tapping into the unlimited potential

Nvidia  14 days ago
Xiaomi jobs

算法架构工程师 - 训练推理框架方向 北京 社招 全职 职位 ID:A94317 职位描述 1、小米算法架构团队,通过技术及模型能力迭代支撑搜广推业务,持续提升广告/推荐场景点击率、转化率等业务指标,持续提升业务能力2、负责分布式的训练框架及推理框架的研发及性能优化工作,实现大规模稀疏模型的训练及推理能力落地3、负责特征DSL相关能力建设,持续优化特征工程、模型迭代效率4、探索容器化、异构计算、大模型训练/推理等前沿技术架构方向,参与一站式分布式机器学习平台的研发,实时追踪业界最先进技术及落地。5、持续优化代码性能,提升模型迭代效率,为公司节省计算成本。 职位要求 1、掌握机器学习/深度学习基础理论知识,了解常见的个性化推荐算法;熟悉TensorFlow/PyTorch等深度学习框架设计原理、阅读过相关源码者优先;2、熟练掌握C++/Rust,会使用Python、Java等编程语言,或者可以在一个月内熟练掌握一门语言;3、掌握GPU编程,熟悉CUDA、并行计算等技术者优先,有算子开发及优化经验者优先;4、有主流大规模推荐/搜索/广告引擎架构经验者优先;5、追求挑战,较强学习能力和实践精神,有强烈的求知欲、好奇心,能及时关注和学习业界最新技术。6、对代码有执念,追求极致,具备一定影响力的开源项目者优先; 投递...

Premium Full-time
Xiaomi  11 days ago
Nvidia jobs

We are now looking for a Deep Learning Performance Software Engineer! We are expanding our research and development for deep learning. We seek excellent Software Engineers and Senior Software Engineers to join our team. We specialize

Nvidia  9 days ago
Z.ai jobs

AI院-推理Infra工程师(量化算法研究/推理框架优化/GPU优化) 北京、上海 全职 互联网 / 电子 / 网游 职位描述 【方向一】量化算法研究员-职位描述通过前沿的模型量化、压缩与推理加速技术,显著降低大语言模型及多模态模型的存储占用与计算成本,推动 LLM 的大规模部署。-工作内容1、研发及改进 PTQ(训练后量化)、QAT(量化感知训练)、混合精度量化等核心算法,针对LLM/VLM(大语言模型/视觉语言模型)设计定制化量化方案,持续优化模型精度与推理效率的平衡;2、探索并实践低比特量化(如INT8/INT4/FP8/FP4)、权重稀疏化、知识蒸馏等协同压缩技术,提升压缩率同时控制精度损失;3、开发及优化量化工具链,完成对 GLM 系列模型的转换、量化校准及部署集成;4、 跟踪学术界与工业界前沿量化技术,通过论文复现、实验对比推动技术迭代。-职位要求1、计算机科学、电子工程、数学等相关专业硕士及以上学历,3 年以上模型量化或推理加速经验;或优秀本科生具备扎实项目履历;2、深入理解 Transformer 架构及 LLM 推理流程,精通 Python,熟悉常见的开源 LLM 推理框架(sglang/vllm/trtllm 等);3、掌握量化原理(校准策略、量化粒度、误差分析)及主流算法(如GPTQ、AWQ);4、具有 CUDA/Triton 编程经验,能自主实现高性能算子或优化内核计算加分。【方向二】推理框架优化工程师-职位描述1、高性能算子开发与优化:负责AI模型(尤其是大语言模型及多模态模型)在GPU上的核心算子(Kernel)的设计、开发与极致性能优化,支撑训练和推理场景的高效运行。2、性能分析与调优:深入分析GPU应用程序的性能瓶颈,通过优化内存访问模式、线程调度、执行效率等手段,显著提升计算密集型任务的吞吐量和降低延迟。3、技术集成与应用:研究并应用业界前沿的优化技术(如模型量化QAT/PTQ、算子融合、动态形状支持、FlashAttention等),并将其集成至推理/训练引擎。-职位要求1、编程能力:具备3年及以上GPU编程与高性能计算优化经验,深入理解GPU架构、并行计算原理、计算机体系结构,具备高性能计算内核的开发与优化经验。2、精通C/C++,具备扎实的编程基础、良好的编程风格和丰富的调试经验;熟练掌握Python;熟悉Linux开发环境。3、性能优化经验:能够熟练使用Nsight Compute、Nsight Systems等GPU性能分析工具,有实际的性能优化案例和成果,能独立定位和解决复杂的性能问题。4、算法基础:熟悉基础数学函数、线性代数、矩阵运算、数值计算等数学库相关算法,了解深度学习常见算子的计算方式。【方向三】GPU优化工程师-职位描述利用对 cuda 生态软件和底层体系结构的了解,帮助团队优化训练和推理的计算效率。-工作内容1、高性能算子开发与优化:负责AI模型(尤其是大语言模型及多模态模型)在GPU上的核心算子(Kernel)的设计、开发与极致性能优化,支撑训练和推理场景的高效运行。2、性能分析与调优:深入分析GPU应用程序的性能瓶颈,通过优化内存访问模式、线程调度、执行效率、多流并行协同等手段,显著提升计算密集型任务的吞吐量和降低延迟。3、技术选型:对 GPU 领域相关的 DSL/编译器(例如 triton/cuteDSL/tilelang)等进行尝试和了解,确定团队内的 DSL/编译器的技术选型,为未来的迭代做好技术储备。-职位要求1、编程能力:具备3年及以上GPU编程与高性能计算优化经验,深入理解GPU架构、并行计算原理、计算机体系结构,具备高性能计算内核的开发与优化经验。2、精通C/C++,具备扎实的编程基础、良好的编程风格和丰富的调试经验;熟练掌握Python;熟悉Linux开发环境。3、性能优化经验:能够熟练使用Nsight Compute、Nsight Systems等GPU性能分析工具,有实际的性能优化案例和成果,能独立定位和解决复杂的性能问题。4、算法基础:熟悉基础数学函数、线性代数、矩阵运算、数值计算等数学库相关算法,了解深度学习常见算子的计算方式。

Z.ai  9 days ago
NIO jobs

算法工程师 合肥 社招 全职 数字技术 - 算法 硕士及以上 3-5 年 职位描述 1、模型转换与适配将主流训练框架的AI模型转换为国产芯片NPU可执行的指令集模型,解决算子不兼容、精度异常等问题。针对制造场景典型任务(目标检测、分割、分类、异常检测等),维护标准化的模型导入工作流。2、算子开发与优化分析国产芯片编译器的能力边界,对缺失或性能低下的自定义算子,使用底层编程语言(如C/C++、汇编或特定DSL)进行补充实现。优化算子在芯片上的内存访问模式、计算流水线,提升NPU利用率。3、量化与精度调优执行INT8、INT4或混合精度量化,设计合理的校准集,将模型从FP32压缩至低比特,同时控制精度损失。开发精度分析工具,定位量化误差较大的层,通过敏感度分析调整量化策略(逐层/逐通道量化、跳过敏感层等)。4、部署集成与验证将优化后的推理引擎封装为C++/Python API,供嵌入式应用工程师调用。配合测试团队建立模型精度回归测试集,确保每次固件升级后推理结果的确定性。5、现场支持与模型迭代跟随产品到制造现场,针对实际生产数据进行模型微调与热更新。 职位要求 学历经验:1、硕士及以上,计算机、人工智能、电子工程等相关专业;3年以上AI部署或AI编译器相关经验。技术能力:1、精通Python/C++,熟悉Linux开发环境。2、深刻理解深度学习模型结构(CNN/Transformer/RNN),熟练使用ONNX、TensorRT、OpenVINO或至少一种NPU工具链。3、有实际量化部署经验(INT8/INT4),熟悉量化感知训练(QAT)或训练后量化(PTQ)流程。4、了解常见算子实现及其硬件亲和性优化技巧。5、熟悉工业视觉缺陷检测、目标检测等场景模型。6、具备汇编级优化或DSP编程经验。 投递...

NIO  8 days ago
XPENG jobs

异构AI编译软件栈开发 上海 全职 芯片板块 职位描述 1、GPGPU特定的指令编译方案设计与开发,包含指令选择、指令调度等;2、针对大模型的下一代AI编译器设计与开发,包括图编译、Cost-Model、低bit量化算法等;3、Triton、Tilelang、Cutlass/Cute、Cute DSL/CuTile、Torch(torch.compile)等AI生态软件适配与支持; 职位要求 1、熟悉Clang与LLVM编译框架,熟悉SIMT编译优化经验,熟悉CUDA C兼容是加分项;2、熟悉Triton/IREE/Torch-MLIR/ONNX-MLIR/TPU-MLIR等是加分项;3、熟悉Tilelang/MLC-LLM/Relay/Relax/Ansor等是加分项;4、熟悉Cutlass/Cute/Cute DSL/CuTile/TensorRT/TensorRT-LLM等是加分项;5、熟悉大模型编译部署优化,尤其是跨级优化如图算融合、算子-指令编译融合等优化是加分项;6、自我驱动能力强,对技术有追求,工作细致,有编程竞赛获奖是加分项;岗位介绍:1、对于这个岗位,您将参与针对自研指令集及架构的完整的编译工具链设计与开发;2、工作范围涉及图编译、算子与指令编译,Pythonic DSL及其编译器设计与开发,完整的编程语言与编译器配套软件开发;3、与相关领域专家一起深度程参与自研芯片项目架构设计、硅前硅后AI大模型测试验证、汽车与机器人等场景量产部署全流程。 投递...

Premium Full-time
XPENG  5 days ago
Haleon jobs

Welcome to Haleon. We’re a purpose-driven, world-class consumer company putting everyday health in the hands of millions. In just three years since our launch, we’ve grown, evolved and are now entering an exciting new chapter –

Haleon  1 day ago
Bosch Group jobs

Company Description Do you want beneficial technologies being shaped by your ideas? Whether in the areas of mobility solutions, consumer goods, industrial technology or energy and building technology - with us, you will have the chance

Bosch Group  14 days ago

Subscribe for job alerts and resources to make your job search easier!

Confirmation email sent to

Check your email and click on the link to start receiving your job alerts

Receive the latest job openings for:

dsl

You also might be interested in:

Data Security

Cybersecurity

AI

Confirmation email sent to

Check your email and click on the link to start receiving your job alerts

All Filters Apply
Sort by
Location
Job Type
Employer/Recruiter
Experience