Torch 招聘在中国

AI编译器开发实习生

智元创新（上海）科技有限公司 ( Shanghai )

AI编译器开发实习生上海、北京实习职位描述全栈开发自研编译器，辅助算法业务落地跟进算法交付，在规定时间内交付可部署的算法，并支持多芯片部署持续优化编译器各层能力，保持编译效果对齐业界SOTA 职位要求独立部署过vla，vlm类型模型；理解AI框架及常见的AI模型；熟练掌握python以及C/C++编程；对AI编译技术栈有深度理解，前端、优化、后端有基本认知熟悉transformers，hugginface，pytorch等框架的使用并了解算法搭建过程深度理解torch.compile, torch.trace, jax.jit过程原理，有能力进行AST语法树解析熟练使用TVM，TensorRT等框架并有实际部署经验了解算子优化与集成常用技术，可以使用算子注册加速模型投递...

Premium Full-time

智元创新（上海）科技有限公司 29天前发布

异构AI编译软件栈开发

XPENG ( Shanghai )

异构AI编译软件栈开发上海全职芯片板块职位描述 1、GPGPU特定的指令编译方案设计与开发，包含指令选择、指令调度等；2、针对大模型的下一代AI编译器设计与开发，包括图编译、Cost-Model、低bit量化算法等；3、Triton、Tilelang、Cutlass/Cute、Cute DSL/CuTile、Torch(torch.compile)等AI生态软件适配与支持；职位要求 1、熟悉Clang与LLVM编译框架，熟悉SIMT编译优化经验，熟悉CUDA C兼容是加分项；2、熟悉Triton/IREE/Torch-MLIR/ONNX-MLIR/TPU-MLIR等是加分项；3、熟悉Tilelang/MLC-LLM/Relay/Relax/Ansor等是加分项；4、熟悉Cutlass/Cute/Cute DSL/CuTile/TensorRT/TensorRT-LLM等是加分项；5、熟悉大模型编译部署优化，尤其是跨级优化如图算融合、算子-指令编译融合等优化是加分项；6、自我驱动能力强，对技术有追求，工作细致，有编程竞赛获奖是加分项；岗位介绍：1、对于这个岗位，您将参与针对自研指令集及架构的完整的编译工具链设计与开发；2、工作范围涉及图编译、算子与指令编译，Pythonic DSL及其编译器设计与开发，完整的编程语言与编译器配套软件开发；3、与相关领域专家一起深度程参与自研芯片项目架构设计、硅前硅后AI大模型测试验证、汽车与机器人等场景量产部署全流程。投递...

Premium Full-time

XPENG 29天前发布

算法优化实习生

智元创新（上海）科技有限公司 ( Shanghai )

算法优化实习生上海实习职位描述岗位职责1.参与端侧引擎的研发工作，确保其能在各类设备上流畅运行。针对NV平台进行深入的算子适配与性能优化，内存占用优化，降低功耗，减少推理延迟，全方位提升端侧推理的性能表现。2.定位并解决现有NV生态体系中模型优化的问题，提出修改意见并落地到自研模型优化框架中，在算法精度损失可接受的情况下提升模型推理性能3.深入调研多种模型优化框架与算法，设计开发模型优化工具链与评测工具，打造业界SOTA的模型优化工具链4.与算法团队密切配合，深度参与模型到端侧引擎的转换与验证工作。从工程实现的角度，为算法优化提供专业建议，确保模型在端侧的高效运行与精度保障。岗位要求1.对主流推理引擎（如 TensorRT、TFLite、MNN等）有深入的理解，熟悉其底层加速原理与运行机制，能够灵活运用并进行二次开发。2.精通python/c++编程，熟练使用huggingface、torch等框架进行模型微调，并有过模型优化落地经验3.熟悉模型优化常用技术如量化、剪枝、蒸馏的内部原理，并可以熟练使用优化框架如torchao，transformer engine，model optimizer等对模型进行压缩与交付4.了解transformer结构，有过vlm，vla等端侧部署与优化经验5.了解cuda算子开发，有过量化算子开发经验职位要求 - 投递...

Premium Full-time

智元创新（上海）科技有限公司 29天前发布

端侧AI infra实习

智元创新（上海）科技有限公司 ( Shanghai )

端侧AI infra实习上海实习职位描述 1.优化端侧微调+推理流程，加速端侧部署2.负责算法在真实业务场景中的落地，紧贴业务需求，不断改进算法在业务中的效果3.对接模型优化、模型部署、应用框架等多种能力，为算法交付提供有力支撑4.积极跟进AI学术界和业界的最新动态，优化内部算法模型，改进模型部署效率职位要求 1.熟悉掌握常见有监督、无监督等算法模型的原理、优缺点、适用场景等基础知识；2.熟悉lerobot、gr00t等具身框架中的训练机制，包括但不限于BC，RL，HIL等3.熟悉Jax、Pytorch等主流深度学习框架，并有实际的模型训练、调优的项目经验；4.熟悉torch profiler，torch compile，tirtion，cudagraph等训练优化手段，并可以快速赋能训练过程5.熟悉transformer engine，model opt，torchao等算法优化框架，可以配合模型量化、剪枝、蒸馏等工作加速算法推理效果6.良好的沟通能力、解决问题能力；7.参与AI平台的研发，提升系统性能和稳定性；8.与团队合作，共同解决技术难题，推进项目进展。投递...

Premium Full-time

智元创新（上海）科技有限公司 29天前发布

具身智能大模型训练系统开发与优化实习生

智元创新（上海）科技有限公司 ( Shanghai )

具身智能大模型训练系统开发与优化实习生上海实习职位描述将会参与如下四个典型训练系统优化方向工作(包括但不限于下面四个方向)参与方向一：支撑大规模预训练/微调的高效稳定运行关键任务：1. 参与千卡级别分布式训练集群的框架优化，确保训练任务在大规模集群上的稳定性（任务失败率 xxx%）和可恢复性（断点续训时间 xxx分钟）2. 优化训练任务的吞吐量（Throughput），相比基线提升至少 20%3. 参与至少一种并行策略（数据并行、模型并行、流水线并行、MoE并行）的框架级实现或深度优化方向二：降低大模型训练显存占用，支持更大规模模型关键任务：1. 集成或优化至少一种显存节省技术（ZeRO-1/2/3、重计算（Activation Checkpointing）、混合精度训练），使相同GPU下的可训练参数量提升 30% 以上2. 参与FlashAttention、Flash-FFN等高性能算子在分布式训练框架中的集成与适配3. 验证并对比不同并行策略组合（如 FSDP + 张量并行）的显存效率与计算效率方向三：优化跨节点通信效率，降低通信开销关键任务：1. 使用 NCCL 或 CANN ACL profiling工具分析通信瓶颈（AllReduce、AllGather等），并提出至少 2 项有效优化方案2. 参与实现通信与计算的重叠（overlap）优化，使通信隐藏比例提升至 50% 以上3. 探索并验证低比特通信（如 FP8 梯度通信）在训练中的可行性与效果方向四：完善训练框架的可用性与可观测性关键任务：1. 开发或优化训练监控 Dashboard，覆盖多类关键指标（GPU利用率、内存占用、通信耗时、吞吐量、损失曲线）2.

Premium Remote Friendly Full-time PyTorch

智元创新（上海）科技有限公司 29天前发布

算法优化实习生

智元创新（上海）科技有限公司 ( 上海 )

算法优化实习生上海校招实习职位 ID：A161403 职位描述岗位职责1.参与端侧引擎的研发工作，确保其能在各类设备上流畅运行。针对NV平台进行深入的算子适配与性能优化，内存占用优化，降低功耗，减少推理延迟，全方位提升端侧推理的性能表现。2.定位并解决现有NV生态体系中模型优化的问题，提出修改意见并落地到自研模型优化框架中，在算法精度损失可接受的情况下提升模型推理性能3.深入调研多种模型优化框架与算法，设计开发模型优化工具链与评测工具，打造业界SOTA的模型优化工具链4.与算法团队密切配合，深度参与模型到端侧引擎的转换与验证工作。从工程实现的角度，为算法优化提供专业建议，确保模型在端侧的高效运行与精度保障。岗位要求1.对主流推理引擎（如 TensorRT、TFLite、MNN等）有深入的理解，熟悉其底层加速原理与运行机制，能够灵活运用并进行二次开发。2.精通python/c++编程，熟练使用huggingface、torch等框架进行模型微调，并有过模型优化落地经验3.熟悉模型优化常用技术如量化、剪枝、蒸馏的内部原理，并可以熟练使用优化框架如torchao，transformer engine，model optimizer等对模型进行压缩与交付4.了解transformer结构，有过vlm，vla等端侧部署与优化经验5.了解cuda算子开发，有过量化算子开发经验职位要求 - 投递...

Premium Full-time

智元创新（上海）科技有限公司 15天前发布

Get Hired 2x Faster
Connect with Top Employers Directly

端侧AI infra工程师

智元创新（上海）科技有限公司 ( 上海 )

端侧AI infra工程师上海校招正式职位 ID：A213593 职位描述 1.优化端侧微调+推理流程，加速端侧部署2.负责算法在真实业务场景中的落地，紧贴业务需求，不断改进算法在业务中的效果3.对接模型优化、模型部署、应用框架等多种能力，为算法交付提供有力支撑4.积极跟进AI学术界和业界的最新动态，优化内部算法模型，改进模型部署效率职位要求 1.熟悉掌握常见有监督、无监督等算法模型的原理、优缺点、适用场景等基础知识；2.熟悉lerobot、gr00t等具身框架中的训练机制，包括但不限于BC，RL，HIL等3.熟悉Jax、Pytorch等主流深度学习框架，并有实际的模型训练、调优的项目经验；4.熟悉torch profiler，torch compile，tirtion，cudagraph等训练优化手段，并可以快速赋能训练过程5.熟悉transformer engine，model opt，torchao等算法优化框架，可以配合模型量化、剪枝、蒸馏等工作加速算法推理效果6.良好的沟通能力、解决问题能力；7.参与AI平台的研发，提升系统性能和稳定性；8.与团队合作，共同解决技术难题，推进项目进展。投递...

Premium Full-time

智元创新（上海）科技有限公司 15天前发布

模型推理优化工程师- Genie业务部

智元创新（上海）科技有限公司 ( 上海 )

模型推理优化工程师- Genie业务部上海校招正式技术族 - 算法类职位 ID：A141253 职位描述 1.参与端侧引擎的研发工作，确保其能在各类设备上流畅运行。针对NV平台进行深入的算子适配与性能优化，内存占用优化，降低功耗，减少推理延迟，全方位提升端侧推理的性能表现。2.定位并解决现有NV生态体系中模型优化的问题，提出修改意见并落地到自研模型优化框架中，在算法精度损失可接受的情况下提升模型推理性能3.深入调研多种模型优化框架与算法，设计开发模型优化工具链与评测工具，打造业界SOTA的模型优化工具链4.与算法团队密切配合，深度参与模型到端侧引擎的转换与验证工作。从工程实现的角度，为算法优化提供专业建议，确保模型在端侧的高效运行与精度保障。职位要求 1.对主流推理引擎（如 TensorRT、TFLite、MNN等）有深入的理解，熟悉其底层加速原理与运行机制，能够灵活运用并进行二次开发。2.精通python/c++编程，熟练使用huggingface、torch等框架进行模型微调，并有过模型优化落地经验3.熟悉模型优化常用技术如量化、剪枝、蒸馏的内部原理，并可以熟练使用优化框架如torchao，transformer engine，model optimizer等对模型进行压缩与交付4.了解transformer结构，有过vlm，vla等端侧部署与优化经验5.了解cuda算子开发，有过量化算子开发经验投递...

Premium Full-time

智元创新（上海）科技有限公司 15天前发布

自动驾驶 - 大模型训练框架优化专家

Xiaomi ( Beijing )

自动驾驶 - 大模型训练框架优化专家北京社招全职职位 ID：A43941 职位描述 1. 负责分析和优化大模型的分布式训练链路，提升训练性能和效率；2. 对大模型训练优化技术展开研究，并落地到自动驾驶；3. 负责推进训练框架和AI平台的结合，建立先进的训练调度机制、集群算力利用率评估机制等。职位要求 1. 本科及以上学历，扎实的编程基础(Python/C++)与良好的工程习惯2. 精通深度学习框架底层原理（PyTorch 核心机制如Torch.Compile, Autograd、TorchScript, XLA），3. 熟悉分布式训练框架（Horovod、Megatron-LM、DeepSpeed 等）的实现逻辑.4. 精通 CUDA 编程及 GPU 架构,能独立开发高性能自定义算子(cuda,CUB,Thrust,cutile,TileLang,Triton)4. 有深度学习编译技术栈(TVM,MLIR等),、AI开源社区贡献等任一经验者优先5. 熟悉自动驾驶感知、端到端算法者优先投递...

Premium Full-time CUDA

Xiaomi 15天前发布

大模型推理架构师

Soul APP ( Shanghai )

大模型推理架构师上海社招全职互联网 / 电子 / 网游职位描述 1. 参与 Soul 大模型、多模态模型、推荐模型等核心 AI 任务的训练与推理基础设施建设，提升模型从实验到线上部署的整体效率。2. 负责大规模分布式训练系统的性能优化，包括数据并行、张量并行、流水线并行、专家并行、参数/梯度/优化器状态切分、显存优化、通信调度等方向，提升 GPU/NPU 集群利用率。3. 参与高性能推理引擎建设，围绕大模型在线服务中的低延迟、高吞吐、弹性扩缩容、多租户隔离、KV Cache 管理、批处理调度、量化部署等问题进行系统优化。4. 针对 Soul 的实时社交、多模态内容理解、AIGC 互动等场景，设计和优化端到端 AI 系统架构，降低训练和推理成本，保障核心业务的稳定性和体验质量。5. 参与异构计算算子优化和计算图优化，包括 CUDA、Triton、CUTLASS、Ascend C、TileLang 等方向，针对 Attention、MoE、Embedding、推荐模型特征交互、多模态编码等关键模块进行性能调优。6. 参与 AI 编译器和模型编译优化相关工作，围绕

Premium Full-time Soul AI

Soul APP 14天前发布

智能辅助驾驶端到端算法工程师

NIO ( 上海 )

智能辅助驾驶端到端算法工程师上海实习数字技术 - 算法职位 ID：A74060 职位描述职位描述1. 参与智能辅助驾驶端到端大模型的研发与量产落地，探索智能辅助驾驶场景下的 scaling law ，以及数据、模型与算力之间的关系。2. 参与前沿端到端算法的研究、复现与迭代，包括模型结构、训练策略、数据构建与评测体系等方向3. 参与大规模模型训练系统的建设与优化，包括训练 infra、数据加载、训练效率优化等核心模块。4. 与算法、系统、数据团队协作，推动模型在真实业务场景中的持续演进。5. 鼓励提出新的研究方向、工程方案与实验想法，并快速完成验证与迭代闭环。职位要求职位要求1. 硕士及以上学历，计算机、人工智能、自动化等相关专业。2. 扎实的深度学习基础，熟悉 PyTorch，并具备实际模型训练经验。3. 对大模型、端到端智能辅助驾驶、scaling law 或前沿算法方向有强烈兴趣。4. 面对未知问题具备很强的自驱力与学习能力，能够快速拆解问题并独立推进。5. 有良好的工程能力与代码习惯，对工程质量与实验效率有追求。6. 具备良好的沟通与团队协作能力。加分项1. 有较强的动手能力与 experimentation mindset，喜欢快速验证想法。2. 熟悉 AI Coding

Premium Full-time AI Vibe Torch

NIO 8天前发布

训练平台性能优化工程师实习生-2027届

小米科技 Xiaomi Technology ( Beijing )

训练平台性能优化工程师实习生-2027届北京校招实习软件研发类职位描述深度优化训练流程主导模型训练全链路性能分析与优化，设计GPU资源弹性调度策略开发自动化训练加速工具链，构建可扩展的云端训练框架研发混合精度训练、梯度压缩等前沿技术，突破训练吞吐瓶颈构建训练优化体系制定标准化训练效能评估体系，建立成本-效率量化模型设计可复用的训练加速组件库，沉淀最佳实践方法论开发训练过程性能分析平台，实现性能问题智能诊断赋能业务研发优化多任务资源调度策略，提升GPU集群整体利用率为算法团队提供训练加速解决方案，缩短模型迭代周期职位要求 1.精通深度学习训练加速技术，熟悉分布式训练框架设计2.掌握CUDA编程及GPU性能分析工具（nsys/torch profiler）3.熟练使用PyTorch框架，具备训练流程优化实战经验4.熟悉常见模型压缩技术（量化/剪枝/蒸馏）及落地应用5.具备大规模集群资源调度系统开发经验者优先【技术加分项】1.有mmcv//deepspeed/megatron/ray等训练框架开发经验2.算子优化经验,triton/cuda等开发经验.3.熟悉MPI/NCCL等分布式通信协议4.在MLSys/ICLR等顶会发表过训练优化相关论文投递...

Premium Remote Friendly Full-time

小米科技 Xiaomi Technology 6天前发布

训练平台性能优化工程师实习生

小米科技 Xiaomi Technology ( Beijing )

训练平台性能优化工程师实习生北京校招实习软件研发类职位描述深度优化训练流程主导模型训练全链路性能分析与优化，设计GPU资源弹性调度策略开发自动化训练加速工具链，构建可扩展的云端训练框架研发混合精度训练、梯度压缩等前沿技术，突破训练吞吐瓶颈构建训练优化体系制定标准化训练效能评估体系，建立成本-效率量化模型设计可复用的训练加速组件库，沉淀最佳实践方法论开发训练过程性能分析平台，实现性能问题智能诊断赋能业务研发优化多任务资源调度策略，提升GPU集群整体利用率为算法团队提供训练加速解决方案，缩短模型迭代周期职位要求 1.精通深度学习训练加速技术，熟悉分布式训练框架设计2.掌握CUDA编程及GPU性能分析工具（nsys/torch profiler）3.熟练使用PyTorch框架，具备训练流程优化实战经验4.熟悉常见模型压缩技术（量化/剪枝/蒸馏）及落地应用5.具备大规模集群资源调度系统开发经验者优先【技术加分项】1.有mmcv//deepspeed/megatron/ray等训练框架开发经验2.算子优化经验,triton/cuda等开发经验.3.熟悉MPI/NCCL等分布式通信协议4.在MLSys/ICLR等顶会发表过训练优化相关论文投递...

Premium Remote Friendly Full-time

小米科技 Xiaomi Technology 6天前发布

LLM Reinforcement Learning Framework Engineer

Nvidia ( Shanghai )

NVIDIA has been transforming computer graphics, PC gaming, and accelerated computing for more than 25 years. It’s a unique legacy of innovation that’s fueled by great technology—and amazing people. Today, we’re tapping into the unlimited potential

Premium Full-time Nemo Fostering Orchestration Craft Async

Nvidia 5天前发布

GPU Computing Engineer - Autonomous Driving

Nvidia ( Shanghai )

NVIDIA has continuously reinvented itself over two decades. NVIDIA’s invention of the GPU in 1999 sparked the growth of the PC gaming market, redefined modern computer graphics, and revolutionized parallel computing. More recently, GPU deep learning

Premium Full-time Distributed Teams Eras CUDA Electrical Engineering Deep Learning

Nvidia 5天前发布

Torch 招聘在中国 - 15 Job Positions Available

AI编译器开发实习生

异构AI编译软件栈开发

算法优化实习生

端侧AI infra实习

具身智能大模型训练系统开发与优化实习生

算法优化实习生

端侧AI infra工程师

模型推理优化工程师- Genie业务部

自动驾驶 - 大模型训练框架优化专家

大模型推理架构师

智能辅助驾驶端到端算法工程师

训练平台性能优化工程师实习生-2027届

训练平台性能优化工程师实习生

LLM Reinforcement Learning Framework Engineer

GPU Computing Engineer - Autonomous Driving

Subscribe for job alerts and resources to make your job search easier!

Torch 招聘 在 中国 - 15 Job Positions Available

Subscribe for job alerts and resources to make your job search easier!

Torch 招聘在中国 - 15 Job Positions Available