Refine Reset All
Recent Searches clear
Sort by
Location
Job Type
Employer/Recruiter
Date Posted
Location
Job Type
Employer/Recruiter
All Filters

Torch Jobs In China - 10 Job Positions Available

Top Cities:
1 – 8 of 10 jobs
XPENG jobs

【27届暑期】AI编译器开发实习生上海实习研发 - 电子 / 半导体职位描述1. 针对大模型的下一代图编译器、算子编译器和量化压缩算法开发。2. Triton、Tilelang、Cutlass/Cute、Cute DSL/CuTile、Torch(torch.compile)等AI生态软件支持。3. 基于LLVM的GPGPU特定的指令编译方案设计与开发,包含指令选择、指令调度等。4. 与相关领域专家一起深度程参与自研芯片项目架构设计、硅前硅后AI大模型测试验证、汽车与机器人等场景量产部署全流程。职位要求1. 重点大学硕士及以上学历,985院校本科及以上学历,计算机、人工智能、数学、电子信息、自动化、机器人等专业背景。2. 自我驱动能力强,对技术有追求,工作细致,良好的代码习惯。3. C++/Python编程能力良好。加分项1. 熟悉Triton/IREE/Torch-MLIR/ONNX-MLIR/TPU-MLIR等。2. 熟悉Tilelang/MLC-LLM/Relay/Relax/Ansor等。3. 熟悉Cutlass/Cute/Cute DSL/CuTile/TensorRT/TensorRT-LLM等。4. 熟悉Clang与LLVM编译框架,熟悉SIMT编译优化经验,熟悉CUDA C兼容。5. 熟悉大模型编译部署优化,尤其是跨级优化如图算融合、算子-指令编译融合等优化。6. 熟悉CUDA C/Cutlass/CuteDSL/Triton编程。7. 熟悉Flash Attention系列或相关Attention优化算法。8. 有编程竞赛获奖。投递...

Premium Full-time
XPENG  26 days ago
NIO jobs

智能辅助驾驶端到端算法工程师上海实习数字技术 - 算法职位 ID:A74060职位描述职位描述1. 参与智能辅助驾驶端到端大模型的研发与量产落地,探索智能辅助驾驶场景下的 scaling law ,以及数据、模型与算力之间的关系。2. 参与前沿端到端算法的研究、复现与迭代,包括模型结构、训练策略、数据构建与评测体系等方向3. 参与大规模模型训练系统的建设与优化,包括训练 infra、数据加载、训练效率优化等核心模块。4. 与算法、系统、数据团队协作,推动模型在真实业务场景中的持续演进。5. 鼓励提出新的研究方向、工程方案与实验想法,并快速完成验证与迭代闭环。职位要求职位要求1. 硕士及以上学历,计算机、人工智能、自动化等相关专业。2. 扎实的深度学习基础,熟悉 PyTorch,并具备实际模型训练经验。3. 对大模型、端到端智能辅助驾驶、scaling law 或前沿算法方向有强烈兴趣。4. 面对未知问题具备很强的自驱力与学习能力,能够快速拆解问题并独立推进。5. 有良好的工程能力与代码习惯,对工程质量与实验效率有追求。6. 具备良好的沟通与团队协作能力。加分项1. 有较强的动手能力与 experimentation mindset,喜欢快速验证想法。2. 熟悉 AI Coding Assistant / Vibe Coding 等新型研发工作流者加分。3. 有大模型训练、训练 infra、分布式训练或性能优化经验。4. 使用过

NIO  21 days ago
智元创新(上海)科技有限公司 jobs

具身智能大模型训练系统开发与优化实习生上海实习职位描述将会参与如下四个典型训练系统优化方向工作(包括但不限于下面四个方向)参与方向一:支撑大规模预训练/微调的高效稳定运行关键任务:1. 参与千卡级别分布式训练集群的框架优化,确保训练任务在大规模集群上的稳定性(任务失败率 xxx%)和可恢复性(断点续训时间 xxx分钟)2. 优化训练任务的吞吐量(Throughput),相比基线提升至少 20%3. 参与至少一种并行策略(数据并行、模型并行、流水线并行、MoE并行)的框架级实现或深度优化方向二:降低大模型训练显存占用,支持更大规模模型关键任务:1. 集成或优化至少一种显存节省技术(ZeRO-1/2/3、重计算(Activation Checkpointing)、混合精度训练),使相同GPU下的可训练参数量提升 30% 以上2. 参与FlashAttention、Flash-FFN等高性能算子在分布式训练框架中的集成与适配3. 验证并对比不同并行策略组合(如 FSDP + 张量并行)的显存效率与计算效率方向三:优化跨节点通信效率,降低通信开销关键任务:1. 使用 NCCL 或 CANN ACL profiling工具分析通信瓶颈(AllReduce、AllGather等),并提出至少 2 项有效优化方案2. 参与实现通信与计算的重叠(overlap)优化,使通信隐藏比例提升至 50% 以上3. 探索并验证低比特通信(如 FP8 梯度通信)在训练中的可行性与效果方向四:完善训练框架的可用性与可观测性关键任务:1. 开发或优化训练监控 Dashboard,覆盖多类关键指标(GPU利用率、内存占用、通信耗时、吞吐量、损失曲线)2. 参与实现训练任务的自动容错与恢复机制,支持节点级/进程级故障自动重调度3. 撰写至少内部技术文档/最佳实践指南,帮助算法团队更高效使用训练框架职位要求1. 熟悉计算机体系结构,理解CPU/GPU/NPU、内存层级、PCIe/NVLink等硬件互联架构;2. 熟练掌握

智元创新(上海)科技有限公司  21 days ago
Xiaomi jobs

自动驾驶 - 大模型训练框架优化专家 北京 社招 全职 职位 ID:A43941 职位描述 1. 负责分析和优化大模型的分布式训练链路,提升训练性能和效率;2. 对大模型训练优化技术展开研究,并落地到自动驾驶;3. 负责推进训练框架和AI平台的结合,建立先进的训练调度机制、集群算力利用率评估机制等。 职位要求 1. 本科及以上学历,扎实的编程基础(Python/C++)与良好的工程习惯2. 精通深度学习框架底层原理(PyTorch 核心机制如Torch.Compile, Autograd、TorchScript, XLA),3. 熟悉分布式训练框架(Horovod、Megatron-LM、DeepSpeed 等)的实现逻辑.4. 精通 CUDA 编程及 GPU 架构,能独立开发高性能自定义算子(cuda,CUB,Thrust,cutile,TileLang,Triton)4. 有深度学习编译技术栈(TVM,MLIR等),、AI开源社区贡献等任一经验者优先5. 熟悉自动驾驶感知、端到端算法者优先 投递...

Premium Full-time CUDA
Xiaomi  11 days ago
Macy's jobs

Be part of an amazing story Macy’s is more than just a store. We’re a story. One that’s captured the hearts and minds of America for more than 160 years. A story about innovations and traditions…about

Macy's  9 days ago
XPENG jobs

异构AI编译软件栈开发 上海 全职 芯片板块 职位描述 1、GPGPU特定的指令编译方案设计与开发,包含指令选择、指令调度等;2、针对大模型的下一代AI编译器设计与开发,包括图编译、Cost-Model、低bit量化算法等;3、Triton、Tilelang、Cutlass/Cute、Cute DSL/CuTile、Torch(torch.compile)等AI生态软件适配与支持; 职位要求 1、熟悉Clang与LLVM编译框架,熟悉SIMT编译优化经验,熟悉CUDA C兼容是加分项;2、熟悉Triton/IREE/Torch-MLIR/ONNX-MLIR/TPU-MLIR等是加分项;3、熟悉Tilelang/MLC-LLM/Relay/Relax/Ansor等是加分项;4、熟悉Cutlass/Cute/Cute DSL/CuTile/TensorRT/TensorRT-LLM等是加分项;5、熟悉大模型编译部署优化,尤其是跨级优化如图算融合、算子-指令编译融合等优化是加分项;6、自我驱动能力强,对技术有追求,工作细致,有编程竞赛获奖是加分项;岗位介绍:1、对于这个岗位,您将参与针对自研指令集及架构的完整的编译工具链设计与开发;2、工作范围涉及图编译、算子与指令编译,Pythonic DSL及其编译器设计与开发,完整的编程语言与编译器配套软件开发;3、与相关领域专家一起深度程参与自研芯片项目架构设计、硅前硅后AI大模型测试验证、汽车与机器人等场景量产部署全流程。 投递...

Premium Full-time
XPENG  5 days ago
UNITY jobs

The opportunity Unity Vector builds an offline ML platform that powers insight, experimentation, attribution, and AI-driven decision-making across the company. Our systems operate at scale across batch and streaming data, supporting analytics, product intelligence, machine learning

UNITY  1 day ago
Nvidia jobs

NVIDIA is developing processor and system architectures that accelerate deep learning and high-performance computing applications. We are looking for an expert deep learning system performance architect to join our AI performance modelling, analysis and optimization efforts.

Nvidia  19 hours ago

Subscribe for job alerts and resources to make your job search easier!

Confirmation email sent to

Check your email and click on the link to start receiving your job alerts

Receive the latest job openings for:

torch

Confirmation email sent to

Check your email and click on the link to start receiving your job alerts

All Filters Apply
Sort by
Location
Job Type
Employer/Recruiter