Ppo Jobs In China | Recruit.net

智能辅助驾驶算法工程师（端到端模型 / 强化学习）

NIO ( Beijing )

智能辅助驾驶算法工程师（端到端模型 / 强化学习） AD内推蔚来自动驾驶研发团队北京社招全职数字技术 - 算法硕士及以上 3-5 年职位描述负责端到端智能辅助驾驶轨迹生成算法的研发与优化，重点方向包括但不限于：端到端模仿学习（如 VLA/世界模型、自回归生成、Diffusion Policy 等）；强化学习（涵盖轨迹生成、闭环训练、世界模型等相关技术）。持续跟踪人工智能领域的前沿技术动态，推动先进算法在量产项目中的实际应用与落地。职位要求硕士及以上学历，计算机、软件工程、人工智能或相关专业；具备扎实的深度学习理论基础，熟悉常见深度学习与机器学习算法；熟练掌握至少一种主流深度学习框架，具有 TensorFlow 或 PyTorch 深度开发经验者优先。【加分项】①具备端到端路径/轨迹生成相关经验，熟悉以下任一方向者优先：主流模仿学习方法（如行为克隆）；主流 BEV 任务（如动态/静态目标检测与跟踪等）；时序建模方法（RNN/LSTM/GRU等）。②具备强化学习相关经验，熟悉以下任一方向者优先：主流 RL 算法（如 DQN、DDPG、SAC、PPO、GRPO 等）；强化学习在轨迹预测、决策规划或仿真环境中的应用；世界模型（World Model）、模型预测控制（MPC）或基于强化学习的闭环仿真技术。③具备 VLA/VLN/世界模型等相关项目实践经验，熟悉以下任一方向者优先：主流 VLA 方法（如 OpenVLA、PAI0 等）；主流世界模型方法（如

NIO 15 days ago

高级智能驾驶算法工程师 - 强化学习(RL)

ZERON 零一汽车 ( Shanghai )

高级智能驾驶算法工程师 - 强化学习(RL) 上海全职职位描述 -研发强化学习、模仿学习、人类反馈强化学习在智驾领域的融合方式，提升系统表现与安全性。-开发基于强化学习与生成式模型的闭环仿真算法和基础设施，实现大规模场景的闭环训练。职位要求 -具有计算机视觉，机器学习，电子信息，机器人等相关学科硕士/博士学历，AI相关研究方向。-精通强化学习主流算法（PPO/SAC/GRPO等），有结合世界模型/神经渲染方法进行闭环训练的项目经验。-熟悉大规模分布式RL训练，在自动驾驶或机器人领域有完整的RL落地项目经验。-能够紧跟学术界和产业界技术动态，对新技术进行调研和原型验证。有相关领域顶会文章发表经历优先。-精通Python/C++编程，熟练掌握PyTorch等深度学习框架-具有良好的工作态度，团队合作精神，主观能动性和沟通能力。投递...

Premium Full-time

ZERON 零一汽车 16 days ago

游戏AI工程师（AI算法方向）

Booming Tech ( Hangzhou )

游戏AI工程师（AI算法方向）杭州全职互联网 / 电子 / 网游职位描述【岗位职责】- 战斗AI算法研发 - 优化基于传统规则驱动的战斗AI系统，增强Bot的智能性、灵活性和可控性，优化玩家体验。 - 推动基于数据驱动的模仿学习，构建玩家战斗行为数据集，分析战斗中的各类态势，通过行为克隆复现高玩操作模式，提升AI对抗的真实感。 - 构建强化学习环境，设计和实现强化学习策略，增强战斗类Bot的控制。 - 研发动态难度调整算法，通过玩家能力评估实时调节AI强度，平衡挑战性与趣味性。 - 设计NPC战斗风格模板系统，支持通过参数配置快速生成激进型、防御型等差异化AI角色。- 战斗AI的模拟、评估体系建设 - 开发战斗沙盒模拟系统，支持大规模并行化的AI训练与快速迭代验证。 - 构建战斗AI评估体系，设计灵活性、伤害效率、策略多样性、行为拟真度等量化指标，快速对战斗AI做出评估。 - 开发AI决策可视化分析工具，支持策划人员直观调试技能释放时序、走位路径等细节，进一步评估AI行为。职位要求【任职要求】- 计算机/人工智能相关专业本科及以上学历（如有一定经验，此条可放宽）- 精通C++/Python，熟悉PyTorch/TensorFlow框架，具备将学术论文转化为工业级解决方案的能力- 深入理解模仿、强化学习（PPO/DQN/SAC）等AI算法原理我们希望你拥有下列能力：- 对战斗类游戏博弈、战斗数值平衡等有深刻洞察- 有MOBA、FPS、ARPG等强对抗品类游戏AI开发经验- 对AI+游戏创新方向有强烈热情，具备技术前瞻性视野- 优秀的跨团队协作能力，能有效沟通技术方案与落地细节

Premium Full-time

Booming Tech 28 days ago

Data & Pricing Analyst, APAC

Nuvei ( Shanghai ) +1 other locations

The world of payment processing is rapidly evolving, and businesses are looking for loyal and strategic partners, to help them grow. Meet Nuvei, Nuvei is the global fintech building the infrastructure for every payment, everywhere. Its

Premium Full-time Dental Insurance Boost Group Insurance Payment Processing Mandarin

Nuvei 28 days ago

Head of Commercial Enablement APAC

Nuvei ( Shanghai ) +1 other locations

The world of payment processing is rapidly evolving, and businesses are looking for loyal and strategic partners, to help them grow. Meet Nuvei, Nuvei is the global fintech building the infrastructure for every payment, everywhere. Its

Premium Full-time Mandarin Strategic Initiatives FinTech Group Insurance Enablement

Nuvei 28 days ago

大模型算法工程师 / 专家

XPENG ( Beijing )

大模型算法工程师 / 专家北京全职通用智能板块职位描述岗位简介：聚焦云端大模型算法研发，包括 VLM / VLA 大模型、生成式世界模型(WAM)等，重点解决自动驾驶场景数据闭环体系及数据治理能力建设；利用语义标签、长时序描述及推理、向量化或隐空间表征等手段建立数据图谱，实现数据分层治理。主要职责：1、云端任务大模型算法研发：负责数据驱动的云端大模型算法研发与优化，包括多模态大模型、世界模型等方向；开发基于多传感器数据、时空数据融合的自动标注算法；研发场景与标签的生成式算法，提升自动驾驶感知–预测–规划-拓扑云端一体化能力；2、云端基座大模型研发：基于海量量产数据，研发无监督 / 自监督算法，持续提升大模型的语义理解与空间感知能力；3、Scaling Law 驱动的算法研发：负责车云平台一体化大模型算法研发与优化，研发和设计基于数据驱动的感知迭代链路；构建高效的自训练感知流水线，提升数据闭环效率；4、强化学习研发：基于 PPO、DPO、GRPO、SAC 等主流强化学习算法，搭建长尾场景的后训练方案，完成奖励设计、分布式训练、模型调优，提升模型在复杂场景、恶劣天气、小众交通场景下的泛化能力与稳定性。职位要求 1、学历基础：计算机、人工智能、自动化、数学等相关专业硕士及以上学历，博士优先。具备扎实的深度学习与强化学习数理功底；2、大模型能力：精通 VLM / VLA 端到端自动驾驶模型原理与全链路研发，熟悉大模型跨域泛化、域自适应、微调蒸馏技术，有智驾或机器人大模型落地经验优先；3、强化学习能力：熟练掌握 PPO、DPO、GRPO 等算法，具备用强化学习解决问题的实战经验，有智驾或机器人项目量产落地经验；4、自动驾驶认知：熟悉自动驾驶感知、预测、规划、控制全链路逻辑，兼具传统模块化与端到端模型研发认知；5、工程与综合能力：熟练使用 PyTorch，掌握 Agent / Harness 等自动化工具；具备良好的逻辑攻坚、跨团队协作与项目推进能力，有技术带队经验优先。-加分项1、参与过自动驾驶或机器人技术路线、算法体系标准搭建；2、深耕VLM/VLA预训练、后训练方向，有相关落地成果；3、拥有顶会论文、核心专利成果。投递...

Premium Full-time Harness

XPENG 27 days ago

Get Hired 2x Faster
Connect with Top Employers Directly

优才-大模型算法研究员-通用业务部

智元创新（上海）科技有限公司 ( Shanghai )

优才-大模型算法研究员-通用业务部上海正式职位描述 1.负责多模态大模型（如 LLaVA、Qwen-VL、GPT-4V 类架构）的模型设计、训练策略制定与性能优化。2.研究视觉编码器（ViT/CLIP/SigLIP）与大语言模型的对齐机制，包括投影层设计、指令微调（SFT）、RLHF/DPO 对齐。3.主导预训练、指令微调、多模态上下文学习（In-context Learning）及模型压缩（量化、剪枝、蒸馏）的全链路。4.负责模型推理加速（vLLM、TensorRT-LLM、FlashAttention、投机解码等），解决长上下文、高并发场景下的延迟与吞吐问题。5.构建多模态数据 pipeline（图文对、视频-文本、交互相机数据），设计数据清洗、去重与质量评估策略。6.将 MLLM 能力封装为 API 或 SDK，支撑产品侧的图文理解、视觉问答、多模态 Agent 等应用。职位要求 1.计算机、人工智能、数学等相关专业，硕士及以上学历优先。2.精通 PyTorch/JAX，具备大规模分布式训练工程经验（千卡集群、模型并行、数据并行、ZeRO/PP/TP）。3.深入理解 Transformer、ViT、LLaVA、Qwen-VL、GPT-4V 等多模态大模型架构，具备预训练/SFT/RLHF 全流程实操经验。4.扎实的强化学习理论基础，熟悉 PPO、GAE、Diffusion Policy、ACT、RT-1/RT-2、π0 等算法。5.优秀的代码能力（Python/C++），熟悉 ROS2、Isaac Sim/Gym、MuJoCo、Gazebo 等仿真与中间件生态。投递...

Premium Full-time API

智元创新（上海）科技有限公司 27 days ago

优才-具身算法工程师（VLA+RL）-通用业务部

智元创新（上海）科技有限公司 ( Shanghai )

优才-具身算法工程师（VLA+RL）-通用业务部上海正式职位描述 VLA 端到端模型研发: 设计并训练端到端视觉-语言-动作模型（如 RT-2、OpenVLA、π0、Diffusion Policy、3D Diffusion Actor 等），实现从视觉输入与语言指令到机器人低维动作空间的直接映射。研究动作表示与生成机制: 动作 Token 化（Action Tokenization）、隐动作量化（Latent Action Quantization, LAPA）、扩散式动作生成（Diffusion Policy）、流匹配（Flow Matching）等前沿方案。探索 RL 与模仿学习（IL）的混合训练范式：利用人类演示数据初始化策略，再通过 RL 进行微调和鲁棒性增强。强化学习运控与策略优化: 包括 PPO、SAC、RLHF（Human Feedback for Robotics）、DAPG 等算法在关节级/任务级控制中的应用。模型部署与实时性优化: 负责 VLA/RL 模型在机器人芯片(Orin、Thor）上的轻量化部署，满足实时控制需求（端到端延迟 50ms，控制频率 ≥ 50Hz），解决长上下文视觉序列与语言指令的并行处理瓶颈。设计模型与底层运控（WBC/MPC）的协同接口:

Premium Remote Friendly Full-time CUDA Diffusion Tokens

智元创新（上海）科技有限公司 27 days ago

优才-具身智能算法工程师（后训练 Infra 方向）-觅蜂子公司

智元创新（上海）科技有限公司 ( Shanghai )

优才-具身智能算法工程师（后训练 Infra 方向）-觅蜂子公司上海正式职位描述 1. 负责具身智能后训练框架的设计与迭代，构建支撑真机强化学习的规模化训练能力。2. 深入理解强化学习、模仿学习、在线学习等后训练算法（PPO/SAC/DAgger/RLHF 等），基于算法特性设计高效的训练架构与数据流。3. 设计并实现云端多机多卡训练 + 边缘多机多本体 rollout 的分布式异步训练架构，支撑从单机到百台规模的扩展。4. 构建多种后训练算法的统一框架支撑，实现新算法低成本快速接入与验证。5. 负责云边通信体系设计（权重同步、数据回传、时延隐藏），保障大规模分布式训练的效率与稳定性。6. 跟进后训练领域前沿进展（π0.6 / RLT / flow matching RL 等），具备快速复现并工程化落地新算法的能力。职位要求 1. 计算机、AI、机器人等相关专业硕士及以上学历。2. 具备扎实的 Python/C++ 编程能力，熟悉分布式系统设计与实现。3. 熟悉强化学习算法（PPO/SAC/DAgger 等），深入理解 on-policy / off-policy / online

Premium Full-time PyTorch RPC Rollout

智元创新（上海）科技有限公司 27 days ago

优才-具身算法工程师（全身运动控制wbc+感控融合方向）-通用业务部

智元创新（上海）科技有限公司 ( Shanghai )

优才-具身算法工程师（全身运动控制wbc+感控融合方向）-通用业务部上海正式职位描述人形机器人运动控制算法研发：参与人形机器人全身运动控制、动作追踪、运动重定向、WBC 接入与控制策略优化等核心算法研发工作。强化学习与 BeyondMimic 相关工作：参与人形机器人强化学习运动策略的训练、调优与评测，包括 BeyondMimic / Sonic 等动作模仿与运动追踪框架的复现、适配、训练优化、策略评估、Sim2Sim 与 Sim2Real 迁移等工作。Avatar / Teleoperation 系统研发：参与“身外化身”系统建设，将光学动捕、VR 设备、人体姿态估计或其他上游意图输入，映射为机器人可执行的全身运动指令，实现高动态、高精度的人机动作同步。算法工程化与真实机器人部署：基于 C++ / Python / ROS2 等技术栈，参与算法模块开发、系统联调、性能优化和机器人本体部署，推动前沿算法在真实产品场景中落地。职位要求 2026 届或 2027 届优秀本科、硕士、博士毕业生，计算机、自动化、机器人、机械电子、人工智能、控制科学与工程、航空航天、车辆工程等相关专业优先。具备扎实的编程和工程能力，熟练掌握 C++ 和 Python，熟悉 Linux 开发环境，熟悉 Git、CMake、调试工具、性能分析工具等常用工程工具。具备较好的机器人学或控制基础，理解以下内容中的一项或多项：正逆运动学、雅可比矩阵、动力学建模；全身控制

Premium Full-time C++ Linux VR Python

智元创新（上海）科技有限公司 27 days ago

优才-具身智能算法研究员（空间智能方向）-觅蜂子公司

智元创新（上海）科技有限公司 ( Shanghai )

优才-具身智能算法研究员（空间智能方向）-觅蜂子公司上海正式职位描述【方向：空间智能与三维重建】空间智能与三维重建研发前馈式（Feedforward）3D Gaussian Splatting 场景重建算法，从稀疏多视角或单目视频毫秒级输出紧凑3D高斯表示，支持动态更新与压缩。构建实时SLAM系统（融合传统/NeRF/3DGS方法），处理自我中心（egocentric）与人中心（exocentric）混合输入，输出机器人坐标系下的稠密几何、物体6DoF位姿及相机轨迹。开发人体-物体交互（HOI）重建：从多视角外部视频重建物体网格+姿态、人体SMPL/手部MANO参数；从单目自我中心视频实时重建手部与接触关系，生成时空对齐的HOI轨迹。设计自动标定与数据预处理管线（多相机外参自标定、时间同步、空间对齐），为下游模型提供规范化输入。向端到端模型输出可消费的空间Token（如场景图序列、可操作实体列表、接触点坐标），并与RL组协同提供动态场景下的状态预测（世界模型）。职位要求计算机视觉、机器人学、机器学习、图形学等相关专业硕士及以上学历，博士优先。在以下至少一个方向有深入研究和项目经验：三维重建/SLAM/3D Gaussian Splatting/物体姿态估计/人体手部重建模仿学习（BC、ACT、Diffusion Policy）、强化学习（PPO、SAC）、机器人控制（MPC、力控）、VLA架构（RT-2、PaLM-E等）多模态预训练（CLIP、LLaVA）、大模型微调（LoRA、RLHF）、自动标注、数据合成与数据策略扎实的编程能力：精通Python，熟悉C++，熟练使用PyTorch/JAX等深度学习框架。熟悉至少一种仿真器（Isaac Sim、Mujoco、PyBullet）或真实机器人平台。具备优秀的学习能力、逻辑思维与跨团队协作精神，能够快速将前沿论文转化为可工作的原型。加分项有真实机器人（机械臂、人形、四足）部署经验，特别是高复杂度操作任务（装配、双手协作）。在CVPR/ICCV/ECCV/CoRL/ICRA/RSS/NeurIPS等顶会发表论文，或有高质量开源贡献。处理过Ego4D、HoloAssist或自采机器人混合数据，有Sim2Real迁移实战经验。熟悉ROS/ROS2，有实时系统或嵌入式开发经验。投递...

Premium Remote Friendly Full-time

智元创新（上海）科技有限公司 27 days ago

优才-具身智能算法研究员（VLA端到端与RL方向）-觅蜂子公司

智元创新（上海）科技有限公司 ( Shanghai )

优才-具身智能算法研究员（VLA端到端与RL方向）-觅蜂子公司上海正式职位描述【方向：VLA端到端模型与RL后训练】设计并训练视觉-语言-动作多模态Transformer（参考RT-2、Octo、PaLM-E），输入自然语言指令 + 空间Token + 本体感觉，输出离散/连续动作Token（关节角度、末端位姿或扩散策略）。优化模型在真机上的推理速度与泛化能力，探索不同动作表示与模型压缩技术。利用仿真环境（Isaac Sim、Mujoco）对VLA模型进行强化学习微调（PPO/SAC/RLPD），解决域迁移导致的分布漂移。设计域随机化、系统辨识、扰动注入策略，提升策略在真实机器人上的成功率与平滑度。职位要求计算机视觉、机器人学、机器学习、图形学等相关专业硕士及以上学历，博士优先。在以下至少一个方向有深入研究和项目经验：三维重建/SLAM/3D Gaussian Splatting/物体姿态估计/人体手部重建模仿学习（BC、ACT、Diffusion Policy）、强化学习（PPO、SAC）、机器人控制（MPC、力控）、VLA架构（RT-2、PaLM-E等）多模态预训练（CLIP、LLaVA）、大模型微调（LoRA、RLHF）、自动标注、数据合成与数据策略扎实的编程能力：精通Python，熟悉C++，熟练使用PyTorch/JAX等深度学习框架。熟悉至少一种仿真器（Isaac Sim、Mujoco、PyBullet）或真实机器人平台。具备优秀的学习能力、逻辑思维与跨团队协作精神，能够快速将前沿论文转化为可工作的原型。加分项有真实机器人（机械臂、人形、四足）部署经验，特别是高复杂度操作任务（装配、双手协作）。在CVPR/ICCV/ECCV/CoRL/ICRA/RSS/NeurIPS等顶会发表论文，或有高质量开源贡献。处理过Ego4D、HoloAssist或自采机器人混合数据，有Sim2Real迁移实战经验。熟悉ROS/ROS2，有实时系统或嵌入式开发经验。投递...

Premium Remote Friendly Full-time

智元创新（上海）科技有限公司 27 days ago

优才-具身智能算法研究员（预训练方向）-觅蜂子公司

智元创新（上海）科技有限公司 ( Shanghai )

优才-具身智能算法研究员（预训练方向）-觅蜂子公司上海正式职位描述【方向：预训练、Omni大模型与数据策略】利用大规模人类视频（Ego4D、Open X-Embodiment）及无本体交互数据，预训练多模态基座模型（视觉-语言-动作联合），作为VLA主干backbone。探索scaling law，设计模型架构（如Transformer、DiT）与预训练任务（MAE、动作预测、对比学习）。基于VLM/VLA大模型构建自动标注管线，对视频、轨迹、触觉信号进行结构化标注（动作阶段、接触事件、成功/失败标签），降低人工成本。设计主动学习策略，从海量数据中筛选高价值样本（失败轨迹、长尾场景）。牵头制定数据混合策略：真机遥操作数据 : 无本体人类视频 : 仿真合成数据的最优比例，设计消融实验验证，建立数据价值评估模型。职位要求计算机视觉、机器人学、机器学习、图形学等相关专业硕士及以上学历，博士优先。在以下至少一个方向有深入研究和项目经验：三维重建/SLAM/3D Gaussian Splatting/物体姿态估计/人体手部重建模仿学习（BC、ACT、Diffusion Policy）、强化学习（PPO、SAC）、机器人控制（MPC、力控）、VLA架构（RT-2、PaLM-E等）多模态预训练（CLIP、LLaVA）、大模型微调（LoRA、RLHF）、自动标注、数据合成与数据策略扎实的编程能力：精通Python，熟悉C++，熟练使用PyTorch/JAX等深度学习框架。熟悉至少一种仿真器（Isaac Sim、Mujoco、PyBullet）或真实机器人平台。具备优秀的学习能力、逻辑思维与跨团队协作精神，能够快速将前沿论文转化为可工作的原型。加分项有真实机器人（机械臂、人形、四足）部署经验，特别是高复杂度操作任务（装配、双手协作）。在CVPR/ICCV/ECCV/CoRL/ICRA/RSS/NeurIPS等顶会发表论文，或有高质量开源贡献。处理过Ego4D、HoloAssist或自采机器人混合数据，有Sim2Real迁移实战经验。熟悉ROS/ROS2，有实时系统或嵌入式开发经验。投递...

Premium Remote Friendly Full-time

智元创新（上海）科技有限公司 27 days ago

Reinforcement Learning Engineer - Whole-Body Control

Mobileye ( Shanghai )

At Mentee Robotics, we are redefining humanoid automation with an AI-first approach - combining perception, reasoning, and dexterous manipulation into fully autonomous systems that continuously learn and adapt. We are now expanding with a new robotics

Premium Contract Demonstration Curriculum design Motion PyTorch Architecture

Mobileye 26 days ago

具身算法实习生

智元创新（上海）科技有限公司 ( Shanghai )

具身算法实习生上海实习职位描述参与具身智能机器人算法研发，聚焦模仿学习/强化学习算法在真实机器人上的落地应用，参与数据采集、数据挖掘、数据评测全流程，以高质量数据驱动算法迭代。【岗位职责】- 参与遥操作数据采集、数据清洗、格式转换与质量评估，支撑算法训练数据需求；- 基于模仿学习（ACT、Diffusion Policy）或强化学习（PPO、SAC）进行模型训练与调优；- 参与数据挖掘与分析，识别高价值样本（失败轨迹、长尾场景），提升数据对模型的效果增益；- 协助建立数据质量评测流程，包括标注准确率校验、数据分布分析、端云一致性检查；- 在仿真环境（Isaac Sim、Mujoco）或真实机器人平台上进行算法验证与Badcase归因分析；- 跟踪具身智能与数据驱动的前沿技术，复现论文并探索新方法。职位要求【任职要求】- 计算机、自动化、机器人、人工智能等相关专业，硕士或博士在读（优秀本科生亦可）；- 熟练掌握Python，熟悉PyTorch深度学习框架；- 了解模仿学习（ACT、Diffusion Policy）或强化学习（PPO、SAC）基础知识；- 了解ROS/ROS2，有机器人数据处理经验（MCAP、ROS bag、Parquet等）者优先；- 有真实机器人（机械臂、人形机器人、移动底盘）上手经验者优先；- 【快速入职】每周能保证4天以上实习时间，能连续实习3个月以上。【加分项】- 有遥操作数据采集或UMI/ALOHA系统使用经验；- 熟悉数据标注、数据挖掘或数据质量评测方法；- 有大规模数据处理经验（Spark、Ray等）；- 在CoRL、ICRA、IROS、NeurIPS、CVPR等会议发表过相关论文；- 有GitHub开源项目贡献经历。【我们提供】- 真实的机器人实验环境与大规模数据采集设施；- 资深算法工程师一对一指导，快速成长；- 有机会参与顶级会议论文投稿；- 有竞争力的实习薪资与餐补；- 表现优异者可获得转正机会。投递...

Premium Full-time

智元创新（上海）科技有限公司 21 days ago

具身智能算法实习生（后训练 Infra 方向）

智元创新（上海）科技有限公司 ( Shanghai )

具身智能算法实习生（后训练 Infra 方向）上海实习职位描述 1. 参与具身智能后训练框架的设计与迭代，构建支撑真机强化学习的规模化训练能力。2. 理解强化学习、模仿学习等后训练算法（PPO/SAC/DAgger 等），参与基于算法特性的训练架构设计与实现。3. 参与云端多机多卡训练 + 边缘多机多本体 rollout 的分布式异步训练系统开发。4. 参与多种后训练算法的框架侧适配与验证。5. 参与云边通信模块开发（权重同步、数据回传、时延隐藏）。6. 跟进后训练领域前沿进展，参与新算法的复现与工程化验证。职位要求 - 计算机、AI、机器人等相关专业硕士在读或优秀本科生。- 熟悉 Python，熟练使用 PyTorch，有深度学习项目经验。- 对强化学习（PPO/SAC/DAgger 等）有基础理解或强烈兴趣。- 具备良好的工程意识与代码规范，愿意深入理解底层原理。- 实习 3 个月以上优先，能长期实习更佳。加分项- 有分布式系统或通信框架（RPC / gRPC / ZMQ 等）使用经验。- 有真机强化学习或仿真器（RoboSuite /

Premium Full-time Rollout

智元创新（上海）科技有限公司 21 days ago

规控算法实习生-灵犀

智元创新（上海）科技有限公司 ( Shenzhen )

规控算法实习生-灵犀深圳实习职位描述 1. 负责机器人三维空间导航的路径规划及运动控制算法开发、优化及产品化落地；2. 负责基于learning的机器人全身协调控制（WBC），与导航移动、上肢操作协同的规划控制算法开发；3. 构建感知-规划控制系统，融合本体感知能力，实现三维全地形的全身避障规划；4. 深度参与VLN、智能体长程任务规划等前沿技术的研究攻坚；职位要求 1. 熟练掌握C++/Python，熟悉Linux开发环境及ROS/ROS2框架； 2. 精通机器人运动学/动力学建模，熟悉优化理论（凸优化、非线性优化）； 3. 熟悉主流规划算法（如A*, RRT, MPC）及控制理论（如现代控制、鲁棒控制）；4. 加分项：有基于强化学习（如PPO/SAC）或模仿学习（如GAIL/DAgger）进行运动规划/决策控制的研究或项目经验；5. 加分项：熟悉CUDA/TensorRT等推理加速手段，有学习型规划器实时化经验；投递...

Premium Full-time

智元创新（上海）科技有限公司 21 days ago

强化学习专家/高级专家

XPENG ( Shanghai )

强化学习专家/高级专家北京、上海、深圳、广州全职通用智能板块职位描述职位概述本岗位主要负责在自动驾驶领域，尤其是大模型场景下运用强化学习技术提升模型的泛化能力。候选人需要具备深厚的强化学习理论基础及丰富的实践经验，能够独立或带领团队攻克前沿技术难题，并推动技术成果在自动驾驶系统中的落地与应用。主要职责强化学习算法研发设计、研究和优化针对自动驾驶场景的大规模强化学习算法，提升系统的鲁棒性与泛化能力。模型落地与优化探索强化学习模型在自动驾驶中的应用场景，负责从理论到工程实践的全流程落地，实现模型高效训练与在线部署。跨团队协作与技术指导与感知、规划、控制等团队紧密合作，提供技术支持与指导，推动技术方案的融合与落地；在团队内部进行技术分享和培训。前沿技术跟踪与战略规划持续关注国际前沿研究动态，推动相关研究成果在公司产品中的应用，参与制定技术路线与战略规划。技术文档与专利申请撰写高质量技术文档，整理研发过程中的创新成果，并有机会参与专利申请和高水平论文发表。任职要求学历背景计算机、自动化、电子工程、数学或相关专业硕士及以上学历，博士优先。技术能力深入理解强化学习的理论与方法，熟悉常用算法（如 DQN、PPO、A3C、SAC 等）及其在大规模系统中的应用。熟悉大模型训练与优化技术，具备将复杂理论模型工程化落地的经验。熟悉自动驾驶系统架构，了解传感器融合、环境感知、决策规划等关键技术。领导力与沟通能力具备跨团队合作和项目管理经验，能有效协调资源，带领团队解决技术难题。优秀的逻辑思维与问题解决能力，能够在高压和快速变化的工作环境中做出准确判断与决策。创新能力对新技术充满热情，具备敏锐的技术洞察力和创新精神，有在国际顶级期刊或会议发表论文、申请专利的经历者尤佳。加分项在自动驾驶、大模型优化或迁移学习方向有深入的项目实践或研究成果；曾参与制定公司级技术标准或技术战略；拥有丰富的国际合作或交流经验。职位要求 - 投递...

Premium Full-time

XPENG 21 days ago

具身智能算法研究员

XPENG ( Shanghai )

具身智能算法研究员深圳、北京、上海全职智能机器人板块职位描述负责人形机器人的具身智能核心算法研发，覆盖操作、运动控制和导航三大方向。1、操作（Manipulation）：基于 VLA（Vision-Language-Action）模型研发机器人抓取、放置、工具使用等操作能力，支撑 R02 机器人在商服/工厂等场景的任务交付；2、运动控制（Locomotion）：基于强化学习研发人形机器人全身运动控制策略（WBC），在 Isaac Gym/MuJoCo 中训练并完成 Sim2Real 部署；3、导航（Navigation）：研发基于 VLA 的端到端导航算法（Nav-VLA），实现室内自主建图、避障和语义导航；4、构建从数据采集→仿真训练→真机部署→评测的完整闭环。职位要求 1、硕士及以上学历，计算机、自动化、机器人、人工智能等相关专业；2、在以下至少一个方向有深入经验：- 机器人操作/抓取（ACT、Diffusion Policy、VLA 等）；- 强化学习运动控制（PPO/SAC + Isaac Gym/MuJoCo）；- 视觉导航（VLN、SLAM、端到端导航）3、熟悉 PyTorch，具备 Sim2Real 迁移的实战经验；4、有人形机器人或足式机器人的实机开发调试经验优先。【加分项】- 在 RSS/CoRL/ICRA/IROS/IJRR/TRO 或 NeurIPS/ICLR/CVPR 发表过相关论文；- 有大规模分布式 RL

Premium Full-time

XPENG 21 days ago

机器人全栈算法实习生（Robotics Full-Stack Algorithm Engineer）

智元创新（上海）科技有限公司 ( Shanghai )

机器人全栈算法实习生（Robotics Full-Stack Algorithm Engineer）北京、上海实习职位描述职位名称：我们正在招聘一位具备系统视野、扎实算法功底与工程能力的机器人全栈算法工程师，加入我们面向真实世界任务的遥操作与智能控制系统研发。该职位将聚焦于探索遥操作在感知、建图、控制、人机协作等方面的潜力，集成多模态输入输出设备，并提升远程操作的效率、自然性与鲁棒性。同时，你将参与构建机器人端的高质量数据采集系统与学习型控制模型，推动视觉语言动作（VLA）等新一代方法在实际任务中的落地表现。1.设计并实现机器人系统中的关键算法模块，包括但不限于感知（perception）、运动规划（planning）、控制（control）、状态估计（state estimation）、强化学习（reinforcement learning）与操作策略学习（manipulation policy learning）等。2.独立负责具体任务目标的技术方案制定与交付，快速理解需求、拆解问题，并推动高质量实现。3.主动识别系统性能瓶颈，提出并验证改进方案，持续优化系统稳定性与效率。4.与系统工程、硬件集成、仿真测试等团队紧密协作，推动算法模块在真实场景中的有效部署与迭代。职位要求 1.对机器人技术充满热情，关注前沿进展，具备持续学习与深入钻研的主动性。2.具备优秀的理解能力与自主驱动，能够在不确定条件下厘清需求、独立推进任务。3.精通 C++ 与 Python，具备良好的代码结构设计、工程实现与性能调试能力。4.对机器人基础算法体系有全面认知，并在以下至少一个方向具有深入经验：•感知（图像处理、点云理解、多模态融合、SLAM）•运动规划（采样规划、轨迹优化等）•控制（位置/速度/力控制，MPC 等）•状态估计（Kalman / particle filter，传感器融合）•强化学习与模仿学习（包括行为克隆、DAgger、PPO、Diffusion Policy 等）•操作策略学习（manipulation policy learning），具备从感知到动作生成的端到端建模能力•拥有对机器人系统架构的整体理解，能够快速上手和集成不熟悉的算法模块。•欢迎具有强大学习能力和成长潜力的候选人，即使在某些方向经验尚浅，也能迅速适应、持续成长。加分项：•有机器人实机部署经验，特别是在高复杂度任务中的经验•有机器人系统或远程操控经验•在机器人或机器学习顶级会议（ICRA, CoRL, RSS, NeurIPS 等）发表论文者优先•熟悉 ROS/ROS2、Mujoco、PyBullet、Isaac Sim 等仿真和开发工具链者优先投递...

Premium Remote Friendly Full-time Particle C++ Algorithms

智元创新（上海）科技有限公司 21 days ago

Ppo Jobs In China - 75 Job Positions Available

智能辅助驾驶算法工程师（端到端模型 / 强化学习）

高级智能驾驶算法工程师 - 强化学习(RL)

游戏AI工程师（AI算法方向）

Data & Pricing Analyst, APAC

Head of Commercial Enablement APAC

大模型算法工程师 / 专家

优才-大模型算法研究员-通用业务部

优才-具身算法工程师（VLA+RL）-通用业务部

优才-具身智能算法工程师（后训练 Infra 方向）-觅蜂子公司

优才-具身算法工程师（全身运动控制wbc+感控融合方向）-通用业务部

优才-具身智能算法研究员（空间智能方向）-觅蜂子公司

优才-具身智能算法研究员（VLA端到端与RL方向）-觅蜂子公司

优才-具身智能算法研究员（预训练方向）-觅蜂子公司

Reinforcement Learning Engineer - Whole-Body Control

具身算法实习生

具身智能算法实习生（后训练 Infra 方向）

规控算法实习生-灵犀

强化学习专家/高级专家

具身智能算法研究员

机器人全栈算法实习生（Robotics Full-Stack Algorithm Engineer）

Subscribe for job alerts and resources to make your job search easier!

Also try: