Refine Reset All
Recent Searches clear
Sort by
Job Title
Location
Job Type
Employer/Recruiter
Experience
Date Posted
Job Title
Location
Job Type
Employer/Recruiter
Experience
All Filters

Ppo Jobs In China - 61 Job Positions Available

Top Cities:
1 – 20 of 61 jobs
智元创新(上海)科技有限公司 jobs

机器人算法全栈实习生上海、北京实习职位描述我们的团队是机器人产品落地的重要基石,拥有强大的工程实现能力。现在,我们寻找一位能为机器人应用“玩出花”的伙伴。您将成为团队中的 “算法探索者” 与 “解决方案架构师” 。您的核心使命并非进行底层的C++编码,而是探索、评估、原型化和集成最前沿的机器人算法,将其转化为可行的功能方案,并为工程团队提供清晰的算法蓝图。如果您痴迷于算法的无限可能,享受将论文中的idea在仿真和真实机器人上“玩”出效果,并乐于为复杂功能构思简洁的调用逻辑,那么这个职位正为您而设。职位要求- 对机器人技术充满热情,具备优秀的学习能力和自主驱动力,乐于解决开放式问题。- 精通Python,具备强大的算法原型实现能力,能够快速验证算法并推动其走向真机验证。- 对机器人基础算法体系有全面认知,并在以下至少两个方向具有一定经验: - 强化学习与模仿学习(包括行为克隆、DAgger、PPO、Diffusion Policy 等) - 操作策略学习(manipulation policy learning),具备从感知到动作生成的端到端建模能力 - 感知(图像处理、点云理解、多模态融合、SLAM) - 运动规划(采样规划、轨迹优化等) - 控制(位置/速度/力控制,MPC 等) - 状态估计(Kalman / particle filter,传感器融合)- 拥有对机器人系统架构的整体理解,能够快速上手和集成不熟悉的算法模块。- 我们特别欢迎具备强大学习能力和成长潜力的候选人,即使在某些方向经验尚浅,也能迅速适应并创造价值。加分项:- 有机器人真机部署经验,特别是在高复杂度任务中的经验。- 有机器人系统或远程操控经验。- 在机器人或机器学习顶级会议(ICRA, CoRL, RSS, NeurIPS等)发表论文者优先。- 熟悉

智元创新(上海)科技有限公司  29 days ago
Anker Innovations jobs

多模态大模型(VLM/VLA)算法工程师(博士)深圳、北京、上海校招正式智能制造 / 工业互联网 / 工业自动化职位描述岗位职责1. 研究应用大模型实现四足、人形机器人的复杂认知能力,包括:(1)开放指令任务理解及规划、复杂场景理解、行为决策推理与动作规划,长程任务规划等;(2)实现机器人自主探索导航(3)实现高效可泛化的四足、人形机器人的移动、操作联合决策和规划2. 实现基于视觉、深度等的环境感知与3D空间表征,人脸人形识别、人体姿态估计等, 实现精准的空间推理 及action model 动作轨迹规划;3. 开发适配大模型VLM/VLA的场景表征/对齐技术和场景语义识别。训练图像/视频与文本融合的多模态理解大模型,提升模型的跨模态理解能力;4.设计构建模型训练数据集和标注方法,支持大批量自动化的标注构建5.负责基模型的领域预训练,模型微调SFT、强化学习(RLHF)训练,提升夸任务的泛化性能,开发高效的模型评测方法提高迭代效率。6.解决模型评测/部署/真机测试中的问题,满足项目交付指标要求。跟踪前沿技术方案,持续迭代升级方案职位要求岗位要求1.人工智能、计算机、机器人、自动驾驶、自然语言处理等相关专业博士学位2.有如下某个方向研究经验:(1)熟练掌握主流LLM技术(Bert、GPT、Llama、transformer等),有VLM模型(Llava、QwenVL等)、VLA(action token)模型应用经验, 熟悉生成式AI 技术(diffusion)。(2)有量产动静态环境感知或表征经验,熟悉 BEV、Sparse,SAM,VIT,CLIP,DINO(3)具备多模态数据融合(文+视+听)研发经验;(4)掌握主流的具身大模型技术(RT2, π系列、OpenVLA,ACT, Diffusion Policy)(5)基于学习的机器人移动、操纵相关算法经验3. 熟练掌握大模型领域训练、微调方法(LoRA/P-tuning等)、RL方法(PPO/DPO/GRPO、A3C等);4. 掌握大模型的分布式训练框架5. 熟练使用PyTorch/TensorFlow深度学习框架,熟练使用Python/C++语言编程,有实际项目开发经验6. 有 ROS2/DDS下的开发经验,能够在Linux环境下独立进行开发和调试;加分项1.在CVPR/NeurIPS/ICML/CoRL发表具身智能/机器人学习相关论文2.具备主流具身智能开源项目经验(如RT-1/RT-2、OpenVLA、π系列π0/π0.5等)3.熟悉机器人抓取规划或人机协作场景落地投递...

Anker Innovations  28 days ago
智元创新(上海)科技有限公司 jobs

具身算法实习生上海实习职位描述参与具身智能机器人算法研发,聚焦模仿学习/强化学习算法在真实机器人上的落地应用,参与数据采集、数据挖掘、数据评测全流程,以高质量数据驱动算法迭代。【岗位职责】- 参与遥操作数据采集、数据清洗、格式转换与质量评估,支撑算法训练数据需求;- 基于模仿学习(ACT、Diffusion Policy)或强化学习(PPO、SAC)进行模型训练与调优;- 参与数据挖掘与分析,识别高价值样本(失败轨迹、长尾场景),提升数据对模型的效果增益;- 协助建立数据质量评测流程,包括标注准确率校验、数据分布分析、端云一致性检查;- 在仿真环境(Isaac Sim、Mujoco)或真实机器人平台上进行算法验证与Badcase归因分析;- 跟踪具身智能与数据驱动的前沿技术,复现论文并探索新方法。职位要求【任职要求】- 计算机、自动化、机器人、人工智能等相关专业,硕士或博士在读(优秀本科生亦可);- 熟练掌握Python,熟悉PyTorch深度学习框架;- 了解模仿学习(ACT、Diffusion Policy)或强化学习(PPO、SAC)基础知识;- 了解ROS/ROS2,有机器人数据处理经验(MCAP、ROS bag、Parquet等)者优先;- 有真实机器人(机械臂、人形机器人、移动底盘)上手经验者优先;- 【快速入职】每周能保证4天以上实习时间,能连续实习3个月以上。【加分项】- 有遥操作数据采集或UMI/ALOHA系统使用经验;- 熟悉数据标注、数据挖掘或数据质量评测方法;- 有大规模数据处理经验(Spark、Ray等);- 在CoRL、ICRA、IROS、NeurIPS、CVPR等会议发表过相关论文;- 有GitHub开源项目贡献经历。【我们提供】- 真实的机器人实验环境与大规模数据采集设施;- 资深算法工程师一对一指导,快速成长;- 有机会参与顶级会议论文投稿;- 有竞争力的实习薪资与餐补;- 表现优异者可获得转正机会。投递...

Premium Full-time
智元创新(上海)科技有限公司  27 days ago
Delart jobs

About the job Delart is home to a team of world-class engineers and project leaders dedicated to developing the next generation of advanced networking technologies, consumer devices, and innovative technology solutions. Trusted by some of the

Delart  25 days ago
Delart jobs

About the job Delart is home to a team of world-class engineers and project leaders dedicated to developing the next generation of advanced networking technologies, consumer devices, and innovative technology solutions. Trusted by some of the

Delart  25 days ago
Mashang Consumer Finance jobs

算法研究员(AI基础研究方向)-2026届AI重庆正式互联网 / 电子 / 网游 - 研发职位描述面向2026届毕业生(2025年9月-2026年8月毕业),马上消费2026届管培生培养机会。作为AI研究院的核心成员,你将参与大模型+强化学习的前沿技术研究,主导跨模态决策框架的研发,探索神经科学与AI的交叉领域,推动智能体技术在金融、医疗等领域的商业化落地。 【我们需要你做】: 1. 制定大模型+强化学习的融合技术路线,主导世界模型(World Models)、语言驱动RL等跨模态决策框架研发; 2. 探索神经科学/量子计算与AI的交叉研究,构建安全可靠的自主决策智能体系统; 3. 组建跨学科研发团队(算法/工程/神经科学),建立分布式RL训练框架与仿真环境标准; 4. 撰写技术文档,分享研究成果,促进团队知识共享与技术沉淀。 【我们能提供你】: - 丰富的实习薪酬津贴 - 行业领先的人均算力资源 - 丰富的落地场景和海量数据 - 全国各地的优秀人才随时交流请教 - 1V1的导师辅导机制 - 多元的职业发展通道 - 极具挑战的攻关项目锻炼平台职位要求1. 计算机科学/AI/控制论等相关专业博士学历,有MIT/Stanford/DeepMind等机构研究经历者优先。 2. 深度掌握PPO/SAC等RL算法及大模型技术栈,具备Ray/RLlib分布式训练经验。 3. 在NeurIPS/ICML发表过RL相关论文,或主导过开源智能体项目。

Premium Full-time
Mashang Consumer Finance  25 days ago
CARIZON jobs

算法工程师-规划控制方向(星程长计划)上海、北京正式职位描述负责自动驾驶行车/泊车/主动安全/仿真交通流/车辆动力学引擎等算法模块的设计与开发。负责分析实车/仿真测试中的问题,并对自己负责模块引发的问题设计修复方案并落实。职位要求硕士及以上学历,计算机/人工智能/电子电器/自动化/车辆工程等相关专业;编程能力优秀,熟悉Linux,熟悉C++/C和Python,Pytorch,Tensorflow等,具备良好的编程习惯;熟悉业界主流的自动驾驶规划或控制算法,熟悉非线性优化原理,控制方向需要扎实的控制理论知识。熟悉强化学习(如PPO、DQN)或模仿学习(如GAIL)并有实操经验者优先。有机器人/自动驾驶功能开发经验者优先;投递...

Premium Full-time
CARIZON  25 days ago
Booming Tech jobs

游戏AI工程师(AI算法方向)杭州全职互联网 / 电子 / 网游职位描述【岗位职责】- 战斗AI算法研发 - 优化基于传统规则驱动的战斗AI系统,增强Bot的智能性、灵活性和可控性,优化玩家体验。 - 推动基于数据驱动的模仿学习,构建玩家战斗行为数据集,分析战斗中的各类态势,通过行为克隆复现高玩操作模式,提升AI对抗的真实感。 - 构建强化学习环境,设计和实现强化学习策略,增强战斗类Bot的控制。 - 研发动态难度调整算法,通过玩家能力评估实时调节AI强度,平衡挑战性与趣味性。 - 设计NPC战斗风格模板系统,支持通过参数配置快速生成激进型、防御型等差异化AI角色。- 战斗AI的模拟、评估体系建设 - 开发战斗沙盒模拟系统,支持大规模并行化的AI训练与快速迭代验证。 - 构建战斗AI评估体系,设计灵活性、伤害效率、策略多样性、行为拟真度等量化指标,快速对战斗AI做出评估。 - 开发AI决策可视化分析工具,支持策划人员直观调试技能释放时序、走位路径等细节,进一步评估AI行为。职位要求【任职要求】- 计算机/人工智能相关专业本科及以上学历(如有一定经验,此条可放宽)- 精通C++/Python,熟悉PyTorch/TensorFlow框架,具备将学术论文转化为工业级解决方案的能力- 深入理解模仿、强化学习(PPO/DQN/SAC)等AI算法原理我们希望你拥有下列能力:- 对战斗类游戏博弈、战斗数值平衡等有深刻洞察- 有MOBA、FPS、ARPG等强对抗品类游戏AI开发经验- 对AI+游戏创新方向有强烈热情,具备技术前瞻性视野- 优秀的跨团队协作能力,能有效沟通技术方案与落地细节投递...

Premium Full-time
Booming Tech  25 days ago
AAC Technologies jobs

强化学习算法工程师(云台)上海全职研发 - 算法职位描述1. 负责云台控制强化学习算法的全流程研发,包括算法选型(如PPO、DDPG等)、模型设计、奖励函数优化,结合云台机械特性和控制需求,构建适配云台运动(Pan/Tilt/Zoom)的强化学习模型,解决云台姿态控制、目标跟踪中的非线性控制问题。2. 搭建云台控制强化学习仿真环境,基于Unity、Gazebo等工具构建高保真仿真场景,模拟不同环境干扰(如振动、遮挡、光照变化)下的云台工作状态,用于算法的快速训练、验证与迭代,降低真机测试成本。3. 针对云台动态跟踪、定点防抖、自动对焦等核心场景,优化强化学习算法策略,解决算法训练中的收敛慢、泛化能力差、奖励函数设计不合理等问题,提升云台控制的精准度和抗干扰能力。4 跟踪强化学习、云台控制领域的前沿技术(如端到端强化学习、多智能体协作控制)和行业标杆案例,结合实际业务需求,开展技术预研和创新,推动算法性能迭代升级,形成技术专利或技术文档。5. 与硬件工程师、软件工程师、测试工程师协作,完成云台控制算法的真机测试、问题定位与迭代优化,输出算法测试报告、技术方案文档,保障算法在实际产品中的稳定落地。6. 参与云台控制算法相关技术标准的制定,梳理算法研发流程,优化开发规范,指导初级算法工程师开展相关研发工作,提升团队整体研发效率。7. 针对特定场景(如无人机云台目标跟踪、安防PTZ相机自动监控),设计强化学习与传统控制算法(如PID)的融合方案,弥补单一算法的不足,提升云台控制的综合性能。职位要求1. 硕士及以上学历,计算机科学、人工智能、自动控制、机器人工程、应用数学等相关专业,有1-3年及以上云台控制或强化学习算法研发相关经验者优先;优秀应届硕士可放宽经验要求。2. 精通强化学习核心理论与算法,熟悉Value-Based、Policy-Based、Model-Based等各类强化学习框架,熟练掌握PPO、DDPG、DQN等主流算法的原理与实现,有连续动作空间(云台姿态控制、多轴机械臂)算法研发经验者优先。3 熟练使用Python编程语言,精通PyTorch、TensorFlow等至少一种深度学习框架,具备良好的代码编写、调试和优化能力,熟悉RLlib、SampleFactory等分布式强化学习库者优先。4. 具备强化学习仿真环境搭建经验,熟练使用Unity、Gazebo等仿真工具,能够构建贴合实际场景的云台仿真模型,用于算法训练与验证。5. 熟悉云台(PTZ相机、无人机云台)的机械结构、控制原理,了解云台运动学、动力学特性,有云台控制算法(如PID控制、运动控制)研发经验者优先。6. 了解嵌入式平台(如Jetson系列、ARM架构)的算法部署流程,具备算法轻量化、实时性优化经验,能够解决算法部署中的性能瓶颈问题。7. 具备良好的问题分析与解决能力,能够独立应对云台控制算法研发、测试、落地过程中的各类技术难题,有相关项目落地经验者优先。8. 具有较强的学习能力和创新意识,能够快速跟踪强化学习、云台控制领域的前沿技术,主动开展技术预研和创新。9. 具备良好的沟通协作能力,能够与跨部门团队高效配合,推动算法研发与落地工作。10. 工作认真负责,严谨细致,具备较强的抗压能力和执行力,能够按时完成各项研发任务。11. 具备良好的技术文档编写能力,能够清晰输出算法设计文档、测试报告、技术总结等资料。投递...

Premium Full-time
AAC Technologies  25 days ago
XPENG jobs

【26届校招】强化学习分布式系统工程师上海正式智能制造 / 工业互联网 / 工业自动化 - 研发职位描述1. 与电动车动力系统团队深度合作,设计并实现适用于车载动力系统效率优化的强化学习(RL)算法。2. 利用或基于 Ray-RLlib, rsl_rl, 或 stable-baselines3 等主流框架,搭建高效、分布式的RL训练与部署架构。3. 推动RL控制策略的sim2real 迁移,并参与小鹏汽车动力系统硬件在环或实车平台的集成与调试工作。4. 作为AI团队与动力系统部门之间的核心桥梁,负责需求对齐、数据接口规范化和联合调试。5. 根据业务需求,未来有机会参与 LLM团队针对语言模型后训练RL 框架的搭建与优化。职位要求1. 硕士及以上学历,具有机器人、运动控制、自动化、人工智能、计算机等相关背景。2. 有强化学习(RL)相关产品落地实务经验优先。3. 扎实的强化学习理论基础,熟悉主流离线/在线RL算法(e.g. PPO, SAC, etc),并具备实际项目应用经验。4. 精通至少一个主流RL框架,如 Ray-RLlib (精通Ray 加分), rsl_rl, stable-baselines3, 或 rl-games 等。5. 精通 Python,PyTorch,並具备良好的代码组织和工程化能力,熟悉C++

Premium Full-time
XPENG  25 days ago
小米科技 Xiaomi Technology jobs

AI算法工程师-汽车专项-实习-2027届北京校招实习博士类职位描述岗位描述:1. 负责整车热管理与能耗优化物理建模算法和AI建模算法研发2. 用机器学习算法对整车热管理与能耗进行优化3. 负责能耗优化算法的端侧部署、性能与耗时优化;负责算法的实车验证,迭代优化职位要求1.硕士及以上学历;车辆工程、自动化、能源与动力等相关专业优秀的软件工程素养,精通Python、C/C++程序设计;2. 熟悉C++/python等编程语言,熟悉PyTorch等深度学习框架;4、熟悉DDPG/GRPO/PPO/AC学习等强化学习算法加分项:1、良好的英语沟通能力;2、优化的物理/数学建模功底3、发表过SCI一区/二区,CCF-A类会议等高水平论文投递...

Premium Full-time
小米科技 Xiaomi Technology  24 days ago
Anker Innovations jobs

机器人多模态大模型算法工程师ShenzhenIntelligent manufacturing / Industrial Internet / Industrial automation26届国内春招Responsibilities1. 研发具身智能认知架构(VLM/VLA/VLN),实现多模态指令理解与长周期任务规划、自主导航系统;2. 设计强化学习(RL)/模仿学习(IL)决策框架,解决开放场景稀疏奖励问题;3. 优化模型结构、提升计算效率(模型剪枝/量化),解决端侧部署挑战;4. 主导仿真(Isaac Gym/MuJoCo)到真机(人形机器人/机械臂)的Sim2Real迁移。Qualifications1. 硕士及以上学历,计算机科学/人工智能/机器人学相关专业;2. 精通Transformer架构与大模型技术栈(微调/部署),掌握强化学习(PPO/SAC)或模仿学习(BC/GAIL)框架;3. 熟练使用PyTorch/TensorFlow,精通Python/C++,熟悉Linux/ROS开发环境;加分项:在CVPR/NeurIPS/ICML/CoRL发表具身智能/机器人学习相关论文;具备主流具身智能开源项目经验(如RT-1/RT-2、OpenVLA、π系列π0/π0.5等);熟悉机器人抓取规划或人机协作场景落地。Apply...

Anker Innovations  23 days ago
NIO jobs

蔚来AGI超星计划-基于多模态数据模拟和多模态表达的NOMI Mate具身交互控制研究推荐投递上海、北京校招实习数字技术硕士及以上蔚来AGI超星计划职位 ID:A160978职位描述课题介绍本课题属于机器人学与人机交互的交叉学科,主要研究在车载对话领域,构建基于语音、文本及图像/视频等多模态信息的情感化具身交互系统,实现对机器人头部动作、表情及TTS表达的实时控制,参与多模态理解与具身表达智能体的研发,推动机器人从“会说话”到“会表达”的系统化升级,打造业界一流的情感化AI交互控制系统预期产出- 交付具有创新性/前瞻性的研究报告、专利、期刊和论文;- 交付具备优秀落地效果的方案和算法应用。职位要求- 精通基础统计学习以及深度学习算法,精通常用模型架构包括但不限于Transformer、Diffusion、VAE以及Flow Matching等;- 熟悉强化学习或行为策略学习,包括但不限于RLHF、PPO、DPO、GRPO等;- 精通并有主流大模型的相关训练和使用工作经验;- 深入了解主流Agent框架和应用;- (加分)有机器人动作生成、多模态交互、情感计算等具身交互落地或科研经验;- (加分)有高水平论文发表者,或在国内外顶尖实验室或者模型团队经历;- 硕士及以上在读,实习时长6个月以上。投递...

Premium Full-time
NIO  22 days ago
NIO jobs

蔚来AGI超星计划-面向车身运动控制(VMC)的物理AI与多场景重建强化学习研究推荐投递上海校招实习数字技术硕士及以上蔚来AGI超星计划职位 ID:A109342职位描述课题介绍本课题面向车身运动控制(VMC)在复杂工况下的性能与安全问题,构建“参数辨识 + 物理仿真 + 强化学习 + 场景风险评估”的一体化控制框架。目标是在路面附着变化、载荷波动、非线性耦合和多执行器协同等条件下,实现更稳定、更可迁移的控制策略。相较传统“模型+规则+人工调参”方法,本课题重点研究可学习的补偿控制:在保留经典控制器主结构的基础上,引入前馈补偿与残差策略(residual policy),实现误差驱动的在线修正与实时优化。同时,课题建设场景驱动风险管控链路:围绕典型、极限、长尾和高风险场景,打通仿真、HIL 与实车验证流程,形成“场景生成—策略训练—风险评估—闭环验证”的完整体系,系统评估安全性、鲁棒性与泛化能力。具体工作1. 搭建多层级车身动力学仿真环境(简化模型到高保真模型)。2. 研究关键参数在线/离线辨识方法(轮胎、质量分布、阻尼、附着系数等)。3. 设计带物理与安全约束的强化学习策略,用于前馈补偿或残差控制。4. 研究误差学习模块与经典 VMC 控制器的协同机制。5. 构建 VMC 场景库与风险评估体系,支持风险分级和测试覆盖分析。6. 研究 Sim2Real 一致性与鲁棒性,建立基于实测反馈的持续优化机制。预期产出1. 研究报告或高水平论文(强化学习、智能控制、车辆动力学、安全验证等方向)。2. 一套面向 VMC 的学习控制框架:参数辨识、约束强化学习、风险评估、仿真闭环。3. 高价值场景库:覆盖典型、极限、长尾和高风险工况。4. 可在仿真与 HIL 验证、并具备实车迁移潜力的策略原型。5. 可复用的“仿真-HIL-实车”场景与泛化评测框架。6. 虚实闭环工具链:数据生成、场景挖掘、参数辨识、风险评估、策略优化。职位要求- 专业能力: - 具备强化学习、控制理论、车辆动力学或机器人学基础,熟悉PPO/SAC/Model-based RL等方法; -

Premium Full-time HIL
NIO  22 days ago
XPENG jobs

【27届暑期】算法实习生(AI应用)广州实习研发 - 算法27届暑期实习生项目(提供转正机会)职位描述1、参与AI大模型与AI算法应用相关的模型微调、RAG、MCP、Skill等开发工作,提升模型在各个场景下的表现;2、参与大模型相关的NLP算法研发,能够结合算法进行业务落地,创造业务价值。职位要求1.熟练掌握Python/C++等至少一门编程语言,熟悉PyTorch/TensorFlow 等至少一种深度学习框架;2.熟悉主流大模型训练框架deepspeed、LLaMA-Factory等,深入理解Transformer/GPT 等模型架构;3.具备大语言模型研究和应用经验,包括SFT/DPO/PPO/GRPO等技术的落地实践;4.具备良好的数据处理能力,具备快速学习和解决问题能力,有团队合作精神;5.对于探索前沿技术有热情,具备独立探索前沿技术的能力。加分项1.在NeurlIPS、ACL、ICML、EMNLP等顶会有以第一作者发表过论文优先;2.有RAG技术实现与调优、Agent应用落地经验优先;3.有大模型测评,大模型数据管理相关经验优先。投递...

Premium Full-time
XPENG  21 days ago
XPENG jobs

【27届暑期】算法实习生(AI应用)广州实习研发 - 算法职位描述1、参与AI大模型与AI算法应用相关的模型微调、RAG、MCP、Skill等开发工作,提升模型在各个场景下的表现;2、参与大模型相关的NLP算法研发,能够结合算法进行业务落地,创造业务价值。职位要求1.熟练掌握Python/C++等至少一门编程语言,熟悉PyTorch/TensorFlow 等至少一种深度学习框架;2.熟悉主流大模型训练框架deepspeed、LLaMA-Factory等,深入理解Transformer/GPT 等模型架构;3.具备大语言模型研究和应用经验,包括SFT/DPO/PPO/GRPO等技术的落地实践;4.具备良好的数据处理能力,具备快速学习和解决问题能力,有团队合作精神;5.对于探索前沿技术有热情,具备独立探索前沿技术的能力。加分项1.在NeurlIPS、ACL、ICML、EMNLP等顶会有以第一作者发表过论文优先;2.有RAG技术实现与调优、Agent应用落地经验优先;3.有大模型测评,大模型数据管理相关经验优先。投递...

Premium Full-time
XPENG  21 days ago
XPENG jobs

大模型 Infra 研发实习生(Agentic RL 方向)深圳实习互联网 / 电子 / 网游职位描述我们正在构建面向 Agentic RL 与具身智能 的评测与训练基础设施。支撑长程、有状态、依赖外部环境(工具、代码执行器、仿真器、机器人)的智能体任务。你将作为 infra 工程师参与平台核心模块建设:1、设计并实现统一的任务/环境抽象层,支持异构环境的接入;2、构建大规模并发的rollout 与评测调度系统,提升吞吐、资源利用率与稳定性;3、搭建智能体轨迹数据管道:采集、存储、检索、回放、版本管理,以及失败案例的可视化诊断系统;4、集成实验管理、监控告警、链路追踪等能力,保障平台在大规模任务下的可观测性与可恢复性。职位要求1、Python 工程能力扎实,代码风格规范,有中型以上工程或开源项目经验;2、熟悉 Linux 开发环境与常用工具链(Git / Shell / Docker / Make 等);3、了解分布式系统、并发与异步编程基本原理;4、对大模型、Agent、RL 训练流程有基本理解;5、能从复杂工程链路中定位瓶颈,主动设计可扩展、可观测的系统;6、每周到岗至少 4 天,可连续实习 3 个月以上。【加分项】1、熟悉 Ray、Kubernetes、Slurm 等分布式调度/编排系统;2、熟悉 vLLM、SGLang 等推理服务框架,理解其性能特性;3、做过自动化评测平台、benchmark 系统、judge

XPENG  18 days ago
BridgeDP Robotics jobs

机器人强化学习应用工程师15-25K深圳正式职位描述岗位职责1. 负责机器人强化学习模型的训练、调参与优化,提高策略稳定性与运动表现。2. 在仿真环境中进行大量实验,调整奖励函数、观测空间、训练参数等关键因素,持续迭代策略效果。3. 将训练得到的策略模型部署到真实机器人系统中,完成策略验证与调试。4. 分析仿真与真实机器人运行表现,定位问题并推动策略优化与 sim-to-real 适配。5. 整理训练流程、实验数据与部署经验,形成规范化训练与应用流程。职位要求1. 熟练使用 Python,c++,能够阅读和理解强化学习或机器人控制相关代码。2. 了解强化学习基本原理(如 PPO 等策略梯度算法)或机器人运动控制基础。3. 有仿真训练经验(Isaac Gym / Mujoco / Isaac Sim / RL 框架等)者优先。4. 具备较强实验能力与问题分析能力,能够进行系统化调参与效果验证。5. 对机器人运动控制、强化学习或具身智能方向有浓厚兴趣,愿意深入实践与优化投递...

Premium Full-time PPO
BridgeDP Robotics  18 days ago
Delart jobs

About the job Delart is home to a team of world-class engineers and project leaders dedicated to developing the next generation of advanced networking technologies, consumer devices, and innovative technology solutions. Trusted by some of the

Delart  18 days ago
Delart jobs

About the job Delart is home to a team of world-class engineers and project leaders dedicated to developing the next generation of advanced networking technologies, consumer devices, and innovative technology solutions. Trusted by some of the

Delart  18 days ago

Subscribe for job alerts and resources to make your job search easier!

Confirmation email sent to

Check your email and click on the link to start receiving your job alerts

Receive the latest job openings for:

ppo

You also might be interested in:

实习生

Python

PyTorch

HMO

Fostering

Flexible Spending Accounts

Confirmation email sent to

Check your email and click on the link to start receiving your job alerts

All Filters Apply
Sort by
Job Title
Location
Job Type
Employer/Recruiter
Experience