大模型 Infra 研发实习生(Agentic RL 方向)深圳实习互联网 / 电子 / 网游职位描述我们正在构建面向 Agentic RL 与具身智能 的评测与训练基础设施。支撑长程、有状态、依赖外部环境(工具、代码执行器、仿真器、机器人)的智能体任务。你将作为 infra 工程师参与平台核心模块建设:1、设计并实现统一的任务/环境抽象层,支持异构环境的接入;2、构建大规模并发的rollout 与评测调度系统,提升吞吐、资源利用率与稳定性;3、搭建智能体轨迹数据管道:采集、存储、检索、回放、版本管理,以及失败案例的可视化诊断系统;4、集成实验管理、监控告警、链路追踪等能力,保障平台在大规模任务下的可观测性与可恢复性。职位要求1、Python 工程能力扎实,代码风格规范,有中型以上工程或开源项目经验;2、熟悉 Linux 开发环境与常用工具链(Git / Shell / Docker / Make 等);3、了解分布式系统、并发与异步编程基本原理;4、对大模型、Agent、RL 训练流程有基本理解;5、能从复杂工程链路中定位瓶颈,主动设计可扩展、可观测的系统;6、每周到岗至少 4 天,可连续实习 3 个月以上。【加分项】1、熟悉 Ray、Kubernetes、Slurm 等分布式调度/编排系统;2、熟悉 vLLM、SGLang 等推理服务框架,理解其性能特性;3、做过自动化评测平台、benchmark 系统、judge service、训练数据闭环等系统;4、有 OpenAI Gym/Gymnasium、ManiSkill、Isaac