大模型算法工程师(开放域对话) 上海 社招 实习 数字技术 本科及以上 1 年以下 职位描述 1、大模型应用落地:负责智能座舱对话系统核心场景的大模型(LLM)算法研发与落地,利用 Agentic RL 技术提升多轮对话的决策成功率、任务规划(Planning)准确性及响应流畅度。2、全链路数据建设:主导座舱对话数据的端到端建设,负责原始语料的清洗、去重,并协助构建针对强化学习(RL)的高质量 Reward Model 训练集 及复杂交互场景的评测集,确保数据反馈闭环的质量。3、模型训练与优化:进行基座模型的 SFT、RLHF/RLAIF(如 GRPO、PPO、DPO) 及 Prompt Engineering 优化。重点解决 Agentic Tool-Use 过程中的幻觉问题及座舱环境下的多轮状态跟踪(DST)难点。4、业务效果迭代:深入理解座舱交互逻辑,通过离线评测与在线 A/B Test 持续优化模型在意图识别、个性化推荐及任务执行成功率等关键指标上的表现。5、工程化与性能:配合工程团队进行模型量化、蒸馏及推理加速(如使用 vLLM 或其他高效框架),确保算法在车载端侧或云端的高效部署与低延迟响应。 职位要求 1、专业背景:本科及以上学历,计算机、自动化、数理统计等相关专业,数理基础扎实,对强化学习在对话系统中的应用有浓厚兴趣。2、技术储备:(1)熟练掌握 LLM 常用范式:ReAct、Function Calling、TIR(Thought-Intermediate-Result) 等。(2)熟悉主流强化学习算法原理:如 PPO、GRPO、DAPO,对解决