Job Summary: Assess and apply new solution designs against defined architecture strategies, principles, policies and standards in alignment with the enterprise architecture strategies. Where current strategies and principles do not meet needs, drive changes back to
大模型算法工程师(开放域对话) 上海 社招 实习 数字技术 本科及以上 1 年以下 职位描述 1、大模型应用落地:负责智能座舱对话系统核心场景的大模型(LLM)算法研发与落地,利用 Agentic RL 技术提升多轮对话的决策成功率、任务规划(Planning)准确性及响应流畅度。2、全链路数据建设:主导座舱对话数据的端到端建设,负责原始语料的清洗、去重,并协助构建针对强化学习(RL)的高质量 Reward Model 训练集 及复杂交互场景的评测集,确保数据反馈闭环的质量。3、模型训练与优化:进行基座模型的 SFT、RLHF/RLAIF(如 GRPO、PPO、DPO) 及 Prompt Engineering 优化。重点解决 Agentic Tool-Use 过程中的幻觉问题及座舱环境下的多轮状态跟踪(DST)难点。4、业务效果迭代:深入理解座舱交互逻辑,通过离线评测与在线 A/B Test 持续优化模型在意图识别、个性化推荐及任务执行成功率等关键指标上的表现。5、工程化与性能:配合工程团队进行模型量化、蒸馏及推理加速(如使用 vLLM 或其他高效框架),确保算法在车载端侧或云端的高效部署与低延迟响应。 职位要求 1、专业背景:本科及以上学历,计算机、自动化、数理统计等相关专业,数理基础扎实,对强化学习在对话系统中的应用有浓厚兴趣。2、技术储备:(1)熟练掌握 LLM 常用范式:ReAct、Function Calling、TIR(Thought-Intermediate-Result) 等。(2)熟悉主流强化学习算法原理:如 PPO、GRPO、DAPO,对解决