大模型量化算法研究与评测体系工程师 / 研究员南京全职互联网 / 电子 / 网游职位描述主要负责面向自研芯片的大模型量化算法研究、工程实现与量化精度评估体系建设,支撑 LLM、VLM 及多模态大模型在低比特、高性能场景下的部署与持续迭代。1.负责面向自研 AI 芯片的大模型量化算法研究与开发,包括但不限于 Weight-only 量化、Activation 量化、KV Cache 量化、混合精度量化、低比特量化、无标定 / 少标定量化等方向; 2.结合芯片计算特性、数据格式、访存结构和算子支持能力,设计适配硬件的量化方案,提升大模型在自研芯片上的推理效率与精度保持能力; 3.负责 LLM、VLM 及音视频多模态模型的量化精度评估体系建设,包括评测指标设计、评测集构建、评测流程自动化、误差分析与精度回归分析等; 4.搭建大模型量化评测框架,支持不同模型、不同量化算法、不同 bit-width、不同硬件后端之间的系统化对比评测; 5.负责量化算法在大模型推理链路中的落地验证,包括模型加载、算子替换、图优化、端到端性能分析、精度损失定位与优化; 6.构建面向业务场景的大模型量化评测体系,支持对话、代码、数学推理、视觉理解、多模态生成、音视频理解等任务的量化效果评估; 7.建设大规模快速分布式评测能力,支持大量模型版本、量化配置和芯片后端的自动化评测、结果管理与可视化分析; 8.参与量化评测平台研发,支持量化实验管理、评测任务调度、结果可视化、精度榜单发布和异常样本分析; 9.跟踪 GPTQ、AWQ、SmoothQuant、HQQ、QuaRot、SpinQuant、MXFP/FP8/INT4 等前沿量化算法和低精度计算技术,并结合自研芯片特点进行改进和创新。 职位要求任职要求1.研究生及以上学历,计算机、电子信息、人工智能、自动化、数学等相关专业优先; 2.熟悉大模型基本结构与推理流程,了解 Transformer、Attention、MLP、KV Cache、Norm、Embedding 等核心模块;