AI院-大模型算法- GLM预训练数据研究 北京 全职 互联网 / 电子 / 网游 职位描述 一、大规模预训练数据处理与优化1. 设计和优化PB级训练数据的筛选、去重、清洗体系2. 基于LLM模型的语义级去重算法、质量筛选算法优化3. 领域特定数据筛选策略,支持代码、数学、科学等专业领域二、数据质量评估与优化体系1. 构建基于大模型的数据质量自动评估系统2. 设计数据多样性、复杂度、有用性等多维度评估指标3. 优化数据配比策略,包括领域权重、语言分布、质量分层4. 构建数据污染检测算法,识别测试数据泄露 职位要求 一、基础要求1. 统招硕士或以上学历,计算机、AI相关专业2. 大模型预训练项目经验,深度参与过大模型预训练数据处理3. 有处理TB级以上训练数据的实际项目经验二、技术能力1. 精通分布式计算框架(Spark、Ray、Maxcompute等)2. 掌握高性能文本处理算法(LSH、SimHash等)3. 熟悉云原生数据处理架构4. 熟悉数据质量评估指标和方法【加分项】1. 有开源大模型项目数据相关的贡献经验2. 发表过大模型数据相关的顶会论文3. 熟悉 AI 伦理与安全合规的数据处理流程 投递...
算法工程师 北京 全职 互联网 / 电子 / 网游 职位描述 一、大规模预训练数据处理与优化1. 设计和优化PB级多模态训练数据的筛选、去重、清洗体系2. 基于LLM模型的语义级去重算法、质量筛选算法优化3. 领域特定数据筛选策略,支持代码、数学、科学等专业领域二、数据质量评估与优化体系1. 构建基于大模型的数据质量自动评估系统2. 设计数据多样性、复杂度、有用性等多维度评估指标3. 优化数据配比策略,包括领域权重、语言分布、质量分层4. 构建数据污染检测算法,识别测试数据泄露 职位要求 一、基础要求1. 统招本科及以上学历,计算机、AI相关专业2. 大模型预训练项目经验,深度参与过大模型预训练数据处理3. 有处理TB级以上训练数据的实际项目经验二、技术能力1. 精通分布式计算框架(Spark、Ray、Maxcompute等)2. 掌握高性能文本处理算法(LSH、SimHash等)3. 熟悉云原生数据处理架构4. 熟悉数据质量评估指标和方法【加分项】1. 有开源大模型项目数据相关的贡献经验2. 发表过大模型数据相关的顶会论文3. 熟悉 AI 伦理与安全合规的数据处理流程 投递...
2026届秋招-大数据开发工程师 补录 上海 正式 互联网 / 电子 / 网游 技术 职位描述 1. 基于大数据平台完成数据相关的开发工作,包含指标和报表开发;2. 密切配合游戏项目组,提供相应的数据分析支撑。 职位要求 1. 2026届应届本科及硕士毕业生,计算机相关专业,top 985院校优先;2. 熟悉SQL,Python,Spark,JAVA等其中至少一项开发技能;3. 熟悉Linux系统的操作,熟练使用脚本开发;4. 能够明确自己当前的定位和未来的成长规划;5. 热爱游戏行业,工作认真负责。 职位信息 团队介绍: 我们是一支年轻有活力的数据支撑团队,有多名经验丰富的数据从业者,涵盖了大数据,数据仓库,数据分析师等专业领域,支撑了公司PB级别的数据服务。我们期待您的加入,我们会有定期的技术分享,会有经验丰富的人来帮助你迅速成长,我们也希望你能够给我们带来新的东西,让我们一起成长~ 投递...
数据平台开发工程师 广州 全职 通用智能板块 职位描述 1、平台架构与核心开发:负责数据平台的整体架构设计与核心模块开发,构建稳定、高效、可扩展的后端系统,支撑PB级数据处理需求;2、数据工程与流水线:设计与构建面向海量、多模态AI数据的高性能存储、处理与计算流水线,支持标签、向量检索;3、云原生技术落地:基于Kubernetes生态构建容器化、微服务化的数据平台,实现资源的高效利用与系统的弹性伸缩;4、全栈开发与产品化:负责云平台中后台管理系统及数据可视化界面的前后端研发,将平台能力产品化,为内外部用户提供清晰、易用的操作界面;5、数据治理与优化:设计并落地数据挖掘、数据生产、数据集管理等方案,优化数据生命周期管理。 职位要求 1、基础要求:计算机科学、软件工程或相关专业本科及以上学历,具备扎实的计算机基础;2、 经验要求:3-5年后端/大数据开发经验,对高并发、分布式、高可用系统有深入理解和实战经验;3、技术栈要求: - 精通Golang或Java,熟悉Python; - 熟悉数据湖/仓技术(如Delta Lake, Iceberg、Lance)或OLAP引擎(如StarRocks, Doris); - 熟悉数据仓库建模、ETL流程及调度系统;4、工程素养:具备良好的编码规范、单元测试习惯和代码重构能力,能够胜任从0到1的系统搭建与持续优化;加分项1、有MLOps/DataOps平台建设经验,有Web全栈经验,属性 vue、react 常用组件库;2、熟练掌握Kubernetes及其生态(如Helm、Kustomize );3、有自动驾驶、机器人或智能座舱相关领域经验;4、具备出色的沟通理解力,能精准协同内外;同时拥有强烈的自驱力,能主动发现问题、驱动闭环并持续优化。 投递...
数据研发高级工程师 广州 全职 通用智能板块 职位描述 岗位定位聚焦自动驾驶领域大数据基础设施搭建、数据价值挖掘与平台优化,兼顾底层架构构建与业务落地支撑,核心是搭建高效、稳定的智能数据底座,支撑生产链路监控管理、算法训练、业务运营分析、车端业务需求,同时兼顾数据治理降本相关业务,要求具备较强的技术攻坚能力与综合协同能力。职位描述1、 数据资产体系建设:a.分层建设统一通用数据资产:构建感知数据资产体系,实现基础数据标准化供给;b.生产系统监控指标体系建设:快速输出生产流程监控数据,保障生产流程安全高效;c.产品运营监控指标体系建设:快速输出运营监控数据,保障业务运营便捷高效;2、 生产研发流程的数据支持:如日志埋点、车联网数据、内部与外部数据的采集、数据同步、数据清洗与标准化、数据模型设计、离线数据处理、实时数据处理、数据服务化、数据可视化等;支持自动驾驶、智能座舱、海外数据采集、机器人数据采集等业务的开展。3、 数据治理:a.数据安全生产规范:制定及推广数据标准(如研发规范、质量规范、保障规范)和治理流程,确保数据准确性、完整性和一致性。b.元数据管理:负责元数据管理、数据质量检查、数据分级管理,提升数据易用性及稳定性。c.计算存储成本管理:通过数据生命周期管理能力建设,数据内容挖掘,识别并删除无效数据,降低数据生产成本。4、 新技术跟踪与落地:负责多模态湖仓体系前沿技术跟踪、工具链选型测试与落地,参与资源与性能调优,推动智能数据底座落地。 职位要求 1、学历与经验:计算机、软件工程、数据科学或相关专业本科及以上学历(硕士优先),5年以上大数据相关经验。有大型互联网公司、自动驾驶企业或物理AI领域项目经验者优先。2、数据相关经验:精通数据仓库研发,精通大数据技术栈/Hadoop生态体系,具备PB级数据ETL&建模经验,计算节点开发与调优经验。熟悉 Paimon/Iceberg等新的计算引擎,了解其内部原理(事务ACID、Schema Evolution、Time Travel等)。有多模态湖仓建模、大规模近实时数仓、元数据管理相关实际经验者优先。3、 编程与技术能力:精通Python/SQL 至少一种。能编写高性能、可维护的分布式数据处理代码;深入理解Flink、Spark、Kafka等大数据框架组件原理,有性能调优经验。4、向量数据能力:了解Lance(或Arrow、Parquet向量扩展)等高效列存格式,了解ANN索引构建、向量同步、标量+向量混合查询等关键技术者优先。5、 架构与业务理解:熟悉多模态湖仓技术体系。具备良好的自动驾驶业务理解力,能打通感知、规控、场景理解等环节的数据需求,建设高效、可扩展的多模态湖仓数据基础能力。6、综合能力:具备系统性思维、主动推进能力与问题解决能力,逻辑严密、思路清晰;有较强的学习能力、创新精神,良好的沟通能力与跨团队(算法、平台、业务)协作能力,责任心强。 投递...
生产管理技工 广州 全职 制造与工艺板块 职位描述 岗位职责:1、主线生产过程管控:了解焊、涂、总生产线的运行逻辑,对停线、物料异常等异常及时通报并协调处理。2、PBS平台放车执行:操作PBS平台放车系统,按照生产计划放车,对出现异常可协调处理。3、缺件空流跟进:按照缺件空流标准,组织产线缺件空流实时及补装组织。4、返修交付管控:跟进返修区返修车辆交付进度,协调生产过程异常,促进返修交付达成。5、批量返修交付组织:针对批量问题组织资源确认返修方案并跟进返修交付过程。6、生产管理系统维护:根据生产需要维护MES、TQM系统、生产管理看板相关数据,实现系统数据与生产实际保持一致。7、持续改善:发现工作过程中的改善点并提出改善建议,实现生产管理向上。 职位要求 1、学历要求:专科及以上学历,工业工程、机械相关专业。2、工作经验:不少于2年在整车制造企业班长以上现场管理工作经验。3、沟通能力:具备良好的沟通和协调能力,能够与不同层级的团队成员有效沟通。4、解决问题能力:能善于发现工作过程中的问题并提出的解决方案。5、计算机技能:熟练使用办公软件,如Office套件,了解MES、TQM系统使用方法。6、其他要求:能够适应快节奏的工作环境,具备较强的抗压能力。7、对新能源汽车行业有热情,愿意不断学习和适应行业变化。 投递...
全栈云端计算平台工程师 广州 全职 通用智能板块 职位描述 职位描述1. 负责小鹏集团计算平台的架构设计与研发落地,构建云端模型开发,训练基础设施以及大规模数据生产基础设施;2. 设计并实现高性能数据编排与加载系统,支撑 PB 级多模态数据(文本、图像、视频、点云、传感器等)的高效处理、缓存加速,支持批式与流式数据生产;深度集成AI Coding Agent与 Data Pipeline,实现数据准备、清洗、标注、版本管理的自动化与智能化闭环;3. 负责云原生基础设施层的开发与优化,包括 GPU集群调度、弹性资源管理、容器化训练/推理工作负载编排,持续提升资源利用率与系统吞吐;4. 可以承担全栈职责,包括前端管理控制台到后端分布式服务的开发。职位要求1. 计算机 / 软件工程 / 数学 / 自动化等相关专业硕士及以上学历,或具备同等技术能力;3 年及以上后端/基础设施开发经验,其中 2 年及以上大规模 AI 平台或分布式系统研发经验;2. 精通Python,具备出色的工程化能力;熟练使用 Golang/Java/C++ 中至少一门语言进行系统性开发;3. 熟悉 AI Coding / AI
资深大数据开发 上海 全职 平台类 职位描述 1、负责离线和实时数据仓库的搭建与优化,保障数据的准确、完整和高效可用;2、根据业务需求设计合理的数据模型,开发高效ETL流程,进行数据分层与数据治理;3、跟进数据产品在业务场景中的落地,开发数据应用和分析工具,提升数据服务的易用性和价值;4、负责大数据平台和任务的性能调优、解决各类技术难题,保障系统的稳定与高效运行;5、深入理解游戏业务,对接业务部门,制定并实现复杂业务的数据解决方案;6、持续跟踪大语言模型等前沿技术发展,将数据开发能力转化为可落地的智能化实践经验。 职位要求 1、本科及以上学历,计算机、软件工程、数据分析或相关专业,5年以上大数据开发经验;2、精通Java、Python等至少一门编程语言,扎实的代码功底和算法能力;3、熟练掌握Hadoop、Hive、Spark、Flink、Kafka等大数据生态组件,有阿里云Maxcompute、ADB开发经验者优先;4、熟悉数据仓库理论体系,分层设计与维度建模,有PB级数据处理经验者优先;5、业务理解能力强,能够独立对接复杂业务需求,善于沟通和团队协作;6、逻辑思维强,有良好的技术敏感度和学习驱动力,抗压能力强,有责任心和团队合作精神;7、熟悉大语言模型等前沿技术,具备大语言模型等前沿技术应用能力。 投递...
大数据研发工程师-2027届 武汉 校招 实习 软件研发类 职位描述 1、参与实现自动驾驶的数据闭环系统,利用大模型提升各个环节的效率2、设计优化 PB 级大数据管道,并探索基于 agent/skill/MCP 的智能数据运维与调度 职位要求 1、扎实的C++或Python语言知识及熟练运用,扎实的数据结构与算法知识;2、计算机、数学、机器学习、机器人、自动驾驶或相关专业优先;3、有较强的独立解决问题能力,学习能力及沟通能力。具有大模型应用开发经验;4、具备 agentic code 开发经验,掌握 agent/skill/MCP 等相关技能。加分项:参加计算机类竞赛并获得过优异成绩。 投递...
知识平台算法专家(RAG & 知识图谱方向) 上海 社招 全职 数字技术 本科及以上 5-7 年 职位描述 岗位核心使命深度融合 LLM 与知识图谱技术,构建企业级 GraphRAG 架构。通过本体建模与高精度检索技术,解决大模型在复杂专业领域下的幻觉问题,打造工业级的知识服务引擎。主要职责RAG 架构优化:负责企业级 RAG(检索增强生成)系统的全链路研发。针对长文本及复杂知识,优化文档切片 (Chunking) 策略、多路召回 (Retrieval) 及 重排序 (Reranking) 算法,提升问答的准确性与归因能力。知识中枢建设:负责领域本体论 (Ontology) 建模,设计高扩展性的 Schema;利用 LLM 实现自动化知识抽取(实体、属性、三元组),构建高质量结构化知识库。底层存储与检索:负责基于 Milvus/Zilliz 的向量数据库与 Elasticsearch 的全文检索集成,设计向量-标量混合检索方案,优化海量数据的检索延迟与相关性。推理与应用落地:探索图增强检索(GraphRAG)、多步推理链(CoT)在知识平台中的应用,负责从非结构化数据到结构化知识转化的全流程算法迭代。 职位要求 1.
公司描述 Do you want beneficial technologies being shaped by your ideas? Whether in the areas of mobility solutions, consumer goods, industrial technology or energy and building technology - with us, you will have the chance to