技术中心 - 数仓开发工程师 广州 技术类 职位描述 1、负责公司海量数据的接入,包括不限于服务端日志、客户端日志、外部聚合数据等,搭建公司数据中台,建设国内海外数据仓库;2、负责实时和离线数据开发,提供高质量、稳定的数据服务,为业务部门赋能;3、参与数据治理,面对PB级存量数据和万亿条级别的新增数据量,提升数据易用性及数据质量,降低数据处理成本;4、负责数仓平台内各种大数据、高并发、数据治理等方面的技术设计和落地;5、负责公司自建大数据的组件维护与调优。 职位要求 1、本科及以上学历,计算机相关专业,三年以上数仓工作经验;2、具备较好的Java/Python编码和SQL能力,能保质保量完成数据建设和数据分析工作;3、熟悉数仓建模理论,有完整数仓的建设经验,熟悉海量数据处理、ETL及任务调度、元数据管理、数据治理;4、熟悉大数据相关工具和框架,如StarRocks、Doris、Flink、Kafka、Hadoop、Hive、Spark、ClickHouse、Trino、Presto、FlinkCDC、Canal、DataX等数仓和ETL工具,具备集群与组件的调优能力;5、具备良好的团队协作和沟通能力,较强的工作规划和执行能力,积极推动项目进度;6、乐于探索新技术和业界新问题的解决方案,学习主动性强。 投递...
Some careers have more impact than others. If you’re looking for a career where you can make a real impression, join HSBC and discover how valued you’ll be. We are currently seeking an experienced professional to
Some careers have more impact than others. If you’re looking for a career where you can make a real impression, join HSBC and discover how valued you’ll be. We are currently seeking an experienced professional to
全栈云端计算平台工程师 广州 全职 通用智能板块 职位描述 职位描述1. 负责小鹏集团计算平台的架构设计与研发落地,构建云端模型开发,训练基础设施以及大规模数据生产基础设施;2. 设计并实现高性能数据编排与加载系统,支撑 PB 级多模态数据(文本、图像、视频、点云、传感器等)的高效处理、缓存加速,支持批式与流式数据生产;深度集成AI Coding Agent与 Data Pipeline,实现数据准备、清洗、标注、版本管理的自动化与智能化闭环;3. 负责云原生基础设施层的开发与优化,包括 GPU集群调度、弹性资源管理、容器化训练/推理工作负载编排,持续提升资源利用率与系统吞吐;4. 可以承担全栈职责,包括前端管理控制台到后端分布式服务的开发。职位要求1. 计算机 / 软件工程 / 数学 / 自动化等相关专业硕士及以上学历,或具备同等技术能力;3 年及以上后端/基础设施开发经验,其中 2 年及以上大规模 AI 平台或分布式系统研发经验;2. 精通Python,具备出色的工程化能力;熟练使用 Golang/Java/C++ 中至少一门语言进行系统性开发;3. 熟悉 AI Coding / AI
数据研发高级工程师 广州 全职 通用智能板块 职位描述 岗位定位聚焦自动驾驶领域大数据基础设施搭建、数据价值挖掘与平台优化,兼顾底层架构构建与业务落地支撑,核心是搭建高效、稳定的智能数据底座,支撑生产链路监控管理、算法训练、业务运营分析、车端业务需求,同时兼顾数据治理降本相关业务,要求具备较强的技术攻坚能力与综合协同能力。职位描述1、 数据资产体系建设:a.分层建设统一通用数据资产:构建感知数据资产体系,实现基础数据标准化供给;b.生产系统监控指标体系建设:快速输出生产流程监控数据,保障生产流程安全高效;c.产品运营监控指标体系建设:快速输出运营监控数据,保障业务运营便捷高效;2、 生产研发流程的数据支持:如日志埋点、车联网数据、内部与外部数据的采集、数据同步、数据清洗与标准化、数据模型设计、离线数据处理、实时数据处理、数据服务化、数据可视化等;支持自动驾驶、智能座舱、海外数据采集、机器人数据采集等业务的开展。3、 数据治理:a.数据安全生产规范:制定及推广数据标准(如研发规范、质量规范、保障规范)和治理流程,确保数据准确性、完整性和一致性。b.元数据管理:负责元数据管理、数据质量检查、数据分级管理,提升数据易用性及稳定性。c.计算存储成本管理:通过数据生命周期管理能力建设,数据内容挖掘,识别并删除无效数据,降低数据生产成本。4、 新技术跟踪与落地:负责多模态湖仓体系前沿技术跟踪、工具链选型测试与落地,参与资源与性能调优,推动智能数据底座落地。 职位要求 1、学历与经验:计算机、软件工程、数据科学或相关专业本科及以上学历(硕士优先),5年以上大数据相关经验。有大型互联网公司、自动驾驶企业或物理AI领域项目经验者优先。2、数据相关经验:精通数据仓库研发,精通大数据技术栈/Hadoop生态体系,具备PB级数据ETL&建模经验,计算节点开发与调优经验。熟悉 Paimon/Iceberg等新的计算引擎,了解其内部原理(事务ACID、Schema Evolution、Time Travel等)。有多模态湖仓建模、大规模近实时数仓、元数据管理相关实际经验者优先。3、 编程与技术能力:精通Python/SQL 至少一种。能编写高性能、可维护的分布式数据处理代码;深入理解Flink、Spark、Kafka等大数据框架组件原理,有性能调优经验。4、向量数据能力:了解Lance(或Arrow、Parquet向量扩展)等高效列存格式,了解ANN索引构建、向量同步、标量+向量混合查询等关键技术者优先。5、 架构与业务理解:熟悉多模态湖仓技术体系。具备良好的自动驾驶业务理解力,能打通感知、规控、场景理解等环节的数据需求,建设高效、可扩展的多模态湖仓数据基础能力。6、综合能力:具备系统性思维、主动推进能力与问题解决能力,逻辑严密、思路清晰;有较强的学习能力、创新精神,良好的沟通能力与跨团队(算法、平台、业务)协作能力,责任心强。 投递...
大数据平台工程师 广州 全职 通用智能板块 职位描述 湖仓一体与向量数据融合架构建设:基于 Flink + Apache Paimon 构建统一的流批一体湖仓平台,支持结构化信号数据与高维向量(如感知 embedding、场景特征)的统一存储与管理;探索 Paimon + Lance 存储向量列,实现列式高效压缩与快速 I/O;数据指标体系与实时能力建设:构建高时效、高一致性的核心数据指标体系(如功能状态、生产状态、场景分类等),通过 Flink State/Checkpoint/Watermark 机制保障端到端 Exactly-Once 语义,支撑算法训练与数据闭环;数据治理与标准化:制定并落地湖仓环境下的元数据管理、数据血缘、质量监控、分级分类与 SLA 保障体系,推动数据标准(命名规范、Schema 演进、分区策略等)在湖表层统一实施,涵盖向量字段的 Schema 定义、版本管理与生命周期策略;全链路数据研发支撑:主导从车端日志、车联网原始数据、感知 embedding 到湖仓与向量引擎的端到端链路开发,包括实时采集(Kafka/Pulsar)、流式清洗(Flink)、湖表写入(Paimon)、向量同步(Lance → Milvus)、离线加速(Z-Order/Compaction)、服务化(Trino/Doris/Milvus SDK)及可视化等;平台化与效能提升:参与湖仓与向量检索平台的自动化部署、监控告警、资源隔离与性能调优,提升数据开发效率与系统稳定性。 职位要求 计算机、软件工程或相关专业本科及以上学历,扎实的编程能力,熟练掌握 Java/Scala/Python 中至少一种,能编写高性能、可维护的分布式数据处理代码;深入理解 Flink
分布式计算与存储软件工程师 广州 全职 通用智能板块 职位描述 职位描述1. 负责小鹏汽车“扶摇”AI平台数据处理相关的软件开发工作,包括数据加载工具(XDataLoader)和数据集管理平台(XDataset),提供统一的数据加载、转换、缓存与预取能力;目标解决大规模数据加载过程中出现的性能瓶颈、数据一致性、系统稳定性等问题,服务AI大模型的训练和推理;2. 开发并维护高性能 DataLoader SDK,支持自定义采样、并行读取、缓存预取与数据增强等功能,优化多线程/进程流水线,降低I/O与预处理延迟,简化算法团队接入并提升加载效率;3. 搭建通用Dataset管理系统,实现多源异构数据(图片、视频、点云、传感器等)的统一接入、解析与格式化;4. 协同算法团队及其他技术团队,深入理解业务需求,快速响应并落地实现。 职位要求 1. 计算机 / 软件工程硕士或同等经验,3年及以上大规模数据处理经验;有大规模模型训练与推理场景支持经验者优先;2. 精通 Python,具备扎实软件工程基础,良好编程规范和代码质量意识;3. 有以下至少一项实际项目经验;两项及以上者优先: a. 大规模数据加载机制(如 PyTorch DataLoader、NVIDIA DALI、TensorFlow Dataset、Hugging Face Datasets) b. Parquet/ORC 等列式存储格式及相关生态(如Petastorm),能设计高效的分区、压缩与向量化读取流程,优化批量数据访问性能。 c. Linux文件系统与网络I/O,能针对NFS、对象存储等场景进行性能调优;有云存储系统(如阿里云OSS、CPFS、火山引擎vePFS)相关经验。4. 具备关系型数据库(MySQL/PostgreSQL)与NoSQL(Redis/MongoDB等)相关经验,了解元数据与缓存管理;5. 具备大规模分布式数据处理、性能优化与问题排查经验,能定位并高效解决复杂的性能问题;熟悉Apache Ray、Kubeflow/Airflow、Prometheus等开源项目者优先;6. 具有良好的跨团队沟通能力和协作精神,责任心强,善于主动推进问题解决。加分项1.