技术中心 - 数仓开发工程师 广州 技术类 职位描述 1、负责公司海量数据的接入,包括不限于服务端日志、客户端日志、外部聚合数据等,搭建公司数据中台,建设国内海外数据仓库;2、负责实时和离线数据开发,提供高质量、稳定的数据服务,为业务部门赋能;3、参与数据治理,面对PB级存量数据和万亿条级别的新增数据量,提升数据易用性及数据质量,降低数据处理成本;4、负责数仓平台内各种大数据、高并发、数据治理等方面的技术设计和落地;5、负责公司自建大数据的组件维护与调优。 职位要求 1、本科及以上学历,计算机相关专业,三年以上数仓工作经验;2、具备较好的Java/Python编码和SQL能力,能保质保量完成数据建设和数据分析工作;3、熟悉数仓建模理论,有完整数仓的建设经验,熟悉海量数据处理、ETL及任务调度、元数据管理、数据治理;4、熟悉大数据相关工具和框架,如StarRocks、Doris、Flink、Kafka、Hadoop、Hive、Spark、ClickHouse、Trino、Presto、FlinkCDC、Canal、DataX等数仓和ETL工具,具备集群与组件的调优能力;5、具备良好的团队协作和沟通能力,较强的工作规划和执行能力,积极推动项目进度;6、乐于探索新技术和业界新问题的解决方案,学习主动性强。 投递...
Some careers have more impact than others. If you’re looking for a career where you can make a real impression, join HSBC and discover how valued you’ll be. We are currently seeking an experienced professional to
Some careers have more impact than others. If you’re looking for a career where you can make a real impression, join HSBC and discover how valued you’ll be. We are currently seeking an experienced professional to
Some careers have more impact than others. If you’re looking for a career where you can make a real impression, join HSBC and discover how valued you’ll be. We are currently seeking an experienced professional to
大数据平台工程师 广州 全职 通用智能板块 职位描述 湖仓一体与向量数据融合架构建设:基于 Flink + Apache Paimon 构建统一的流批一体湖仓平台,支持结构化信号数据与高维向量(如感知 embedding、场景特征)的统一存储与管理;探索 Paimon + Lance 存储向量列,实现列式高效压缩与快速 I/O;数据指标体系与实时能力建设:构建高时效、高一致性的核心数据指标体系(如功能状态、生产状态、场景分类等),通过 Flink State/Checkpoint/Watermark 机制保障端到端 Exactly-Once 语义,支撑算法训练与数据闭环;数据治理与标准化:制定并落地湖仓环境下的元数据管理、数据血缘、质量监控、分级分类与 SLA 保障体系,推动数据标准(命名规范、Schema 演进、分区策略等)在湖表层统一实施,涵盖向量字段的 Schema 定义、版本管理与生命周期策略;全链路数据研发支撑:主导从车端日志、车联网原始数据、感知 embedding 到湖仓与向量引擎的端到端链路开发,包括实时采集(Kafka/Pulsar)、流式清洗(Flink)、湖表写入(Paimon)、向量同步(Lance → Milvus)、离线加速(Z-Order/Compaction)、服务化(Trino/Doris/Milvus SDK)及可视化等;平台化与效能提升:参与湖仓与向量检索平台的自动化部署、监控告警、资源隔离与性能调优,提升数据开发效率与系统稳定性。 职位要求 计算机、软件工程或相关专业本科及以上学历,扎实的编程能力,熟练掌握 Java/Scala/Python 中至少一种,能编写高性能、可维护的分布式数据处理代码;深入理解 Flink
分布式计算与存储软件工程师 广州 全职 通用智能板块 职位描述 职位描述1. 负责小鹏汽车“扶摇”AI平台数据处理相关的软件开发工作,包括数据加载工具(XDataLoader)和数据集管理平台(XDataset),提供统一的数据加载、转换、缓存与预取能力;目标解决大规模数据加载过程中出现的性能瓶颈、数据一致性、系统稳定性等问题,服务AI大模型的训练和推理;2. 开发并维护高性能 DataLoader SDK,支持自定义采样、并行读取、缓存预取与数据增强等功能,优化多线程/进程流水线,降低I/O与预处理延迟,简化算法团队接入并提升加载效率;3. 搭建通用Dataset管理系统,实现多源异构数据(图片、视频、点云、传感器等)的统一接入、解析与格式化;4. 协同算法团队及其他技术团队,深入理解业务需求,快速响应并落地实现。 职位要求 1. 计算机 / 软件工程硕士或同等经验,3年及以上大规模数据处理经验;有大规模模型训练与推理场景支持经验者优先;2. 精通 Python,具备扎实软件工程基础,良好编程规范和代码质量意识;3. 有以下至少一项实际项目经验;两项及以上者优先: a. 大规模数据加载机制(如 PyTorch DataLoader、NVIDIA DALI、TensorFlow Dataset、Hugging Face Datasets) b. Parquet/ORC 等列式存储格式及相关生态(如Petastorm),能设计高效的分区、压缩与向量化读取流程,优化批量数据访问性能。 c. Linux文件系统与网络I/O,能针对NFS、对象存储等场景进行性能调优;有云存储系统(如阿里云OSS、CPFS、火山引擎vePFS)相关经验。4. 具备关系型数据库(MySQL/PostgreSQL)与NoSQL(Redis/MongoDB等)相关经验,了解元数据与缓存管理;5. 具备大规模分布式数据处理、性能优化与问题排查经验,能定位并高效解决复杂的性能问题;熟悉Apache Ray、Kubeflow/Airflow、Prometheus等开源项目者优先;6.
全栈云端计算平台工程师 广州 全职 通用智能板块 职位描述 职位描述1. 负责小鹏集团计算平台的架构设计与研发落地,构建云端模型开发,训练基础设施以及大规模数据生产基础设施;2. 设计并实现高性能数据编排与加载系统,支撑 PB 级多模态数据(文本、图像、视频、点云、传感器等)的高效处理、缓存加速,支持批式与流式数据生产;深度集成AI Coding Agent与 Data Pipeline,实现数据准备、清洗、标注、版本管理的自动化与智能化闭环;3. 负责云原生基础设施层的开发与优化,包括 GPU集群调度、弹性资源管理、容器化训练/推理工作负载编排,持续提升资源利用率与系统吞吐;4. 可以承担全栈职责,包括前端管理控制台到后端分布式服务的开发。职位要求1. 计算机 / 软件工程 / 数学 / 自动化等相关专业硕士及以上学历,或具备同等技术能力;3 年及以上后端/基础设施开发经验,其中 2 年及以上大规模 AI 平台或分布式系统研发经验;2. 精通Python,具备出色的工程化能力;熟练使用 Golang/Java/C++ 中至少一门语言进行系统性开发;3. 熟悉 AI Coding / AI