数据仓库工程师深圳社招全职职位描述1、负责企业级数据仓库及业务数据集市的架构规划、分层设计(ODS/DWD/DWS/ADS)与落地实施,确保架构的先进性、可扩展性与高性能。2、主导核心业务域的数据建模工作,精通维度建模等方法论,设计通用灵活的数据模型与宽表,保障数据的一致性、完整性与复用性。3、设计并实现高效的ETL/ELT数据集成方案,负责数据提取、转换、加载全流程的开发、调度与优化,解决大规模数据处理中的性能瓶颈。4、推进数据治理体系建设,包括数据质量监控、元数据管理、数据血缘追踪、指标体系标准化等,提升整体数据质量与数据资产价值。5、负责数据仓库的日常运维与故障排查,保障数据服务SLA达标,及时响应并解决数据延迟、数据错误等线上问题,确保数据链路稳定可靠。6、深入理解业务需求,与数据分析、业务部门紧密协作,提供高质量的数据支持与解决方案,支撑业务决策、数据产品迭代及精细化运营。职位要求一、基础要求1、本科及以上学历,计算机科学、数据科学、信息技术等相关专业。2、3-7年及以上数据仓库设计与开发经验,有完整的企业级数据仓库建设项目经验优先。3、具备强烈的责任心、严谨的逻辑思维、良好的沟通协调能力及团队协作精神,对数据敏感,重视数据质量。二、 技术能力1、精通数据仓库理论体系,深入理解分层架构、主题域建模、维度建模等方法论,能结合业务场景设计合理的数据模型。2、精通SQL/HQL/Spark SQL开发及优化,能高效处理TB/PB级大规模数据集,具备复杂查询性能调优实战经验。3、熟悉大数据生态技术栈,具备Hadoop、Hive、Spark、Flink、Kafka等组件的实战应用经验;了解MPP数据库(ClickHouse、Doris)、OLAP引擎(Kylin、Presto)者优先。4、掌握Java/Python/Scala中的至少一种编程语言,具备良好的代码规范与工程化能力;熟悉ETL工具(DataX、Airflow、Kettle)及任务调度系统者优先。5、具备数据治理相关经验,熟悉数据质量监控、元数据管理、数据血缘分析等工具(如Apache Atlas、Griffin)的使用者优先。三、加分项1、有互联网、金融、电商等行业数据仓库建设经验者优先。2、有数据字典、指标管理体系从0到1搭建经验者优先。投递...
大数据开发工程师实习生南京实习互联网 / 电子 / 网游职位描述1. 参与大数据平台的开发与维护,协助构建高可靠、高性能的数据处理系统;2. 协助开发和优化分布式计算任务(如Hadoop/Spark/Flink作业),提升数据处理效率;3. 参与ETL流程设计与实现,支持数据清洗、转换和加载;4. 协助数据仓库与数据建模工作,维护数据表结构和元数据管理;5. 学习并跟踪大数据领域新技术(如实时计算、湖仓一体等)。职位要求1. 学历专业:计算机、软件工程等计算机相关专业本科及以上在校生;2. 技术要求: - 了解至少一种大数据框架(Hadoop/Spark/Flink/Hive/Apache Hudi等); - 熟悉SQL,有NoSQL数据库(如HBase/MongoDB)使用经验者优先; - 掌握Java/Scala中的至少一门编程语言; - 掌握Superset等数据分析工具,了解方法; - 对Linux基础命令和Shell脚本有一定了解;3. 加分项: - 接触过数据仓库(如Hive/Apache Hudi)、消息队列(Kafka)或实时计算技术; - 参与过数据处理或分析相关项目(如竞赛、科研、开源项目);4. 个人素质:逻辑清晰,学习能力强,具备团队协作精神,对大数据技术有热情。实习收获:- 深入实战学习业界主流大数据技术栈;- 接触真实业务场景下的海量数据处理挑战;- 获得资深工程师一对一指导及转正机会。投递...
Job Summary: As a Data Engineer in the AMC Tech team, you will be responsible for designing, building, and maintaining the data infrastructure that supports our data platform, with a strong focus on fund management business
Are you interested in joining a group of highly talented engineers working on a open source project that is solving challenging problems across big data analytics, machine learning and artificial intelligence? As customers continuously push the
蔚来AGI超星计划-Agentic Semantic Search推荐投递圣何塞、上海、北京校招实习数字技术硕士及以上蔚来AGI超星计划职位 ID:A34979职位描述课题介绍About the positionJoin our AI Platform team to build intelligent agents that unlock the full value of our companys internal knowledge and data. You will work at the intersection of large language models,
Some careers have more impact than others. If you’re looking for a career where you can make a real impression, join HSBC and discover how valued you’ll be. We are currently seeking an experienced professional to
Some careers have more impact than others. If you’re looking for a career where you can make a real impression, join HSBC and discover how valued you’ll be. We are currently seeking an experienced professional to
Some careers have more impact than others. If you’re looking for a career where you can make a real impression, join HSBC and discover how valued you’ll be. We are currently seeking an experienced professional to
Some careers have more impact than others. If you’re looking for a career where you can make a real impression, join HSBC and discover how valued you’ll be. We are currently seeking an experienced professional to
大数据平台工程师 广州 全职 通用智能板块 职位描述 湖仓一体与向量数据融合架构建设:基于 Flink + Apache Paimon 构建统一的流批一体湖仓平台,支持结构化信号数据与高维向量(如感知 embedding、场景特征)的统一存储与管理;探索 Paimon + Lance 存储向量列,实现列式高效压缩与快速 I/O;数据指标体系与实时能力建设:构建高时效、高一致性的核心数据指标体系(如功能状态、生产状态、场景分类等),通过 Flink State/Checkpoint/Watermark 机制保障端到端 Exactly-Once 语义,支撑算法训练与数据闭环;数据治理与标准化:制定并落地湖仓环境下的元数据管理、数据血缘、质量监控、分级分类与 SLA 保障体系,推动数据标准(命名规范、Schema 演进、分区策略等)在湖表层统一实施,涵盖向量字段的 Schema 定义、版本管理与生命周期策略;全链路数据研发支撑:主导从车端日志、车联网原始数据、感知 embedding 到湖仓与向量引擎的端到端链路开发,包括实时采集(Kafka/Pulsar)、流式清洗(Flink)、湖表写入(Paimon)、向量同步(Lance → Milvus)、离线加速(Z-Order/Compaction)、服务化(Trino/Doris/Milvus SDK)及可视化等;平台化与效能提升:参与湖仓与向量检索平台的自动化部署、监控告警、资源隔离与性能调优,提升数据开发效率与系统稳定性。 职位要求 计算机、软件工程或相关专业本科及以上学历,扎实的编程能力,熟练掌握 Java/Scala/Python 中至少一种,能编写高性能、可维护的分布式数据处理代码;深入理解 Flink
分布式计算与存储软件工程师 广州 全职 通用智能板块 职位描述 职位描述1. 负责小鹏汽车“扶摇”AI平台数据处理相关的软件开发工作,包括数据加载工具(XDataLoader)和数据集管理平台(XDataset),提供统一的数据加载、转换、缓存与预取能力;目标解决大规模数据加载过程中出现的性能瓶颈、数据一致性、系统稳定性等问题,服务AI大模型的训练和推理;2. 开发并维护高性能 DataLoader SDK,支持自定义采样、并行读取、缓存预取与数据增强等功能,优化多线程/进程流水线,降低I/O与预处理延迟,简化算法团队接入并提升加载效率;3. 搭建通用Dataset管理系统,实现多源异构数据(图片、视频、点云、传感器等)的统一接入、解析与格式化;4. 协同算法团队及其他技术团队,深入理解业务需求,快速响应并落地实现。 职位要求 1. 计算机 / 软件工程硕士或同等经验,3年及以上大规模数据处理经验;有大规模模型训练与推理场景支持经验者优先;2. 精通 Python,具备扎实软件工程基础,良好编程规范和代码质量意识;3. 有以下至少一项实际项目经验;两项及以上者优先: a. 大规模数据加载机制(如 PyTorch DataLoader、NVIDIA DALI、TensorFlow Dataset、Hugging Face Datasets) b. Parquet/ORC 等列式存储格式及相关生态(如Petastorm),能设计高效的分区、压缩与向量化读取流程,优化批量数据访问性能。 c. Linux文件系统与网络I/O,能针对NFS、对象存储等场景进行性能调优;有云存储系统(如阿里云OSS、CPFS、火山引擎vePFS)相关经验。4. 具备关系型数据库(MySQL/PostgreSQL)与NoSQL(Redis/MongoDB等)相关经验,了解元数据与缓存管理;5. 具备大规模分布式数据处理、性能优化与问题排查经验,能定位并高效解决复杂的性能问题;熟悉Apache Ray、Kubeflow/Airflow、Prometheus等开源项目者优先;6. 具有良好的跨团队沟通能力和协作精神,责任心强,善于主动推进问题解决。加分项1.
Unazienda di dati e intelligenza artificiale cerca un Data Engineer per progettare e implementare architetture dati scalabili nel team Data Management & Architecture. Richiesta laurea in Informatica e 3-4 anni di esperienza con GCP e strumenti