Refine Reset All
Recent Searches clear
Sort by
Skills
Job Type
Employer/Recruiter
Date Posted
Skills
Location
Job Type
Employer/Recruiter
All Filters

Python Spark Jobs In Guangzhou - 7 Job Positions Available

1 – 7 of 7 jobs
库洛游戏 KURO GAMES jobs

技术中心 - 数仓开发工程师 广州 技术类 职位描述 1、负责公司海量数据的接入,包括不限于服务端日志、客户端日志、外部聚合数据等,搭建公司数据中台,建设国内海外数据仓库;2、负责实时和离线数据开发,提供高质量、稳定的数据服务,为业务部门赋能;3、参与数据治理,面对PB级存量数据和万亿条级别的新增数据量,提升数据易用性及数据质量,降低数据处理成本;4、负责数仓平台内各种大数据、高并发、数据治理等方面的技术设计和落地;5、负责公司自建大数据的组件维护与调优。 职位要求 1、本科及以上学历,计算机相关专业,三年以上数仓工作经验;2、具备较好的Java/Python编码和SQL能力,能保质保量完成数据建设和数据分析工作;3、熟悉数仓建模理论,有完整数仓的建设经验,熟悉海量数据处理、ETL及任务调度、元数据管理、数据治理;4、熟悉大数据相关工具和框架,如StarRocks、Doris、Flink、Kafka、Hadoop、Hive、Spark、ClickHouse、Trino、Presto、FlinkCDC、Canal、DataX等数仓和ETL工具,具备集群与组件的调优能力;5、具备良好的团队协作和沟通能力,较强的工作规划和执行能力,积极推动项目进度;6、乐于探索新技术和业界新问题的解决方案,学习主动性强。 投递...

Premium Full-time
库洛游戏 KURO GAMES  11 days ago
HSBC Group jobs

Some careers have more impact than others. If you’re looking for a career where you can make a real impression, join HSBC and discover how valued you’ll be. We are currently seeking an experienced professional to

HSBC Group  2 days ago
HSBC Group jobs

Some careers have more impact than others. If you’re looking for a career where you can make a real impression, join HSBC and discover how valued you’ll be. We are currently seeking an experienced professional to

HSBC Group  1 day ago
XPENG jobs

全栈云端计算平台工程师 广州 全职 通用智能板块 职位描述 职位描述1. 负责小鹏集团计算平台的架构设计与研发落地,构建云端模型开发,训练基础设施以及大规模数据生产基础设施;2. 设计并实现高性能数据编排与加载系统,支撑 PB 级多模态数据(文本、图像、视频、点云、传感器等)的高效处理、缓存加速,支持批式与流式数据生产;深度集成AI Coding Agent与 Data Pipeline,实现数据准备、清洗、标注、版本管理的自动化与智能化闭环;3. 负责云原生基础设施层的开发与优化,包括 GPU集群调度、弹性资源管理、容器化训练/推理工作负载编排,持续提升资源利用率与系统吞吐;4. 可以承担全栈职责,包括前端管理控制台到后端分布式服务的开发。职位要求1. 计算机 / 软件工程 / 数学 / 自动化等相关专业硕士及以上学历,或具备同等技术能力;3 年及以上后端/基础设施开发经验,其中 2 年及以上大规模 AI 平台或分布式系统研发经验;2. 精通Python,具备出色的工程化能力;熟练使用 Golang/Java/C++ 中至少一门语言进行系统性开发;3. 熟悉 AI Coding / AI

XPENG  6 hours ago
XPENG jobs

数据研发高级工程师 广州 全职 通用智能板块 职位描述 岗位定位聚焦自动驾驶领域大数据基础设施搭建、数据价值挖掘与平台优化,兼顾底层架构构建与业务落地支撑,核心是搭建高效、稳定的智能数据底座,支撑生产链路监控管理、算法训练、业务运营分析、车端业务需求,同时兼顾数据治理降本相关业务,要求具备较强的技术攻坚能力与综合协同能力。职位描述1、 数据资产体系建设:a.分层建设统一通用数据资产:构建感知数据资产体系,实现基础数据标准化供给;b.生产系统监控指标体系建设:快速输出生产流程监控数据,保障生产流程安全高效;c.产品运营监控指标体系建设:快速输出运营监控数据,保障业务运营便捷高效;2、 生产研发流程的数据支持:如日志埋点、车联网数据、内部与外部数据的采集、数据同步、数据清洗与标准化、数据模型设计、离线数据处理、实时数据处理、数据服务化、数据可视化等;支持自动驾驶、智能座舱、海外数据采集、机器人数据采集等业务的开展。3、 数据治理:a.数据安全生产规范:制定及推广数据标准(如研发规范、质量规范、保障规范)和治理流程,确保数据准确性、完整性和一致性。b.元数据管理:负责元数据管理、数据质量检查、数据分级管理,提升数据易用性及稳定性。c.计算存储成本管理:通过数据生命周期管理能力建设,数据内容挖掘,识别并删除无效数据,降低数据生产成本。4、 新技术跟踪与落地:负责多模态湖仓体系前沿技术跟踪、工具链选型测试与落地,参与资源与性能调优,推动智能数据底座落地。 职位要求 1、学历与经验:计算机、软件工程、数据科学或相关专业本科及以上学历(硕士优先),5年以上大数据相关经验。有大型互联网公司、自动驾驶企业或物理AI领域项目经验者优先。2、数据相关经验:精通数据仓库研发,精通大数据技术栈/Hadoop生态体系,具备PB级数据ETL&建模经验,计算节点开发与调优经验。熟悉 Paimon/Iceberg等新的计算引擎,了解其内部原理(事务ACID、Schema Evolution、Time Travel等)。有多模态湖仓建模、大规模近实时数仓、元数据管理相关实际经验者优先。3、 编程与技术能力:精通Python/SQL 至少一种。能编写高性能、可维护的分布式数据处理代码;深入理解Flink、Spark、Kafka等大数据框架组件原理,有性能调优经验。4、向量数据能力:了解Lance(或Arrow、Parquet向量扩展)等高效列存格式,了解ANN索引构建、向量同步、标量+向量混合查询等关键技术者优先。5、 架构与业务理解:熟悉多模态湖仓技术体系。具备良好的自动驾驶业务理解力,能打通感知、规控、场景理解等环节的数据需求,建设高效、可扩展的多模态湖仓数据基础能力。6、综合能力:具备系统性思维、主动推进能力与问题解决能力,逻辑严密、思路清晰;有较强的学习能力、创新精神,良好的沟通能力与跨团队(算法、平台、业务)协作能力,责任心强。 投递...

XPENG  6 hours ago
XPENG jobs

大数据平台工程师 广州 全职 通用智能板块 职位描述 湖仓一体与向量数据融合架构建设:基于 Flink + Apache Paimon 构建统一的流批一体湖仓平台,支持结构化信号数据与高维向量(如感知 embedding、场景特征)的统一存储与管理;探索 Paimon + Lance 存储向量列,实现列式高效压缩与快速 I/O;数据指标体系与实时能力建设:构建高时效、高一致性的核心数据指标体系(如功能状态、生产状态、场景分类等),通过 Flink State/Checkpoint/Watermark 机制保障端到端 Exactly-Once 语义,支撑算法训练与数据闭环;数据治理与标准化:制定并落地湖仓环境下的元数据管理、数据血缘、质量监控、分级分类与 SLA 保障体系,推动数据标准(命名规范、Schema 演进、分区策略等)在湖表层统一实施,涵盖向量字段的 Schema 定义、版本管理与生命周期策略;全链路数据研发支撑:主导从车端日志、车联网原始数据、感知 embedding 到湖仓与向量引擎的端到端链路开发,包括实时采集(Kafka/Pulsar)、流式清洗(Flink)、湖表写入(Paimon)、向量同步(Lance → Milvus)、离线加速(Z-Order/Compaction)、服务化(Trino/Doris/Milvus SDK)及可视化等;平台化与效能提升:参与湖仓与向量检索平台的自动化部署、监控告警、资源隔离与性能调优,提升数据开发效率与系统稳定性。 职位要求 计算机、软件工程或相关专业本科及以上学历,扎实的编程能力,熟练掌握 Java/Scala/Python 中至少一种,能编写高性能、可维护的分布式数据处理代码;深入理解 Flink

XPENG  4 hours ago
XPENG jobs

分布式计算与存储软件工程师 广州 全职 通用智能板块 职位描述 职位描述1. 负责小鹏汽车“扶摇”AI平台数据处理相关的软件开发工作,包括数据加载工具(XDataLoader)和数据集管理平台(XDataset),提供统一的数据加载、转换、缓存与预取能力;目标解决大规模数据加载过程中出现的性能瓶颈、数据一致性、系统稳定性等问题,服务AI大模型的训练和推理;2. 开发并维护高性能 DataLoader SDK,支持自定义采样、并行读取、缓存预取与数据增强等功能,优化多线程/进程流水线,降低I/O与预处理延迟,简化算法团队接入并提升加载效率;3. 搭建通用Dataset管理系统,实现多源异构数据(图片、视频、点云、传感器等)的统一接入、解析与格式化;4. 协同算法团队及其他技术团队,深入理解业务需求,快速响应并落地实现。 职位要求 1. 计算机 / 软件工程硕士或同等经验,3年及以上大规模数据处理经验;有大规模模型训练与推理场景支持经验者优先;2. 精通 Python,具备扎实软件工程基础,良好编程规范和代码质量意识;3. 有以下至少一项实际项目经验;两项及以上者优先: a. 大规模数据加载机制(如 PyTorch DataLoader、NVIDIA DALI、TensorFlow Dataset、Hugging Face Datasets) b. Parquet/ORC 等列式存储格式及相关生态(如Petastorm),能设计高效的分区、压缩与向量化读取流程,优化批量数据访问性能。 c. Linux文件系统与网络I/O,能针对NFS、对象存储等场景进行性能调优;有云存储系统(如阿里云OSS、CPFS、火山引擎vePFS)相关经验。4. 具备关系型数据库(MySQL/PostgreSQL)与NoSQL(Redis/MongoDB等)相关经验,了解元数据与缓存管理;5. 具备大规模分布式数据处理、性能优化与问题排查经验,能定位并高效解决复杂的性能问题;熟悉Apache Ray、Kubeflow/Airflow、Prometheus等开源项目者优先;6. 具有良好的跨团队沟通能力和协作精神,责任心强,善于主动推进问题解决。加分项1.

Premium Full-time PyTorch AI
XPENG  4 hours ago

Subscribe for job alerts and resources to make your job search easier!

Confirmation email sent to

Check your email and click on the link to start receiving your job alerts

Receive the latest job openings for:

python spark jobs in guangzhou

You also might be interested in:

AI

Confirmation email sent to

Check your email and click on the link to start receiving your job alerts

All Filters Apply
Sort by
Skills
Job Type
Employer/Recruiter