大数据开发工程师 东莞 职能部门类 本科及以上 3-5 年 职位描述 (1)大数据开发1、负责大数据离线开发,使用Sqoop等组件开发每日离线数据采集任务,使用Hive/Spark SQL编写ETL作业过程,处理各种复杂的业务逻辑,根据业务逻辑配置合理的调度顺序;2、负责大数据实时开发,使用Flink/Spark实时计算引擎开发实时流作业,读取接口/文本/数据库日志/消息队列中间件等数据源,经过业务逻辑加工处理后写入大数据平台;3、保障数据产出时效稳定,每天监控数据产出时间,采取调度链路优化,作业优化,SQL优化等手段,提升数据产出效率。(2)集团数据资产建设1、根据各个业务领域项目推进过程中沉淀的数据分析体系,维护成可方便检索,查找和应用的数据资产,包含业务口径,出数频率,数据样例等关键业务和技术元数据;2、根据数据分析师提供的数据质量规则,开发相应的数据校验程序,确保跑数完成后即刻校验,确保高质量的数据资产;3、生成相应的数据服务接口,可供前端应用,BI工具和业务系统调用。(3)数据仓库模型设计1、根据业务领域数据特征以及维度建模的方法,横向划分数据仓库分析主题域,纵向划分层次,达成数据重复利用率高且能快速开发数据需求的目的;2、定义各个数仓分层,考虑数据写入和查询的性能,提升作业的运行速度,报表查询数据时的高复用性和易扩展性;3、通过合理的数据模型设计,提高数据的查询性能和分析效率,降低维护成本。(4)制定规范1、制定公司数据仓库架构设计原则,输出数据仓库模型设计的基本原则;2、制定公司数据开发的开发规范。 职位要求 (1)教育程度:本科毕业3年以上,计算机,信息工程,数学等相关专业毕业;(2)相关经验:具有3年以上大数据开发相关经验;(3)专业能力:1.具备数据仓库架构和设计能力,熟悉维度建模的方法;2.良好的沟通和逻辑思维能力,能够对业务需求进行抽象并据此进行架构设计;3.有过数据资产目录建设和维护的经验;4.熟悉大数据离线和实时开发使用的组件,Hive、Spark、Flink等,熟悉分布式计算和存储的相关原理及高可用机制原理,并可独立排查故障问题;5.熟练使用Dataworks,DolphiScheduler,kettle或其它数据开发工具中的一种;6.熟悉SQL的执行原理,具备优化复杂SQL的能力;7.掌握shell,python,java等编程语言中的一种;8.具有很好的沟通表达能力,勤奋好学,具有很好的团队合作意识。 职位信息 部门: 集团IT部 招聘数量: 1 投递...