数据库后端开发实习生 北京 实习 本科及以上 职位描述 1. 高性能数据引擎开发:设计并实现针对海量显微图像、能谱数据的高性能存储方案(如基于 HDF5, Zarr 或分布式文件系统),优化 I/O 性能以应对 TB 级数据的瞬时吞吐。2. 分布式计算流水线(Pipeline):构建并维护高可用的异步任务调度系统,将图像预处理、分割、定量分析算法集成到分布式计算集群中。3. 数据 API 与中间件设计:为前端可视化工具和算法研究员提供高性能、低延迟的数据访问接口(gRPC/REST),支持多维数据的切片、聚合与流式传输。4. 系统性能调优:针对科学计算场景,进行深度性能剖析(Profiling),优化内存管理、网络传输及多线程并发模型,减少数据处理时延。5. 工程化规范建设:主导数据平台的架构演进,引入容器化(Docker/K8s)、CI/CD 及监控报警体系,确保仪器在 7x24 小时运行下的系统稳定性。 职位要求 1. 教育背景:计算机科学、软件工程或相关专业硕士及以上学历。2. 精通后端语言:精通 Python(FastAPI/Celery/Asyncio)或 Go/C++,具有扎实的底层开发功底。3. 大规模存储经验:熟悉 NoSQL(MongoDB, Cassandra)与对象存储,必须有处理大文件或非结构化科学数据(如 TIFF, HDF5, NetCDF)的实战经验。4. 消息队列与并行调度:熟练使用
大模型数据处理工程师 北京 全职 互联网 / 电子 / 网游 职位描述 【岗位职责】1. 执行大规模训练数据的清洗与预处理工作;2. 开发和维护数据过滤规则体系,设计基于规则的过滤器,开发启发式算法,检测数据异常和质量问题;3. 指导数据标注团队,提供明确的指导和培训;4. 实施数据正确性校验与质量保证,建立数据质量指标和评估机制。 职位要求 【任职要求】1. 统招硕士及以上学历,计算机科学、数据科学或相关专业;2. 一年以上数据处理、数据清洗或数据工程相关经验;3. 精通Python和数据处理库(pandas,numpy等),熟悉大规模数据处理框架(Spark, Dask等),具备设计和实现数据质量控制流程的经验;4. 具备良好的问题解决能力和注重细节的工作态度。【加分项】1. 大语言模型或AI系统数据准备的实际经验2. 具备数据可视化和探索性数据分析能力3. 熟悉CommonCrawl、C4等大规模数据集的处理经验4. 参与过开源大模型数据处理项目5. 有多模态数据处理经验 投递...
大模型数据处理工程师 北京 全职 互联网 / 电子 / 网游 职位描述 1.执行大规模训练数据的清洗与预处理工作;2.开发和维护数据过滤规则体系,设计基于规则的过滤器,开发启发式算法,检测数据异常和质量问题;3.指导数据标注团队,提供明确的指导和培训;4.实施数据正确性校验与质量保证,建立数据质量指标和评估机制。 职位要求 1.统招硕士及以上学历,计算机科学、数据科学或相关专业;2.一年以上数据处理、数据清洗或数据工程相关经验;3.精通Python和数据处理库(pandas,numpy等),熟悉大规模数据处理框架(Spark, Dask等),具备设计和实现数据质量控制流程的经验;4.具备良好的问题解决能力和注重细节的工作态度。【加分项】1.大语言模型或AI系统数据准备的实际经验2.具备数据可视化和探索性数据分析能力3.熟悉CommonCrawl、C4等大规模数据集的处理经验4.参与过开源大模型数据处理项目5.有多模态数据处理经验 投递...