Python 后端开发实习生北京实习互联网 / 电子 / 网游 - 研发日常实习生职位描述1、负责模型推理部署平台后端服务的开发与维护(API 开发、数据处理、服务集成等)2、参与平台前端对接,配合完成接口联调3、编写单元测试,完善技术文档职位要求1、硕士及以上学历,计算机及相关专业,2027 届及以后毕业2、每周实习至少 4 天,实习期 6 个月以上,Base 北京3、熟练掌握Python,熟悉至少一种 Web 框架(FastAPI/Flask/Django)4、熟悉MySQL/PostgreSQL 至少一种数据库,了解 Redis5、熟悉Linux 环境,熟练使用 Git、Docker6、具备良好的代码规范和团队协作意识加分项:1、有模型推理部署、MLOps 平台或云平台相关项目经验2、熟悉Kubernetes,有容器化部署经验3、有开源项目贡献或技术博客投递...
Python开发实习生 上海 实习 职位描述 参与云端数据处理管线的开发、维护与优化工作,协助完成数据从采集、处理到训练全链路的工程化落地;负责数据Pipeline相关模块的代码编写、单元测试与文档撰写,保障代码质量与可维护性;协助排查数据流转过程中的异常与性能瓶颈,参与日志分析、问题定位与修复工作;参与数据管线自动化工具与监控脚本的开发,提升数据运维效率。 职位要求 硕士在读,计算机、软件工程、人工智能等相关专业,每周至少实习4天,实习期3个月以上;扎实的Python编程基础,熟悉常用数据结构与设计模式,代码风格规范;了解数据处理基础流程,有ETL/数据Pipeline开发经验者优先;了解Docker、Kubernetes等容器化技术,有云端开发经验者优先;具备良好的学习能力与团队协作精神,对数据工程领域有热情。加分项了解Airflow、DolphinScheduler等工作流调度框架;了解Spark、Flink等大数据处理框架;了解Git协作开发与CI/CD流程;有开源项目贡献或技术博客者优先。 投递...
资深平台运维SRE工程师上海互联网 / 电子 / 网游技术岗位职位描述1. 系统架构与业务稳定性保障:负责参与Kubernetes云原生部署、优化及日常运维,参与架构评审;从可运维性、可靠性、可观测性、基建成本等角度提出专业建议,保障系统与业务的稳定运行。2.Oncall与流程建设:具备Oncall意识,参与线上Oncall流程;深入理解和执行运维规范、变更流程、故障处理流程;对日常Case具备Owner意识,主动提出优化建议并能够推进落地,提升团队协作效率。职位要求 - Linux平台3-8年运维或SRE工作经验,有强烈的责任心和Owner意识,能够独立思考和解决问题 - 云原生: 深入理解Kubernetes架构原理,有大规模Kubernetes集群(生产环境200+节点)的运维经验;熟悉Docker容器技术,理解网络、存储、安全等相关原理;有云原生项目架构规划及落地经验。具备AWS、阿里云、火山引擎等多云厂商的生产运维经验,对常见云产品(SaaS、PaaS、FaaS等)有较深入理解。 - 编程能力: 熟练使用Shell/Python/Golang中的至少两种语言,能够独立完成自动化工具、Operator或运维平台的开发. - Devops理念: 以自动化运维为导向,具备CI/CD流水线(GitLab CI/Jenkins/ArgoCD)实践能力,通过工具驱动运维效率持续提升 - 可观测建设: 有Prometheus、Grafana、Loki、ELK、Jaeger等开源监控、日志、链路追踪组件的在生产环境的使用经验. - 安全意识: 熟悉TCP/IP、HTTP/HTTPS协议,对负载均衡、DNS、安全组、WAF等有实际配置经验;对运维安全有一定理解,能够在运维层面落实安全基线。 - 综合能力: 对新技术有热情、具备良好的自主学习能力,关注云原生生态发展,能够独立思考和技术选型、逻辑思维严谨,技术理解力强,能够从原理层面分析问题做出合理判断、良好的文档编写能力和团队协作精神加分项: - 独立负责过中大型项目运维SRE经验优先 - 有一线互联网大厂的运维SRE经验优先 - 有AIOps、FinOps、ChatOps中一个或多个落地实践经验优先投递...
高级基础设施运维工程师(大模型/AIGC)上海、北京全职互联网 / 电子 / 网游 - 研发职位描述1、从0到1算力平台建设:负责大模型训练集群的物理规划与资逻辑部署,包括GPU服务器选型、高速无损网络(RoCEV2/IB)架构设计及计算存储资源分配2、大模型训练保障:深度参与百卡级大模型训练任务的运维,优化NCCL通信性能,解决训练过程中的掉卡、慢卡、断点续训及存储IO瓶颈问题3、模型账号网关开发:从零搭建企业级三方模型(OpenAl、Claude、文心一言等)账号聚合网关,实现Token计费统计、多租户限流、Key池自动轮询与容灾切换4、调度与平台化:维护基于Kubernetes(KubeRay/Volcano)或Slurm的高效调度系统,提升GPU资源利用率5、监控与安全:建立精细化的GPU硬件监控体系(如DCGNM),负责API调用的安全审计与内容过滤机制职位要求1、硬核背景:3年以上基础设施运维经验,至少完整参与过一个大模型(LLM)从环境搭建到持续训练的生命周期2、网关能力:精通Golang、Python或Java至少一种后端语言,具备模型API网关或反向代理系统的开发经验,熟悉高并发下的流量治理3、算力专家:深入理解NVIDIAGPU架构,熟悉并行计算框架(DeepSpeed、Megatron-LM)在底层资源上的映射与调优4、网络与存储:熟练配置RoCEv2无损网络(PFC/ECN),了解Lustre、GPFS或JuiceFS等并行文件系统在Al场景下的最佳实践5、工程素养:具备极强的故障排查能力,对系统稳定性有执念,能通过自动化手段(MCP、Ansible、Terraform)解决规模化运维难题加分项:· 有国内外主流模型(如GPT,Claude,DeepSeek,Qwen)深度集成与成本优化经验· 在GitHub有知名Al基础设施、网关或模型运维相关开源项目页献· 熟悉国产算力平台(华为异腾、寒武纪等)的适配与混合训服投递...
【日常实习】AI Agent 系统平台工程师上海、深圳、杭州实习研发日常实习职位描述岗位使命作为系统平台工程师,你将深度参与支撑AI Agent全生命周期的核心运行时系统与开发框架平台的研发工作。你将在资深系统工程师的指导下,接触并实践高性能Agent Runtime引擎、工具调用框架、可观测性体系等工程化前沿课题,在真实的大规模分布式系统环境中磨砺系统设计与工程实现能力,获得高速成长。核心职责1. Agent运行时模块开发与调试协助开发Agent Runtime的核心功能模块,包括生命周期管理、上下文窗口管理、任务状态持久化等基础能力,参与模块单元测试、集成测试与线上Bug排查修复。2. 工具链与插件框架建设参与在导师指导下,参与Tool/Plugin注册与调用框架的功能迭代,协助完善动态工具发现机制、权限控制逻辑及沙箱隔离执行方案,负责相关模块的文档撰写与测试用例补充。3. Agent编排与工作流支撑协助基于LangGraph/AutoGen等框架完善Agent编排引擎的局部功能,参与多智能体协作调度流程的调试与优化,支撑工作流DAG定义与动态任务路由逻辑的工程实现。4. 可观测性体系建设协助参与Agent全链路可观测性基础设施的建设,协助接入Tracing/Logging/Metrics采集管线,协助开发Agent执行轨迹的可视化分析工具,支撑系统稳定性监控需求。5. 技术调研与工程支撑持续跟踪Agent基础设施、MCP/A2A协议、云原生编排等领域的最新进展,输出有实质内容的技术调研报告,为团队架构演进提供参考输入。职位要求基础技术能力1. 熟练掌握至少一门编程语言(Python/Go/Java均可),代码风格规范,具备独立完成功能模块开发的能力2. 了解分布式系统基本概念(如消息队列、服务调用、状态管理等),有相关课程学习或项目实践经验3. 了解Docker/Kubernetes基本使用,能够在容器化环境中部署和调试服务4. 了解大语言模型基本原理及主流API调用方式,有Agent框架(LangChain/LangGraph/AutoGen等)的基础使用经验者优先学业与时间要求1. 在读本科(大三及以上)或硕士研究生,计算机、软件工程、信息工程等相关专业2. 每周可保证 至少4天 稳定工作,实习周期 3个月以上3. 具备良好的自驱力与文档习惯,能独立拆解任务并按时交付加分项1. 有Kafka/Flink/Spark/Ray等大数据或流计算系统的学习或使用经验2. 有AI Coding工具(Cursor/Claude Code/Copilot等)的实际工程使用习惯3. 有开源项目贡献记录或活跃的GitHub主页4. 对系统性能优化、高并发架构设计有浓厚兴趣投递...
【暑期实习】AI Agent 系统平台工程师上海、深圳、杭州实习研发27届暑期实习职位描述岗位使命作为系统平台工程师,你将深度参与支撑AI Agent全生命周期的核心运行时系统与开发框架平台的研发工作。你将在资深系统工程师的指导下,接触并实践高性能Agent Runtime引擎、工具调用框架、可观测性体系等工程化前沿课题,在真实的大规模分布式系统环境中磨砺系统设计与工程实现能力,获得高速成长。核心职责1. 专题课题独立攻关认领一个与Agent运行时或平台框架强相关的工程专题课题(如:Agent长程任务断点恢复机制设计与实现、基于LangGraph的多智能体编排引擎性能优化、Tool调用安全沙箱隔离方案原型验证、Agent全链路Tracing可观测性体系建设等),在导师指导下完成端到端的方案设计与工程实现。2. 核心平台能力建设参与深度参与Agent Runtime或开发框架的关键模块研发,包括但不限于:状态持久化存储、Token预算管理策略、上下文压缩算法、工具调用链路优化、Agent执行轨迹分析等,产出可集成上线或可复用的代码成果。3. 系统性能评估与基准测试设计合理的基准测试方案,建立延迟、吞吐量、资源利用率、可靠性等量化评估指标,对所负责模块进行系统性性能验证与瓶颈分析,输出完整的性能报告与优化建议。4. 开发者体验与SDK建设参与Agent SDK/CLI/API的模块化封装工作,协助完善开发者文档与最佳实践规范,从开发者视角提出并落地提升框架易用性的具体改进方案。5. 前沿技术探索与创新输出结合课题方向,主动调研MCP/A2A协议标准化、云原生Agent调度、Agent评估体系(SWE-Bench/TAU-Bench等)等最新进展,提出具有创新性的工程方案,鼓励在实习期间产出技术分享、开源贡献或论文/专利思路。职位要求基础技术能力:1. 熟练掌握至少一种系统级语言(Go/Java/Rust之一)或Python,具备扎实的编程功底与独立完成完整项目的工程能力2. 理解分布式系统核心概念(分布式一致性、消息队列、状态管理、高可用架构等),有相关系统(Kafka/Flink/Spark/Ray/Redis等)的实际使用或开发经验3. 熟悉Docker/Kubernetes基本原理与操作,有微服务或云原生环境下的系统部署与调试经验4. 了解至少一种主流AI Agent框架(LangGraph/AutoGen/LangChain/Strands等)的设计理念,理解工具调用、工作流编排、记忆管理等核心机制5. 了解大语言模型推理服务基本原理,有RAG系统或向量数据库使用经验者优先学业与时间要求:1. 在读本科(大三及以上)、硕士或博士研究生,计算机、软件工程、信息工程等相关专业2. 可连续全职实习 3个月以上,保证每周出勤4天以上综合素质1. 对构建高可靠、可扩展的Agent基础设施平台充满热情,有强烈的工程质量意识与结果导向2. 具备出色的跨团队沟通能力,能与AI算法工程师、平台工程师和业务团队高效协作3. 有良好的技术文档写作能力,能清晰表达系统设计思路、接口规范与实验结论4. 能快速适应AI Agent领域的高速技术迭代,对将分布式系统经验迁移至Agent基础设施这一全新领域充满探索欲加分项1. 有从0到1设计并实现某一分布式系统组件、Agent框架模块或平台基础设施的完整经历2. 熟悉Agent评估体系(SWE-Bench/TAU-Bench等),有自动化评测集构建或基准测试经验3. 有AI Coding工具(Claude Code/Cursor/Codex CLI等)的深度工程使用经验,具备AI辅助开发的工程化思维4. 在开源社区有高质量项目贡献(尤其是Agent框架、分布式系统或大数据领域)5. 了解GPU集群管理或模型推理优化(vLLM/TensorRT等)的基本原理6. 熟悉多语言技术栈(Go + Python为佳),有跨语言异构系统的设计或集成经验7. 在ACM-ICPC/系统类竞赛中获奖,或在OSDI/SOSP/ATC/EuroSys等系统顶会发表过相关论文投递...
AI Agent系统平台工程师 - Agent运行时与框架体系方向深圳、上海、杭州全职研发职位描述岗位使命负责构建支撑AI Agent全生命周期的核心运行时系统与开发框架平台。你将站在大模型工程化落地的最前沿,设计并实现高性能、高可用、可扩展的Agent运行时引擎、编排调度核心、工具调用框架及可观测性体系,为上层业务Agent提供稳定、高效、安全的底层基础设施与开发范式。如果你拥有大数据/分布式系统基础设施的深厚背景,并对将大模型能力转化为可规模化运行的Agent系统充满热情,这正是属于你的机会。核心职责1. Agent运行时系统(Runtime)设计与研发:负责Agent Runtime内核的设计、研发与性能优化,涵盖Agent生命周期管理、状态持久化、上下文窗口管理、长程任务执行与断点恢复等核心能力,保障智能体核心引擎稳定高效运行。2. Agent编排框架与工作流引擎:基于LangGraph/AutoGen/Strands等主流框架理念,设计并实现Agent编排引擎,支持多智能体协作调度、复杂状态机与工作流DAG定义、动态任务路由与负载分发,构建统一的Agent执行通道抽象。3. 工具链与基础设施底座:构建Tool/Plugin注册与调用框架,支持动态工具发现、权限控制、安全沙箱隔离执行;设计大规模Sandbox系统与公司级Agent Tool网关,保障多租户场景下的安全与资源隔离。4. 大规模Agent系统集成与性能优化:深度结合分布式计算、流处理与高并发系统设计经验,优化端到端LLM推理调用链路,实现Token预算管理、上下文压缩、提示词缓存与模型路由策略,持续降低系统延迟与成本。5. Agent可观测性与治理体系:建设全链路可观测性体系,覆盖Tracing、Logging、Metrics及Agent执行轨迹追踪与分析;构建Agent行为合规检测、Prompt漂移监控及自动化质量评估与回归验证管线。6.开发者平台与SDK建设:模块化输出Agent开发套件,封装API/SDK/CLI,降低业务团队Agent构建与调优门槛;定义并维护Agent开发规范与最佳实践,支撑业务场景快速集成与规模化交付。7. 前沿技术探索与架构演进:持续跟踪业界Agent基础设施、MCP/A2A协议、云原生编排等方向的技术进展,推动新技术在平台中的规模化落地,持续迭代架构以适应不断增长的智能体规模与复杂度需求。职位要求必备技术能力1. 精通至少一种系统级编程语言(Go/Java/Rust)与至少一种AI/脚本语言(Python),具备扎实的编程功底与优秀的系统设计能力;2. 具备3年以上分布式系统或大数据基础设施(如Kafka、Flink、Spark、Ray、HDFS、消息队列等)的设计开发经验,深刻理解分布式一致性、状态管理、高可用架构与弹性伸缩等核心概念;3. 熟悉Docker/Kubernetes等云原生技术栈,具备微服务架构、服务网格(Service Mesh)、容器编排、CI/CD流水线的工程实践经验;4. 熟悉至少一种主流AI Agent开发框架(LangGraph/AutoGen/LangChain/Strands等)的设计理念与底层实现,理解Agent工作流编排、工具调用、记忆管理等核心机制;5. 理解大语言模型(LLM)基本原理与推理部署流程,有RAG系统、向量数据库或模型服务化的工程经验;6. 具备良好的系统抽象能力与组件化设计思维,熟悉事件驱动架构、插件化架构等常见架构模式。经验背景:1. 在大数据平台、分布式调度系统、云原生PaaS平台或高并发消息系统等相关领域有项目实践经验者优先;2. 有Agent运行时系统、Agent平台基础设施或LLM推理服务平台的设计开发经验者优先;3. 熟悉多租户系统设计,具备大规模系统部署、性能优化与容量规划经验;4. 有AI Coding工具(如Claude Code、Cursor、Codex等)的深度使用经验,具备AI辅助开发的工程化思维综合素质:1. 具备优秀的系统抽象、问题拆解与工程架构能力,对构建高可靠、可扩展的Agent基础设施充满热情2. 拥有出色的自驱力、学习能力和跨团队沟通协作能力——你将同时与算法团队、平台工程团队和业务团队深度合作3. 能够快速适应AI Agent领域的高速技术迭代,在快节奏环境中持续学习并输出高质量工程成果4. 对将大数据/分布式系统经验迁移至AI Agent基础设施这一全新领域充满探索欲与使命感加分项1. 有从0到1构建Agent开发框架、Agent运行时或智能体平台的核心架构经历2. 熟悉Agent评估体系(如SWE-Bench、TAU-Bench等),有自动化评测集构建经验3. 了解强化学习(RL)训练基础设施(采样、Reward、回放、训练闭环),有与算法团队协作优化Agent能力的工程经验4. 在开源社区有高质量项目贡献(尤其是Agent框架、分布式系统或大数据领域)5. 有GPU集群管理、模型推理优化(vLLM/TensorRT等)的实践经验6.
Company Description About Grab and Our Workplace Grab is Southeast Asias leading superapp. From getting your favourite meals delivered to helping you manage your finances and getting around town hassle-free, weve got your back with everything.
Devops工程师南京全职互联网 / 电子 / 网游职位描述岗位职责:1. 负责系统运维架构的设计及业务系统的发布、变更、维护等工作;2. 负责 DevOps 体系实践工作,建立和实施系统部署自动化和标准化、实现持续集成、持续交付;3. 参与系统监控和应急响应,保障服务的持续运行;4. 运维文档的建立、维护、更新;职位要求岗位要求:1. 大学本科及以上学历,计算机及相关专业;2. 3年以上的线上运维经验,具备完善的运维知识体系;3. 1年以上python或者golang开发经验;4. 熟悉 Linux操作系统,熟悉常见数据库(mysql/redis);5. 熟悉 Kubernetes 生态,例如 Docker,Kubernetes, Prometheus,etcd等,拥有Kubernetes证书者优先;6. 有 AWS 或者其他云平台使用经验,拥有云平台证书者优先;7. 具备Kafka,ClickHouse运维经验其中一项者优先.投递...
运维开发/SRE实习生北京、苏州实习互联网 / 电子 / 网游日常实习生职位描述岗位职责:1、负责各产品线服务的稳定、高效运行,跟踪用户体验,优化运维架构;2、及时响应各类故障报警,快速解决问题恢复业务;职位要求岗位要求:1、计算机相关专业,就读于211/985院校,可稳定工作6个月及以上,每周出勤不少于4天;2、熟练掌握 Linux 基本操作和相关命令,了解 Linux 操作系统基本原理;3、熟悉 Elk、Prometheus、Grafana 等监控日志工具使用;4、熟悉虚拟化和容器技术,如 Esxi、Docker、Kubernetes,了解其原理并能够熟练配置;5、熟悉 Python 开发及常用 web 框架的使用,如 Flask、SQLAlchemy 等,能够熟练进项项目编码;6、对 Kubernetes 有深入了解者优先投递...
DevOps集成工程师/专家(CI/CD)杭州、上海全职研发 - 电子 / 半导体职位描述1.参与DevOps平台建设和维护,设计和研发相关自动化工具,包括持续集成(CI)和持续部署(CD)流程;2.管理和维护DevOps工具链,包括但不限于Jenkins、GitLab、Docker、Kubernetes等。3.实现测试和部署流程的自动化,提高代码质量和交付速度,保证代码集成和镜像编译。4.参与自动化框架的设计和实现前端需求。 职位要求1.计算机科学、软件工程或相关领域的本科及以上学历。2.至少3年以上软件开发或DevOps相关工作经验。有丰富的CI/CD、自动化测试和代码质量管理经验。熟悉软件开发流程及管理体系优先。3.具备前端开发经验UVE 或者react,Graphana的优先。4.具备良好的 python, shell 编程能力,熟悉Linux指令,可通过自主开发串联工具链中的缺失部分,完成开发自动部署脚本等。5.精通Robot、Jenkins或LAVA等测试自动化框架、持续集成框架;6.熟悉运维及DevOps相关工具链的使用,熟悉Gitlab CICD优先。投递...
Scopely’s Security Team seeks a Security Engineer to improve the security stance of our infrastructure and production environments. Scopely Engineering leads the development and operation of multiple successful mobile games. We seek creative engineers with excellent
高级存储工程师惠州全职职位描述1. 全栈存储运维管理对象存储、块存储、分布式存储、云存储(AWS S3/阿里云OSS)及高性能存储(Lustre/GPFS),涵盖部署、监控、调优与故障处理针对传统业务与HPC场景(CAE仿真/AI训练)优化存储架构,提升IO效率与资源利用率2. 性能与可靠性保障建立跨平台监控体系,分析IOPS/延迟/吞吐量等指标,实施QoS策略与负载均衡设计PB级数据容灾方案,包括备份恢复、多活架构及超算存储容灾标准3. 技术演进规划推动混合云/多云存储落地,探索超算与云存储融合架构(如热数据分级迁移)研究存储新技术(软件定义存储/STaaS/NVMe-oF)并推动试点职位要求1. 5年以上存储运维经验,含2年超算/HPC存储管理(Lustre/GPFS/BeeGFS)2. 精通以下至少两个领域:云存储集成(Terraform/AWS EBS)、HPC优化(MPI-IO调优/RDMA网络/元数据扩展)、容灾方案(Veeam/异地多活)3. 熟练使用Python/Shell实现运维自动化优先条件:1. 有PB级存储集群管理经验,熟悉超算硬件(DDN/HPE Apollo)2. 持云平台存储认证(AWS/Azure)或HPC认证(Intel HPC Academy)3. 熟悉容器存储(Kubernetes CSI)及AI训练数据管道投递...
Devops实习生深圳社招实习职位描述职位描述1、协助构建、部署和维护CI/CD流水线。2、参与自动化脚本和工具的开发,以提高开发和运维效率。3、协助监控和优化系统性能,确保系统稳定运行。4、度量体系可视化开发。5、协助排查和解决开发和集成环境中的各种问题。6、编写和维护相关文档,确保团队知识共享职位要求职位要求1、计算机科学、信息技术或相关专业本科或研究生在读。2、了解Linux操作系统,熟悉常见命令。3、了解一种或多种编程语言,如Python、Shell等。4、熟悉版本控制系统,如Git。5、具有快速学习新技术的能力和解决问题的能力。6、具备良好的沟通能力和团队合作精神。加分项:了解Docker和Kubernetes等容器化技术。对DevOps理念和实践有基本了解,如CI/CD、容器化、微服务等。有前后端开发经验(Django Vue3)27届同学优先,提供转正机会投递...
机器学习平台开发实习生(云原生方向)深圳社招实习职位描述岗位职责:1. 机器学习平台功能开发:参与机器学习平台核心功能的设计与开发,包括多租户资源管理、认证鉴权链路优化及服务网格流量控制,提升平台的稳定性与易用性。2. 模型工具链与推理服务开发:负责模型仓库、实验追踪及版本管理能力的建设;参与高性能模型推理服务的开发与调优,打通从模型注册到上线的自动化链路。3. 云原生基础设施优化:协助解决容器化环境下的存储、网络及服务质量等疑难问题,通过生命周期管理、资源编排等手段保障平台服务的可靠性。职位要求任职要求:1. 计算机相关专业,本科或研究生在读,可保证连续 3 个月以上实习。2. 基础扎实:熟悉 Go/Python 至少一门后端语言,了解操作系统和网络基本原理。3. 熟悉 Docker 与 Kubernetes:理解容器化基本概念,掌握镜像构建、Pod、Service、Deployment 等常见资源的使用方式,有实际部署或调试经验者优先。4. 熟悉 PostgreSQL 与 Redis,了解其基本使用方式与常见应用场景。5. 熟悉前端开发:掌握 Vue 框架,具备基本的平台前端页面开发与维护能力。6. 逻辑清晰:面对复杂场景能够有条理地拆解问题,形成自己的排查思路。投递...
混合云架构师惠州全职职位描述(一)混合云平台管理(40%)1. 负责腾讯云、阿里云、华为云等公有云平台的统一管理与资源调度,维护本地私有云与公有云混合架构,保障数据一致性。2. 实施跨云平台资源监控、性能优化及故障排查,根据业务负载动态调度资源,实现公有云与私有云弹性伸缩。3. 优化跨云网络架构,保障数据传输安全与低延迟;建立多云成本管理体系,推行精细化成本优化策略。4. 制定并落地混合云环境统一安全策略,确保符合等保2.0、GDPR等合规要求,管理跨云访问控制、数据加密及审计日志。(二)智算云平台运维管理(50%)1. 负责GPU、NPU等异构算力资源调度与管理,维护智算中心服务器、存储、网络等基础设施,应用并优化液冷、风冷等绿色节能技术。2. 支撑DeepSeek、千问等国产大模型本地化部署与运维,优化大模型训练集群性能,提升GPU利用率;管理模型推理服务,保障高并发场景稳定性。3. 开发自动化运维工具,搭建AI驱动的故障预测与根因分析系统,实施AIOps解决方案,提升运维效率与系统可靠性。4. 实现CPU、GPU、存储、网络等资源统一调度,优化算力分配策略与需求预测模型,提升整体资源利用率与供给精准度。(三)平台建设与创新(10%)1. 参与混合云与智算云平台技术架构设计,推动DPU、RoCE网络、液冷技术等新技术落地应用。2. 制定平台标准化、自动化建设方案,建立完善的运维流程与SOP,推动运维模式从被动响应向主动预防转变。3. 积累并分享运维知识库与最佳实践,完善平台运维体系。职位要求1. 本科及以上学历,计算机、通信、电子工程等相关专业。2. 5年以上云计算或数据中心运维经验,其中3年以上智算/云平台管理经验。(一)技术能力1. 精通腾讯云、阿里云、华为云等主流云平台的管理与运维。2. 熟练掌握Kubernetes、Docker等容器化技术,具备大规模集群管理经验。3. 精通Python/Shell脚本,熟悉Ansible、Terraform等自动化工具。4. 深入理解SDN、VPC、负载均衡等网络技术,熟悉RoCE、InfiniBand等高性能网络。5. 熟悉分布式存储、对象存储、块存储等存储技术。(二)智算平台专项技能1. 熟悉GPU服务器架构、NVIDIA、华为昇腾等AI芯片特性与优化方法。2. 具备大规模AI训练集群运维经验,熟悉模型训练与推理优化技术。3. 了解液冷、PUE优化等绿色节能技术。4. 具备系统性能分析、瓶颈定位与调优能力。投递...
软件研发工程师-数据闭环方向(星程长计划)上海、北京正式职位描述参与设计与开发自动驾驶数据闭环平台,助力提升自动驾驶算法的性能与效果;构建与优化数据流的自动化处理和管理流程,为算法的迭代验证与评估提供高效支持;负责平台开发,覆盖数据采集、存储、仿真、评估等关键环节,确保系统的高效性和稳定性;优化数据闭环流程,提升数据使用效率,推动自平台效能的持续提升;开发与维护仿真测试工具,支持自动驾驶场景的高效模拟与算法评估;监控与优化平台性能,定位并解决后端技术问题,分析系统瓶颈并持续优化后端架构与性能。职位要求计算机科学相关专业,本科及以上学历;熟练掌握至少一种后端开发语言(如 Go、Python、C++等),具备实际开发经验;熟悉后端框架及微服务架构设计,能够设计高效、可扩展的后端系统;了解 MySQL、PostgreSQL、MongoDB 等数据库技术,熟悉数据处理工具;了解 Docker、Kubernetes 等容器化技术,有相关经验者优先;具备优秀的逻辑思维能力,能够快速理解业务需求并转化为技术实现;具有良好的团队协作能力,能够与多团队密切配合完成复杂项目;对自动驾驶技术充满热情,具备较强的学习能力与自驱力。加分项:拥有自动驾驶相关实习经验或科研项目经验;在开源社区有相关贡献,或有技术博客分享经验投递...
自动驾驶仿真算法实习生北京实习职位描述1.利用实车路测数据构建仿真场景,建设不合理场景干预、均景泛化、长尾场景生成与评估等能力2.参与搭建高精度车辆动力学模型,支撑自动驾驶算法在仿真集群的大规模闭环验证3.参与新一代自动驾驶仿真模拟器预研,设计并开发高效的端到端VLM/VLA闭环训练框架职位要求1.硕士及以上学历,计算机/软件工程/自动化/人工智能/计算机视觉等相关专业,具备扎实的数据结构和算法基础2.具备扎实的C++/Python编程能力,至少掌握一种主流机器学习框架(如PyTorch、TensorFlow)3.每周至少实习3-5天,实习期不少于3个月4.同时满足以下至少一项技术要求a.熟悉智能交通流仿真/SmartAgent,了解自回归、Diffusion等技术术在高保真、可控交通流仿真场景生成上的应用,能结合真实场景数据进行模型训练与验证b.熟悉强化学习算法及其在自动驾驶领域的应用,具备使用强化学习问进行仿真训练和优化的实际经验c.不错的工程能力,了解Kubernetes、容器编排、分布式部署或云原生工具链以及常见的消息中间件,如Kafka、RabbitMQ、gRPC或ROS等d.熟悉车辆运动学和动力学原理,了解Carmaker、Carsim、Simulink等主流商业化动力学仿真软件e.具备不错的图形渲染知识,熟悉渲染管线、光线追踪等基本原理,了解Diffusion、Cosmos、StyleGAN等图像域迁移方法,并具备实际落地应用经验者优先5.加分项a.熟悉自动驾驶场景领域相关的算法技术,如感知、预测、规空、端到端、数据合成等b.在相关领域的顶会/顶刊上发表过论文(e.g.,SIGGRAPH,CVPR, ICCV, ECCV, TPAMI, ICLR, ICML, NeuriPS, etc.)c.对World Model、视觉语言模型(VLM)、强化学习(RL有深入理解或实际项目经验者投递...
基础设施研发架构师上海社招全职研发 - 基础架构职位描述职位描述1. 负责设计并构建服务于AI业务的基础设施即服务(IaaS)架构,主导从物理资源(计算、存储、网络)到标准化、服务化、可编排的逻辑资源的抽象、封装与管理体系。2. 规划与设计IaaS核心控制平面与数据平面的整体架构,确保资源调度、供给、运维、治理的自动化与高效率,并与上层AI平台(训练/推理/大模型)无缝对接。3. 主导计算服务架构:设计涵盖GPU/CPU等异构算力的资源池化、弹性供给、性能隔离与生命周期管理方案。4. 主导存储服务架构:设计满足AI数据密集型工作负载的存储服务体系,包括高性能并行文件系统、对象存储、缓存加速等服务的统一抽象与供给。5. 主导网络服务架构:设计并优化数据中心网络与服务网络,构建高性能、高可用的网络互联、负载均衡、多租户隔离及安全策略管理能力。6. 负责IaaS层与平台层(CMDB、流程引擎、资源管理平台) 的深度融合架构设计,打通资源定义、审批、供给、监控、回收的全闭环自动化链路。7. 制定IaaS服务的技术标准、API规范、多租户模型与配额管理体系,驱动基础设施的云化与服务化转型,提升资源利用率和运营效率。8. 作为基础设施架构的核心决策者,与硬件、运维、安全及AI平台团队紧密协作,规划和落地面向未来大规模AI业务的技术架构演进路线。职位要求1. 本科及以上学历,计算机、软件工程等相关专业,5年以上基础设施领域研发与架构经验,其中至少2年专注于IaaS、云计算底层或大规模私有云架构设计。2. 精通至少两个核心IaaS领域(计算虚拟化/容器化、软件定义存储、软件定义网络)的架构原理与主流技术栈(如KVM/VMware,Kubernetes,Ceph,软件定义网络方案等)。3. 具备大规模(千节点以上)数据中心或云平台基础设施的端到端架构设计经验,深刻理解从物理资源到服务交付的全链路技术挑战。4. 熟练掌握Go/Java/Python等至少一门语言,具备通过代码清晰表达架构意图和进行关键技术验证的能力。5. 对分布式系统设计、高可用性、可扩展性及容错性有深厚的理论功底和丰富的实战经验。6. 具备优秀的战略思考、复杂问题分解及跨领域技术整合能力,能够高效与各层级技术及非技术人员沟通,推动重大架构决策落地。投递...
机器学习系统研发工程师-2026 届上海、北京校招正式互联网 / 电子 / 网游 - 研发2026届校园招聘职位描述1. 参与 MiniMax 机器学习平台的研发,设计和实现机器学习相关的基础设施/算法框架/工具链等,关注机器学习研发过程的稳定性、资源利用率等问题;2. 基于机器学习系统、云原生、云计算架构等多个角度做技术问题解决和探索;3. 覆盖机器学习系统多个子方向领域的工作,包括:资源调度、任务编排、模型训练、模型管理、数据集管理、工作流编排、ML for System等;职位要求1. 熟悉Linux平台下的分布式系统的开发及运维;2. 具有Golang/Python/C/C++等一种高级语言开发经验;3. 熟悉计算机组成、操作系统原理;4. 熟悉分布式系统原理,参与过大规模分布式系统的设计、开发和维护优先;5. 熟悉容器技术,具有Docker、Kubernetes开发或使用经验6. 有机器学习平台研发经验, 有大规模训练任务和推理服务的编排、在离线混部及资源调度经验者优先7. 了解 Pytorch/Tensorflow/JAX/PaddlePaddle/Mindspore等机器学习框架、GPU/NPU/ARM等最新异构计算系统与架构、RDMA高性能网络, 有相关系统研发经验者优先投递...