Date Posted

Job Title

Skills

Location

Job Type

Employer/Recruiter

Experience

All Filters

Kubernetes Python Jobs In 上海 - 65 Job Positions Available

Top Cities:

Shanghai

kubernetes python jobs nationwide

kubernetes python jobs in 上海

1 – 20 of 65 jobs

Python开发实习生

智元创新（上海）科技有限公司 ( Shanghai )

Python开发实习生上海实习职位描述参与云端数据处理管线的开发、维护与优化工作，协助完成数据从采集、处理到训练全链路的工程化落地；负责数据Pipeline相关模块的代码编写、单元测试与文档撰写，保障代码质量与可维护性；协助排查数据流转过程中的异常与性能瓶颈，参与日志分析、问题定位与修复工作；参与数据管线自动化工具与监控脚本的开发，提升数据运维效率。职位要求硕士在读，计算机、软件工程、人工智能等相关专业，每周至少实习4天，实习期3个月以上；扎实的Python编程基础，熟悉常用数据结构与设计模式，代码风格规范；了解数据处理基础流程，有ETL/数据Pipeline开发经验者优先；了解Docker、Kubernetes等容器化技术，有云端开发经验者优先；具备良好的学习能力与团队协作精神，对数据工程领域有热情。加分项了解Airflow、DolphinScheduler等工作流调度框架；了解Spark、Flink等大数据处理框架；了解Git协作开发与CI/CD流程；有开源项目贡献或技术博客者优先。投递...

Premium Full-time

智元创新（上海）科技有限公司 20 days ago

Data Engineer

Makro PRO ( Shanghai )

We are seeking an experienced Senior Data Engineer to design, implement, and maintain our data infrastructure and pipelines. The ideal candidate will have a strong background in data engineering, big data technologies, and cloud platforms. You

Premium Full-time NoSQL Stream Processing Big Data Hive Containerization

Makro PRO 14 days ago

Upload Your Resume — Let employers contact you directly

自动驾驶仿真平台高级工程师

ZERON 零一汽车 ( Shanghai )

自动驾驶仿真平台高级工程师上海全职职位描述负责自动驾驶仿真平台核心架构设计与开发，构建高保真场景及车辆动力学模型。-搭建大规模分布式仿真系统，优化任务调度与并发性能，支持海量场景的高效并行运行。-完善软件闭环测试体系，打通数据回灌与算法验证流程，提升仿真与实车的一致性。-集成生成式AI技术，自动化生成Corner Case场景，解决长尾问题并降低测试成本。-负责仿真工具链的维护与迭代，为算法团队提供稳定的复现环境与自动化回归验证支持。职位要求 -具有计算机/电子信息/机器人等相关学科硕士及以上学历。-熟悉自动驾驶仿真技术栈（开环/闭环/回灌/生成)，有大规模数据闭环系统的实际落地经验。-深刻理解自动驾驶全栈算法，熟悉车辆动力学，有商用车自动驾驶经验优先。-熟悉分布式计算原理，有Kubernetes/Docker容器化部署或大规模仿真任务调度经验者优先。-精通Python/C++编程-具有良好的工作态度，团队合作精神，主观能动性和沟通能力。投递...

Premium Full-time

ZERON 零一汽车 14 days ago

机器学习平台研发工程师/专家

酷睿程 (CARIZON) ( Shanghai )

机器学习平台研发工程师/专家北京、上海社招全职互联网 / 电子 / 网游 - 研发职位描述平台设计与开发：参与设计、开发和维护公司统一的机器学习平台，涵盖从模型开发、模型训练、评估到部署监控的全生命周期。分布式训练系统优化：研发和优化支持大规模分布式训练（如PyTorch DDP, FSDP等）的底层系统，提升GPU集群利用率和训练效率。训练任务稳定性保障：研发稳定性保障的工具和平台集成，包括故障检测以及故障自动化容错等能力。资源调度与云原生集成：基于Kubernetes生态优化基于GPU等异构资源的调度策略和弹性伸缩能力。职位要求计算机科学、软件工程或相关专业本科及以上学历，3年以上相关领域开发经验。扎实的计算机基础，精通Python/Go中的至少一门语言，具备优秀的系统设计、编码和调试能力。熟悉PyTorch 的基本原理和内部机制，能解决常见的训练框架问题深入理解机器学习工作流，对模型开发、训练、评估、部署的痛点有深刻认识。熟悉Docker、Kubernetes，有在云原生环境下开发和部署服务的经验。具备良好的团队协作精神和沟通能力，有强烈的责任心和自驱力。投递...

Premium Full-time

酷睿程 (CARIZON) 28 days ago

MaaS 架构师

MiniMax ( Shanghai )

MaaS 架构师上海、北京社招全职互联网 / 电子 / 网游 - 研发职位描述作为 MaaS 架构师，你将全面负责大模型线上服务的全链路架构设计与质量保障，构建高性能、高可用、可弹性伸缩的模型服务平台，确保模型在生产环境中的 SLA、延迟、吞吐量达到业界领先水平。工作包括不限于：负责 MaaS 平台架构设计，明确模型从产出到上线的全链路环节，对模型服务的 SLA、延迟、吞吐量等核心指标负责主导大模型推理网关的设计与建设，包括多模型路由、流量调度、优先级队列、多租户隔离与 Token 级计量能力设计 GPU 资源弹性伸缩策略，结合模型特征与负载信号实现智能调度与资源高效利用推动 KV Cache 感知调度的方案设计与落地，包括 Prefix Caching、Paged Attention 等技术在生产环境的应用，提升显存利用率与系统吞吐参与单机推理框架的选型、适配与性能调优，跟进 vLLM / TensorRT-LLM / SGLang

Premium Full-time C++ Tokens MOE CUDA Kubernetes

MiniMax 28 days ago

AI/ML Scientist

Maersk ( Shanghai )

We Offer Joining Maersk, you will become part of the global family of the company that moves 20% of global trade every day all the way, where one of our core values is Our Employees. It

Premium Full-time FinTech Machine Learning Python API Development Pregnancy

Maersk 27 days ago

Get Hired 2x Faster
Connect with Top Employers Directly

General Engineer Intern - 工程实习生

Thatgamecompany ( Shanghai )

关于 thatgamecompany thatgamecompany（TGC）是《Sky 光·遇》的开发团队。我们相信游戏可以触及更广泛的人群、传递真实的情感——这个信念驱动着我们在技术上的每一个决策，从gameplay 游戏引擎、服务器架构和基础设施，我们都在认真地构建和打磨。上海工程团队负责 Sky 的Gameplay、后端服务、游戏引擎性能以及基础设施逻辑。我们的工作面向全球真实玩家的系统，会出真实的问题，需要做真实的决策。这个实习项目的设计理念我们知道很多工程师是在做项目的成长过程中才真正发现自己擅长什么、喜欢什么——而不是在入职之前就已经想清楚了。所以我们不会一开始就把你分配到一个固定的岗位上。这个 Program 给你时间先四处走走，真正了解这里的工程师在做什么，再做出属于你自己的选择。实习项目结构：第 1–3 周（探索期）入职后，你会加入中国工程团队的日常工作节奏——参加stand-up, code review,技术讨论等等。你将有机会近距离观察并接触我们现有的工程方向： C++: - Gameplay：负责游戏逻辑系统的设计与实现，与Designer和Engine团队协作 - 游戏引擎：负责渲染性能优化、设备优化，提升画面效果和帧率 Golang & Python: - 后端服务：负责 Sky 服务器的核心逻辑，包括烛火系统、社交系统、高并发性能优化等 - DevOps & 基础设施：负责云集群管理、微服务部署、可观测性以及AI工具链等

Premium Internship Golang DevOps Gameplay Kubernetes

Thatgamecompany 26 days ago

平台应用数据处理开发工程师（上海）

Desay SV ( Shanghai )

平台应用数据处理开发工程师（上海）上海全职软件类职位描述 1、负责算法工程化平台的K8s集群部署、运维与优化，保障平台稳定运行2、算法链路数据流水线开发，构建高吞吐量、低延迟的实时与批量数据处理流水线，负责自动驾驶原始传感器数据的清洗、转换、存储等核心功能组件的开发与维护3、对接算法团队需求，将模型落地到工程化平台，解决部署和数据处理中的技术问题职位要求 1、熟悉Docker、Kubernetes等容器化技术，具备集群部署、资源调度、容器化编排经验2、熟练使用Python/Go/Shell脚本等任意一种编程语言，熟悉Linux操作系统（常用命令、Shell脚本）3、熟悉Redis、MySQL、PostgresSQL等数据库，了解工作流引擎（Argo、Argo-Events、Airflow)者优先4、了解ROS2或者其他中间件基本概念，有相关的数据解析、接口对接经验优先5、有大模型应用开发、智能驾驶、机器人相关业务经验优先投递...

Premium Full-time

Desay SV 25 days ago

NCX Engineer, AI Accelerator

Nvidia ( Shanghai )

NVIDIA is seeking an NCX Engineer, AI Accelerator to join our AI Accelerator team, collaborating closely with strategic customers to implement and enhance groundbreaking AI workloads! You will deliver hands-on technical assistance for advanced AI deployments,

Premium Full-time Infrastructure as Code Architecture AI Ml NEO

Nvidia 24 days ago

Deep Learning Compiler CI/Infrastructure Engineer

Nvidia ( Shanghai )

NVIDIAs invention of the GPU 1999 sparked the growth of the PC gaming market, redefined modern computer graphics, and revolutionized parallel computing. More recently, GPU deep learning ignited modern AI — the next era of computing

Premium Remote Friendly Full-time Artifacts Distributed Systems GitLab Strengthening Architecture

Nvidia 21 days ago

业务运维Leader

BOKE Technology Co., Ltd ( Shanghai )

业务运维Leader 上海全职互联网 / 电子 / 网游职位描述岗位职责：1. 负责公司业务系统及项目的运维架构设计、交付保障与稳定性治理，围绕发布、变更、回滚、监控、容灾、容量等建立统一标准并推动落地，确保线上系统长期稳定、可扩展、可演进。2. 作为业务运维方向的团队负责人，主导重点业务的运维保障方案设计与实施，推动项目风险识别、发布节奏与应急响应体系建设，提升整体交付下限。3. 主导运维标准化、自动化与工程化建设，与平台工程团队协同推进发布自助化、基线巡检、配置规范、监控治理等能力建设，将运维经验持续沉淀为组织资产。4. 构建并持续优化监控、告警、应急响应与故障复盘机制，在重大线上故障中承担核心技术决策与兜底责任，推动同类问题闭环整改，降低重复性事故。5. 与研发、平台工程、安全等团队紧密协作，推动高可用架构、性能优化、容灾演练、跨地域/多云部署、链路治理等专项工作落地。6. 负责业务运维团队的技术引导与交付质量把控，通过技术评审、方案指导、标准制定、经验沉淀与人才带教，持续提升团队整体能力与稳定性保障水平。任职资格：1. 全日制本科及以上学历，计算机相关专业，10年以上大型互联网、游戏或高并发业务环境下运维、SRE或稳定性建设经验，其中至少3年担任技术核心、技术负责人或团队负责人角色。2. 熟悉 Linux、TCP/IP、容器/Kubernetes、CI/CD、监控告警、日志链路等运维基础体系，具备复杂线上问题独立分析、定位与解决能力。3. 具备高可用架构、容灾、多地域部署、发布回滚、容量规划、性能优化等经验，能够从业务运行视角制定并落地稳定性保障方案。4. 具备较强的自动化与工程化意识，熟悉 Shell、Python、Go、Ansible、Terraform 等至少一种或多种工具，有运维平台化、自动化或治理类项目的实际落地经验。5. 具备良好的系统性思维、责任意识和推动力，能够在技术风险与业务节奏之间做出合理权衡，并推动跨团队协作落地。6. 加分项：平时对 AI 或

Premium Full-time AI

BOKE Technology Co., Ltd 21 days ago

【集团】资深运维架构师

极兔速递 (J&T Express) ( Shanghai )

【集团】资深运维架构师上海全职职位描述 1. 主导集团及分子公司等 IT 基础设施的整体架构设计、战略规划、部署实施以及持续优化工作；2. 构建和管理基于 Linux/Unix 系统的高性能服务器集群，涵盖服务器的选型、安装、深度配置及性能极致调优工作；3. 把控数据库的整体架构和优化策略，包括 MySQL、Oracle 等主流数据库的高级监控、智能备份、高效恢复及深度优化工作；4. 规划和实施监控系统的架构升级，精准定义监控指标、高效采集数据、展示监控结果以及智能告警策略制定等工作；5. 负责关键技术文档的体系化编写和维护，涵盖详细的操作手册、精准的配置文件、复杂的系统架构图等重要文档的撰写和及时更新；6. 协同解决运营中出现的各类高难度技术问题，为团队提供专业的技术支持和深入的培训指导；职位要求 1. 学历与专业：本科及以上学历，计算机相关专业；2. 知识与能力： - 精通 Linux/Unix 操作系统和高级命令，具备深入的系统内核理解和调优经验； - 熟悉主流数据库的底层架构和优化原理，拥有 MySQL、Oracle 等数据库的大型项目实战经验； - 熟练掌握至少一种高级脚本语言，如 Java、Python 等，并能运用其进行复杂系统的自动化开发和运维； - 具备深厚的云计算知识，熟悉主流云平台（如 AWS、Azure、阿里云等）的架构和运维； -

Premium Full-time

极兔速递 (J&T Express) 20 days ago

【集团】平台运维SRE

极兔速递 (J&T Express) ( Shanghai )

【集团】平台运维SRE 上海全职职位描述岗位职责：1.负责公司业务系统的稳定运行与持续优化，提升业务可用性和工程效率，并与业务团队保持紧密沟通与协作；2.负责基础设施与中间件的高可用架构设计、性能优化及容量规划，支持业务高效、可靠迭代；3.主导线上重大问题的排查与紧急故障处理，推动事故复盘、原因分析与持续改进；4.参与应用故障演练、应急预案和SOP建设，保障关键系统在突发情况下快速恢复，并承担 Oncall 轮值；5.持续推进运维自动化建设与创新，探索新技术手段，实现全流程自动化运维，缩短响应时间、降低运维成本；6.制定并完善运维规范与流程，将最佳实践工具化、平台化，提升运维安全性与整体效率。职位要求任职要求：1.本科及以上学历，3年以上互联网公司运维/ SRE 经验；2.熟悉 Linux 操作系统和网络基础，掌握常见中间件（如 Nginx、Redis、Kafka、ElasticSearch、Rocketmq 等）的运维与优化；3.精通 Kubernetes 基础架构与核心组件运行原理，具备云原生技术体系及相关产品的深入实践经验；4.熟悉高并发、高可用、微服务系统架构运维，对分布式部署、两地三中心、业务多活有实践经验，参与过全球化服务部署者优先；5.拥有丰富的线上系统故障排查和性能优化经验，具备快速分析和解决复杂问题的能力；6.至少熟练掌握 Python 或 Go 中的一种语言，具备一定的开发能力；有实际项目开发或平台自动化工具研发经验者优先。7.熟悉并实践过 SRE 方法论和体系建设，具备 SLA/SLO/SLI 指标体系落地经验者优先；8.具备良好的跨团队沟通协作能力、快速学习能力与责任心，能适应 Oncall 机制，工作积极严谨。投递...

Premium Full-time Linux Kubernetes Python

极兔速递 (J&T Express) 20 days ago

【集团】资深运维工程师（GOC）

极兔速递 (J&T Express) ( Shanghai )

【集团】资深运维工程师（GOC）上海全职职位描述一、岗位概述作为企业IT系统应急保障核心技术专家，负责7×24小时、Oncall团队技术赋能与应急体系优化，持续推动运维工作，支撑业务连续性与系统稳定性目标达成；二、核心职责。1、设计并迭代Oncall应急响应流程、故障分级标准与复盘机制，主导监控体系（Prometheus/Grafana等）深度优化，构建覆盖业务全链路的智能告警与预警模型；2、负责故障案例复盘分享、实战演练组织，提升团队整体故障处置能力与技术水平；3、推动运维自动化工具（Shell/Python/Ansible）与自愈能力落地，编写核心系统应急处置预案（DRP）并定期演练，沉淀《重大故障处置手册》与技术知识库；4、与开发、架构、业务、安全团队建立常态化沟通机制，提前识别系统潜在风险（如架构瓶颈、容量不足等），推动风险整改与性能优化，参与核心系统架构评审；职位要求三、任职要求1、本科及以上学历，计算机、软件工程等相关专业，，有互联网、电商、物流等行业背景者优先；2、精通Linux/Unix系统内核级运维，深入掌握网络协议（TCP/IP/HTTP/HTTPS）、数据库（MySQL/Redis/MongoDB）、中间件（Nginx/Kafka/RabbitMQ）原理与调优，具备分布式系统问题排查能力；3、熟练掌握容器化（Docker/Kubernetes）、云平台（AWS/Azure/阿里云/腾讯云）运维技术，能独立设计云原生环境下的应急保障方案；4、具备（如大规模服务雪崩、数据丢失、网络攻击等），能在高压环境下快速决策，主导跨团队协作攻坚；5、精通监控告警工具（Prometheus/Grafana/Zabbix/ELK），具备日志分析、指标建模能力，能编写自动化脚本（Shell/Python）实现故障自愈或效率提升；6、具备优秀的技术视野与问题拆解能力，良好的沟通协调与团队管理意识，能接受轮班/夜班及节假日值班，对系统稳定性有极致追求。投递...

Premium Full-time

极兔速递 (J&T Express) 20 days ago

【集团】资深运维工程师（Linux / 监控方向）

极兔速递 (J&T Express) ( Shanghai )

【集团】资深运维工程师（Linux / 监控方向）上海全职职位描述岗位定位负责公司 Linux 基础设施、服务器运维及监控体系建设，保障业务系统稳定、安全、高效运行；主导监控平台、告警机制、自动化运维及故障治理能力的持续优化。该岗位需要能够从“日常运维”提升到“稳定性治理”和“平台化建设”层面，既能处理复杂故障，也能推动规范、工具、流程与自动化能力落地。岗位职责负责 Linux 服务器、虚拟机及云主机的日常运维、配置管理、容量管理与性能优化。负责业务系统运行环境的部署、变更、巡检、升级及故障处理，保障系统高可用。负责监控平台建设与持续优化，包括主机、应用、中间件、数据库、网络及业务指标监控。负责告警体系设计，包括告警分级、告警收敛、告警降噪、通知策略及升级机制。主导 Prometheus、Zabbix、Grafana、ELK、OpenSearch、日志平台等监控与日志体系建设。负责服务器性能分析与问题定位，包括 CPU、内存、磁盘、网络、IO、负载等指标排查。负责线上复杂故障应急响应、问题复盘及根因分析，推动问题闭环和长期治理。负责建立并持续完善巡检、备份、变更、发布、应急、故障处理等运维标准。推动自动化运维能力建设，包括 Shell、Python、Ansible 等工具开发与批量运维。参与系统架构评审，从运维和稳定性角度提出优化建议，包括高可用、容灾、容量与监控设计。建立 SLA、SLO、告警 MTTA、故障 MTTR 等稳定性指标，并持续跟踪优化。与开发、网络、安全、供应商等团队协作，推动跨团队问题解决。职位要求基础能力本科及以上学历，计算机、网络、软件等相关专业。5 年及以上 Linux 运维经验，具备中大型生产环境运维经验。熟悉 CentOS、Red Hat、Ubuntu 等 Linux 系统，能够独立完成安装、配置、排障及优化。熟悉 TCP/IP、DNS、HTTP、HTTPS、Nginx、Keepalived、LVS 等基础网络与高可用技术。熟悉 VMware、KVM 或云平台运维经验，了解阿里云、腾讯云、AWS、Azure 中至少一种。Linux 能力要求精通 Linux 常用命令、系统服务、systemd、用户权限、文件系统、计划任务、日志管理。能够熟练分析

Premium Full-time MTTR Linux IO Prometheus Grafana

极兔速递 (J&T Express) 20 days ago

资深系统工程师

Papergames ( Shanghai )

资深系统工程师上海全职平台类职位描述 1. 负责 Linux / Windows 服务器及基础设施的部署、配置、监控与优化，保障核心系统稳定运行，并设计高可用、负载均衡及备份容灾方案。2. 通过 Shell / Python / Go 等脚本实现运维自动化，参与监控、配置管理及自动化运维平台建设，推动基础设施标准化与 IaC 实践。3. 负责应用系统的部署、升级与发布流程管理，建立标准化发布机制，并持续监控与优化应用运行环境性能。4. 编写和维护系统架构、运维手册及应急预案，完善运维流程、规范及安全管理制度。5. 参与线上故障应急处理与问题排查，能够从系统、应用及网络等多维度进行问题分析，并推动故障复盘与持续改进。6. 深化对Perforce架构、运维、监控的持续优化。职位要求 1. 全日制本科及以上学历，计算机或相关专业。2. 8 年以上服务器运维或基础架构相关经验（游戏/互联网行业优先）。3. 深入理解 Linux / Windows 操作系统，熟悉云服务（如 AWS、Azure、阿里云等），熟悉 TCP/IP 协议、网络存储技术、数据库管理（尤其是大数据处理）、视频流传输技术等，掌握网络协议、数据库管理、虚拟化技术、容器技术（Docker、Kubernetes）等。4. 具备较强的问题分析与解决能力，在复杂环境中能够快速定位问题并制定有效解决方案；具备良好的风险评估与决策能力，同时拥有优秀的跨部门沟通协调能力，能够清晰地向非技术团队解释技术方案与潜在风险，并持续关注行业新技术，推动运维体系的持续优化与创新。5.

Premium Full-time Shell Linux TCP/IP Python

Papergames 20 days ago

大模型平台 & Infra 工程师

XPENG ( Shanghai )

大模型平台 & Infra 工程师深圳、北京、上海全职智能机器人板块职位描述负责大模型训练、推理和评测的基础设施研发，为算法团队提供高效稳定的工程底座。1、训练系统：设计和优化大规模分布式训练架构（Pretrain/SFT/RL），解决千卡级训练的通信、调度、容错问题；2、推理部署：基于 vLLM 等框架优化大模型推理性能，支撑 VLT/Omni 等模型在 XP5 端侧和云端的部署；3、评测平台：开发 DeepInsight 评测系统，支持 LLM/VLM/WBC/VLA 多类模型的自动化评测、报告生成和 CI/CD 集成；4、MLOps 工具链：构建模型版本管理、实验追踪、数据管理、资源调度等基础设施，提升研发效率；5、RL 训练环境：构建分布式强化学习训练系统，支持 Agent-环境大规模并行交互。职位要求 1、本科及以上学历，计算机、软件工程等相关专业；2、精通 Python，熟练掌握 C++/Go 至少一门；3、在以下至少一个方向有 2 年以上经验：- 分布式训练系统（Megatron-LM/DeepSpeed/FSDP）；- GPU 编程与高性能计算（CUDA/NCCL/RDMA）；- ML 平台开发（Kubernetes/Ray/Airflow）；- 模型推理优化（TensorRT/vLLM/量化部署）；4、理解大模型训练和

Premium Full-time PyTorch Ml

XPENG 20 days ago

数据闭环研发实习生

智元创新（上海）科技有限公司 ( Shanghai )

数据闭环研发实习生北京、上海实习职位描述 1、负责设计与完善数据闭环工具链，包括但不限于：数据清洗、数据标注、数据脱敏等模块的开发；2、不断迭代完善数据处理框架，提高并行计算的速度，优化数据链路的效率；3、与算法工程师协作，利用数据驱动策略与方法，挖掘高价值数据与场景，加速数据传输效率与模型迭代速度。职位要求 1、本科及以上学历，计算机、机器、通信、电子等相关专业；2、扎实的计算机基础知识，较强的逻辑能力和学习能力；深入了解Go、Python、C++等至少一门语言;3、熟悉Airflow、DolphinScheduler等其他开源调度框架，熟悉云原生、kubernetes、Flink等大数据处理组件，有过数据闭环经验者优先；4、熟悉当前开源的数据与大模型产品，熟悉AIGC在数据方向的应用;5、加分项：有数据sense，熟悉OLAP；熟悉ROS，有过人形机器人、自动驾驶开发经验者。投递...

Premium Full-time

智元创新（上海）科技有限公司 20 days ago

DevOps / SRE 实习生

智元创新（上海）科技有限公司 ( Shanghai )

DevOps / SRE 实习生上海实习职位描述参与 CI/CD 流水线的搭建、优化与日常维护（Jenkins / GitHub Actions / ArgoCD）协助维护 Kubernetes 集群，处理 Pod 调度、资源配额、健康检查等日常问题参与监控告警体系建设，配置 Prometheus / Grafana 告警规则和 Dashboard 协助故障排查与复盘，输出 Postmortem 文档编写和维护基础设施自动化脚本（Shell / Python）参与值班轮班，学习线上问题响应和处置流程整理内部运维文档与 Runbook 职位要求在校本科或研究生，计算机、软件工程、网络工程等相关专业熟悉 Linux 基础命令，能独立完成文件管理、进程排查、网络诊断有至少一门编程语言基础：Python /

Premium Full-time DevOps POD Grafana Kubernetes Prometheus

智元创新（上海）科技有限公司 20 days ago

具身智能大模型训练系统开发与优化实习生

智元创新（上海）科技有限公司 ( Shanghai )

具身智能大模型训练系统开发与优化实习生上海实习职位描述将会参与如下四个典型训练系统优化方向工作(包括但不限于下面四个方向)参与方向一：支撑大规模预训练/微调的高效稳定运行关键任务：1. 参与千卡级别分布式训练集群的框架优化，确保训练任务在大规模集群上的稳定性（任务失败率 xxx%）和可恢复性（断点续训时间 xxx分钟）2. 优化训练任务的吞吐量（Throughput），相比基线提升至少 20%3. 参与至少一种并行策略（数据并行、模型并行、流水线并行、MoE并行）的框架级实现或深度优化方向二：降低大模型训练显存占用，支持更大规模模型关键任务：1. 集成或优化至少一种显存节省技术（ZeRO-1/2/3、重计算（Activation Checkpointing）、混合精度训练），使相同GPU下的可训练参数量提升 30% 以上2. 参与FlashAttention、Flash-FFN等高性能算子在分布式训练框架中的集成与适配3. 验证并对比不同并行策略组合（如 FSDP + 张量并行）的显存效率与计算效率方向三：优化跨节点通信效率，降低通信开销关键任务：1. 使用 NCCL 或 CANN ACL profiling工具分析通信瓶颈（AllReduce、AllGather等），并提出至少 2 项有效优化方案2. 参与实现通信与计算的重叠（overlap）优化，使通信隐藏比例提升至 50% 以上3. 探索并验证低比特通信（如 FP8 梯度通信）在训练中的可行性与效果方向四：完善训练框架的可用性与可观测性关键任务：1. 开发或优化训练监控 Dashboard，覆盖多类关键指标（GPU利用率、内存占用、通信耗时、吞吐量、损失曲线）2.

Premium Remote Friendly Full-time PyTorch

智元创新（上海）科技有限公司 20 days ago