Refine Reset All
Recent Searches clear
Sort by
Employer/Recruiter
Experience
Date Posted
Job Title
Job Type
Employer/Recruiter
Experience
All Filters

Kubernetes Python Jobs In 上海 - 55 Job Positions Available

1 – 20 of 55 jobs
智元创新(上海)科技有限公司 jobs

Python开发实习生 上海 实习 职位描述 参与云端数据处理管线的开发、维护与优化工作,协助完成数据从采集、处理到训练全链路的工程化落地;负责数据Pipeline相关模块的代码编写、单元测试与文档撰写,保障代码质量与可维护性;协助排查数据流转过程中的异常与性能瓶颈,参与日志分析、问题定位与修复工作;参与数据管线自动化工具与监控脚本的开发,提升数据运维效率。 职位要求 硕士在读,计算机、软件工程、人工智能等相关专业,每周至少实习4天,实习期3个月以上;扎实的Python编程基础,熟悉常用数据结构与设计模式,代码风格规范;了解数据处理基础流程,有ETL/数据Pipeline开发经验者优先;了解Docker、Kubernetes等容器化技术,有云端开发经验者优先;具备良好的学习能力与团队协作精神,对数据工程领域有热情。加分项了解Airflow、DolphinScheduler等工作流调度框架;了解Spark、Flink等大数据处理框架;了解Git协作开发与CI/CD流程;有开源项目贡献或技术博客者优先。 投递...

Premium Full-time
智元创新(上海)科技有限公司  8 days ago
沐瞳科技 (MOONTON Games) jobs

资深平台运维SRE工程师上海互联网 / 电子 / 网游技术岗位职位描述1. 系统架构与业务稳定性保障:负责参与Kubernetes云原生部署、优化及日常运维,参与架构评审;从可运维性、可靠性、可观测性、基建成本等角度提出专业建议,保障系统与业务的稳定运行。2.Oncall与流程建设:具备Oncall意识,参与线上Oncall流程;深入理解和执行运维规范、变更流程、故障处理流程;对日常Case具备Owner意识,主动提出优化建议并能够推进落地,提升团队协作效率。职位要求 - Linux平台3-8年运维或SRE工作经验,有强烈的责任心和Owner意识,能够独立思考和解决问题 - 云原生: 深入理解Kubernetes架构原理,有大规模Kubernetes集群(生产环境200+节点)的运维经验;熟悉Docker容器技术,理解网络、存储、安全等相关原理;有云原生项目架构规划及落地经验。具备AWS、阿里云、火山引擎等多云厂商的生产运维经验,对常见云产品(SaaS、PaaS、FaaS等)有较深入理解。 - 编程能力: 熟练使用Shell/Python/Golang中的至少两种语言,能够独立完成自动化工具、Operator或运维平台的开发. - Devops理念: 以自动化运维为导向,具备CI/CD流水线(GitLab CI/Jenkins/ArgoCD)实践能力,通过工具驱动运维效率持续提升 - 可观测建设: 有Prometheus、Grafana、Loki、ELK、Jaeger等开源监控、日志、链路追踪组件的在生产环境的使用经验. - 安全意识: 熟悉TCP/IP、HTTP/HTTPS协议,对负载均衡、DNS、安全组、WAF等有实际配置经验;对运维安全有一定理解,能够在运维层面落实安全基线。 - 综合能力: 对新技术有热情、具备良好的自主学习能力,关注云原生生态发展,能够独立思考和技术选型、逻辑思维严谨,技术理解力强,能够从原理层面分析问题做出合理判断、良好的文档编写能力和团队协作精神加分项: - 独立负责过中大型项目运维SRE经验优先 - 有一线互联网大厂的运维SRE经验优先 - 有AIOps、FinOps、ChatOps中一个或多个落地实践经验优先投递...

Premium Full-time
沐瞳科技 (MOONTON Games)  28 days ago
帆书 jobs

高级基础设施运维工程师(大模型/AIGC)上海、北京全职互联网 / 电子 / 网游 - 研发职位描述1、从0到1算力平台建设:负责大模型训练集群的物理规划与资逻辑部署,包括GPU服务器选型、高速无损网络(RoCEV2/IB)架构设计及计算存储资源分配2、大模型训练保障:深度参与百卡级大模型训练任务的运维,优化NCCL通信性能,解决训练过程中的掉卡、慢卡、断点续训及存储IO瓶颈问题3、模型账号网关开发:从零搭建企业级三方模型(OpenAl、Claude、文心一言等)账号聚合网关,实现Token计费统计、多租户限流、Key池自动轮询与容灾切换4、调度与平台化:维护基于Kubernetes(KubeRay/Volcano)或Slurm的高效调度系统,提升GPU资源利用率5、监控与安全:建立精细化的GPU硬件监控体系(如DCGNM),负责API调用的安全审计与内容过滤机制职位要求1、硬核背景:3年以上基础设施运维经验,至少完整参与过一个大模型(LLM)从环境搭建到持续训练的生命周期2、网关能力:精通Golang、Python或Java至少一种后端语言,具备模型API网关或反向代理系统的开发经验,熟悉高并发下的流量治理3、算力专家:深入理解NVIDIAGPU架构,熟悉并行计算框架(DeepSpeed、Megatron-LM)在底层资源上的映射与调优4、网络与存储:熟练配置RoCEv2无损网络(PFC/ECN),了解Lustre、GPFS或JuiceFS等并行文件系统在Al场景下的最佳实践5、工程素养:具备极强的故障排查能力,对系统稳定性有执念,能通过自动化手段(MCP、Ansible、Terraform)解决规模化运维难题加分项:· 有国内外主流模型(如GPT,Claude,DeepSeek,Qwen)深度集成与成本优化经验· 在GitHub有知名Al基础设施、网关或模型运维相关开源项目页献· 熟悉国产算力平台(华为异腾、寒武纪等)的适配与混合训服投递...

帆书  28 days ago
Bambu Lab jobs

【日常实习】AI Agent 系统平台工程师上海、深圳、杭州实习研发日常实习职位描述岗位使命作为系统平台工程师,你将深度参与支撑AI Agent全生命周期的核心运行时系统与开发框架平台的研发工作。你将在资深系统工程师的指导下,接触并实践高性能Agent Runtime引擎、工具调用框架、可观测性体系等工程化前沿课题,在真实的大规模分布式系统环境中磨砺系统设计与工程实现能力,获得高速成长。核心职责1. Agent运行时模块开发与调试协助开发Agent Runtime的核心功能模块,包括生命周期管理、上下文窗口管理、任务状态持久化等基础能力,参与模块单元测试、集成测试与线上Bug排查修复。2. 工具链与插件框架建设参与在导师指导下,参与Tool/Plugin注册与调用框架的功能迭代,协助完善动态工具发现机制、权限控制逻辑及沙箱隔离执行方案,负责相关模块的文档撰写与测试用例补充。3. Agent编排与工作流支撑协助基于LangGraph/AutoGen等框架完善Agent编排引擎的局部功能,参与多智能体协作调度流程的调试与优化,支撑工作流DAG定义与动态任务路由逻辑的工程实现。4. 可观测性体系建设协助参与Agent全链路可观测性基础设施的建设,协助接入Tracing/Logging/Metrics采集管线,协助开发Agent执行轨迹的可视化分析工具,支撑系统稳定性监控需求。5. 技术调研与工程支撑持续跟踪Agent基础设施、MCP/A2A协议、云原生编排等领域的最新进展,输出有实质内容的技术调研报告,为团队架构演进提供参考输入。职位要求基础技术能力1. 熟练掌握至少一门编程语言(Python/Go/Java均可),代码风格规范,具备独立完成功能模块开发的能力2. 了解分布式系统基本概念(如消息队列、服务调用、状态管理等),有相关课程学习或项目实践经验3. 了解Docker/Kubernetes基本使用,能够在容器化环境中部署和调试服务4. 了解大语言模型基本原理及主流API调用方式,有Agent框架(LangChain/LangGraph/AutoGen等)的基础使用经验者优先学业与时间要求1. 在读本科(大三及以上)或硕士研究生,计算机、软件工程、信息工程等相关专业2. 每周可保证 至少4天 稳定工作,实习周期 3个月以上3. 具备良好的自驱力与文档习惯,能独立拆解任务并按时交付加分项1. 有Kafka/Flink/Spark/Ray等大数据或流计算系统的学习或使用经验2. 有AI Coding工具(Cursor/Claude Code/Copilot等)的实际工程使用习惯3. 有开源项目贡献记录或活跃的GitHub主页4. 对系统性能优化、高并发架构设计有浓厚兴趣投递...

Premium Full-time
Bambu Lab  28 days ago
Bambu Lab jobs

【暑期实习】AI Agent 系统平台工程师上海、深圳、杭州实习研发27届暑期实习职位描述岗位使命作为系统平台工程师,你将深度参与支撑AI Agent全生命周期的核心运行时系统与开发框架平台的研发工作。你将在资深系统工程师的指导下,接触并实践高性能Agent Runtime引擎、工具调用框架、可观测性体系等工程化前沿课题,在真实的大规模分布式系统环境中磨砺系统设计与工程实现能力,获得高速成长。核心职责1. 专题课题独立攻关认领一个与Agent运行时或平台框架强相关的工程专题课题(如:Agent长程任务断点恢复机制设计与实现、基于LangGraph的多智能体编排引擎性能优化、Tool调用安全沙箱隔离方案原型验证、Agent全链路Tracing可观测性体系建设等),在导师指导下完成端到端的方案设计与工程实现。2. 核心平台能力建设参与深度参与Agent Runtime或开发框架的关键模块研发,包括但不限于:状态持久化存储、Token预算管理策略、上下文压缩算法、工具调用链路优化、Agent执行轨迹分析等,产出可集成上线或可复用的代码成果。3. 系统性能评估与基准测试设计合理的基准测试方案,建立延迟、吞吐量、资源利用率、可靠性等量化评估指标,对所负责模块进行系统性性能验证与瓶颈分析,输出完整的性能报告与优化建议。4. 开发者体验与SDK建设参与Agent SDK/CLI/API的模块化封装工作,协助完善开发者文档与最佳实践规范,从开发者视角提出并落地提升框架易用性的具体改进方案。5. 前沿技术探索与创新输出结合课题方向,主动调研MCP/A2A协议标准化、云原生Agent调度、Agent评估体系(SWE-Bench/TAU-Bench等)等最新进展,提出具有创新性的工程方案,鼓励在实习期间产出技术分享、开源贡献或论文/专利思路。职位要求基础技术能力:1. 熟练掌握至少一种系统级语言(Go/Java/Rust之一)或Python,具备扎实的编程功底与独立完成完整项目的工程能力2. 理解分布式系统核心概念(分布式一致性、消息队列、状态管理、高可用架构等),有相关系统(Kafka/Flink/Spark/Ray/Redis等)的实际使用或开发经验3. 熟悉Docker/Kubernetes基本原理与操作,有微服务或云原生环境下的系统部署与调试经验4. 了解至少一种主流AI Agent框架(LangGraph/AutoGen/LangChain/Strands等)的设计理念,理解工具调用、工作流编排、记忆管理等核心机制5. 了解大语言模型推理服务基本原理,有RAG系统或向量数据库使用经验者优先学业与时间要求:1. 在读本科(大三及以上)、硕士或博士研究生,计算机、软件工程、信息工程等相关专业2. 可连续全职实习 3个月以上,保证每周出勤4天以上综合素质1. 对构建高可靠、可扩展的Agent基础设施平台充满热情,有强烈的工程质量意识与结果导向2. 具备出色的跨团队沟通能力,能与AI算法工程师、平台工程师和业务团队高效协作3. 有良好的技术文档写作能力,能清晰表达系统设计思路、接口规范与实验结论4. 能快速适应AI Agent领域的高速技术迭代,对将分布式系统经验迁移至Agent基础设施这一全新领域充满探索欲加分项1. 有从0到1设计并实现某一分布式系统组件、Agent框架模块或平台基础设施的完整经历2. 熟悉Agent评估体系(SWE-Bench/TAU-Bench等),有自动化评测集构建或基准测试经验3. 有AI Coding工具(Claude Code/Cursor/Codex CLI等)的深度工程使用经验,具备AI辅助开发的工程化思维4. 在开源社区有高质量项目贡献(尤其是Agent框架、分布式系统或大数据领域)5. 了解GPU集群管理或模型推理优化(vLLM/TensorRT等)的基本原理6. 熟悉多语言技术栈(Go + Python为佳),有跨语言异构系统的设计或集成经验7. 在ACM-ICPC/系统类竞赛中获奖,或在OSDI/SOSP/ATC/EuroSys等系统顶会发表过相关论文投递...

Premium Full-time
Bambu Lab  28 days ago
Bambu Lab jobs

AI Agent系统平台工程师 - Agent运行时与框架体系方向深圳、上海、杭州全职研发职位描述岗位使命负责构建支撑AI Agent全生命周期的核心运行时系统与开发框架平台。你将站在大模型工程化落地的最前沿,设计并实现高性能、高可用、可扩展的Agent运行时引擎、编排调度核心、工具调用框架及可观测性体系,为上层业务Agent提供稳定、高效、安全的底层基础设施与开发范式。如果你拥有大数据/分布式系统基础设施的深厚背景,并对将大模型能力转化为可规模化运行的Agent系统充满热情,这正是属于你的机会。核心职责1. Agent运行时系统(Runtime)设计与研发:负责Agent Runtime内核的设计、研发与性能优化,涵盖Agent生命周期管理、状态持久化、上下文窗口管理、长程任务执行与断点恢复等核心能力,保障智能体核心引擎稳定高效运行。2. Agent编排框架与工作流引擎:基于LangGraph/AutoGen/Strands等主流框架理念,设计并实现Agent编排引擎,支持多智能体协作调度、复杂状态机与工作流DAG定义、动态任务路由与负载分发,构建统一的Agent执行通道抽象。3. 工具链与基础设施底座:构建Tool/Plugin注册与调用框架,支持动态工具发现、权限控制、安全沙箱隔离执行;设计大规模Sandbox系统与公司级Agent Tool网关,保障多租户场景下的安全与资源隔离。4. 大规模Agent系统集成与性能优化:深度结合分布式计算、流处理与高并发系统设计经验,优化端到端LLM推理调用链路,实现Token预算管理、上下文压缩、提示词缓存与模型路由策略,持续降低系统延迟与成本。5. Agent可观测性与治理体系:建设全链路可观测性体系,覆盖Tracing、Logging、Metrics及Agent执行轨迹追踪与分析;构建Agent行为合规检测、Prompt漂移监控及自动化质量评估与回归验证管线。6.开发者平台与SDK建设:模块化输出Agent开发套件,封装API/SDK/CLI,降低业务团队Agent构建与调优门槛;定义并维护Agent开发规范与最佳实践,支撑业务场景快速集成与规模化交付。7. 前沿技术探索与架构演进:持续跟踪业界Agent基础设施、MCP/A2A协议、云原生编排等方向的技术进展,推动新技术在平台中的规模化落地,持续迭代架构以适应不断增长的智能体规模与复杂度需求。职位要求必备技术能力1. 精通至少一种系统级编程语言(Go/Java/Rust)与至少一种AI/脚本语言(Python),具备扎实的编程功底与优秀的系统设计能力;2. 具备3年以上分布式系统或大数据基础设施(如Kafka、Flink、Spark、Ray、HDFS、消息队列等)的设计开发经验,深刻理解分布式一致性、状态管理、高可用架构与弹性伸缩等核心概念;3. 熟悉Docker/Kubernetes等云原生技术栈,具备微服务架构、服务网格(Service Mesh)、容器编排、CI/CD流水线的工程实践经验;4. 熟悉至少一种主流AI Agent开发框架(LangGraph/AutoGen/LangChain/Strands等)的设计理念与底层实现,理解Agent工作流编排、工具调用、记忆管理等核心机制;5. 理解大语言模型(LLM)基本原理与推理部署流程,有RAG系统、向量数据库或模型服务化的工程经验;6. 具备良好的系统抽象能力与组件化设计思维,熟悉事件驱动架构、插件化架构等常见架构模式。经验背景:1. 在大数据平台、分布式调度系统、云原生PaaS平台或高并发消息系统等相关领域有项目实践经验者优先;2. 有Agent运行时系统、Agent平台基础设施或LLM推理服务平台的设计开发经验者优先;3. 熟悉多租户系统设计,具备大规模系统部署、性能优化与容量规划经验;4. 有AI Coding工具(如Claude Code、Cursor、Codex等)的深度使用经验,具备AI辅助开发的工程化思维综合素质:1. 具备优秀的系统抽象、问题拆解与工程架构能力,对构建高可靠、可扩展的Agent基础设施充满热情2. 拥有出色的自驱力、学习能力和跨团队沟通协作能力——你将同时与算法团队、平台工程团队和业务团队深度合作3. 能够快速适应AI Agent领域的高速技术迭代,在快节奏环境中持续学习并输出高质量工程成果4. 对将大数据/分布式系统经验迁移至AI Agent基础设施这一全新领域充满探索欲与使命感加分项1. 有从0到1构建Agent开发框架、Agent运行时或智能体平台的核心架构经历2. 熟悉Agent评估体系(如SWE-Bench、TAU-Bench等),有自动化评测集构建经验3. 了解强化学习(RL)训练基础设施(采样、Reward、回放、训练闭环),有与算法团队协作优化Agent能力的工程经验4. 在开源社区有高质量项目贡献(尤其是Agent框架、分布式系统或大数据领域)5. 有GPU集群管理、模型推理优化(vLLM/TensorRT等)的实践经验6.

Premium Full-time AI
Bambu Lab  28 days ago
知合计算 Zhihe Computing jobs

DevOps集成工程师/专家(CI/CD)杭州、上海全职研发 - 电子 / 半导体职位描述1.参与DevOps平台建设和维护,设计和研发相关自动化工具,包括持续集成(CI)和持续部署(CD)流程;2.管理和维护DevOps工具链,包括但不限于Jenkins、GitLab、Docker、Kubernetes等。3.实现测试和部署流程的自动化,提高代码质量和交付速度,保证代码集成和镜像编译。4.参与自动化框架的设计和实现前端需求。 职位要求1.计算机科学、软件工程或相关领域的本科及以上学历。2.至少3年以上软件开发或DevOps相关工作经验。有丰富的CI/CD、自动化测试和代码质量管理经验。熟悉软件开发流程及管理体系优先。3.具备前端开发经验UVE 或者react,Graphana的优先。4.具备良好的 python, shell 编程能力,熟悉Linux指令,可通过自主开发串联工具链中的缺失部分,完成开发自动部署脚本等。5.精通Robot、Jenkins或LAVA等测试自动化框架、持续集成框架;6.熟悉运维及DevOps相关工具链的使用,熟悉Gitlab CICD优先。投递...

Premium Full-time Shell
知合计算 Zhihe Computing  26 days ago
Scopely jobs

Scopely’s Security Team seeks a Security Engineer to improve the security stance of our infrastructure and production environments. Scopely Engineering leads the development and operation of multiple successful mobile games. We seek creative engineers with excellent

Scopely  26 days ago
CARIZON jobs

软件研发工程师-数据闭环方向(星程长计划)上海、北京正式职位描述参与设计与开发自动驾驶数据闭环平台,助力提升自动驾驶算法的性能与效果;构建与优化数据流的自动化处理和管理流程,为算法的迭代验证与评估提供高效支持;负责平台开发,覆盖数据采集、存储、仿真、评估等关键环节,确保系统的高效性和稳定性;优化数据闭环流程,提升数据使用效率,推动自平台效能的持续提升;开发与维护仿真测试工具,支持自动驾驶场景的高效模拟与算法评估;监控与优化平台性能,定位并解决后端技术问题,分析系统瓶颈并持续优化后端架构与性能。职位要求计算机科学相关专业,本科及以上学历;熟练掌握至少一种后端开发语言(如 Go、Python、C++等),具备实际开发经验;熟悉后端框架及微服务架构设计,能够设计高效、可扩展的后端系统;了解 MySQL、PostgreSQL、MongoDB 等数据库技术,熟悉数据处理工具;了解 Docker、Kubernetes 等容器化技术,有相关经验者优先;具备优秀的逻辑思维能力,能够快速理解业务需求并转化为技术实现;具有良好的团队协作能力,能够与多团队密切配合完成复杂项目;对自动驾驶技术充满热情,具备较强的学习能力与自驱力。加分项:拥有自动驾驶相关实习经验或科研项目经验;在开源社区有相关贡献,或有技术博客分享经验投递...

Premium Full-time
CARIZON  23 days ago
MiniMax jobs

基础设施研发架构师上海社招全职研发 - 基础架构职位描述职位描述1. 负责设计并构建服务于AI业务的基础设施即服务(IaaS)架构,主导从物理资源(计算、存储、网络)到标准化、服务化、可编排的逻辑资源的抽象、封装与管理体系。2. 规划与设计IaaS核心控制平面与数据平面的整体架构,确保资源调度、供给、运维、治理的自动化与高效率,并与上层AI平台(训练/推理/大模型)无缝对接。3. 主导计算服务架构:设计涵盖GPU/CPU等异构算力的资源池化、弹性供给、性能隔离与生命周期管理方案。4. 主导存储服务架构:设计满足AI数据密集型工作负载的存储服务体系,包括高性能并行文件系统、对象存储、缓存加速等服务的统一抽象与供给。5. 主导网络服务架构:设计并优化数据中心网络与服务网络,构建高性能、高可用的网络互联、负载均衡、多租户隔离及安全策略管理能力。6. 负责IaaS层与平台层(CMDB、流程引擎、资源管理平台) 的深度融合架构设计,打通资源定义、审批、供给、监控、回收的全闭环自动化链路。7. 制定IaaS服务的技术标准、API规范、多租户模型与配额管理体系,驱动基础设施的云化与服务化转型,提升资源利用率和运营效率。8. 作为基础设施架构的核心决策者,与硬件、运维、安全及AI平台团队紧密协作,规划和落地面向未来大规模AI业务的技术架构演进路线。职位要求1. 本科及以上学历,计算机、软件工程等相关专业,5年以上基础设施领域研发与架构经验,其中至少2年专注于IaaS、云计算底层或大规模私有云架构设计。2. 精通至少两个核心IaaS领域(计算虚拟化/容器化、软件定义存储、软件定义网络)的架构原理与主流技术栈(如KVM/VMware,Kubernetes,Ceph,软件定义网络方案等)。3. 具备大规模(千节点以上)数据中心或云平台基础设施的端到端架构设计经验,深刻理解从物理资源到服务交付的全链路技术挑战。4. 熟练掌握Go/Java/Python等至少一门语言,具备通过代码清晰表达架构意图和进行关键技术验证的能力。5. 对分布式系统设计、高可用性、可扩展性及容错性有深厚的理论功底和丰富的实战经验。6. 具备优秀的战略思考、复杂问题分解及跨领域技术整合能力,能够高效与各层级技术及非技术人员沟通,推动重大架构决策落地。投递...

Premium Full-time
MiniMax  23 days ago
MiniMax jobs

机器学习系统研发工程师-2026 届上海、北京校招正式互联网 / 电子 / 网游 - 研发2026届校园招聘职位描述1. 参与 MiniMax 机器学习平台的研发,设计和实现机器学习相关的基础设施/算法框架/工具链等,关注机器学习研发过程的稳定性、资源利用率等问题;2. 基于机器学习系统、云原生、云计算架构等多个角度做技术问题解决和探索;3. 覆盖机器学习系统多个子方向领域的工作,包括:资源调度、任务编排、模型训练、模型管理、数据集管理、工作流编排、ML for System等;职位要求1. 熟悉Linux平台下的分布式系统的开发及运维;2. 具有Golang/Python/C/C++等一种高级语言开发经验;3. 熟悉计算机组成、操作系统原理;4. 熟悉分布式系统原理,参与过大规模分布式系统的设计、开发和维护优先;5. 熟悉容器技术,具有Docker、Kubernetes开发或使用经验6. 有机器学习平台研发经验, 有大规模训练任务和推理服务的编排、在离线混部及资源调度经验者优先7. 了解 Pytorch/Tensorflow/JAX/PaddlePaddle/Mindspore等机器学习框架、GPU/NPU/ARM等最新异构计算系统与架构、RDMA高性能网络, 有相关系统研发经验者优先投递...

Premium Full-time
MiniMax  23 days ago
MiniMax jobs

系统研发实习生- AI infra北京、上海校招实习研发 - 基础架构2027届实习生招聘职位描述加入AI基础设施团队,你将在导师指导下参与核心平台系统的学习和实践:1. 参与平台建设: 协助开发与维护CMDB、工单系统、流程引擎等AI Infra关键平台。2. 开发实践: 参与功能模块开发、测试及基础性能调优,提升代码质量。3. 数据链路学习: 协助整合资源编排、调度平台与CMDB/工单等系统数据流。4. 支持资源管理: 开发辅助工具,支持AI平台对底层资源(GPU/CPU)的基础获取与监控。5. 协作体验: 与算法、调度、运维团队协作,了解需求对接流程。你将收获:1. 深度参与工业级AI Infra项目实践(CMDB、工单、资源管理等)。2. 在导师指导下,提升Go/Java/Python开发及微服务架构能力。3. 了解AI训练平台、资源调度等前沿技术,为未来职业奠基。职位要求1. 在读学生: 2027届及以后本科/硕士,计算机、软件工程等相关专业。2. 编程基础: 熟练掌握 Go/Java/Python 至少一门,具备良好编码习惯。3. 技术热情: 对微服务、中间件、数据库及平台系统(CMDB/工单等)有浓厚兴趣。4. 核心素质: 学习能力强、动手实践积极、沟通协作良好。加分项 (非必需):1. 有项目/开源经验(Web开发、系统设计、自动化工具)。2. 了解Kubernetes、AI训练平台或GPU管理基础概念。3. 对可观测性(监控/日志)有初步了解或有开源/社区参与经历。投递...

Premium Full-time AI
MiniMax  23 days ago
MiniMax jobs

机器学习系统研发实习生上海、北京校招正式互联网 / 电子 / 网游 - 研发日常实习职位描述1. 参与 MiniMax 机器学习平台的研发,设计和实现机器学习相关的基础设施/算法框架/工具链等,关注机器学习研发过程的稳定性、资源利用率等问题;2. 基于机器学习系统、云原生、云计算架构等多个角度做技术问题解决和探索;3. 覆盖机器学习系统多个子方向领域的工作,包括:大数据引擎、资源调度、任务编排、模型训练、模型管理、数据集管理、工作流编排、ML for System等;职位要求1. 熟悉Linux平台下的分布式系统的开发及运维;2. 具有Golang/Python/C/C++等一种高级语言开发经验;3. 熟悉计算机组成、操作系统原理;4. 熟悉分布式系统原理,参与过大规模分布式系统的设计、开发和维护优先;5. 了解容器技术,具有Docker、Kubernetes开发或使用经验6. 有机器学习平台研发经验, 有大规模训练任务和推理服务的编排、在离线混部及资源调度经验者优先7. 了解 Pytorch/Tensorflow/JAX/PaddlePaddle/Mindspore等机器学习框架、GPU/NPU/ARM等最新异构计算系统与架构、RDMA高性能网络, 有相关系统研发经验者优先投递...

Premium Full-time
MiniMax  23 days ago
MiniMax jobs

网络架构实习生上海、北京校招实习研发 - 基础架构2027届实习生招聘职位描述1. 参与数据中心内部以太网网络架构的辅助设计与规划,学习核心、汇聚、接入等多层网络拓扑构建、设备选型与基础配置;2. 协助完成企业或运营商专线骨干网络方案的支持工作,了解IP专线/MPLS VPN/VXLAN EVPN等技术的实际应用与高可用保障机制;3. 参与机房网络标准化治理的部分工作,包括VLAN划分、链路冗余部署、广播域控制与基础布线规划;4. 在导师指导下了解跨网络域互通与融合方案(如专线与以太网),学习相关安全与稳定性设计方法;5. 初步参与容器网络(如Kubernetes CNI)的对接与支持工作,了解容器环境下网络通信和基本故障排查流程;职位要求1. 2026届本科或硕士在读,通信、计算机、网络工程及相关专业;2. 对网络基础架构有浓厚兴趣,了解TCP/IP原理,有相关课程设计或实验经验;3. 具备一定的网络基础知识,如VLAN、STP、BGP/OSPF等路由与交换协议,愿意学习MPLS、EVPN等进阶技术;4. 熟悉至少一种主流网络设备(如Cisco、华为等)的基本配置和操作;5. 对容器网络(Kubernetes、CNI)或自动化工具(Ansible、Python等)有初步了解者优先;6. 具备良好的沟通能力和团队协作意识,能够撰写清晰的技术文档;投递...

Premium Full-time
MiniMax  23 days ago
MiniMax jobs

网络架构工程师(以太网 / 专线骨干 / 容器网络方向)上海社招全职研发 - 基础架构职位描述1. 负责数据中心内部以太网网络架构的设计与规划,包含核心、汇聚、接入等网络层级的拓扑结构规划、设备选型和配置规范制定;2. 主导运营商或企业专线骨干网络的设计与演进,包括IP专线/MPLS VPN/VXLAN EVPN等技术方案的制定,保障专线传输的高可用性与稳定性;3. 参与机房网络架构标准化与治理,包括广播域控制、环路防范、冗余链路部署、布线规划、VLAN划分等;4. 负责专线网络与以太网网络的融合与互通方案设计,确保跨域访问的安全性、稳定性和可管理性;5. 参与容器网络(如Kubernetes CNI)架构的对接与支持,提供容器化环境下的网络通信保障与故障排查能力;6. 组织网络运行指标的稳定性分析与故障事件复盘,推进网络架构优化和风险治理;7. 编写并维护网络架构文档、变更记录、应急预案和标准操作流程(SOP);8. 支持跨部门(如云平台、系统、运维、业务方)在网络侧的需求与排障联动。职位要求1. 本科及以上学历,通信、计算机、网络工程等相关专业;2. 具备大型专线/骨干网络(如MPLS VPN、SD-WAN、EVPN等)设计、部署和治理经验,理解QoS、SLA等保障机制;3. 熟悉以太网基础协议及实践经验(如VLAN、LACP、STP/RSTP、VXLAN、ARP优化等);4. 熟悉主流厂商网络设备(如Cisco、Juniper、华为、H3C、Arista)配置管理,具备良好的故障分析与处理能力;5. 了解主流容器网络模型和技术(如CNI、Calico、Flannel、OVN-K8s)及其在混合云/私有云中的实现机制;6. 具备项目管理意识和网络运维体系化思维,良好的沟通与文档输出能力;7. 具备一定的自动化配置或网络可视化能力者(如Ansible、Python、NetBox)优先。加分项:1. 有运营商、IDC或超大规模企业网络架构设计经验;2. 熟悉网络安全、ACL、零信任网络架构者优先;3. 持有 HCIE/CCIE/SP/RS、JNCIP/IE 等专业认证;4. 具备 BGP 大规模网络稳定性治理经验(如收敛、黑洞、路由泄露防护等)优先。投递...

MiniMax  23 days ago
XPENG jobs

【26届校招】大语言模型后训练算法工程师(Foundation Model)上海、深圳正式智能制造 / 工业互联网 / 工业自动化 - 研发职位描述我们正在寻找对大语言模型后训练(Post-training)整体效果调优和推理(inference)效能提升充满热情的算法工程师。您将加入我们的核心研发团队,主要负责将团队自行开发/训练的Dense & MoE 模型在后训练阶段提升通用表现(i.e. MMLU, GSM8K, Ifeval, MTBench, etc)。另外,推进监督微调(SFT)、强化学习 (LLM-RL)等架构设计与部署,以及相关基础设施(Infra)的优化。我们的目标是推出对标开源SOTA表现的自研模型,加速模型在人形机器人、自动驾驶、多模态等前沿领域的落地。工作职责:1. LLM 微调与应用落地:负责设计并进行 LLM 的监督微调(SFT)和强化学习(如 RLHF)等实验,以提升模型在特定应用场景(如代码生成、复杂推理、对话)的表现。主导模型效果的评估体系搭建和优化,确保模型输出的准确性、安全性和一致性。2. 云端训练框架与效率优化:主导 LLM 微调(SFT/RFT)流程在云端环境下的效率优化,包括数据加载、多机通信、资源调度、框架稳定性等方面,确保 SFT 流程的高效、稳定和低成本运行。3. 跨团队协作:与数据和产品团队紧密合作,一同擬定交付標準,并收集应用层的反馈来指导下一轮模型迭代。职位要求岗位需求1. 教育背景: 计算机、人工智能、软件工程等相关专业本科及以上学位。2. 模型实战经验: 具备 LLM(如 LLaMA, GPT, Qwen

XPENG  23 days ago
极兔速递 (J&T Express) jobs

【集团】资深运维架构师上海全职职位描述1. 主导集团及分子公司等 IT 基础设施的整体架构设计、战略规划、部署实施以及持续优化工作;2. 构建和管理基于 Linux/Unix 系统的高性能服务器集群,涵盖服务器的选型、安装、深度配置及性能极致调优工作;3. 把控数据库的整体架构和优化策略,包括 MySQL、Oracle 等主流数据库的高级监控、智能备份、高效恢复及深度优化工作;4. 规划和实施监控系统的架构升级,精准定义监控指标、高效采集数据、展示监控结果以及智能告警策略制定等工作;5. 负责关键技术文档的体系化编写和维护,涵盖详细的操作手册、精准的配置文件、复杂的系统架构图等重要文档的撰写和及时更新;6. 协同解决运营中出现的各类高难度技术问题,为团队提供专业的技术支持和深入的培训指导;职位要求1. 学历与专业:本科及以上学历,计算机相关专业;2. 知识与能力: - 精通 Linux/Unix 操作系统和高级命令,具备深入的系统内核理解和调优经验; - 熟悉主流数据库的底层架构和优化原理,拥有 MySQL、Oracle 等数据库的大型项目实战经验; - 熟练掌握至少一种高级脚本语言,如 Java、Python 等,并能运用其进行复杂系统的自动化开发和运维; - 具备深厚的云计算知识,熟悉主流云平台(如 AWS、Azure、阿里云等)的架构和运维; - 拥有分布式系统、容器技术(如 Docker、Kubernetes)的实践经验;3. 工作经历:8 年以上互联网运维架构经验,有成功的大型项目架构设计和实施案例;4. 个性特征: - 具备卓越的沟通能力和团队领导才能,能够在跨部门合作中发挥关键作用,有效推动项目进展;

Premium Full-time
极兔速递 (J&T Express)  22 days ago
极兔速递 (J&T Express) jobs

【中国】资深系统运维(IDC运维)上海全职职位描述一、岗位概述IDC运维工程师负责保障数据中心基础设施及IT系统的稳定运行,涵盖硬件维护、系统监控、故障处理、网络管理、安全管理等核心职责。需具备跨领域技术能力,适应7×24小时轮班或应急响应机制,确保数据中心高可用性。二、核心职责1.基础设施运维①负责机房服务器、存储设备、网络设备(交换机、路由器、防火墙)的物理安装、配置及日常巡检。②监控电力、制冷、消防等环境系统,确保符合数据中心运行标准(如温度、湿度、供电稳定性)。③管理设备上下架、综合布线,协调施工方完成机房整改或扩容项目。2.数据库优化备份①执行数据备份策略,定期验证备份数据的完整性与可恢复性。②制定数据库优化管理方案,保障数据库稳定运行。(oracle、mysql等主流数据库)③参与制定灾备方案,组织应急演练,确保业务连续性。3.系统运维及云、虚拟化①安装、配置及优化主流操作系统(Linux/Windows)及虚拟化平台(VMware)。②管理公有云资源,云服务配置及维护。(阿里、腾讯、火山等主流云平台)。③使用Ansible等工具实现配置管理自动化、编写Shell/Python脚本优化日常任务。4.监控与故障处理①通过Zabbix、Nagios等工具实时监控服务器性能(CPU、内存、磁盘I/O)、网络流量及业务应用状态。②快速响应硬件故障(如磁盘损坏、电源故障)、软件崩溃或网络攻击,执行数据恢复或系统回滚操作。③编写故障分析报告,总结根因并推动预防措施落地。职位要求1.技术能力①精通Linux系统管理,熟悉文件系统、权限控制及服务配置。②精通数据库运维管理,如oracle,mysql等。③精通虚拟化技术,如vsan等。④了解分布式系统(Hadoop、HBase)或容器技术(Docker、Kubernetes)者优先。2.工具与脚本①熟练使用监控工具(Prometheus、Grafana)及自动化运维平台。②具备Shell/Python脚本编写能力,能独立完成任务调度或数据清洗。3.软技能①良好的跨部门协作能力,能清晰传达技术方案至开发、测试或业务团队。②具备高压环境下的问题解决能力,通过时间管理平衡紧急任务与长期优化。4.资质与经验①计算机、网络通信相关专业优先。②3年以上IDC运维经验,熟悉数据中心,有数据中心建设经验或备份容灾实施经验者优先。③有oracle认证优先。投递...

Premium Full-time
极兔速递 (J&T Express)  22 days ago
Polymer Capital jobs

Company IntroductionPolymer Capital Management is a market-neutral, multi-manager investment platform focused on Asia. Our goal is to discover and nurture the regions top investment talent by combining established institutional support with extensive local financial market knowledge.

Polymer Capital  23 days ago
智元创新(上海)科技有限公司 jobs

DevOps / SRE 实习生上海实习职位描述参与 CI/CD 流水线的搭建、优化与日常维护(Jenkins / GitHub Actions / ArgoCD)协助维护 Kubernetes 集群,处理 Pod 调度、资源配额、健康检查等日常问题 参与监控告警体系建设,配置 Prometheus / Grafana 告警规则和 Dashboard 协助故障排查与复盘,输出 Postmortem 文档 编写和维护基础设施自动化脚本(Shell / Python) 参与值班轮班,学习线上问题响应和处置流程 整理内部运维文档与 Runbook 职位要求在校本科或研究生,计算机、软件工程、网络工程等相关专业熟悉 Linux 基础命令,能独立完成文件管理、进程排查、网络诊断有至少一门编程语言基础:Python / Go / Shell理解 TCP/IP、HTTP、DNS 基本原理加分项(有其一即可)用过

智元创新(上海)科技有限公司  22 days ago

Subscribe for job alerts and resources to make your job search easier!

Confirmation email sent to

Check your email and click on the link to start receiving your job alerts

Receive the latest job openings for:

kubernetes python jobs in 上海

You also might be interested in:

实习生

研发工程师

AI

Pregnancy

DevOps

Orchestration

Confirmation email sent to

Check your email and click on the link to start receiving your job alerts

All Filters Apply
Sort by
Employer/Recruiter
Experience