2026届秋招-运维工程师 上海 正式 互联网 / 电子 / 网游 技术 职位描述 职位描述1. 业务全生命周期管理:负责全球业务系统(包含容器化应用及传统应用)的部署上线、变更配置、扩缩容及版本回滚;2. 全球化CI/CD建设:维护并优化基于 GitLab/Jenkins 的自动化发布流水线,确保在不同网络环境下的构建与分发效率;3. 多云资源管理:负责全球各大云厂商(AWS/Google/阿里/腾讯等)的资源申请、网络规划(VPC/CDN/专线)及成本控制;4. 稳定性保障与排障:利用 Prometheus、ELK、ebpf 等工具建立立体化监控体系,负责线上故障(Web应用、数据库、网络层)的快速响应与根因定位;5. 自动化提效:使用 Shell/Python/GOLANG等语言 开发运维小工具,屏蔽异构环境差异,提升日常运维工作的自动化水平。 职位要求 职位要求1. 学历背景:985/211院校全日制统招本科及以上学历,计算机、网络工程、通信等相关专业2026届毕业生;2. Linux 基础:理解 Linux 操作系统原理,能操作常用命令,并对系统性能(CPU/内存/磁盘IO)进行基本分析;3. 网络协议:因涉及全球业务,需理解 TCP/IP、HTTP/HTTPS、DNS、CDN 原理,具备网络抓包分析能力;4. 技术栈认知: 1. 混合架构:既了解 Docker/Kubernetes 等云原生技术,也对
AI基础架构工程师-大规模集群方向 上海 工程类 本科及以上 5-7 年 职位描述 1.大规模集群管理: 负责千卡/万卡级 GPU 集群(如 NVIDIA A100/H100)的日常运维、稳定性保障及容量规划,确保高可用性和高资源利用率。2.容器化平台建设: 基于 Kubernetes (K8s) 构建和优化 AI 训练平台,负责调度系统(Scheduler)的优化,解决资源隔离、优先级调度及断点续训(Checkpointing)等问题。3.故障排查与性能优化: 深入排查分布式训练过程中的疑难杂症(如 NCCL Timeout、GPU 掉卡、网络拥塞等),针对训练任务进行软硬件层面的性能调优。4.底层环境维护: 维护底层驱动(CUDA, cuDNN)、NCCL 通信库及异构硬件的监控体系(Prometheus/Grafana),实现对 GPU、RDMA 网络和存储系统的全链路监控。5.框架支持与对接: 支持主流深度学习框架(PyTorch, TensorFlow, Megatron-LM 等)在集群上的高效运行,优化 Dataloader 和分布式训练启动流程。 职位要求 1.
资深网络工程师(云虚拟方向) 上海 社招 全职 互联网 / 电子 / 网游 职位描述 1.负责私有云整体网络架构设计、迭代优化与深度治理,主导OpenStack+OVN SDN网络集群全栈维护,涵盖OVN南北数据库、ovn-controller、虚拟交换机、网关节点等核心组件,保障云网络架构高可用、高稳定运行。2.深度负责云平台全场景网络能力建设,独立统筹租户网络隔离、东西向虚拟机互通、南北向外网访问、浮动IP、安全组、负载均衡、路由网关等核心网络场景,精准排查流表下发异常、流表冲突、端口阻塞、网络环路、跨节点网络不通等深度SDN疑难故障,持续完成网络性能调优与安全策略加固。3.负责虚拟化底层网络与资源协同治理,熟悉KVM虚拟化原理,统筹宿主机网络负载、虚拟机网络IO调度优化,解决虚拟机网络卡顿、IO抖动、迁移网络异常等底层问题,匹配虚拟化资源池调度与超配管控需求。4.参与私有云架构升级、扩容改造、版本迭代项目,梳理SDN网络拓扑,输出网络架构规范、性能优化方案、故障应急预案与运维标准,持续提升云网络整体可用性与资源利用率。5.负责网络智能化能力建设与AI落地研发,基于AICoding完成网络自动化脚本、智能排障工具、网络巡检Agent开发迭代;落地AI智能排查、配置校验、故障复盘等智能化场景,重构传统网络运维链路,搭建自动化、智能化云网络运营体系。6.承接核心业务网络故障攻坚与兜底,推动线上网络故障闭环复盘,沉淀标准化解决方案,降低故障复现率,支撑全线业务稳定运行。 职位要求 1、本科及以上学历,2年及以上企业级私有云SDN网络架构实战经验,完整参与OpenStack+OVN平台部署、架构改造、版本迭代全流程,具备成熟的云网络架构治理经验。2、精通OVN+OVS SDN组网架构,熟练掌握OVN-NB/SB数据库交互逻辑、ovn-controller运行机制、OVS流表转发原理,吃透云主机东西/南北向全流量转发链路,可独立完成复杂云网络故障全链路定位与修复。3、熟悉OpenStack全组件交互逻辑,精通Neutron与SDN控制器联动机制,了解云资源调度、配额管控、虚拟化生命周期管理,可协同解决网络与计算、存储联动类复杂问题。4、精通KVM虚拟化底层原理,熟悉CPU/内存/磁盘IO/网络IO虚拟化机制、NUMA拓扑、内存气球等技术,具备虚拟化资源池规划、性能调优、底层疑难故障排查能力。5、熟练使用Shell/Python/Golang开发自动化工具,具备AICoding开发能力、AI场景落地经验、团队智能化能力建设经验者优先,能够通过AI工具赋能网络治理与故障提效。 投递...
运维开发工程师(偏日志与数据) 上海 全职 互联网 / 电子 / 网游 职位描述 岗位职责:1. 负责日志与可观测性平台的设计与开发,建设统一的数据采集、处理与可视化体系;2. 维护与扩展日志数据管道(包括 Kafka、ClickHouse、ELK等),保障数据链路高效稳定;3. 开发日志与指标数据的聚合、查询和可视化功能,支撑业务监控、性能分析和故障定位;4. 推动日志、指标、链路等可观测性数据的融合,建设统一的可观测性数据平台;5. 与监控、平台、安全团队协作,提供定制化数据服务与平台能力支持。任职要求:1. 具备扎实的开发能力,熟悉至少一门语言(Python / Golang / Java),能独立完成平台功能开发;2. 熟悉日志与可观测性体系架构,掌握 ELK、Kafka、ClickHouse、FluentBit 等组件的原理与运维;3. 有日志数据处理、管道构建与性能优化经验,能设计高可用、高并发的数据处理链路;4. 了解云原生监控体系(Prometheus、Grafana、OpenTelemetry 等),能结合日志与指标数据实现多维观测;5. 具备日志分析、性能调优与问题排查能力,能独立定位复杂系统问题;6. 有日志/监控类平台(如内部统一可观测性平台、日志查询平台)自研经验者优先(加分项);7. 有数据分析、可视化开发(如 Grafana 插件、前端交互面板)经验者优先(加分项);我们秉承“BE WILD. BE FREE.”的品牌主张,坚持始终创业、简单务实、开放包容、勇于担当的文化理念。在这里——【态度】我们讲求自驱,不设边界,没有人能定义你的舞台和天花板;【氛围】内部真·扁平,新人的意见、不同的观点都有可能成为波克前行的关键;【成长】入职即有指导人和成长伙伴双cover,内部分享+外聘大神助你突破自我;【生活】一日三餐下午茶,房补公寓任你选,节日社团境外游…让游戏不只是工作,更是你的生活! 投递...
测试开发工程师(预研项目) 上海 全职 质量 - 测试开发 职位描述 1. 负责设计开发游戏业务测试相关的测试框架、测试工具与测试组件,提升测试和开发效率。2. 负责客户端性能测试与分析、白盒测试等专项测试,建设客户端性能测试体系。3. 负责网络游戏自动化测试相关工作,完善自动化测试体系,提升项目测试自动化程度。 职位要求 1. 熟悉unity/UE游戏引擎,至少在一个游戏项目内负责过相关测开工作。2. 熟练掌握某个编程语言,如:Golang、Lua、C++、C#、Python、Javascript等;具备扎实的计算机基础,熟悉常用算法和结构。3. 熟悉移动游戏或端游各种专项测试优先。4. 具备系统化开发能力,善于挖掘项目测试痛点,提出并落地解决方案。5. 责任心强,思路清晰,良好的沟通能力和团队协作能力。6. 本科以上学历,至少2-3年开发或测试开发经验。 投递...
We help the world run better At SAP, we keep it simple: you bring your best to us, and well bring out the best in you. Were builders touching over 20 industries and 80% of global
Agent测试开发工程师-支付 北京、上海 社招 全职 研发 - 测试 职位描述 MiniMax 是国内头部大模型公司,开放平台是商业化的核心战场。Token 是大模型公司的货币——怎么让开发者用起来、怎么让企业愿意付费、怎么设计商业模式让收入规模化,是现在以及未来大模型服务最需要回答的问题。而账号体系是用户与公司建立信任的第一道门,支付系统是这份信任兑现为商业结果的最后一公里。这个岗位,就是要用工程化的质量保障能力,把账号与支付这条命脉守到可信赖、零资损、可规模化。职责:- 负责公司级账号体系、支付、套餐与计费的质量保障,覆盖全链路核心场景与端到端验收- 设计与实现账号/支付场景的质量保障体系:包括但不限于功能与接口自动化、资金一致性校验、幂等与并发安全验证、异常资金回滚与补偿验证、容量评估、压测、限流降级验证、容灾切换演练等- 设计与搭建 E2E 测试 Agent / 智能测试机器人,赋能账号注册、风控识别、支付路由、对账核对、异常资金感知等核心流程的自动化验证与质量度量 职位要求 - 3 年以上测试开发经验,有账号体系、交易/支付、ToB业务质量保障与稳定性治理经验- 熟悉Python/JavaScript/Golang等至少一门语言,具备脚本级独立开发能力;熟练vibe-coding优先- 能端到端负责,从业务目标出发设计质量方案,并能在工程落地中持续演进- 具备优秀的沟通协作能力,热衷hands on 解决问题,对质量与稳定性有长期追求- 主导过大流量、高一致性、资金类系统的稳定性治理与资损防控项目者优先 投递...
We help the world run better At SAP, we keep it simple: you bring your best to us, and well bring out the best in you. Were builders touching over 20 industries and 80% of global
高级基础设施运维工程师(大模型/AIGC) 上海、北京 全职 互联网 / 电子 / 网游 - 研发 职位描述 1、从0到1算力平台建设:负责大模型训练集群的物理规划与资逻辑部署,包括GPU服务器选型、高速无损网络(RoCEV2/IB)架构设计及计算存储资源分配2、大模型训练保障:深度参与百卡级大模型训练任务的运维,优化NCCL通信性能,解决训练过程中的掉卡、慢卡、断点续训及存储IO瓶颈问题3、模型账号网关开发:从零搭建企业级三方模型(OpenAl、Claude、文心一言等)账号聚合网关,实现Token计费统计、多租户限流、Key池自动轮询与容灾切换4、调度与平台化:维护基于Kubernetes(KubeRay/Volcano)或Slurm的高效调度系统,提升GPU资源利用率5、监控与安全:建立精细化的GPU硬件监控体系(如DCGNM),负责API调用的安全审计与内容过滤机制 职位要求 1、硬核背景:3年以上基础设施运维经验,至少完整参与过一个大模型(LLM)从环境搭建到持续训练的生命周期2、网关能力:精通Golang、Python或Java至少一种后端语言,具备模型API网关或反向代理系统的开发经验,熟悉高并发下的流量治理3、算力专家:深入理解NVIDIAGPU架构,熟悉并行计算框架(DeepSpeed、Megatron-LM)在底层资源上的映射与调优4、网络与存储:熟练配置RoCEv2无损网络(PFC/ECN),了解Lustre、GPFS或JuiceFS等并行文件系统在Al场景下的最佳实践5、工程素养:具备极强的故障排查能力,对系统稳定性有执念,能通过自动化手段(MCP、Ansible、Terraform)解决规模化运维难题加分项:· 有国内外主流模型(如GPT,Claude,DeepSeek,Qwen)深度集成与成本优化经验· 在GitHub有知名Al基础设施、网关或模型运维相关开源项目页献· 熟悉国产算力平台(华为异腾、寒武纪等)的适配与混合训服 投递...
整车工具软件开发实习生 上海 校招 实习 软件研发类 职位描述 1.负责车端相关工具链软件,后端功能开发,功能测试与维护,撰写开发接口文档和测试报告。2.负责服务部署,CICD流水线验证。3.负责执行稳定性与压力测试用例,保障功能的鲁棒性;以及协助相关问题分析和解决。团队要求的其他工作。 职位要求 1.计算机科学与技术、软件工程等相关专业本科或硕士在读学生。2.熟练掌握python编程语言,具备一定的编程基础和项目经验,熟悉服务端开发基本框架(FLask,Django.)优先。3.有较强的学习能力,且动手能力较强。4.熟悉 Linux 基本操作,能够使用常见命令进行简单的文件操作和问题排查,会写Shell脚本优先。5.熟悉AI大模型框架或者golang语言为加分项。6.需长期实习,至少六个月 投递...
Some careers have more impact than others. If you’re looking for a career where you can make a real impression, join HSBC and discover how valued you’ll be. We are currently seeking an experienced professional to
Some careers have more impact than others. If you’re looking for a career where you can make a real impression, join HSBC and discover how valued you’ll be. We are currently seeking an experienced professional to
关于 thatgamecompany thatgamecompany(TGC)是《Sky 光·遇》的开发团队。我们相信游戏可以触及更广泛的人群、传递真实的情感——这个信念驱动着我们在技术上的每一个决策,从gameplay 游戏引擎、服务器架构和基础设施,我们都在认真地构建和打磨。 上海工程团队负责 Sky 的Gameplay、后端服务、游戏引擎性能以及基础设施逻辑。我们的工作面向全球真实玩家的系统,会出真实的问题,需要做真实的决策。 这个实习 项目的设计理念 我们知道很多工程师是在做项目的成长过程中才真正发现自己擅长什么、喜欢什么——而不是在入职之前就已经想清楚了。 所以我们不会一开始就把你分配到一个固定的岗位上。这个 Program 给你时间先四处走走,真正了解这里的工程师在做什么,再做出属于你自己的选择。 实习项目结构: 第 1–3 周(探索期) 入职后,你会加入中国工程团队的日常工作节奏——参加stand-up, code review,技术讨论等等。你将有机会近距离观察并接触我们现有的工程方向: C++: - Gameplay:负责游戏逻辑系统的设计与实现,与Designer和Engine团队协作 - 游戏引擎:负责渲染性能优化、设备优化,提升画面效果和帧率 Golang & Python: - 后端服务:负责 Sky 服务器的核心逻辑,包括烛火系统、社交系统、高并发性能优化等 - DevOps & 基础设施:负责云集群管理、微服务部署、可观测性以及AI工具链等 在这段时间里,你会做一些入门任务,也会有非正式的