高级运维开发工程师 上海 社招 全职 互联网 / 电子 / 网游 职位描述 1.负责运维自动化工具、监控平台及巡检系统的设计与开发、测试及迭代,替代人工重复操作,提升运维效率、降低成本。2.参与搭建全链路监控体系,开发自定义监控指标、告警规则及联动脚本,实现系统异常早发现、早处置,保障业务高可用。3.使用Shell、Python、Go等语言开发脚本,解决批量操作、故障恢复等重复性运维工作,提升操作准确性。4.对接研发、测试等团队,提供运维开发技术支持;沉淀最佳实践,编写技术及操作文档。5.参与线上故障应急响应,开发工具辅助排查恢复;定期巡检、优化运维工具及平台,保障其稳定运行。6.了解AI相关技术,探索其在运维场景的应用,参与AI运维工具的调研与落地,提升运维智能化水平。7.关注云原生、DevOps等前沿技术,开展调研与试点,将合适方案落地,提升团队技术水平。 职位要求 1.熟练掌握Python/Go等至少一门主流开发语言,能独立开发运维工具及脚本;遵循代码规范,熟练使用Git版本控制。2.熟悉Ansible、Prometheus、ELK Stack等运维工具,能进行二次开发及插件定制,适配自动化需求。3.精通Linux/Unix系统及常用命令,能排查系统故障;掌握TCP/IP等网络基础,了解Nginx、MySQL等服务运维。4.熟练掌握MySQL、Redis等至少一种数据库的运维与优化;了解RabbitMQ、Kafka等中间件的使用与运维。加分项1.具备Docker、Kubernetes等云原生技术实战经验,能开发适配云原生场景的运维工具。2.熟练使用主流AI Coding工具,辅助脚本开发,提升编码效率与质量,有AI运维(AIOps)技术落地实践经验。3.能独立负责复杂运维开发项目的推进与落地。 投递...
Some careers have more impact than others. If you’re looking for a career where you can make a real impression, join HSBC and discover how valued you’ll be. We are currently seeking an experienced professional to
Agent后端开发工程师 北京 全职 互联网 / 电子 / 网游 职位描述 后端开发工程师核心职责负责 AutoGLM 平台后端架构设计与核心模块开发构建高可用、可扩展的智能体调度与执行引擎设计与实现多智能体协作的分布式通信机制打造面向开发者的 API 服务与工具链 职位要求 岗位要求精通 Go/Python 语言,3 年以上后端开发经验熟悉分布式系统设计,有微服务架构实战经验掌握 Kubernetes/Docker 容器化技术栈精通 MySQL,具备数据库优化经验熟悉消息队列(Kafka/RabbitMQ/Pulsar)应用场景有云原生应用(AWS/Azure/GCP)部署经验具备扎实的编程基础,良好的系统设计能力和代码规范意识AI 编程能力要求熟练使用 AI 编程工具(如 Cursor、Claude Code 等)完成日常开发、重构与测试工作能够通过 AI 工具提升开发效率,并将 AI 深度整合进开发工作流具备使用 Vibe Coding 方法论交付真实产品的实践经验加分项:拥有 GLM 系列模型(ChatGLM/CodeGeeX)实战经验,熟悉国产大语言模型编程特性
AI院-GLM团队-AI-Native 全栈工程师(偏后端) 北京 全职 研发 - 后端开发 职位描述 1、探索并创造基于大模型的工程级代码生成服务和产品,助力开发者迎接更高效的提效体验;2、关注AI领域的最新动态和趋势,结合开发者的实际需求,为我们提供高性能、适应性强的技术解决方案;3、对产品的稳定性和性能极致的追求,深入理解并致力于优化和重构,确保系统高效、稳定运作; 职位要求 1、本科及以上学历,计算机相关专业,有三年及以上相关工作经验;2、对前端或者后端至少精通一个方向:2.1)前端开发:熟悉 HTML、CSS、JavaScript、TypeScript 等 Web 前端技术;掌握 React/Vue 等 MDV 前端框架;熟悉基于 Next.js/Nuxt.js 等脚手架的项目开发;掌握 HTTP 协议、浏览器原理、性能优化等Web 前端核心知识;有扎实的 Node.js 基础,能解决前端工程化问题。2.2)后端开发:对 Python、Java、Go 等后端开发语言有深度的理解和实践经验,包括但不限于数据处理、服务器搭建和维护、数据库操作、API的设计和实现;对微服务架构、分布式计算,以及云服务等领域有了解或实际操作经验者优先;3、对探索大模型有极大热性,有大模型相关领域研发经验者优先。4、熟练使用 Linux,熟悉 Docker、Kubernetes 等容器技术的使用,了解其原理;熟悉云原生下的服务开发部署流程,熟悉 Prometheus + Grafana 的使用; 投递...
MaaS-SRE/DBA 北京 全职 互联网 / 电子 / 网游 职位描述 【岗位职责】1. 稳定性保障(核心):负责MySQL、Redis等核心存储组件的稳定性,建设全方位的监控告警体系(Prometheus/Grafana),实现故障的早发现、快止损,保障MaaS平台在高并发场景下的99.99%可用性。2. 架构治理与演进: 主导数据库架构升级,包括读写分离、冷热分离、分库分表及异地多活(双活)容灾体系的建设。3. 深度调优与质量管控: 建立标准化的SQL审核与发布流程,负责慢 SQL 治理、大表治理及数据库参数深度调优,解决数据库性能瓶颈。4. 自动化平台建设: 基于SRE理念,开发数据库自动化运维平台(Python/Go),实现备份恢复、高可用切换、自动扩缩容及账号权限管理的自动化。5. 应急响应与预案: 负责突发故障(如宕机、带宽拥塞)的应急响应,制定并定期演练标准化恢复预案(SOP),降低故障平均恢复时间(MTTR)。6. 容量规划与成本管理: 结合业务增长模型进行容量预测与压测,优化资源利用率,制定降本增效策略。【岗位要求】1. 学历与经验: 本科及以上学历,计算机相关专业;3 年以上大规模互联网数据库管理(DBA)或 SRE 经验,有高并发、大流量系统保障经验者极佳。2. 数据库精通: 精通 MySQL 原理(InnoDB 引擎、事务锁机制、索引优化、主从复制),精通 Redis(集群模式、缓存一致性、热 Key/大 Key
机器学习平台研发工程师 北京 全职 互联网 / 电子 / 网游 - 研发 职位描述 -负责机器学习平台与算力基础设施的研发与演进,为模型训练、推理、评测及数据处理等流程提供稳定、高效、可扩展的平台能力,主要包括:- 参与并主导大规模算力平台的设计与研发,覆盖资源调度、任务编排、容器与运行时管理等关键方向,持续提升集群整体资源利用率,保障训练与推理场景的稳定运行;- 基于 Kubernetes、Docker 等云原生技术,参与调度器扩展及 CRD/Controller 等核心能力建设,支撑大规模分布式训练与推理场景。- 持续推进平台的易用性与性能优化,完善工具链与开发体验,降低算法与模型团队的使用门槛,提升整体研发效率。 职位要求 - 本科及以上学历,3 年及以上研发经验,有大规模容器集群或平台型系统建设经验,有千卡及以上规模集群管理或调度经验者优先;- 熟练掌握 Golang,具备扎实的数据结构与算法基础,能够独立定位和解决复杂系统问题;- 熟悉 Kubernetes 核心机制与组件(如调度、网络、存储、Controller/CRD 等),了解容器运行时及云原生相关技术体系;- 熟悉常见分布式数据处理或计算框架(如 Ray / Spark / Flink 等),理解其架构设计与运行模型;- 了解并行计算与高性能计算相关技术,具备 OpenMP
高级应用交付解决方案架构师 北京 全职 互联网 / 电子 / 网游 职位描述 技术交付与实施管理 - 全面负责大模型、智能体平台、智能体应用的私有化交付与实施工作。 - 统筹交付团队,制定实施方案、部署计划与交付标准,保障项目按时、按质落地。 - 解决交付过程中的复杂技术问题,协调研发团队快速闭环。 - 建立交付过程的规范与工具体系(文档模板、自动化脚本、监控体系),提升交付效率与复用性。- 研发与团队管理 - 管理和带领核心研发团队,负责大模型应用、智能体编排平台等复杂产品的研发与持续优化。 - 参与产品架构设计与技术选型,主导关键技术难题攻关,确保产品在性能、稳定性、安全性上的领先性。 - 制定团队的研发规范与技术路线,推动交付与研发联动,形成闭环。 - 培养和发展团队成员,建设高效的研发和交付双能团队。- 客户与方案支持 - 深入理解客户业务需求,结合大模型与智能体能力,设计并交付可落地的技术解决方案。 - 作为客户的核心技术接口,提供咨询、答疑与培训,提升客户满意度。 - 在项目实施中沉淀通用解决方案和最佳实践,形成可推广的产品化能力。 职位要求 5年以上软件/平台交付或研发经验,2
AI院-GLM团队-SRE运维工程师 北京 全职 研发 - 运维 职位描述 岗位职责:1.负责TOC相关业务的稳定性建设,包括但不限于Web服务、APP后端、API网关2.负责Kubernetes集群的建设与稳定性保障,包括版本升级、故障排查、资源利用率优化3.设计高可用架构,解决APIServer性能瓶颈、etcd存储压力等大规模集群特有问题。4.主导容器化架构调优(如Pod调度策略、网络插件选型、存储方案设计),优化资源请求/限制配置以减少资源争用。5.建立容器安全防护体系,包括漏洞扫描、运行时安全监控(如Falco)、合规审计。5.深度参与自动化运维工具链建设,CI/CD流水线混沌工程测试、智能扩缩容(HPA/VPA)推动Al0ns落地,其于时字数据合析预洲售群负裁并实现自愈。7. 解决生产环境疑难问题(如 OOM、网络延迟、存储性能瓶颈),输出标准化SOP文档车8.协同研发团队优化微服务架构,推动ServiceMesh等新技术落地, 职位要求 1.教育背景-统招本科及以上学历,计算机、软件工程、云计算相关专业优先。2.工作经验-3年以上容器运维经验,主导或深度参与过千级 Pod规模的集群维护。-熟悉生产环境容器化全生命周期管理,包括部署、监控、扩缩容、故障恢复等场景。-有多云环境/混合云管理经验-头部互联网/云计算大厂优先3.技术能力精通Kubernetes架构及生态工具(如Etcd、Calico、Istio),具备集群性能调优经验(如APIServer负载均衡、节点调度优化);熟练使用Docker、Prometheus、Grafana、ELK、CI/CD等工具链,熟悉云原生安全体系(如镜像扫描、RBAC策略、网络策略);具备运维开发能力,能使用Python/Go开发自动化工具(如自定义Operator、监控告警脚本)。 投递...
高级应用交付架构师 北京 全职 互联网 / 电子 / 网游 职位描述 技术交付与实施管理 - 全面负责大模型、智能体平台、智能体应用的私有化交付与实施工作。 - 统筹交付团队,制定实施方案、部署计划与交付标准,保障项目按时、按质落地。 - 解决交付过程中的复杂技术问题,协调研发团队快速闭环。 - 建立交付过程的规范与工具体系(文档模板、自动化脚本、监控体系),提升交付效率与复用性。- 研发与团队管理 - 管理和带领核心研发团队,负责大模型应用、智能体编排平台等复杂产品的研发与持续优化。 - 参与产品架构设计与技术选型,主导关键技术难题攻关,确保产品在性能、稳定性、安全性上的领先性。 - 制定团队的研发规范与技术路线,推动交付与研发联动,形成闭环。 - 培养和发展团队成员,建设高效的研发和交付双能团队。- 客户与方案支持 - 深入理解客户业务需求,结合大模型与智能体能力,设计并交付可落地的技术解决方案。 - 作为客户的核心技术接口,提供咨询、答疑与培训,提升客户满意度。 - 在项目实施中沉淀通用解决方案和最佳实践,形成可推广的产品化能力。 职位要求 5年以上软件/平台交付或研发经验,2
AI基础架构工程师-大规模集群方向 上海 工程类 本科及以上 5-7 年 职位描述 1.大规模集群管理: 负责千卡/万卡级 GPU 集群(如 NVIDIA A100/H100)的日常运维、稳定性保障及容量规划,确保高可用性和高资源利用率。2.容器化平台建设: 基于 Kubernetes (K8s) 构建和优化 AI 训练平台,负责调度系统(Scheduler)的优化,解决资源隔离、优先级调度及断点续训(Checkpointing)等问题。3.故障排查与性能优化: 深入排查分布式训练过程中的疑难杂症(如 NCCL Timeout、GPU 掉卡、网络拥塞等),针对训练任务进行软硬件层面的性能调优。4.底层环境维护: 维护底层驱动(CUDA, cuDNN)、NCCL 通信库及异构硬件的监控体系(Prometheus/Grafana),实现对 GPU、RDMA 网络和存储系统的全链路监控。5.框架支持与对接: 支持主流深度学习框架(PyTorch, TensorFlow, Megatron-LM 等)在集群上的高效运行,优化 Dataloader 和分布式训练启动流程。 职位要求 1. 基础架构与容器技术:精通
Agent Infra 运维开发工程师 北京 全职 互联网 / 电子 / 网游 - 研发 职位描述 【背景】纵观全球 AI 发展,大模型正经历从“对话式生成”向“自主执行工具与任务”的 Agentic(智能体)范式跨越。具备复杂规划、推理和行动能力的智能体,被普遍认为是下一代 AI 的核心竞争力所在,不仅是当前学术界与工业界共同瞩目的技术焦点,更蕴含着极广阔的商业落地前景。构建和评测强大的 Agentic 能力,不仅是算法层面的突破,更是对底层基础设施的极限考验。智能体在进行代码执行、工具调用、环境交互和多轮评测时,极其依赖海量、安全、高度动态的虚拟执行环境。这意味着我们需要一个能够支撑极其庞大并发量、具备极致弹性与隔离能力的大规模容器化运行底座。我们团队正是这一关键底座的建设者。在这里,你将面对的是超大规模容器调度的真实工程挑战。你参与设计的系统将直接决定 Agent 训练与评测的迭代效率,成为支撑下一代大模型能力进化的技术基石。如果您对构建极致弹性的云原生架构充满热情,并渴望在 AI 浪潮的最前沿解决极具挑战性的系统性问题,欢迎加入我们!【岗位职责】:负责容器运行时及相关生态的运维及开发,主要包括:- 参与并主导大规模容器调度系统的设计与研发,覆盖资源调度、任务编排、容器与运行时管理等关键方向,持续提升系统整体容量,保障训练与评测场景的稳定运行;- 参与容器镜像库的迭代升级,提升镜像构建、存储、代理等场景效率;- 基于 Kubernetes、CRI 等云原生技术,参与调度器扩展及 CRD / Controller 等核心能力建设,支持大规模容器调度;- 持续推进系统可观测性与性能优化,完善工具链与开发体验,降低系统使用门槛,提升整体研发效率。 职位要求 【岗位要求】:-
What you’ll do Design, develop and maintain insurance-related backend systems, services and APIs using Java and the Spring ecosystem. Work closely with business analysts and product stakeholders to understand requirements and convert them into feasible technical
Key Responsibilities: Facilitate LLM API (e.g., GPT, Claude) for enterprise use cases. Collaborate with business team and data team to integrate GenAI into workflows such as eClaim, OCR, and QA automation. Develop AI-driven code review tools
Why project44? At project44, we believe in better. We challenge the status quo because we know a better supply chain isn’t just possible—it’s essential. Better for our customers. Better for their business. Better for the world.
What you’ll do Design, develop and maintain insurance-related backend systems, services and APIs using Java and the Spring ecosystem. Work closely with business analysts and product stakeholders to understand requirements and convert them into feasible technical
What you’ll do Design, develop and maintain backend services and APIs using Java (Spring ecosystem). Deliver high-quality, production-ready code and participate in code reviews and technical design sessions. Collaborate closely with business analysts, product stakeholders and
高级云原生架构师 (多云与网关方向) Shanghai Experienced Full-time Responsibilities 定位:主攻全球 AWS + 国内阿里云的双云架构,解决跨域网络、存储、计算以及 Service Mesh 的演进。【我们在做什么】1、TripoAI 正在构建全球领先的 3D 生成式 AI 平台。我们的用户遍布全球,这意味着我们需要一套真正具备全球化视野的底层架构。2、对于 Infra 团队,我们的使命不仅是“系统不挂”,而是重新定义 AI 时代的云计算架构。3、我们需要一位能在全球 AWS 和国内阿里云之间游刃有余的云原生架构师,来构建高可用、低延迟的全球算力与流量底座。如果你厌倦了在单一机房里修修补补,渴望操盘横跨大洋的多云架构,设计支撑海量 3D 数据流的高性能网关,这里是你的战场。【你将面临的挑战与职责】1、多云与混合云架构设计:主导 TripoAI 基于全球 AWS 和国内阿里云的基础设施建设,统一网络、计算和存储的标准化接入,屏蔽底层云厂商差异。2、全球化高可用网关:设计并演进高性能的 API 网关与算法网关,处理跨区域(Multi-Region)的流量调度、容灾切换,确保全球用户访问的极低延迟。3、Service Mesh 与微服务治理:与现有的 Mesh 专家配合,深化微服务治理体系,解决
高级 SRE 工程师 (AI-INF-基础设施) Beijing、Shanghai Experienced Full-time Responsibilities 岗位职责1、多云架构管理与业务落地:负责公司在 AWS、阿里云等主流公有云上的基础设施规划、建设与日常运维;能够独立对接业务团队,完成复杂业务系统的架构设计、资源规划、部署上线及全生命周期管理。2、K8s 集群稳定性保障:负责公司海量/大规模Kubernetes集群的构建、稳定性优化、容量规划与调度策略调优;负责服务容器化改造及网络、存储等云原生组件的疑难问题排查。3、AI 算力基础设施运维:保障大模型训练和推理任务的稳定运行,熟悉异构算力(如 NVIDIA GPU)服务器的驱动、网络(InfiniBand/RoCE)及监控排障,优化GPU资源调度与利用率。4、CI/CD 与自动化流水线:设计并优化持续集成与持续交付(CI/CD)流水线(如 GitHub Actions, GitLab CI, ArgoCD),推动基础设施即代码(IaC,如Terraform)的落地,提升研发交付效率。5、可观测性系统建设:负责构建和优化全链路监控与告警体系,深入应用 Prometheus、Grafana、Alertmanager等开源工具,制定核心业务的SLI/SLO/SLA,建立高效的故障应急响应流程。6、运维平台自研开发:深入研发团队痛点,能够使用Python或Go语言独立设计并开发运维自动化平台、底座工具或 AI-Agent 智能巡检系统,用工程化手段消除组织内的“脏活累活”(Toil)。7、应急响应与 On-Call:参与生产环境的On-Call值班,对线上突发事件进行快速响应、定位、止血与复盘,沉淀故障知识库。 Qualifications 任职要求1、教育背景与经验:计算机或相关专业本科及以上学历,5年以上SRE、DevOps或运维开发经验(有AI算力集群或大规模 K8s 运维经验者优先)。2、公有云专长:熟练掌握AWS、阿里云等至少两家主流公有云厂商的架构体系,熟悉其 IAM、VPC、EKS/ACK、RDS等核心服务及跨云互联方案。3、云原生深度掌握:深入理解 Kubernetes 架构与底层原理,熟练掌握常用组件(Ingress, CoreDNS, Flannel/Calico等),具备强大的Pod/Node级别排错、性能调优和网络抓包能力。4、AI / 算力经验(硬性加分项):熟悉大模型分布式训练(如 Megatron-LM, DeepSpeed)或模型推理(如 vLLM,
Some careers have more impact than others. If you’re looking for a career where you can make a real impression, join HSBC and discover how valued you’ll be. We are currently seeking an experienced professional to
大模型工程师(北京) Beijing Full-time Internet / Electronics / Games - R&D Responsibilities 1、负责大语言模型(LLM)相关技术的落地研发,包括模型优化、部署及应用场景定制;2、参与大模型的微调(Finetuning)工作,根据具体业务需求对预训练模型进行定制化开发,提升模型性能;3、深入理解业务场景,设计并实现基于大模型的解决方案,包括但不限于文本生成、语义理解、对话系统等方向;4、跟踪人工智能领域前沿技术,研究和应用最新的大模型技术,推动技术创新与项目应用;5、负责模型性能评估与优化,解决模型在实际应用中的问题,确保模型效果和稳定性;6、与团队协作,参与技术分享和技术文档撰写,提升团队整体技术水平。 Qualifications 1、具备优秀的编码能力,扎实的算法和数据结构功底,熟练掌握至少一种编程语言(如 Python、Go 等);2、熟悉至少一种主流深度学习框架(如 PyTorch、TensorFlow 或 Caffe),并对其底层架构及实现机制有深入理解;3、对大模型方向的研究和应用有一定了解,有参与 agent 或 prompt 相关设计与实践者优先;4、有使用 langchain、AutoGPT、Kubernetes(k8s)等工具的经验,熟悉常规大模型工程开发流程;5、有 GPT 类大模型优化及工程应用实践经验者优先。 Apply...