AI基础架构工程师-大规模集群方向 上海 工程类 本科及以上 5-7 年 职位描述 1.大规模集群管理: 负责千卡/万卡级 GPU 集群(如 NVIDIA A100/H100)的日常运维、稳定性保障及容量规划,确保高可用性和高资源利用率。2.容器化平台建设: 基于 Kubernetes (K8s) 构建和优化 AI 训练平台,负责调度系统(Scheduler)的优化,解决资源隔离、优先级调度及断点续训(Checkpointing)等问题。3.故障排查与性能优化: 深入排查分布式训练过程中的疑难杂症(如 NCCL Timeout、GPU 掉卡、网络拥塞等),针对训练任务进行软硬件层面的性能调优。4.底层环境维护: 维护底层驱动(CUDA, cuDNN)、NCCL 通信库及异构硬件的监控体系(Prometheus/Grafana),实现对 GPU、RDMA 网络和存储系统的全链路监控。5.框架支持与对接: 支持主流深度学习框架(PyTorch, TensorFlow, Megatron-LM 等)在集群上的高效运行,优化 Dataloader 和分布式训练启动流程。 职位要求 1.
关于我们 / About Us AlphaGrep 是一家全球领先的量化交易公司,专注于股票、商品、外汇及固定收益等资产的算法交易。我们在国际市场拥有显著份额,依托自主开发的超低延迟系统与严格的风控体系,持续构建高效能策略。 AlphaGrep is a leading global quantitative trading firm specializing in algorithmic strategies across equities, commodities, FX, and fixed income. We hold significant market share internationally, powered by proprietary low-latency infrastructure
高级基础设施运维工程师(大模型/AIGC) 上海、北京 全职 互联网 / 电子 / 网游 - 研发 职位描述 1、从0到1算力平台建设:负责大模型训练集群的物理规划与资逻辑部署,包括GPU服务器选型、高速无损网络(RoCEV2/IB)架构设计及计算存储资源分配2、大模型训练保障:深度参与百卡级大模型训练任务的运维,优化NCCL通信性能,解决训练过程中的掉卡、慢卡、断点续训及存储IO瓶颈问题3、模型账号网关开发:从零搭建企业级三方模型(OpenAl、Claude、文心一言等)账号聚合网关,实现Token计费统计、多租户限流、Key池自动轮询与容灾切换4、调度与平台化:维护基于Kubernetes(KubeRay/Volcano)或Slurm的高效调度系统,提升GPU资源利用率5、监控与安全:建立精细化的GPU硬件监控体系(如DCGNM),负责API调用的安全审计与内容过滤机制 职位要求 1、硬核背景:3年以上基础设施运维经验,至少完整参与过一个大模型(LLM)从环境搭建到持续训练的生命周期2、网关能力:精通Golang、Python或Java至少一种后端语言,具备模型API网关或反向代理系统的开发经验,熟悉高并发下的流量治理3、算力专家:深入理解NVIDIAGPU架构,熟悉并行计算框架(DeepSpeed、Megatron-LM)在底层资源上的映射与调优4、网络与存储:熟练配置RoCEv2无损网络(PFC/ECN),了解Lustre、GPFS或JuiceFS等并行文件系统在Al场景下的最佳实践5、工程素养:具备极强的故障排查能力,对系统稳定性有执念,能通过自动化手段(MCP、Ansible、Terraform)解决规模化运维难题加分项:· 有国内外主流模型(如GPT,Claude,DeepSeek,Qwen)深度集成与成本优化经验· 在GitHub有知名Al基础设施、网关或模型运维相关开源项目页献· 熟悉国产算力平台(华为异腾、寒武纪等)的适配与混合训服 投递...
AI 存储-高级研发工程师 武汉 社招 全职 职位 ID:A211036 职位描述 1. 负责内部文件/对象/块存储系统的研发迭代,打造业内一流的存储基建2. 支持大数据/云原生/AI 等业务场景,解决大规模、高吞吐、高性能存储需求挑战3. 探索存储新技术方向,推进存储技术在内部落地,助力业务提效降本 职位要求 1. 具有扎实的计算机专业基础,熟练掌握 Go/C++/Java 至少1门语言2. 具有优秀的自我驱动和学习能力,责任心强,追求卓越,对解决有挑战的问题充满热情3. 具有三年以上分布式存储研发经验,有较深的系统认知理解,有内核级别优化经验4. 熟悉 HDFS/JuiceFS/CubeFS/Ceph/Lustre/块/对象等相关存储系统优先,开源社区活跃贡献者优先 投递...
GPU 服务器集群管理 北京、深圳 全职 本科及以上 职位描述 1. 配置、管理高性能 GPU 服务器集群,确保其全天可用、性能可靠、可监控。2. 提升服务器集群的日常利用效率,减少闲置或拥挤。3. 通过标准化和自动化,协调管理不同型号、来自不同供应商的 GPU 服务器集群。4. 处理服务器故障等紧急情况。 职位要求 1. 计算机科学或相关专业。2. 具备管理 GPU 集群 / HPC 集群 / 超算集群的经验。3. 熟练掌握 Linux 系统管理技能,包括网络、进程、软件包、日志、监控、权限等方面。4. 掌握 GPU 系统管理技能,包括 GPU 驱动、GPU 监控、处理 GPU