高级AI运维工程师 武汉 社招 全职 职位 ID:A01671 职位描述 1. 负责AI平台的整体架构维护和优化,保障平台7×24小时稳定运行,为AI模型训练、推理及业务应用提供坚实的基础设施支撑;2. 承担AI开发环境、训练环境和推理环境的搭建、部署与管理工作,涵盖TensorFlow、PyTorch、MXNet等主流深度学习框架,以及Docker、Kubernetes等容器化技术的应用与维护,确保AI研发团队能够快速获取并使用标准化、高效能的开发环境;3. 负责AI平台计算资源的调度与分配,通过制定合理的资源管理策略,优化资源利用率,避免资源闲置与浪费,同时保障重要AI训练任务和业务应用的资源优先级;4. 建立完善的AI平台监控体系,运用Prometheus、Grafana、ELK等监控工具实时监控平台运行状态,及时发现并排查系统故障、性能瓶颈等问题,制定应急预案并在故障发生时快速响应,将故障对业务的影响降至最低;5. 与AI研发团队、业务团队紧密协作,深入理解其业务需求,提供针对性的技术支持与解决方案,协助解决AI模型训练、部署过程中遇到的技术问题,同时参与AI平台的需求调研与架构设计,为平台的持续优化提供建议; 职位要求 1. 计算机相关专业本科及以上学历,具备扎实的计算机基础知识;2. 5年以上IT运维工作经验,其中至少2年以上AI平台或大数据平台运维经验,熟悉Linux操作系统的原理与操作,能够熟练进行系统配置、性能调优与故障排查;3. 熟悉主流深度学习框架(TensorFlow、PyTorch等)的基本原理与使用方法,了解AI模型训练、推理的基本流程,具备AI环境部署与管理的实践经验;4. 具备较强的问题分析与解决能力,能够快速定位并解决复杂的系统故障与性能问题,有较强的逻辑思维能力;5. 具备良好的沟通能力与团队协作精神,能够与不同技术背景的团队有效沟通,共同推进项目进展;6. 对AI技术发展趋势保持高度关注,具备快速学习新技术的能力,能够不断提升自身技术水平,适应AI平台运维工作的不断变化;加分项1. 具备大规模AI集群(千级以上服务器)运维经验者优先;2. 拥有CISSP、CISA、Linux认证(RHCE、LPIC等)、云服务认证(AWS Certified DevOps Engineer、阿里云ACP等)者优先;3. 参与过AI平台自动化运维工具或平台的开发与建设,并有成功项目经验者优先;4. 熟悉大数据处理框架(Hadoop、Spark等),具备大数据平台运维经验者优先; 投递...
Join us as an Assistant Manager, DevOps and lead our cloud infrastructure and DevOps operations. Oversee cloud environments to ensure performance, security, and scalability, while guiding a skilled team toward operational excellence. The Job: 1. DevOps Architecture & CI/CD
We are seeking Software Engineering Managers to lead Scrum-based engineering teams responsible for building scalable, reliable, and maintainable software across Pixlr Group’s core technology platforms. This role owns people development, Agile delivery, engineering quality, and measurable