Company: Qualcomm China Job Area:Engineering Group, Engineering Group Machine Learning Engineering General Summary: Job Description About us: We are Qualcomm AI Research that are advancing AI to make its core capabilities – perception, reasoning, and action
端到端自动驾驶算法部署工程师 杭州、北京、武汉 全职 研发 - 算法 职位描述 1. 支持端到端模型导出适配和部署加速;2. 负责支持模型前后处理的板端算法实现和加速;3. 负责算法模块全流程的性能profiling,针对热点函数实现板端异构加速;4. 负责模型分布式训练加速,满足自动驾驶模型快速迭代。 职位要求 1. 硕士及以上学历,计算机相关专业,三年以上相关工作经验;2. 熟练掌握C++编程,熟悉常用linux工具,有良好的编程习惯;3. 深入理解pytorch等神经网络模型训练过程,熟悉常用分布式训练加速框架,掌握训练加速调优手段;4. 了解主要算子的量化方法,熟悉PTQ/QAT 进行加速推理的流程;5. 熟悉cuda并行加速和cuda算子开发;6. 英伟达、地平线等AI芯片平台有模型部署经验者优先;7. 良好的学习能力和强烈的责任心,良好的沟通和团队合作精神。 投递...
Company: Qualcomm China Job Area:Engineering Group, Engineering Group Machine Learning Engineering General Summary: We are Qualcomm AI Research that are advancing AI to make its core capabilities – perception, reasoning, and action – ubiquitous across devices.
数据库后端开发实习生 北京 实习 本科及以上 职位描述 1. 高性能数据引擎开发:设计并实现针对海量显微图像、能谱数据的高性能存储方案(如基于 HDF5, Zarr 或分布式文件系统),优化 I/O 性能以应对 TB 级数据的瞬时吞吐。2. 分布式计算流水线(Pipeline):构建并维护高可用的异步任务调度系统,将图像预处理、分割、定量分析算法集成到分布式计算集群中。3. 数据 API 与中间件设计:为前端可视化工具和算法研究员提供高性能、低延迟的数据访问接口(gRPC/REST),支持多维数据的切片、聚合与流式传输。4. 系统性能调优:针对科学计算场景,进行深度性能剖析(Profiling),优化内存管理、网络传输及多线程并发模型,减少数据处理时延。5. 工程化规范建设:主导数据平台的架构演进,引入容器化(Docker/K8s)、CI/CD 及监控报警体系,确保仪器在 7x24 小时运行下的系统稳定性。 职位要求 1. 教育背景:计算机科学、软件工程或相关专业硕士及以上学历。2. 精通后端语言:精通 Python(FastAPI/Celery/Asyncio)或 Go/C++,具有扎实的底层开发功底。3. 大规模存储经验:熟悉 NoSQL(MongoDB, Cassandra)与对象存储,必须有处理大文件或非结构化科学数据(如 TIFF, HDF5, NetCDF)的实战经验。4. 消息队列与并行调度:熟练使用 Redis,
Miclaw-Agent方向实习生 AI人才专项 热招 北京 校招 实习 软件研发类 实习生招聘计划 职位描述 你将参与什么我们正在打造下一代 AI 智能编码平台——让 AI 像资深工程师一样理解需求、编写代码、运行测试,实现软件开发的端到端自动化。你将深度参与这个平台的核心技术研发,具体方向包括:方向一:AI 编码 Agent 开发1. 开发能够自主完成编码任务的 AI Agent,让它能理解需求文档、生成技术方案、编写代码并自动验证2. 构建多个 AI Agent 之间的协作机制,让它们像团队一样分工合作,完成复杂的软件开发任务方向二:大规模代码智能检索1. 构建代码语义检索系统,让 AI 能在海量代码库中快速找到相关代码片段和上下文2. 将检索能力与大模型结合,提升 AI 对复杂项目结构和跨文件依赖的理解能力方向三:AI Agent 数据与评测优化1. 搭建 Agent 全链路数据采集与分析体系,覆盖行为轨迹、工具调用、代码产出及用户反馈2. 建立自动化评测流水线,围绕代码正确性、任务完成率等核心指标量化
NVIDIA has been redefining computer graphics, PC gaming, and accelerated computing for more than 30 years. It’s a unique legacy of innovation that’s fueled by great technology—and amazing people. Today, we’re tapping into the unlimited potential
Whats the role? We are expanding our team and looking for an experience, hands on software engineering technical program manager (TPM) to drive delivery for automotive OEM programs involving connected navigation and location-based services. You will
Job Requisition ID # 26WD98801 Position Overview We are looking for a motivated team player, an experienced sales representative that is keen on driving new business growth to Autodesk through our License Compliance department. The selected
AI院-GLM后训练团队-推理优化/推理Infra工程师(RL) 北京 全职 互联网 / 电子 / 网游 - 研发 职位描述 1. 基于SGLang进行大模型推理引擎与服务侧开发,提升吞吐、降低时延与成本,保障线上稳定性。2. 支持RL训练相关的推理链路,包括rollout生成、打分/奖励模型推理等,优化训练闭环效率与资源利用。3. 建设推理侧的监控与性能分析能力,参与线上问题定位与故障处理。4. 与算法/训练团队协作,将模型与训练需求落地到可运行、可维护的推理系统,并输出必要的技术文档。 职位要求 1. 熟练使用Python/C++(至少一种),具备良好的工程能力与性能意识。2. 熟悉GPU推理与常见深度学习框架(如 PyTorch),了解分布式通信与并行基本概念(NCCL 等)。3. 了解并使用过SGLang(或能快速上手并承担核心模块开发与调优)。4. 理解RL训练中推理侧的作用,能够与训练流程协同推进落地。5. 具备线上系统排障能力,能通过日志/指标定位性能与稳定性问题。加分项6. 有大模型推理系统、RLHF/RL 推理链路或训练-推理协同经验。7. 有推理性能profiling、算子/运行时优化经验。8. 有MoE模型优化经验。 投递...
By clicking the “Apply” button, I understand that my employment application process with Takeda will commence and that the information I provide in my application will be processed in line with Takeda’s Privacy Notice and Terms
大模型训练加速工程师 / 高级专家 北京 全职 通用智能板块 职位描述 【岗位职责】训练加速与优化: 负责大模型训练场景下的性能分析 (Profiling) 与全链路优化,包括显存管理、计算加速及通信优化 (NCCL),提升集群训练吞吐率。算子开发与协同设计 (Co-design): 负责高性能算子 (Kernel) 的开发与调优;与算法团队紧密协作,针对特定模型结构(如 Transformer, MoE)进行定制化算子设计。分布式框架建设: 基于 Megatron-LM, DeepSpeed, FSDP 等框架进行二次开发与优化,设计适应大规模集群的并行训练方案。稳定性保障: 负责大规模训练过程中的问题定位与解决,包括但不限于 NCCL 超时、显存溢出 (OOM)、训练速度波动等,保障训练任务的高效稳定运行。 职位要求 理论基础: 计算机基础扎实,深刻理解深度学习训练原理(计算图、自动微分、混合精度),熟悉主流并行策略及 FlashAttention 等加速算法。编程能力: 熟练掌握 Python/C++,熟悉 GPU 编程模型,具备 CUDA
高性能算子库开发工程师 北京 社招 全职 职位 ID:A202179 职位描述 1. 设计、开发并优化面向NPU的高性能算子库,覆盖卷积、矩阵运算、归一化等核心算子;2.基于类CUDA编程语言或NPU专用指令集,实现算子极致性能优化,降低延迟与功耗;3.深入理解NPU硬件架构(如计算单元、内存层级、数据流),针对硬件特性进行算子级优化;4.与芯片团队紧密协作,反馈算子性能瓶颈并提出硬件改进建议;5.编写高性能计算代码、汇编级优化及Benchmark测试。 职位要求 1.计算机科学、电子工程、数学等相关专业,本科及以上学历;2. 熟悉cuda/C++/Python中至少一种编程语言;3. 具备类CUDA编程经验(CUDA/OpenCL/HIP等)或NPU SDK开发经验;4. 熟悉并行计算体系结构,有NPU/GPU开发和优化经验优先;5. 对性能优化有极致追求,能通过Profiling工具(如Nsight、VTune)定位瓶颈6. 良好的团队沟通能力, 责任心强。 投递...
About Kuoni Tumlare: At Kuoni Tumlare, we deliver truly inspiring and innovative solutions and experiences that create value both for our Partners and Society at large. Our wide portfolio of products and solutions is built on