Cache Jobs In Beijing (Peking) (Hiring near me)

端侧大模型推理与量化资深工程师

XPENG ( Beijing )

端侧大模型推理与量化资深工程师北京全职通用智能板块职位描述 1、负责大模型与语音算法的量化、剪枝、蒸馏等模型精简与加速技术，完成在高通等移动端的转换、部署，保障端侧低延迟与高精度；2、设计并实现端侧推理引擎，负责关键推理优化策略（如 Prompt Cache、投机解码、Flash Attention 等）的工程落地，结合图优化与算子适配，最大化 NPU/CPU/DSP硬件利用率；3、负责跨平台推理 SDK 的架构设计、封装与迭代，提供稳定、高效的端侧推理接口；4、负责推理链路延迟、精度与功耗问题的定位，并给出优化方案，推动端侧推理性能指标达成；5、开发并迭代模型转换、精度与性能自动化测试工具链，提升算法到端侧的交付效率。职位要求 1、硕士及以上学历，人工智能、计算机、电子、数学等相关专业；2、熟练掌握深度学习与大模型压缩和加速技术，包括量化、剪枝、蒸馏等，有端侧部署与精度调优实践经验；3、熟练掌握大模型推理优化策略（如 Prompt Cache、投机解码、Flash Attention 等），熟悉 SNPE/QNN 或者MTK 等主流平台推理框架；4、熟悉移动端与 Native 开发，熟练使用现代 C++，熟悉 Android Native / HAL 层开发调试与系统级性能分析；5、具备良好的跨团队协作与推动能力，能够与算法团队、芯片供应方紧密沟通，推动模型部署的端到端性能和效果优化；6、熟悉 ARM NEON / DSP intrinsic 等端侧底层加速技术者优先；7、熟悉 ONNX模型，熟悉 MNN/NCNN

XPENG 25 days ago

【27届校招】智能座舱端侧Agent研发工程师（北京）

XPENG ( Beijing ) +1 other locations

【27届校招】智能座舱端侧Agent研发工程师（北京）北京正式研发 - 算法职位描述 1、参与端侧智能座舱AI Agent系统的研发，打造基于大语言模型的多模态座舱智能助手，支撑车控、导航、媒体、舱驾融合等核心场景的智能化交互； 2、参与端侧 AI Agent 核心模块的开发，包括任务规划、工具调用、上下文管理、记忆系统等harness相关关键能力的设计与实现，推动智能体系统的迭代落地；3、综合业务场景，参与 Agent 系统的调试与性能优化，解决工程落地中的各类问题，保障系统的稳定性和可扩展性。职位要求 1、扎实的数据结构和数学基础；2、以Java/C++为基础的扎实编程功底；3、深度了解 LLM API、KV Cache、Tool Use、Reasoning/Planning、Multi-Agent System；4、能够娴熟运用 AI Agent 工具支撑软件开发业务，具备优异的自主技术钻研能力。针对自身暂无实操积累的编程语言、开发框架与技术体系，可借助 AI 辅助完成技术攻关与调研；5、热衷 Agent Harness 体系的研发与学术探索，对大模型输出行为具备精准判别能力。【加分项】1、有ACM/ICPC、NOI、Kaggle等比赛获奖经验；2、有嵌入式C++软件或是Android 开发经验。投递...

Premium Full-time Harness AI

XPENG 28 days ago

AIML - ML Platform Engineer (Apple Ecosystem), Data Intellig...

Apple ( Beijing )

SummaryWe are looking for engineers with a passion for using machine learning to create intelligent applications. Be part of a highly accomplished, deeply technical and close-knit team of machine learning engineers, you will create tools that

Premium Full-time Python Product Development Apache Spark Architecture Swift

Apple 19 days ago

处理器架构师（存储侧）

Xiaomi ( Beijing )

处理器架构师（存储侧）西安、北京、深圳社招全职职位 ID：J2650 职位描述 1. 参与或主导处理器存储子系统微架构设计，包括Cache层次结构（L1/L2/L3）、一致性协议（MOESI/MESI）、预取引擎、TLB/MMU等，进行性能、功耗论证，并完成RTL实现与调优；2. 负责Load/Store单元、Store Buffer、内存控制器接口等数据通路的微架构设计与优化；3. 与指令侧架构、编译器、软件团队协同，确保存储子系统架构方案与指令侧流水线的高效配合，支撑端侧AI芯片高带宽低延时的访存需求；4. 跟踪业界存储子系统前沿技术（如CXL/UCIe互联、AI芯片片上存储架构、近存计算），输出技术洞察，牵引存储架构演进方向；5. 参与芯片流片和回片验证，确保存储子系统架构方案的工程落地；职位要求 1. 硕士及以上学历，计算机/电子工程/微电子等相关专业；2. 精通计算机体系结构核心理论，深入理解缓存层次结构、一致性协议、虚拟内存管理；3. 熟悉ARM/RISC-V存储子系统架构，熟练使用Verilog/SystemVerilog；4. 掌握Gem5/VCS等工具链，在缓存设计/一致性协议/预取优化/内存子系统至少一个方向有深度研究；5. 有RTL设计或芯片流片经验者优先；6. 具备AI芯片片上存储架构设计经验、大模型访存模式分析能力或跨领域（芯片+AI/编译器）协作经验者优先。投递...

Premium Full-time

Xiaomi 17 days ago

Miclaw-移动端 AI 性能专家 (Engine & Efficiency)

Xiaomi ( Beijing )

Miclaw-移动端 AI 性能专家 (Engine & Efficiency) 北京社招全职职位 ID：A240371 职位描述 1. 引擎调优：负责 Android/iOS、与云端 Mimo 或本地 ExecuTorch/ncnn 的底层接入与硬件加速（NPU/GPU/Metal）。2. 效率突破：实现 Speculative Decoding (投机采样) 或 Prompt Caching，在手机端将 TTFT（首包延迟）降至极致。3. 性能监控：建立全链路监控指标体系，关注 Tokens/sec、ITL (Token 间延迟) 以及 Agent 后台运行时的功耗曲线。4. 资源调度：解决多 Agent

Premium Full-time AI MIMO

Xiaomi 17 days ago

大模型推理优化工程师

Xiaomi ( Beijing )

大模型推理优化工程师北京社招全职职位 ID：A234561 职位描述 1. 负责图像/视频/多模态等方向AIGC大模型推理加速研究，包括模型蒸馏、模型量化、模型剪枝、推理加速框架移植等2.实现高性能LLM/VLM/AIGC模型推理引擎，优化计算图编译、动态Batching及KV Cache管理，打造极致低延迟与高吞吐的线上服务架构3.续跟进业界最新的Infra技术（如FlashAttention演进、高效通信库、FP8/INT8量化、稀疏蒸馏等训练部署方案），配合实际业务驱动技术预研并转化为生产力职位要求 1、本科及以上学历，计算机相关专业优先，熟练掌握C++/Python，精通数据结构与算法，并有并发编程基础；2、熟练使用PyTorch/TensorFlow或其他深度学习框架，熟练掌握深度学习性能加速技术包括但不限于算子性能优化，通信优化等；3、具有AIGC（VLM、Diffusion）模型训练/推理优化经验，熟悉TensorRT-LLM、vLLM、LightX2V等推理效率优化工具；4、熟悉大模型蒸馏、量化、剪枝等常用压缩技术，熟练使用常见推理加速工具，如TensorRT、vLLM等；5、积极主动有热情，具备较强的沟通能力以及优秀的团队协作能力投递...

Premium Full-time

Xiaomi 17 days ago

Get Hired 2x Faster
Connect with Top Employers Directly

2026校招-IP设计工程师（GPGPU）-北京

北京思朗科技有限责任公司 ( Beijing )

2026校招-IP设计工程师（GPGPU）-北京北京校招正式职位描述 1. 参与微架构设计、RTL、综合/STA到测试交付全流程。接触计算前端模块（SM计算控制、调度器、Cache、一致性等）与功耗优化；2. 根据规范完成微架构设文档计与RTL 实现；3. 联合 DV 搭建 UVM 接口、断言（SVA）并参与仿真回归；4. 与架构/算法团队协作，对指令发射、存储层次和一致性协议提出实现约束。职位要求 1. 硕士以上学历，电子信息/计算机体系结构/微电子等相关专业或有相关实习经验；2. 扎实数字电路基础，熟练 SystemVerilog/Verilog，了解 SVA/UVM；会 Python/TCL 脚本；3. 理解综合/STA/功耗分析基本方法；4. 对 CUDA/SIMT/warp、共享内存、coalescing/bank 冲突有直观理解；5. 加分项：有 GPU/CPU IP 实现或片上网络/一致性协议经验。投递...

Premium Full-time Dvs Ips

北京思朗科技有限责任公司 16 days ago

提前批-AI推理引擎开发工程师

NIO ( Beijing )

提前批-AI推理引擎开发工程师北京校招正式数字技术 - 算法硕士及以上 2027届校园招聘-技术提前批职位 ID：A242397A 职位描述参与大模型推理引擎的设计和研发，支撑自研以及开源模型的快速部署和高性能推理；通过各种技术手段持续优化性能，降低推理成本，包括但不限于:算子/编译优化、异构推理、分布式并行等；学习并应用业界前沿的推理优化技术，KV Cache优化、模型量化(Quantization)、剪枝(Pruning)，跨机分布式推理优化等。对 Transformer 架构及主流大模型(如GPT、Llama、Qwen等)的推理特性有基本理解，了解大模型推理的基本流程和常见挑战(如延迟、吞吐、内存占用)；在资深工程师指导下，参与优化内存管理、计算资源分配与调度策略，提升模型推理速度和资源利用率。学习并使用性能分析工具(如Nvidia Nsight)进行瓶颈定位和优化；职位要求熟练掌握 C++ 和 Python 编程语言，具备扎实的数据结构、算法和操作系统基础熟悉至少一种主流的深度学习框架(如 PyTorch、TensorFlow)，了解其基本实现原理了解GPU编程(如 CUDA)或并行计算，有相关的课程项目或实验经验；有开源大模型推理框架(vllm/sglang/trt-llm)使用和优化经验者优先;有cuda或triton开发优化gpu算子经验者优先；有NVIDIA 等算力芯片优化经验者优先;有大模型推理相关从业经验者优先。投递...

Premium Full-time C++ Python

NIO 16 days ago

端云协同 AI Infra 专家 / 工程师

ModelBest ( Beijing )

端云协同 AI Infra 专家 / 工程师北京社招全职技术 - 基础架构职位 ID：A25180 职位描述 1. 负责端云协同 AI 架构设计，明确云侧模型、私有化服务、边缘节点、端侧设备之间的职责边界、数据流、控制流和安全边界。2. 围绕面壁miniCPM等系列产品，面向运营商营业厅、客服坐席、现场运维、企业办公终端、边缘网关等场景，建设端云协同的数字员工能力。3. 与 Infra 团队协作，打通云侧模型服务、RAG、Workflow、权限审计、日志监控和端侧运行环境。4. 负责端侧资源约束下的性能优化，包括量化、KV Cache、批处理、缓存策略、网络降级、异构算力调度和功耗控制。5. 沉淀端云协同部署规范、设备适配清单、性能 benchmark、故障排查手册和行业交付模板。职位要求 1. 本科及以上学历，计算机、电子信息、自动化、通信、人工智能等相关专业。2. 3 年以上端侧 AI、边缘计算、推理优化、嵌入式系统、客户端基础架构或云边端协同系统经验。3. 熟悉 C/C++、Python，了解端侧或边缘设备上的性能调优、资源管理和系统问题排查。4. 熟悉至少一种推理框架或部署工具，如 llama.cpp、ONNX

Premium Remote Friendly Full-time AI

ModelBest 11 days ago

大模型工程师-推理与部署优化

ModelBest ( Beijing )

大模型工程师-推理与部署优化北京社招全职技术 - 基础架构职位 ID：A23292 职位描述 1、负责大语言模型、多模态模型的推理引擎搭建、优化与线上落地，支撑高并发、低延迟的模型服务；2、基于 vLLM、TensorRT-LLM、SGLang、LightLLM 等主流推理框架进行性能调优，并探索推测性解码 (Speculative Decoding)、前缀缓存 (Prefix Caching) 等前沿加速技术；3、负责大模型在 NVIDIA A/H 系列、昇腾等国产加速卡上的适配与算子优化，解决兼容性与性能瓶颈；4、设计与实现高性能模型 Serving 架构，包括 Prefill-Decode (PD) 分离架构、Continuous Batching (连续批处理)、负载均衡、流式输出等；5、基于 Docker、Kubernetes 实现模型服务容器化编排、弹性扩缩容与运维稳定性保障；6、定位并解决线上服务瓶颈：如显存碎片化、OOM、推理崩溃、时延抖动（Tail Latency）、多卡并行异常等；7、与算法团队协作，将训练好的模型权重标准化、工程化，实现快速上线与迭代。职位要求 1、本科及以上学历，计算机相关专业，2 年及以上大模型部署或推理优化相关经验；2、熟悉多种主流大模型推理框架（如

Premium Full-time CUDA PyTorch Linux

ModelBest 11 days ago

AI院-GLM团队-训练/推理infra算法工程师

Z.ai ( Beijing )

AI院-GLM团队-训练/推理infra算法工程师北京全职互联网 / 电子 / 网游职位描述岗位职责 1. 与算法团队深度协作，参与下一代 GLM 大模型架构设计与系统实现，推动模型结构与系统效率的协同优化2. 构建大模型推理成本分析与模拟系统，从算力、通信、KV cache、并行策略等维度优化推理效率3. 设计与优化超大规模训练基础设施（万卡级），提升训练稳定性、资源利用率与训练效率4. 探索 MoE、Sparse Attention、长上下文等新架构在训练与推理系统中的高效落地你将参与 * 下一代 GLM 系列基础模型（百亿到万亿参数级）的系统设计* 万卡规模训练系统的优化与稳定性工程* 推理系统的极致效率优化（吞吐 /

Premium Full-time CUDA GLM Kernel

Z.ai 10 days ago

Agent Runtime 工程师

ModelBest ( Beijing )

Agent Runtime 工程师北京社招全职技术 - 开发职位 ID：A240281 职位描述 1. 设计并搭建适配 PineaPi 的端侧 Agent Runtime 框架2. 实现任务调度系统：多任务队列、优先级管理、前台/后台任务的抢占与协调3. 设计 Agent 记忆管理机制：短期对话记忆、长期用户画像、记忆压缩与检索4. 实现工具调用（Tool Use）框架：让 Agent 能调用设备能力5. 设计多 Agent 协作机制（如有需要）：不同能力的 Agent 之间的路由与编排6. 在有限的端侧资源下做好 context 管理：KV Cache 持久化、上下文窗口优化7.

Premium Full-time

ModelBest 8 days ago

26届校招-推理Infra工程师

北京智谱华章科技有限公司 ( Beijing )

26届校招-推理Infra工程师北京正式互联网 / 电子 / 网游职位描述 1. 参与大模型推理框架的设计与开发：协助团队进行支撑大语言模型、图像生成等复杂模型推理的高性能框架研发，推动算法到产品落地的全链路优化，确保推理的高效性、稳定性和低延迟。2. 性能优化与调优：在资深工程师指导下，参与优化内存管理、计算资源分配与调度策略，提升模型推理速度和资源利用率。学习并使用性能分析工具（如Nvidia Nsight）进行瓶颈定位和优化。3. 模型推理加速技术探索：学习并应用业界前沿的推理优化技术，KV Cache优化、模型量化（Quantization）、剪枝（Pruning），跨机分布式推理优化等。职位要求 1. 基础技能： - 熟练掌握 C++ 和 Python 编程语言，具备扎实的数据结构、算法和操作系统基础。 - 熟悉至少一种主流的深度学习框架（如 PyTorch、TensorFlow），了解其基本实现原理。 - 了解GPU编程（如 CUDA）或并行计算，有相关的课程项目或实验经验。2. 专业知识： - 对 Transformer 架构及主流大模型（如GPT、Llama、Qwen等）的推理特性有基本理解。 - 了解大模型推理的基本流程和常见挑战（如延迟、吞吐、内存占用）。3.

Premium Full-time C++ Python

北京智谱华章科技有限公司 8 days ago

Miclaw-大模型训练推理方向实习生

小米科技 Xiaomi Technology ( Beijing ) +1 other locations

Miclaw-大模型训练推理方向实习生 AI人才专项热招北京校招实习软件研发类职位描述 1. 研究并复现业界与学术界 SOTA 的大模型推理优化技术，包括但不限于极低比特量化、FlashAttention、投机解码（Speculative Decoding）、KV Cache 优化等关键方向，并在真实端侧场景中进行性能评估与对比分析。2. 面向端侧算力与内存受限场景，探索高效的大模型结构与推理策略，如端侧友好的 MoE 方案、稀疏与线性注意力、长上下文推理优化等，推动模型在性能、效果与资源消耗之间的最优权衡。3. 参与大模型与芯片协同设计（Model–Chip Co-design），从模型结构、算子设计到推理系统层面进行联合优化，深入理解端侧 NPU / GPU / CPU 架构对模型推理性能的影响。4. 与模型、系统、芯片团队深度协作，将研究成果转化为可落地的工程方案，并有机会参与核心模块的设计与实现，产生可量化的性能提升结果。职位要求 1. 计算机科学、人工智能、电子工程或相关专业在读本科 / 硕士 / 博士，对大模型、系统或芯片方向有强烈兴趣。2. 具备扎实的算法与系统基础，对复杂系统的性能瓶颈具有较强分析能力，愿意深入到实现细节解决“难而重要”的问题。3. 至少在以下一个或多个方向具备良好基础或实践经验：- 大模型推理与优化（Attention、KV

Premium Full-time CUDA MOE AI Python

小米科技 Xiaomi Technology 8 days ago

AI Infrastructure Software Engineer — CosmosLab

Nvidia ( Beijing )

NVIDIA has been transforming computer graphics, PC gaming, and accelerated computing for more than 25 years. It’s a unique legacy of innovation that’s fueled by great technology—and amazing people. Today, we’re tapping into the unlimited potential

Premium Full-time Rollout AI Loops Computing Cluster

Nvidia 7 days ago

Senior Deep Learning Solution Architect

Nvidia ( Beijing ) +1 other locations

NVIDIA is leading company of AI computing. At NVIDIA, our employees are passionate about AI, HPC , VISUAL, GAMING. Our SA team is more focusing to bring NVIDIA new technology into difference industries. We help to

Premium Full-time Parallels Computing Acceleration AI Data Structures

Nvidia 7 days ago

Deep Learning Solution Architect

Nvidia ( Beijing )

NVIDIA are seeking dynamic Solution Architects with specialized expertise in training Large Language Models (LLMs), implementing RAG workflows, and agentic inference. You will leverage the full NVIDIA software & hardware ecosystem to design, optimize, and deliver

Premium Full-time Cluster Customization Pre-Sales AI Parallels

Nvidia 7 days ago

智能座舱端侧Agent研发工程师

XPENG ( Beijing )

智能座舱端侧Agent研发工程师北京全职通用智能板块职位描述 1、负责端侧智能座舱AI Agent系统的研发，打造基于大语言模型的多模态座舱智能助手，支撑车控、导航、媒体、舱驾融合等核心场景的智能化交互；2、负责端侧 AI Agent 核心模块的开发，包括任务规划、工具调用、上下文管理、记忆系统等harness相关关键能力的设计与实现，推动智能体系统的迭代落地；3、综合业务场景，参与 Agent 系统的调试与性能优化，解决工程落地中的各类问题，保障系统的稳定性和可扩展性。职位要求 1、扎实的数据结构和数学基础；2、有嵌入式C++软件或是Android 应用开发经验；3、以Java/C++为基础的扎实编程功底；4、深度了解 LLM API、KV Cache、Tool Use、Reasoning/Planning、Multi-Agent System；5、能够娴熟运用 AI Agent 工具支撑软件开发业务，具备优异的自主技术钻研能力。针对自身暂无实操积累的编程语言、开发框架与技术体系，可借助 AI 辅助完成技术攻关与调研；6、热衷 Agent Harness 体系的研发与学术探索，对大模型输出行为具备精准判别能力。【加分项】1、有ACM/ICPC、NOI、Kaggle等比赛获奖经验。投递...

Premium Full-time Harness AI

XPENG 11 hours ago

Cache Jobs In Beijing (Peking) - 21 Job Positions Available

端侧大模型推理与量化资深工程师

【27届校招】智能座舱端侧Agent研发工程师（北京）

AIML - ML Platform Engineer (Apple Ecosystem), Data Intellig...

处理器架构师（存储侧）

Miclaw-移动端 AI 性能专家 (Engine & Efficiency)

大模型推理优化工程师

2026校招-IP设计工程师（GPGPU）-北京

提前批-AI推理引擎开发工程师

端云协同 AI Infra 专家 / 工程师

大模型工程师-推理与部署优化

AI院-GLM团队-训练/推理infra算法工程师

Agent Runtime 工程师

26届校招-推理Infra工程师

Miclaw-大模型训练推理方向实习生

AI Infrastructure Software Engineer — CosmosLab

Senior Deep Learning Solution Architect

Deep Learning Solution Architect

智能座舱端侧Agent研发工程师

Subscribe for job alerts and resources to make your job search easier!

Also try: