Refine Reset All
Sort by
Company
Job Title
Location
Job Type
Employer/Recruiter
Experience
Date Posted
Company
Job Title
Location
Employer/Recruiter
Experience
All Filters

You refined by

Full-time

Gpu Kernel Jobs In China - 41 Job Positions Available

Top Cities:
1 – 20 of 41 jobs
MiniMax jobs

系统内核工程师(Linux Kernel / OS) 北京、上海 社招 全职 研发 - 基础架构 职位描述 我们正在寻找具备深厚 Linux 内核与操作系统工程能力的系统工程师,负责 AI 基础设施中内核层的研发、优化与问题治理。你的工作将覆盖进程调度、内存管理、文件系统、网络协议栈、安全隔离等内核核心子系统,面向大模型训练/推理、AI Agent 执行环境(Sandbox)、大规模集群等真实场景,从 OS 层提供性能、稳定性和安全性的底层支撑。你将参与1. Linux 内核核心子系统研发与优化:围绕进程调度、内存管理、文件系统、块 IO、网络协议栈等方向,分析并解决 AI 基础设施场景下的性能瓶颈,提升系统吞吐与时延表现。2. 内核级安全隔离机制设计与实现:基于 namespace、cgroup、seccomp、capabilities、eBPF、AppArmor/SELinux 等内核机制,构建进程隔离、系统调用过滤、资源访问控制和逃逸防护能力,支撑 Agent Sandbox、容器运行时、多租户环境等场景的安全需求。3. OS 层资源调度与管控:设计和优化面向多任务、多租户、高并发场景的 CPU 调度策略、内存分配与回收机制、IO 调度和网络资源管控,保障大规模工作负载下的资源公平性与隔离性。4. 内核级问题定位与治理:定位并解决复杂的内核级性能、稳定性及兼容性问题,包括死锁、内存泄漏、性能抖动、资源竞争、内核崩溃等,具备从现象到根因的完整排查能力。5. OS

MiniMax  28 days ago
Z.ai jobs

AI院-推理Infra工程师(量化算法研究/推理框架优化/GPU优化) 北京、上海 全职 互联网 / 电子 / 网游 职位描述 【方向一】量化算法研究员-职位描述通过前沿的模型量化、压缩与推理加速技术,显著降低大语言模型及多模态模型的存储占用与计算成本,推动 LLM 的大规模部署。-工作内容1、研发及改进 PTQ(训练后量化)、QAT(量化感知训练)、混合精度量化等核心算法,针对LLM/VLM(大语言模型/视觉语言模型)设计定制化量化方案,持续优化模型精度与推理效率的平衡;2、探索并实践低比特量化(如INT8/INT4/FP8/FP4)、权重稀疏化、知识蒸馏等协同压缩技术,提升压缩率同时控制精度损失;3、开发及优化量化工具链,完成对 GLM 系列模型的转换、量化校准及部署集成;4、 跟踪学术界与工业界前沿量化技术,通过论文复现、实验对比推动技术迭代。-职位要求1、计算机科学、电子工程、数学等相关专业硕士及以上学历,3 年以上模型量化或推理加速经验;或优秀本科生具备扎实项目履历;2、深入理解 Transformer 架构及 LLM 推理流程,精通 Python,熟悉常见的开源 LLM 推理框架(sglang/vllm/trtllm 等);3、掌握量化原理(校准策略、量化粒度、误差分析)及主流算法(如GPTQ、AWQ);4、具有 CUDA/Triton 编程经验,能自主实现高性能算子或优化内核计算加分。【方向二】推理框架优化工程师-职位描述1、高性能算子开发与优化:负责AI模型(尤其是大语言模型及多模态模型)在GPU上的核心算子(Kernel)的设计、开发与极致性能优化,支撑训练和推理场景的高效运行。2、性能分析与调优:深入分析GPU应用程序的性能瓶颈,通过优化内存访问模式、线程调度、执行效率等手段,显著提升计算密集型任务的吞吐量和降低延迟。3、技术集成与应用:研究并应用业界前沿的优化技术(如模型量化QAT/PTQ、算子融合、动态形状支持、FlashAttention等),并将其集成至推理/训练引擎。-职位要求1、编程能力:具备3年及以上GPU编程与高性能计算优化经验,深入理解GPU架构、并行计算原理、计算机体系结构,具备高性能计算内核的开发与优化经验。2、精通C/C++,具备扎实的编程基础、良好的编程风格和丰富的调试经验;熟练掌握Python;熟悉Linux开发环境。3、性能优化经验:能够熟练使用Nsight Compute、Nsight Systems等GPU性能分析工具,有实际的性能优化案例和成果,能独立定位和解决复杂的性能问题。4、算法基础:熟悉基础数学函数、线性代数、矩阵运算、数值计算等数学库相关算法,了解深度学习常见算子的计算方式。【方向三】GPU优化工程师-职位描述利用对 cuda 生态软件和底层体系结构的了解,帮助团队优化训练和推理的计算效率。-工作内容1、高性能算子开发与优化:负责AI模型(尤其是大语言模型及多模态模型)在GPU上的核心算子(Kernel)的设计、开发与极致性能优化,支撑训练和推理场景的高效运行。2、性能分析与调优:深入分析GPU应用程序的性能瓶颈,通过优化内存访问模式、线程调度、执行效率、多流并行协同等手段,显著提升计算密集型任务的吞吐量和降低延迟。3、技术选型:对 GPU 领域相关的 DSL/编译器(例如 triton/cuteDSL/tilelang)等进行尝试和了解,确定团队内的 DSL/编译器的技术选型,为未来的迭代做好技术储备。-职位要求1、编程能力:具备3年及以上GPU编程与高性能计算优化经验,深入理解GPU架构、并行计算原理、计算机体系结构,具备高性能计算内核的开发与优化经验。2、精通C/C++,具备扎实的编程基础、良好的编程风格和丰富的调试经验;熟练掌握Python;熟悉Linux开发环境。3、性能优化经验:能够熟练使用Nsight Compute、Nsight Systems等GPU性能分析工具,有实际的性能优化案例和成果,能独立定位和解决复杂的性能问题。4、算法基础:熟悉基础数学函数、线性代数、矩阵运算、数值计算等数学库相关算法,了解深度学习常见算子的计算方式。 职位要求 - 投递...

Z.ai  24 days ago
Xiaomi jobs

新业务部-多媒体GPU驱动软件工程师 西安 社招 全职 职位 ID:A114400 职位描述 1、负责Android平台多媒体GPU UMD/KMD驱动移植和维护、bring up、深度优化、基础GPU上下电、调频功能等特性开发2、负责Android FPGA/ASIC GPU模块功能验证,与芯片沟通、及时发现并解决相关问题,保证相关硬件的功能正常3、 负责GPU图形渲染、性能相关问题解决,包括HWUI、SKIA、SurfaceFlinger、应用/游戏渲染异常、XTS、卡顿丢帧等问题4、负责Android平台UI图形渲染框架优化及优化特性开发5、负责Linux图形系统DXVK、ZINK、GPU驱动适配开发6、负责游戏渲染管线、渲染算法性能功耗优化特性功能开发 职位要求 1、通信、电子工程、数学、计算机类,本科及其以上学历,3年及以上相关工作经验;2、熟练使用C/C++等编程语言,有Android Framework相关开发经验、GPU UMD/KMD驱动开发、GPU集成验证经验优先,熟悉Linux驱动开发;3、熟悉GPU硬件、图形渲染管线、OpenGLES、VULKAN、OpenCL开发经验优先,熟悉相关模块的HAL以及Kernel驱动流程者优先;4、主动积极并具有团队合作精神,自我激励能力,并有良好的沟通技巧。 投递...

Premium Full-time
Xiaomi  1 day ago
Nvidia jobs

Were looking for outstanding AI systems software engineers to develop groundbreaking technologies across the inference systems software stack. Our team builds core AI systems software that accelerates high-impact workloads on NVIDIA GPUs, from deep learning primitives

Nvidia  1 day ago
Nvidia jobs

NVIDIA has been transforming computer graphics, PC gaming, and accelerated computing for more than 25 years. It’s a unique legacy of innovation that’s fueled by great technology—and amazing people. Today, we’re tapping into the unlimited potential

Nvidia  28 days ago
Nvidia jobs

Are you excited about building world-class quality systems for advanced GPU software? Do you enjoy combining automation, product validation, and code analysis to support fast-moving compiler and kernel innovation? We are seeking a strong test engineer to develop

Nvidia  28 days ago
MiniMax jobs

Agent Sandbox 系统工程师 北京、上海 社招 全职 研发 - 基础架构 职位描述 我们正在构建面向 AI Agent 的 Sandbox 基座,为 Agent 提供安全、可控、可观测、可复现的执行环境。系统需要覆盖浏览器自动化环境、容器运行环境、Kubernetes 集群、虚拟机环境、物理机集群等多种资源形态,并在操作系统和内核层面提供坚实的隔离、调度与安全能力支撑。这个岗位的核心定位是:用 Kernel 和 OS 层的底层能力,解决 Agent Sandbox 场景中的隔离执行、资源管控、安全防护和性能优化问题。你既需要理解 Agent 执行环境的上层需求,也需要深入内核与操作系统层面设计和实现关键机制。你将参与1. Sandbox 资源层架构设计与实现:覆盖容器、Kubernetes、虚拟机、浏览器自动化环境、物理机集群等执行资源的统一抽象,提供一致的环境初始化、生命周期管理、资源限额、状态回收和故障隔离能力。2. 内核级安全隔离机制建设:基于 cgroup、namespace、seccomp、AppArmor/SELinux、eBPF 等内核机制,构建 Agent 不可信代码的执行隔离、系统调用过滤、资源访问控制和逃逸防护能力。3. OS 层资源调度与性能优化:针对多

MiniMax  28 days ago
Nvidia jobs

We are now looking for a Deep Learning Performance Software Engineer! We are expanding our research and development for deep learning. We seek excellent Software Engineers and Senior Software Engineers to join our team. We specialize

Nvidia  24 days ago
Nvidia jobs

Are you passionate about programming languages, compiler technology, and GPU performance? Do you want to help shape the future of high-performance kernel development for AI? We are looking for outstanding engineers to build CUTLASS DSL, a Python-native language

Nvidia  24 days ago
Z.ai jobs

高性能推理优化算法工程师 北京 全职 互联网 / 电子 / 网游 职位描述 1、高性能算子开发与优化:负责AI模型(尤其是大语言模型及多模态模型)在GPU上的核心算子(Kernel)的设计、开发与极致性能优化,支撑训练和推理场景的高效运行。2、性能分析与调优:深入分析GPU应用程序的性能瓶颈,通过优化内存访问模式、线程调度、执行效率等手段,显著提升计算密集型任务的吞吐量和降低延迟。3、技术集成与应用:研究并应用业界前沿的优化技术(如模型量化QAT/PTQ、算子融合、动态形状支持、FlashAttention等),并将其集成至推理/训练引擎。 职位要求 1、编程能力:具备3年及以上GPU编程与高性能计算优化经验,深入理解GPU架构、并行计算原理、计算机体系结构,具备高性能计算内核的开发与优化经验。2、精通C/C++,具备扎实的编程基础、良好的编程风格和丰富的调试经验;熟练掌握Python;熟悉Linux开发环境。3、性能优化经验:能够熟练使用Nsight Compute、Nsight Systems等GPU性能分析工具,有实际的性能优化案例和成果,能独立定位和解决复杂的性能问题。4、算法基础:熟悉基础数学函数、线性代数、矩阵运算、数值计算等数学库相关算法,了解深度学习常见算子的计算方式 投递...

Premium Full-time
Z.ai  24 days ago
Nvidia jobs

For two decades, NVIDIA has pioneered visual computing through the invention of the GPU, the engine of modern accelerated computing. Today, this foundation powers breakthroughs across gaming, film, scientific research, autonomous machines, and robotics. NVIDIA is building

Nvidia  23 days ago
XPENG jobs

算子开发工程师 深圳、上海 全职 芯片板块 职位描述 1. 设计并优化CUDA算子/ DSP算子,针对公司自研芯片架构,开发高性能异构计算算子,支撑大模型推理、实时图像处理等关键业务。2. 搭建和完善算子测试验证平台,保证算子的工程化落地。 职位要求 学历背景:1.重点大学硕士/,计算机/电子/数学/AI方向核心技术栈:1.精通 C/C++ 与 Python,掌握Linux开发环境及性能剖析工具(gprof/perf)。2.深入理解GPU架构(SM/Tensor Core/Memory Hierarchy)及CUDA编程模型(Kernel/Thread Hierarchy/Stream)。3.具备高性能计算基础:并行算法、缓存优化、向量化指令集(AVX/NEON)。实操经验(至少满足1项):4.有CUDA/OpenCL算子开发优化经验。熟悉深度学习框架底层(PyTorch CUDA Extension/TensorFlow XLA)。5.参与过异构计算项目(GPU+FPGA/ASIC/DSP协同计算)。 投递...

Premium Full-time CUDA
XPENG  20 days ago
XPENG jobs

大模型训练加速工程师 / 高级专家 北京 全职 通用智能板块 职位描述 【岗位职责】训练加速与优化: 负责大模型训练场景下的性能分析 (Profiling) 与全链路优化,包括显存管理、计算加速及通信优化 (NCCL),提升集群训练吞吐率。算子开发与协同设计 (Co-design): 负责高性能算子 (Kernel) 的开发与调优;与算法团队紧密协作,针对特定模型结构(如 Transformer, MoE)进行定制化算子设计。分布式框架建设: 基于 Megatron-LM, DeepSpeed, FSDP 等框架进行二次开发与优化,设计适应大规模集群的并行训练方案。稳定性保障: 负责大规模训练过程中的问题定位与解决,包括但不限于 NCCL 超时、显存溢出 (OOM)、训练速度波动等,保障训练任务的高效稳定运行。 职位要求 理论基础: 计算机基础扎实,深刻理解深度学习训练原理(计算图、自动微分、混合精度),熟悉主流并行策略及 FlashAttention 等加速算法。编程能力: 熟练掌握 Python/C++,熟悉 GPU 编程模型,具备 CUDA /

XPENG  20 days ago
XPENG jobs

AI多核架构师 急招 上海 全职 芯片板块 职位描述 1.多核系统架构设计•根据产品需求制定 Core × NoC × Cache × DRAM × Die-to-Die 总体架构;•有能力设计调度,总线,多层Cache存储架构,同步硬件架构。2.软硬件协同•与 Compiler / Runtime / 框架团队沟通 Graph Compiler + Kernel Scheduler + 弹性分布式通信库,分解硬件架构需求;•有能力根据 PyTorch / vLLM 等需求做端到端 Benchmark Sign-off。 职位要求 1.硬件能力•计算机体系结构

XPENG  20 days ago
Pony.ai jobs

C++实习生 - 性能优化 - 北京海淀 北京 实习 职位描述 职位描述1. 负责自动驾驶系统感知在线模块的性能优化;2. 使用AI等工具分析感知模块,定位性能瓶颈并推动CPU、GPU等多维度优化落地。 职位要求 职位要求1. 计算机或相关专业本科以上学历;2. 优秀的编程能力,Linux开发经验、扎实的C++基础;3. 扎实的数据结构与算法基础;4. 有较强的独立解决问题能力,学习能力,动手能力及沟通能力。若能满足如下条件的其中一个,会适当加分1. 具备良好的代码风格、代码品味与工程化意识;2. 了解常用的 CPU/GPU 性能分析方法或工具,如 gprof、Nsight System、perf等;3. 了解多线程优化、并发性能优化、 GPU 编程模型、显存管理、kernel 调优等相关知识;4. 在自动驾驶行业有实习经验、或由高性能计算工程项目;5. 实习期6个月及以上,能尽快入职。 投递...

Premium Full-time
Pony.ai  20 days ago
AlphaGrep Securities jobs

关于我们 / About Us AlphaGrep 是一家全球领先的量化交易公司,专注于股票、商品、外汇及固定收益等资产的算法交易。我们在国际市场拥有显著份额,依托自主开发的超低延迟系统与严格的风控体系,持续构建高效能策略。 AlphaGrep is a leading global quantitative trading firm specializing in algorithmic strategies across equities, commodities, FX, and fixed income. We hold significant market share internationally, powered by proprietary low-latency infrastructure

AlphaGrep Securities  16 days ago
小米科技 Xiaomi Technology jobs

顶尖应届-大模型推理框架研发工程师-基础技术平台 北京 校招 正式 软件研发类 27届未来星 职位描述 1、负责基于 SGLang 等技术的大模型推理框架的开发工作,包括但不限于设计和实现高效的推理引擎架构,优化推理过程中的计算流程,提高推理性能。以满足不同规模大模型的实时推理需求复杂大模型框架性能评估和调优工作,构建并完善性能监控体系,通过实时监测训练指标,定位性能瓶颈,提出优化方案,确保在不同硬件上达到最优性能。2、负责Cuda Kernel优化,开发高性能的GPU算子, 提升大模型推理性能。 职位要求 1、计算机/电子/数学等相关专业硕士及以上学历;2、精通C/C++,熟悉Python,具备扎实的数据结构与算法基础,ACM/ICPC、NOI等竞赛获奖者优先;3、熟悉NVIDIA GPU架构及编程模型,掌握CUDA核函数优化、显存管理、多流并发等技术,有实际性能调优经验;4、熟悉PyTorch、Megatron、vLLM/SGLang等深度学习训练和推理框架;5、有分布式系统开发经验,熟悉MPI、NCCL等通信库,或参与过大模型训练/推理项目者优先。 投递...

Premium Full-time
小米科技 Xiaomi Technology  16 days ago
UNITY jobs

The opportunity Unity Vector builds ML infrastructure that powers real-time prediction, experimentation, attribution, and AI-driven decision-making across the company. Our online ML systems serve production models at scale, supporting low-latency inference, large-scale experimentation, model deployment and

UNITY  16 days ago
UNITY jobs

The opportunity Unity Vector builds an offline ML platform that powers insight, experimentation, attribution, and AI-driven decision-making across the company. Our systems operate at scale across batch and streaming data, supporting analytics, product intelligence, machine learning

UNITY  16 days ago
UNITY jobs

The opportunity Unity Vector builds ML infrastructure that powers real-time prediction, experimentation, attribution, and AI-driven decision-making across the company. Our online ML systems serve production models at scale, supporting low-latency inference, large-scale experimentation, model deployment and

UNITY  16 days ago

Subscribe for job alerts and resources to make your job search easier!

Confirmation email sent to

Check your email and click on the link to start receiving your job alerts

Receive the latest job openings for:

gpu kernel

You also might be interested in:

Software Engineer

AI

Machine Learning

CUDA

Software Engineering

Programming Languages

C++

PyTorch

Python

Performance Analysis

Confirmation email sent to

Check your email and click on the link to start receiving your job alerts

All Filters Apply
Sort by
Company
Job Title
Location
Job Type
Employer/Recruiter
Experience