Date Posted

Skills

Location

Job Type

Employer/Recruiter

Experience

All Filters

Gpu Kernel Jobs In Shanghai - 24 Job Positions Available

Top Cities:

gpu kernel jobs nationwide

gpu kernel jobs in Shanghai

1 – 20 of 24 jobs

系统内核工程师（Linux Kernel / OS）

MiniMax ( Shanghai )

系统内核工程师（Linux Kernel / OS）北京、上海社招全职研发 - 基础架构职位描述我们正在寻找具备深厚 Linux 内核与操作系统工程能力的系统工程师，负责 AI 基础设施中内核层的研发、优化与问题治理。你的工作将覆盖进程调度、内存管理、文件系统、网络协议栈、安全隔离等内核核心子系统，面向大模型训练/推理、AI Agent 执行环境（Sandbox）、大规模集群等真实场景，从 OS 层提供性能、稳定性和安全性的底层支撑。你将参与1. Linux 内核核心子系统研发与优化：围绕进程调度、内存管理、文件系统、块 IO、网络协议栈等方向，分析并解决 AI 基础设施场景下的性能瓶颈，提升系统吞吐与时延表现。2. 内核级安全隔离机制设计与实现：基于 namespace、cgroup、seccomp、capabilities、eBPF、AppArmor/SELinux 等内核机制，构建进程隔离、系统调用过滤、资源访问控制和逃逸防护能力，支撑 Agent Sandbox、容器运行时、多租户环境等场景的安全需求。3. OS 层资源调度与管控：设计和优化面向多任务、多租户、高并发场景的 CPU 调度策略、内存分配与回收机制、IO 调度和网络资源管控，保障大规模工作负载下的资源公平性与隔离性。4. 内核级问题定位与治理：定位并解决复杂的内核级性能、稳定性及兼容性问题，包括死锁、内存泄漏、性能抖动、资源竞争、内核崩溃等，具备从现象到根因的完整排查能力。5. OS

Premium Full-time Linux IO AI Kernel

MiniMax 28 days ago

AI院-推理Infra工程师（量化算法研究/推理框架优化/GPU优化）

Z.ai ( Shanghai )

AI院-推理Infra工程师（量化算法研究/推理框架优化/GPU优化）北京、上海全职互联网 / 电子 / 网游职位描述【方向一】量化算法研究员-职位描述通过前沿的模型量化、压缩与推理加速技术，显著降低大语言模型及多模态模型的存储占用与计算成本，推动 LLM 的大规模部署。-工作内容1、研发及改进 PTQ（训练后量化）、QAT（量化感知训练）、混合精度量化等核心算法，针对LLM/VLM（大语言模型/视觉语言模型）设计定制化量化方案，持续优化模型精度与推理效率的平衡；2、探索并实践低比特量化（如INT8/INT4/FP8/FP4）、权重稀疏化、知识蒸馏等协同压缩技术，提升压缩率同时控制精度损失；3、开发及优化量化工具链，完成对 GLM 系列模型的转换、量化校准及部署集成；4、跟踪学术界与工业界前沿量化技术，通过论文复现、实验对比推动技术迭代。-职位要求1、计算机科学、电子工程、数学等相关专业硕士及以上学历，3 年以上模型量化或推理加速经验；或优秀本科生具备扎实项目履历；2、深入理解 Transformer 架构及 LLM 推理流程，精通 Python，熟悉常见的开源 LLM 推理框架（sglang/vllm/trtllm 等）；3、掌握量化原理（校准策略、量化粒度、误差分析）及主流算法（如GPTQ、AWQ）；4、具有 CUDA/Triton 编程经验，能自主实现高性能算子或优化内核计算加分。【方向二】推理框架优化工程师-职位描述1、高性能算子开发与优化：负责AI模型（尤其是大语言模型及多模态模型）在GPU上的核心算子（Kernel）的设计、开发与极致性能优化，支撑训练和推理场景的高效运行。2、性能分析与调优：深入分析GPU应用程序的性能瓶颈，通过优化内存访问模式、线程调度、执行效率等手段，显著提升计算密集型任务的吞吐量和降低延迟。3、技术集成与应用：研究并应用业界前沿的优化技术（如模型量化QAT/PTQ、算子融合、动态形状支持、FlashAttention等），并将其集成至推理/训练引擎。-职位要求1、编程能力：具备3年及以上GPU编程与高性能计算优化经验，深入理解GPU架构、并行计算原理、计算机体系结构，具备高性能计算内核的开发与优化经验。2、精通C/C++，具备扎实的编程基础、良好的编程风格和丰富的调试经验；熟练掌握Python；熟悉Linux开发环境。3、性能优化经验：能够熟练使用Nsight Compute、Nsight Systems等GPU性能分析工具，有实际的性能优化案例和成果，能独立定位和解决复杂的性能问题。4、算法基础：熟悉基础数学函数、线性代数、矩阵运算、数值计算等数学库相关算法，了解深度学习常见算子的计算方式。【方向三】GPU优化工程师-职位描述利用对 cuda 生态软件和底层体系结构的了解，帮助团队优化训练和推理的计算效率。-工作内容1、高性能算子开发与优化：负责AI模型（尤其是大语言模型及多模态模型）在GPU上的核心算子（Kernel）的设计、开发与极致性能优化，支撑训练和推理场景的高效运行。2、性能分析与调优：深入分析GPU应用程序的性能瓶颈，通过优化内存访问模式、线程调度、执行效率、多流并行协同等手段，显著提升计算密集型任务的吞吐量和降低延迟。3、技术选型：对 GPU 领域相关的 DSL/编译器（例如 triton/cuteDSL/tilelang）等进行尝试和了解，确定团队内的 DSL/编译器的技术选型，为未来的迭代做好技术储备。-职位要求1、编程能力：具备3年及以上GPU编程与高性能计算优化经验，深入理解GPU架构、并行计算原理、计算机体系结构，具备高性能计算内核的开发与优化经验。2、精通C/C++，具备扎实的编程基础、良好的编程风格和丰富的调试经验；熟练掌握Python；熟悉Linux开发环境。3、性能优化经验：能够熟练使用Nsight Compute、Nsight Systems等GPU性能分析工具，有实际的性能优化案例和成果，能独立定位和解决复杂的性能问题。4、算法基础：熟悉基础数学函数、线性代数、矩阵运算、数值计算等数学库相关算法，了解深度学习常见算子的计算方式。职位要求 - 投递...

Premium Remote Friendly Full-time CUDA GLM

Z.ai 24 days ago

Upload Your Resume — Let employers contact you directly

Software Engineer, AI and DL Kernel Libraries

Nvidia ( Shanghai )

Were looking for outstanding AI systems software engineers to develop groundbreaking technologies across the inference systems software stack. Our team builds core AI systems software that accelerates high-impact workloads on NVIDIA GPUs, from deep learning primitives

Premium Full-time Compiler Apache Software Development AI Compilation

Nvidia 1 day ago

Deep Learning Compiler Engineer - CUDA

Nvidia ( Shanghai )

NVIDIA has been transforming computer graphics, PC gaming, and accelerated computing for more than 25 years. It’s a unique legacy of innovation that’s fueled by great technology—and amazing people. Today, we’re tapping into the unlimited potential

Premium Full-time Performance Analysis Oral Communication Computing Software Engineering Parallel Programming

Nvidia 28 days ago

Deep Learning Performance Architect, CUTLASS DSL Testing

Nvidia ( Shanghai )

Are you excited about building world-class quality systems for advanced GPU software? Do you enjoy combining automation, product validation, and code analysis to support fast-moving compiler and kernel innovation? We are seeking a strong test engineer to develop

Premium Full-time Kernel Compiler Automated Testing AI Software Testing

Nvidia 28 days ago

Agent Sandbox 系统工程师

MiniMax ( Shanghai )

Agent Sandbox 系统工程师北京、上海社招全职研发 - 基础架构职位描述我们正在构建面向 AI Agent 的 Sandbox 基座，为 Agent 提供安全、可控、可观测、可复现的执行环境。系统需要覆盖浏览器自动化环境、容器运行环境、Kubernetes 集群、虚拟机环境、物理机集群等多种资源形态，并在操作系统和内核层面提供坚实的隔离、调度与安全能力支撑。这个岗位的核心定位是：用 Kernel 和 OS 层的底层能力，解决 Agent Sandbox 场景中的隔离执行、资源管控、安全防护和性能优化问题。你既需要理解 Agent 执行环境的上层需求，也需要深入内核与操作系统层面设计和实现关键机制。你将参与1. Sandbox 资源层架构设计与实现：覆盖容器、Kubernetes、虚拟机、浏览器自动化环境、物理机集群等执行资源的统一抽象，提供一致的环境初始化、生命周期管理、资源限额、状态回收和故障隔离能力。2. 内核级安全隔离机制建设：基于 cgroup、namespace、seccomp、AppArmor/SELinux、eBPF 等内核机制，构建 Agent 不可信代码的执行隔离、系统调用过滤、资源访问控制和逃逸防护能力。3. OS 层资源调度与性能优化：针对多

Premium Remote Friendly Full-time Linux IO AI Kernel

MiniMax 28 days ago

Get Hired 2x Faster
Connect with Top Employers Directly

Deep Learning Performance Software Engineer

Nvidia ( Shanghai )

We are now looking for a Deep Learning Performance Software Engineer! We are expanding our research and development for deep learning. We seek excellent Software Engineers and Senior Software Engineers to join our team. We specialize

Premium Full-time Architecture Research And Development Compiler DSL Deep Learning

Nvidia 24 days ago

Deep Learning Performance Architect, CUTLASS DSL

Nvidia ( Shanghai )

Are you passionate about programming languages, compiler technology, and GPU performance? Do you want to help shape the future of high-performance kernel development for AI? We are looking for outstanding engineers to build CUTLASS DSL, a Python-native language

Premium Full-time CUDA Collaborative Environment Computing Dialects Compiler

Nvidia 24 days ago

Senior System Software Engineer, Robotics

Nvidia ( Shanghai )

For two decades, NVIDIA has pioneered visual computing through the invention of the GPU, the engine of modern accelerated computing. Today, this foundation powers breakthroughs across gaming, film, scientific research, autonomous machines, and robotics. NVIDIA is building

Premium Full-time Benchmarking User Documentation C++ Prototyping Reinforcement Learning

Nvidia 23 days ago

算子开发工程师

XPENG ( Shanghai )

算子开发工程师深圳、上海全职芯片板块职位描述 1. 设计并优化CUDA算子/ DSP算子，针对公司自研芯片架构，开发高性能异构计算算子，支撑大模型推理、实时图像处理等关键业务。2. 搭建和完善算子测试验证平台，保证算子的工程化落地。职位要求学历背景：1.重点大学硕士/，计算机/电子/数学/AI方向核心技术栈：1.精通 C/C++ 与 Python，掌握Linux开发环境及性能剖析工具（gprof/perf）。2.深入理解GPU架构（SM/Tensor Core/Memory Hierarchy）及CUDA编程模型（Kernel/Thread Hierarchy/Stream）。3.具备高性能计算基础：并行算法、缓存优化、向量化指令集（AVX/NEON）。实操经验（至少满足1项）：4.有CUDA/OpenCL算子开发优化经验。熟悉深度学习框架底层（PyTorch CUDA Extension/TensorFlow XLA）。5.参与过异构计算项目（GPU+FPGA/ASIC/DSP协同计算）。投递...

Premium Full-time CUDA

XPENG 20 days ago

AI多核架构师

XPENG ( Shanghai )

AI多核架构师急招上海全职芯片板块职位描述 1.多核系统架构设计•根据产品需求制定 Core × NoC × Cache × DRAM × Die-to-Die 总体架构；•有能力设计调度，总线，多层Cache存储架构，同步硬件架构。2.软硬件协同•与 Compiler / Runtime / 框架团队沟通 Graph Compiler + Kernel Scheduler + 弹性分布式通信库，分解硬件架构需求；•有能力根据 PyTorch / vLLM 等需求做端到端 Benchmark Sign-off。职位要求 1.硬件能力•计算机体系结构

Premium Full-time Compiler Noc PyTorch Kernel

XPENG 20 days ago

HPC Engineer

AlphaGrep Securities ( Shanghai )

关于我们 / About Us AlphaGrep 是一家全球领先的量化交易公司，专注于股票、商品、外汇及固定收益等资产的算法交易。我们在国际市场拥有显著份额，依托自主开发的超低延迟系统与严格的风控体系，持续构建高效能策略。 AlphaGrep is a leading global quantitative trading firm specializing in algorithmic strategies across equities, commodities, FX, and fixed income. We hold significant market share internationally, powered by proprietary low-latency infrastructure

Premium Full-time Fabric Asset Management InfiniBand Linux RDMA

AlphaGrep Securities 16 days ago

Staff Machine Learning Engineer, ML Infrastructure - Online

UNITY ( Shanghai )

The opportunity Unity Vector builds ML infrastructure that powers real-time prediction, experimentation, attribution, and AI-driven decision-making across the company. Our online ML systems serve production models at scale, supporting low-latency inference, large-scale experimentation, model deployment and

Premium Full-time Machine Learning TensorFlow Fostering Volunteering Web Games

UNITY 15 days ago

Senior Machine Learning Engineer, ML Infrastructure - Offlin...

UNITY ( Shanghai )

The opportunity Unity Vector builds an offline ML platform that powers insight, experimentation, attribution, and AI-driven decision-making across the company. Our systems operate at scale across batch and streaming data, supporting analytics, product intelligence, machine learning

Premium Full-time Torch Distributed Systems Orchestration Distributed computing Mobile Game

UNITY 15 days ago

Senior Machine Learning Engineer, ML Infrastructure - Online

UNITY ( Shanghai )

Premium Full-time Web Games Low Latency PyTorch Vector Unity

UNITY 15 days ago

Deep Learning Performance Architect

Nvidia ( Shanghai )

NVIDIA is developing processor and system architectures that accelerate deep learning on edge devices, workstations, and data center GPUs for a variety of applications including automotive, robotics, large language models and AI generative models. We are

Premium Full-time Deep Learning Data Center Architecture Design Kernel Algorithms

Nvidia 15 days ago

大模型算法工程Co-Design-2026届

MiniMax ( Shanghai )

大模型算法工程Co-Design-2026届北京、上海校招正式研发 - 算法 2026届校园招聘职位描述寻找深度理解大模型算法，同时具备顶尖系统工程设计能力的专家。你将作为算法研究与工程落地的核心桥梁，主导优化大模型训练/推理效率、性能与成本，确保前沿算法在大规模系统中高效实现。1. 协同设计与优化： - 深入理解大模型算法（架构、训练/推理技术），评估其工程可行性、性能瓶颈与成本。 - 主导设计下一代训练/推理框架或核心组件，确保原生支持高效算法实现（如高效Attention、通信优化）。 - 系统性解决训练/推理工作负载的性能瓶颈（计算、通信、存储）。2. 高性能系统实现： - 设计并实现高性能核心（如定制Kernel）、优化通信与数据流水线。3. 分布式架构： - 设计构建大规模分布式训练系统（DeepSpeed/Megatron-LM/FSDP）。 - 设计构建高并发、低延迟的大模型推理服务平台。4. 前瞻探索与协作： - 跟踪领域前沿，探索验证新技术（新硬件、非Transformer架构等）。 - 高效沟通，跨团队（算法、工程、平台）协作推动方案落地。职位要求 1. 学历/经验：计算机/人工智能等相关领域本科及以上，或具备同等杰出实践经验。2. 大模型基础：深刻理解Transformer架构及大模型训练/推理等相关核心技术。3. 工程硬实力：

Premium Full-time PyTorch

MiniMax 3 days ago

优才-具身智能算法工程师（训练效率方向）-觅蜂子公司

智元创新（上海）科技有限公司 ( Shanghai )

优才-具身智能算法工程师（训练效率方向）-觅蜂子公司上海正式职位描述 1. 负责具身智能训练效率的度量、分析与系统性优化，覆盖预训练与后训练全链路。2. 深入理解不同模型架构（Transformer / Diffusion / Flow Matching 等）与训练算法（IL/RL/BC 等）的计算特性，针对性设计优化方案。3. 构建训练效率监控体系，包括 GPU 利用率、训练吞吐、通信效率、数据加载延迟等核心指标的可视化与自动化追踪。4. 模型训练效率优化：算子融合、CUDA graph、kernel 调优等，提升单卡和多卡计算效率。5. 并行与通信效率优化：梯度同步、云边通信、权重分发等通信开销分析与优化，支撑百台规模训练不退化。6. 数据加载效率优化：数据预处理 pipeline、IO 吞吐优化，消除数据侧瓶颈。职位要求 1. 计算机、AI 等相关专业硕士及以上学历。2. 具备扎实的 Python/C++/CUDA 编程能力，有 GPU kernel 开发或性能调优经验。3. 对深度学习模型架构与训练算法有扎实理解，能基于算法计算特性定位瓶颈并设计优化方案。4. 熟练掌握性能分析工具（Nsight Systems / PyTorch Profiler

Premium Full-time PyTorch MPI Diffusion Kernel

智元创新（上海）科技有限公司 1 day ago

新业务部-多媒体软件SE

Xiaomi ( Shanghai )

新业务部-多媒体软件SE 北京、上海、西安社招全职职位 ID：A2076 职位描述 1，参与多媒体IP的规格讨论、方案设计，负责重点IP的选型；2，端到端拉通输出各个领域的详细需求，并能够满足产品的定义，保证产品的竞争力；3，负责Android平台多媒体（GPU、Display、Camera、NPU、Vcodec）相关IP的软件架构设计，并负责主要方案实现；4，负责多媒体的新技术调研与重点难点问题攻关；5，负责产品性能、低功耗等方案的输出；6，负责多媒体跨领域，跨IP场景需求分析，系统设计，产品竞争力，卖点交付达成；职位要求 1，信号处理、自动化、通信、电子工程、数学、计算机类，本科及其以上学历，5年以上相关工作经验；2，熟练使用C/C++等编程语言，有Android Framework相关开发经验优先，熟悉Linux驱动开发；3，熟悉ARM体系架构，如Cortex-M，Cortex-A，精通基于ARM的嵌入式软件开发和调试，精通编译工具及调试工具的使用4，有Android媒体相关（GPU、Display、Camera、NPU、Vcodec）模块开发设计经验优先，熟悉相关模块的HAL以及Kernel驱动流程者优先；5，主动积极并具有团队合作精神，自我激励能力，并有良好的沟通技巧。投递...

Premium Full-time

Xiaomi 1 day ago

Automotive Linux Performance SME (Subject Matter Expert)

Qualcomm ( Shanghai )

Company: Qualcomm China Job Area:Engineering Group, Engineering Group Software Engineering General Summary: General Summary Qualcomm is leveraging its expertise in wireless and computing technologies to drive a major technological revolution in the automotive industry. Having led

Premium Full-time SME Software Engineering Cluster Scripting Language OEMs

Qualcomm 6 hours ago

More Jobs

Also try:

Upload Your ResumeLet employers contact you directly

Gpu Kernel Jobs In Shanghai - 24 Job Positions Available

Subscribe for job alerts and resources to make your job search easier!

Also try: