Refine Reset All
Sort by
Job Title
Employer/Recruiter
Experience
Date Posted
Company
Job Title
Location
Job Type
Employer/Recruiter
Experience
All Filters

Profiling Jobs In China - 80 Job Positions Available

Top Cities:
1 – 20 of 80 jobs
Qualcomm jobs

Company: Qualcomm China Job Area:Engineering Group, Engineering Group Systems Test Engineering General Summary: Job Overview Qualcomm is one of the largest fabless design companies in the world provides hardware, software and related services to nearly every

Qualcomm  2 days ago
Canva jobs

Company Description About the Group/Team Were the Video team within the Design Experience Supergroup, and we’re on a mission to empower every user to tell compelling visual stories through video. We build intuitive, powerful tools and

Canva  28 days ago
Shiji Group jobs

Company Description 石基集团成立于1998年,作为面向整个消费市场的软件提供商,为酒店、餐饮、零售和娱乐行业提供软件解决方案及技术服务,业务范围涵盖酒店管理解决方案、餐饮及零售系统、支付网关、数据管理、在线分销等不同行业与业务场景。 通过成体系的技术解决方案,为酒店、零售、餐饮及娱乐等不同类型的企业提升运作效率,更好地与宾客建立联系。 如今,石基集团在全球拥有80多家子公司及品牌,员工总数达5000人,服务超过91,000家酒店、200,000家餐厅及600,000个零售网点。 Shiji Group provides software solutions and services for the hospitality, food service, retail and entertainment industries, ranging from hotel management solutions to food and beverage system and retail systems, payment gateways,

Shiji Group  27 days ago
MiniMax jobs

高性能网络专家北京、上海社招全职研发 - 基础架构职位描述1. 负责公司在 AI 训练、推理、数据传输等核心场景下的高性能网络系统设计与研发;2. 参与 RDMA、RoCEv2、DPDK 等高性能网络技术的落地与优化,构建极致低延迟、高带宽的通信能力;3. 设计并实现用户态网络协议栈、零拷贝通信、网络 IO 加速组件,提升多节点分布式系统通信效率;4. 跟踪主流硬件(如 SmartNIC、Mellanox/NVIDIA 网卡、PCIe 互联、NVLink)的能力,对接底层驱动进行优化调优;5. 推进高性能网络与平台系统(如训练框架、Kubernetes、RPC 框架)之间的深度融合;6. 支持网络协议分析、性能调优、故障排查等系统级问题解决,提升系统整体稳定性与可观测性;7. 编写技术设计文档和标准化规范,参与团队技术沉淀和知识分享。职位要求1. 本科及以上学历,计算机、电子工程、通信等相关专业,3 年及以上系统或网络研发经验;2. 扎实的网络协议基础,精通 TCP/IP、UDP、Socket 编程,了解 RDMA、RoCE、DPDK、XDP、eBPF、VPP 等中至少一种;3. 熟悉 Linux 网络子系统,能够进行网络协议栈相关调优、profiling 和调试分析;4. 熟练掌握 C/C++/Rust/Go 中的一种或多种,具备良好的系统设计与性能优化能力;5. 对高性能分布式计算或大规模 AI 系统有理解,熟悉分布式训练、AllReduce

MiniMax  27 days ago
无问芯穹 Infinigence AI jobs

CUDA优化专家北京社招全职互联网 / 电子 / 网游 - 研发职位 ID:A190471职位描述1. 负责带领团队建设CUDA研发体系和GPU底层优化技术体系,跟踪和探索面向大模型的GPU底层优化技术新趋势;2. 负责带领CUDA研发团队完成大模型算子计算库的 CUDA 开发及Kernel优化;3. 负责与大模型工具链团队一起,共同完成大模型在云-边-端应用场景的压缩加速和部署优化。职位要求1. 研究生及以上学历,计算机/电子相关专业优先,至少3—5年CUDA开发经验;2. 熟悉常见CUDA优化手段,包括Memory Coalescing、Bank Conflict、Double Buffer、Tile Size Tuning、Tensor Core、Register Reuse等;3. 熟悉常用CUDA调试技术,熟悉Profiling中常见Metric分析以及流水线Stall分析;4. 使用CUDA源代码写出过性能接近或超过cuBLAS/CUTLASS计算库代码的候选人优先;5. 使用CUTLASS开发过高性能融合算子的候选人优先;6. 统筹协调能力强,有大型研发团队管理经验优先。职位信息部门: 推理计算投递...

Premium Full-time CUDA
无问芯穹 Infinigence AI  27 days ago
MiniMax jobs

高性能通信库研发工程师 — AI 大规模训练通信方向上海社招全职研发 - 基础架构职位描述为什么加入我们 1. 你将直接影响 MiniMax大规模 GPU 集群的训练效率——通信是大规模分布式训练最关键的瓶颈之一,你的每一次优化都会体现在模型迭代速度上 2. 真实的 AI 原生大规模场景:不是实验室级别的 benchmark,而是 MoE专家并行、万卡训练等前沿架构下的通信挑战,你将在业界最前沿的工程实践中持续成长 3. 与训练框架、网络、硬件团队紧密协作,获得从 RDMA链路到分布式训练全栈的技术视野 我们在做什么 MiniMax 基础设施团队为公司 AGI 模型训练与推理提供高性能通信底座。我们负责集合 通信库的研发与深度优化,确保大规模分布式训练任务在千卡集群上稳定高效地运行。 这不是普通的网络开发工作,而是在 NCCL、DeepEP、UCX等通信库的内核层面做性能极致优化——你需要深入 AllReduce、All-to-All等通信原语的调度机制,理解 MoE 专家并行下 token dispatch/combine的通信语义,并在 RDMA/RoCEv2链路上构建可观测性体系,让万卡训练的通信链路可诊断、可调优、可自愈。 你将做什么 1.

MiniMax  27 days ago
ZERON 零一汽车 jobs

大模型优化与高性能计算实习生上海实习职位描述针对自动驾驶端到端+多模态大语言模型的训练及推理速度优化,以及在车端计算平台的部署。车载计算节点(CPU/GPU)的性能优化,包括系统分析、内存优化、算子开发等。智能驾驶车载系统相关模块开发,构建高可靠性、低延迟的车载计算平台。职位要求具有计算机,电子信息,自动化,深度学习,高性能计算等相关领域硕士学历。精通Python/C++/CUDA编程以及PyTorch深度学习框架, 熟练掌握TensorRT-LLM/vLLM/ONNX等推理框架和工具。熟悉CPU/GPU profiling工具,熟练掌握模型计算图优化、编译优化、内存优化技能,对新技术充满热情。有自动驾驶经验,ACM/ICPC竞赛并获奖者优先。具有良好的工作态度,团队合作精神,主观能动性和沟通能力。投递...

Premium Full-time
ZERON 零一汽车  27 days ago
Susquehanna International Group jobs

Overview Susquehanna technologists are at the heart of where cutting-edge technology meets the fast-paced world of trading. Our growing teams build some of the most powerful trading systems in the financial industry and solve complex problems

Susquehanna International Group  24 days ago
Flex jobs

Flex is the diversified manufacturing partner of choice that helps market-leading brands design, build and deliver innovative products that improve the world. A career at Flex offers the opportunity to make a difference and invest in

Flex  24 days ago
Logitech jobs

Logitech is the Sweet Spot for people who want their actions to have a positive global impact while having the flexibility to do it in their own way. Department: C4C HW Engineering Role Summary We are

Logitech  24 days ago
Nvidia jobs

We are seeking innovative and highly motivated architects to contribute to the design and development of our world-class AI computing and automotive platform solutions. The Terga System-on-Chip (SoC) serves as NVIDIA’s strategic platform, powering a diverse

Nvidia  23 days ago
Kuoni Tumlare jobs

About Kuoni Tumlare: At Kuoni Tumlare, we deliver truly inspiring and innovative solutions and experiences that create value both for our Partners and Society at large. Our wide portfolio of products and solutions is built on

Kuoni Tumlare  21 days ago
MiniMax jobs

Global GTM Intern北京、上海、旧金山校招实习运营 - 商业运营2027届实习生招聘职位描述About the Role: We are looking for a motivated and curious Global GTM (Go-To-Market) Intern to support our international business expansion efforts. You will work closely with the Global Business team to

MiniMax  20 days ago
Bosch Group jobs

Company Description Do you want beneficial technologies being shaped by your ideas? Whether in the areas of mobility solutions, consumer goods, industrial technology or energy and building technology - with us, you will have the chance

Bosch Group  19 days ago
小米科技 Xiaomi Technology jobs

AI算法工程师-汽车专项-实习AI人才专项南京校招实习软件研发类职位描述1.参与汽车智能应用相关算法方案设计、数据分析与迭代优化;2.负责算法工程落地,推理链路实现、模块集成、性能调优、联调定位、训练评估与效果提升;3.AI视觉模型开发与优化:基于主流算法,开发并优化针对实验室场景的视觉检测模型,确保满足实时、可靠的检测需求。内容涵盖警示灯识别、电压数值识别与读取、火灾检测、人员安全行为识别等任务;4.模型部署与性能优化:基于TensorRT、OpenVINO、ONNX等工具链,对训练完成的模型进行性能优化;独立完成模型部署接入与效果验证,保障模型在实际场景中稳定高效运行。5.技术对接与功能落地:配合研发团队完成模型与系统的接口封装、异常处理及联调测试等,确保AI模型功能与系统整体顺畅衔接,构建低延迟、高稳定性的实时检测系统。职位要求1.计算机、自动化、人工智能、数学/统计等相关专业,硕士及以上学历;基础扎实(数据结构与算法、线性代数、概率统计等)。有高质量开源/竞赛/论文或可复现的工程作品者优先。2.编程与工程能力强:熟练掌握 C/C++、Python、MATLAB、SQL 等至少一项;具备良好的工程化意识与编码习惯。有端侧部署优化经验(如 ONNX/TensorRT、量化/裁剪/加速、性能profiling)者优先。3.熟悉机器学习/深度学习完整流程:能独立完成数据处理、训练调参、评估与问题定位;掌握 PyTorch/TensorFlow 等至少一种框架;了解或使用过 AutoML/超参搜索工具者加分。具备大数据处理/特征生产经验(Spark/Flink/Hive 等)者优先。4.具备良好的沟通协作与自驱学习能力,能与产品、数据、平台与车端团队高效协作,推动算法从验证到上线的闭环落地。5.热爱技术,做事严谨,结果导向,能够在多任务与不确定性中保持交付质量与稳定节奏。投递...

Premium Full-time
小米科技 Xiaomi Technology  18 days ago
智元创新(上海)科技有限公司 jobs

具身大模型推理性能优化实习生上海实习职位描述1. 参与到面向具身机器人本体亲和的轻量化、高性能推理框架模块化开发;2. 基于GPU/NPU的具身多模态算子开发与性能优化,实现内存复用、算子融合、数据排布优化、多流并行等通用加速策略; 3. 开发模型解析、转换、性能剖析、可视化profiling工具;4. 洞察算子融合、低精度量化、AI KernelGen、投机推理等在具身本体上的模型高效推理适配技术并复现开发;5. 调研VLA、世界模型、空间智能等最新算法架构趋势;职位要求1. 熟练掌握C/C++,具备汇编(ARM/x86)或CUDA/OpenCL优化经验;2. 深入理解至少一种推理引擎架构(如tensorrt/vllm/sglang/ktransformer/llama-cpp);3. 熟悉模型量化原理(KL 散度、MinMax、LSQ、AWQ、GPTQ 等)及相关工具链;4. 熟悉常见算子实现与优化(卷积、矩阵乘、激活、LayerNorm、Softmax 等);5. 具备端上 profiling 能力(perf、简单性能计数器、硬件事件、功耗测量);投递...

智元创新(上海)科技有限公司  18 days ago
智元创新(上海)科技有限公司 jobs

具身智能大模型训练系统开发与优化实习生上海实习职位描述将会参与如下四个典型训练系统优化方向工作(包括但不限于下面四个方向)参与方向一:支撑大规模预训练/微调的高效稳定运行关键任务:1. 参与千卡级别分布式训练集群的框架优化,确保训练任务在大规模集群上的稳定性(任务失败率 xxx%)和可恢复性(断点续训时间 xxx分钟)2. 优化训练任务的吞吐量(Throughput),相比基线提升至少 20%3. 参与至少一种并行策略(数据并行、模型并行、流水线并行、MoE并行)的框架级实现或深度优化方向二:降低大模型训练显存占用,支持更大规模模型关键任务:1. 集成或优化至少一种显存节省技术(ZeRO-1/2/3、重计算(Activation Checkpointing)、混合精度训练),使相同GPU下的可训练参数量提升 30% 以上2. 参与FlashAttention、Flash-FFN等高性能算子在分布式训练框架中的集成与适配3. 验证并对比不同并行策略组合(如 FSDP + 张量并行)的显存效率与计算效率方向三:优化跨节点通信效率,降低通信开销关键任务:1. 使用 NCCL 或 CANN ACL profiling工具分析通信瓶颈(AllReduce、AllGather等),并提出至少 2 项有效优化方案2. 参与实现通信与计算的重叠(overlap)优化,使通信隐藏比例提升至 50% 以上3. 探索并验证低比特通信(如 FP8 梯度通信)在训练中的可行性与效果方向四:完善训练框架的可用性与可观测性关键任务:1. 开发或优化训练监控 Dashboard,覆盖多类关键指标(GPU利用率、内存占用、通信耗时、吞吐量、损失曲线)2. 参与实现训练任务的自动容错与恢复机制,支持节点级/进程级故障自动重调度3. 撰写至少内部技术文档/最佳实践指南,帮助算法团队更高效使用训练框架职位要求1. 熟悉计算机体系结构,理解CPU/GPU/NPU、内存层级、PCIe/NVLink等硬件互联架构;2. 熟练掌握 C/C++

智元创新(上海)科技有限公司  18 days ago
Qualcomm jobs

Company: Qualcomm China Job Area:Engineering Group, Engineering Group Software Engineering General Summary: Role Summary We are seeking a Principal/Director-level technical leader to drive Robotics Solution strategy with a primary focus on robotics software ecosystem, customer architecture

Qualcomm  17 days ago
Qualcomm jobs

Company: Qualcomm China Job Area:Engineering Group, Engineering Group Machine Learning Engineering General Summary: Job Description About us: We are Qualcomm AI Research that are advancing AI to make its core capabilities – perception, reasoning, and action

Qualcomm  17 days ago
Qualcomm jobs

Company: Qualcomm China Job Area:Engineering Group, Engineering Group Software Engineering General Summary: Qualcomm China is looking for experienced embedded SW engineers interested in developing software for IOT devices. Specifically, the position involves developing embedded software supporting

Qualcomm  17 days ago

Subscribe for job alerts and resources to make your job search easier!

Confirmation email sent to

Check your email and click on the link to start receiving your job alerts

Receive the latest job openings for:

profiling

You also might be interested in:

AI

Engineer

实习生

Debugging

Software Engineering

CUDA

Python

Deep Learning

C++

Architectural

Confirmation email sent to

Check your email and click on the link to start receiving your job alerts

All Filters Apply
Sort by
Job Title
Employer/Recruiter
Experience