Miclaw-大模型训练推理方向实习生 AI人才专项 热招 北京 校招 实习 软件研发类 实习生招聘计划 职位描述 1. 研究并复现业界与学术界 SOTA 的大模型推理优化技术,包括但不限于极低比特量化、FlashAttention、投机解码(Speculative Decoding)、KV Cache 优化等关键方向,并在真实端侧场景中进行性能评估与对比分析。2. 面向端侧算力与内存受限场景,探索高效的大模型结构与推理策略,如端侧友好的 MoE 方案、稀疏与线性注意力、长上下文推理优化等,推动模型在性能、效果与资源消耗之间的最优权衡。3. 参与大模型与芯片协同设计(Model–Chip Co-design),从模型结构、算子设计到推理系统层面进行联合优化,深入理解端侧 NPU / GPU / CPU 架构对模型推理性能的影响。4. 与模型、系统、芯片团队深度协作,将研究成果转化为可落地的工程方案,并有机会参与核心模块的设计与实现,产生可量化的性能提升结果。 职位要求 1. 计算机科学、人工智能、电子工程或相关专业在读本科 / 硕士 / 博士,对大模型、系统或芯片方向有强烈兴趣。2. 具备扎实的算法与系统基础,对复杂系统的性能瓶颈具有较强分析能力,愿意深入到实现细节解决“难而重要”的问题。3. 至少在以下一个或多个方向具备良好基础或实践经验:-
Miclaw-移动端 AI 性能专家 (Engine & Efficiency) 北京 社招 全职 职位 ID:A240371 职位描述 1. 引擎调优:负责 Android/iOS、与云端 Mimo 或本地 ExecuTorch/ncnn 的底层接入与硬件加速(NPU/GPU/Metal)。2. 效率突破:实现 Speculative Decoding (投机采样) 或 Prompt Caching,在手机端将 TTFT(首包延迟)降至极致。3. 性能监控:建立全链路监控指标体系,关注 Tokens/sec、ITL (Token 间延迟) 以及 Agent 后台运行时的功耗曲线。4. 资源调度:解决多 Agent
Linux内核调度专家 北京 社招 全职 职位 ID:A123340 职位描述 1. 基于Linux Kernel进行调度优化,结合Android应用生态设计和优化内核调度器。2. 熟悉SoC资源管控机制,构建CPU/GPU/DDR/Cache等资源的统一频率管控和性能瓶颈拆解3. 熟悉微架构,能够拆解指令的微架构性能瓶颈并进行优化,基于微架构指标进行调度器的优化和改造4. 跟踪和调研行业最新的调度优化方向,快速进行方案验证和产品导入5. 逆向分析领先的友商技术,对于下一代调度器的方向有一定的认知6. 跟踪和解决内核调度器相关的问题,包括死锁、优先级反转以及稳定性问题;7. 对于调度器进行评估,能够建立调度器的评价体系 职位要求 1. 本科及以上学历,计算机相关专业2. 熟悉Linux操作系统和内核开发,具有扎实的C/C++编程能力3. 熟悉操作系统调度算法和和原理,,了解EEVDF/CFS/EAS等调度算法,关注Linux的新型特性4. 具有良好的架构设计能力,有过一定的移动端方案设计经验,能够快速洞察行业内新技术并进行快速落地5. 具有良好的团队合作精神和沟通能力,能够与其他团队合作完成项目 投递...
处理器架构师(存储侧) 西安、北京、深圳 社招 全职 职位 ID:J2650 职位描述 1. 参与或主导处理器存储子系统微架构设计,包括Cache层次结构(L1/L2/L3)、一致性协议(MOESI/MESI)、预取引擎、TLB/MMU等,进行性能、功耗论证,并完成RTL实现与调优;2. 负责Load/Store单元、Store Buffer、内存控制器接口等数据通路的微架构设计与优化;3. 与指令侧架构、编译器、软件团队协同,确保存储子系统架构方案与指令侧流水线的高效配合,支撑端侧AI芯片高带宽低延时的访存需求;4. 跟踪业界存储子系统前沿技术(如CXL/UCIe互联、AI芯片片上存储架构、近存计算),输出技术洞察,牵引存储架构演进方向;5. 参与芯片流片和回片验证,确保存储子系统架构方案的工程落地; 职位要求 1. 硕士及以上学历,计算机/电子工程/微电子等相关专业;2. 精通计算机体系结构核心理论,深入理解缓存层次结构、一致性协议、虚拟内存管理;3. 熟悉ARM/RISC-V存储子系统架构,熟练使用Verilog/SystemVerilog;4. 掌握Gem5/VCS等工具链,在缓存设计/一致性协议/预取优化/内存子系统至少一个方向有深度研究;5. 有RTL设计或芯片流片经验者优先;6. 具备AI芯片片上存储架构设计经验、大模型访存模式分析能力或跨领域(芯片+AI/编译器)协作经验者优先。 投递...
AI院-GLM团队-训练/推理infra算法工程师 北京 全职 互联网 / 电子 / 网游 职位描述 岗位职责 1. 与算法团队深度协作,参与 下一代 GLM 大模型架构设计与系统实现 ,推动模型结构与系统效率的协同优化2. 构建 大模型推理成本分析与模拟系统 ,从算力、通信、KV cache、并行策略等维度优化推理效率3. 设计与优化 超大规模训练基础设施(万卡级) ,提升训练稳定性、资源利用率与训练效率4. 探索 MoE、Sparse Attention、长上下文等新架构在训练与推理系统中的高效落地 你将参与 * 下一代 GLM 系列基础模型(百亿到万亿参数级) 的系统设计* 万卡规模训练系统 的优化与稳定性工程* 推理系统的 极致效率优化(吞吐 /
AI推理引擎开发工程师 北京 社招 全职 数字技术 本科及以上 5-7 年 职位描述 1. 参与大模型推理引擎的设计和研发,支撑自研以及开源模型的快速部署和高性能推理;2. 通过各种技术手段持续优化性能,降低推理成本,包括但不限于:算子/编译优化、异构推理、分布式并行等;3. 学习并应用业界前沿的推理优化技术,KV Cache优化、模型量化(Quantization)、剪枝(Pruning),跨机分布式推理优化等;4. 对 Transformer 架构及主流大模型(如GPT、Llama、Qwen等)的推理特性有基本理解,了解大模型推理的基本流程和常见挑战(如延迟、吞吐、内存占用);5. 在资深工程师指导下,参与优化内存管理、计算资源分配与调度策略,提升模型推理速度和资源利用率。学习并使用性能分析工具(如Nvidia Nsight)进行瓶颈定位和优化。 职位要求 1. 熟练掌握 C++ 和 Python 编程语言,具备扎实的数据结构、算法和操作系统基础熟悉至少一种主流的深度学习框架(如 PyTorch、TensorFlow),了解其基本实现原理了解GPU编程(如 CUDA)或并行计算,有相关的课程项目或实验经验;2. 有开源大模型推理框架(vllm/sglang/trt-llm)使用和优化经验者优先;3. 有cuda或triton开发优化gpu算子经验者优先;4. 有NVIDIA 等算力芯片优化经验者优先;5. 有大模型推理相关从业经验者优先。 投递...
Company: Qualcomm China Job Area:Interns Group, Interns Group Interim Intern General Summary: 1. Support the daily operations of the AI product team, including customer requirement management and follow-up on routine tasks; 2. Track the latest trends
NVIDIA has been transforming computer graphics, PC gaming, and accelerated computing for more than 25 years. It’s a unique legacy of innovation that’s fueled by great technology—and amazing people. Today, we’re tapping into the unlimited potential