具身算法引擎开发实习生 上海 实习 职位描述 1. 训练框架开发:参与VLA等大模型训练框架研发与优化,包括数据并行、模型并行、流水并行等分布式训练能力的建设,提升千卡规模的训练稳定性与资源利用率。2. 推理系统优化:参与VLA等大模型的推理引擎开发与性能优化,包括算子优化、KV Cache管理、Prefill/Decode优化、Batch调度、低延迟Serving等核心能力建设,提升推理吞吐与响应速度。3. 分布式系统优化:参与多机多卡训练与推理系统建设,优化NCCL通信、AllReduce效率及IB/RDMA网络性能,提升大规模集群运行效率。4. 稳定性保障:解决大规模训练中的故障恢复、Checkpoint 管理、梯度异常等问题,确保长时间训练任务的稳定运行。5. 平台工程建设:参与训练/推理平台工程化建设,包括模型部署、监控、自动化测试、性能Benchmark及稳定性保障。 职位要求 1. 本科及以上学历,计算机、人工智能、自动化、机器人等相关专业优先2. 熟悉Python或C++开发,具备良好的代码能力与工程习惯3. 精通 PyTorch 分布式训练机制(DDP/FSDP),熟悉 DeepSpeed、Megatron-LM 、vLLM、SGLang等大规模训练/推理框架的原理与使用4. 深入理解 3D 并行(Data Parallel / Tensor Parallel / Pipeline Parallel)的实现原理与适用场景,能够根据模型特点设计最优并行策略5. 熟练使用 PyTorch Profiler、NVIDIA Nsight 等工具进行性能分析,能够定位并解决计算、通信、I/O 瓶颈加分项:1.
算法与Agent研究员 上海 社招 全职 互联网 / 电子 / 网游 职位 ID:A12806 职位描述 1. 下一代高效架构算法研究: 聚焦极致Token效率与新型计算范式,开展超越传统Transformer的突破性算法架构的探索与设计;攻克长文本极限、动态Memory机制、极端低比特量化算法,构建低计算成本、高推理效率的下一代模型原型与评测体系。2. 多智能体协同与群体智能研究: 突破单一Agent的局限,开展多智能体群体协同理论、可微通信协议与群体反思演化机制的研究;攻克复杂任务自适应拆解、多步分布式规划及自适应涌现算法,构建大规模智能体生态的高性能底层算法框架。3. 端云协同与边缘Agent技术研究:针对下一代边缘计算及具身智能场景,开展端云协同分布C.式Agent架构设计;攻克端侧轻量级智能体与云端超大模型之间的高效表征对齐、动态任务卸载与长短期记忆跨端同步技术,形成可工程化的端侧智能体方案。4. 隐私安全推理与成果建设: 针对端云协同推理中的安全瓶颈,开展大模型在数据不离端、模型防逆向下的隐私安全推理算法研究;探索轻量级同态加密、安全多方计算(SMPC)与差分隐私在推理期的无损/低损算法优化。 职位要求 1. 基本条件: 计算机、人工智能、数学、统计学、自动化等相关专业,硕士及以上学历;3-5年及以上前沿算法研究、大模型微调、Agent系统研发或AI应用落地相关工作经验,优秀博士可放宽。2. 核心能力: 具备独立研究与课题主导能力,能自主定义前沿算法问题、设计实验方案、完成D.算法验证与成果交付;有顶会论文(NeUrIPS/ICLR/ICML/CVPR/ACL等)、知名开源项目贡献者优先。3. 专业技能:a. 具备极强的数学直觉与算法功底,深入理解机器学习、深度学习与强化学习底层原理;b. 精通 Python,熟悉 PyTorch 框架,具备快速将学术论文直觉转化为高效、可验证实验代码的能力;c. 深入理解大模型全生命周期技术:RLHF/PPO/DPO等对齐算法、大模型主流微调(SFT/LORA等)、大规模多步推理规划、KV Cache优化机制等。4. 优先条件:a. 有长文本优化、混合专家模型、新型网络架构实际研发或优化经验;b. 有复杂
FPGA原型验证工程师 急招 上海 全职 芯片板块 职位描述 1、承担IP级/SoC系统级的FPGA开发工作,含方案规划,平台建设,设计实现,测试交付,版本维护等2、完成从ASIC到FPGA版本的设计、更新、验证和集成工作3、完成FPGA的版本仿真、调试和问题分析4、参与FPGA开发流程优化和自动化建设5、参与validation以及功能和性能的测试,问题分析和解决6、参与平台的性能优化和建设迭代 职位要求 1. 本科及以上学历,计算机、电子、通信及相关专业毕业;2. 3-7年及其以上FPGA原型验证项目经历;3. 精通HAPS等至少一种硬件平台,熟悉FPGA开发流程,时序收敛等4. 了解验证流程以及SystemVerilog和UVM验证方法学;5. 有软硬件协同设计者优先,有过tape-out经验者优先;6. 熟悉Linux系统下的验证环境、流程,熟练掌握VCS等验证相关工具;7. 具有相关脚本语言开发经验,熟练使用以下脚本至少其中一种:Shell、Makefile、Tcl、Perl、Python等。有如下经验或技术者更佳:. 熟悉CPU,GPU,NPU等架构和指令集. 对神经网络算法有较好的了解. 较强的编程能力和debug能力. 有较强的C语言编程和debug能力. 具有PCIe、Ethernet、Serdes等高速接口经验者优先;. 对Cache,CMN,DDR等有较好的了解 投递...
SOC设计工程师(系统设计方向) 上海、武汉 全职 芯片板块 职位描述 岗位职责: 1、负责SoC系统及相关模块(如MMU/Security/NOC/Coresight等方向)的前端设计工作。2、负责处理器的MMU、SMMU等基础模块设计及应用,结合ARM的虚拟内存系统架构(VMSA)处理不同安全状态(Secure 和 Non-secure)下的内存访问控制及ASID/nG位解析。 3、负责SoC系统总线设计工作,熟练使用FlexNoC、NCore、NIC和DesignWare等进行系统总线设计及带宽评估。 4、负责SoC系统低功耗方案及实现(熟悉UPF及VCLP检查),并参与初期版图布局及估算芯片及模块面积。 5、协助芯片测试、原型验证(具有FPGA、EMU等平台使用、调测试经验)和量产工作。 职位要求 任职要求: 1、熟悉ARM(或X86/RISC-V)处理器架构及ARM TRUSTZONE架构,掌握计算机组成原理,了解CPU的MMU、SMMU、GIC、Cache、中断等基础知识。 2、有过ARM based的车规SoC设计和验证经验者优先。 3、熟悉CPU固件或Linux内核及驱动开发,熟练使用C语言、汇编,具备系统级编程和调试能力。 4、熟悉关键IP的特性,具备二次开发能力,能够使用多种EDA工具检查代码设计质量。 5、责任心强,积极主动,具有团队合作意识及一定的创业精神,良好的应用能力和沟通能力。 投递...
GPGPU硬件架构工程师 急招 上海 全职 芯片板块 职位描述 (一)硬件架构设计与模块定义1.负责 GPGPU 芯片硬件架构整体方案设计,聚焦计算单元、存储单元、互联单元三大核心硬件模块的规格定义、逻辑架构设计与技术选型。2.主导计算核心硬件设计,包括 SIMT 阵列、CUDA Core/Tensor Core/SFU 运算单元的硬件实现方案,定义运算精度(FP8/FP16/FP32/INT4)硬件支撑逻辑。3.负责存储层次硬件架构设计,涵盖寄存器堆、L1/L2 Cache、共享内存、显存控制器的硬件逻辑规划、带宽与延迟优化。4.设计片上互联(NoC)、外部高速互联(PCIe 5.0/6.0、Chip2Chip 类)的硬件架构,解决多核心、多芯片互联的带宽瓶颈与时序问题。(二)硬件方案落地与协同开发1.输出硬件架构设计文档(Architecture Spec、Micro-arch Spec),明确硬件模块接口、时序约束、功耗与面积(PPA)目标,指导前端硬件设计与验证。(三)性能与功耗优化1.基于硬件架构特性,搭建硬件级性能仿真模型,分析计算单元利用率、访存带宽、时序瓶颈,提出硬件层面的性能优化方案并落地验证。2.主导 GPGPU 硬件功耗优化,从架构层面优化电源管理、时钟域设计、运算单元闲置控制等,确保硬件方案满足能效比目标。3.结合先进工艺特性,优化硬件架构与工艺的适配性,平衡面积、性能与功耗。 职位要求 (一)基本条件1.学历:计算机科学与技术、微电子、电子工程、集成电路等相关专业,硕士及以上学历;优秀本科需5 年以上相关经验。2.经验:2年以上 GPGPU/高性能芯片硬件架构设计经验,有完整 GPGPU 芯片从硬件架构定义到流片的项目经验者优先。3.熟悉主流 GPGPU 硬件架构(NVIDIA Ampere/ADA、AMD RDNA),了解 AI 训练/推理、HPC 场景对 GPGPU 硬件的需求。(二)核心硬件技能1.精通 GPGPU
EMU验证工程师 急招 上海 全职 芯片板块 职位描述 1、承担IP级/SoC系统级的EMULATION开发工作,含方案规划,平台建设,设计实现,测试交付,版本维护等 2、完成从ASIC到EMU版本的设计、更新、验证和集成工作 3、完成EMU的版本仿真、调试和问题分析 4、参与EMU开发流程优化和自动化建设 5、参与validation以及功能和性能的测试,问题分析和解决 6、参与平台的性能优化和建设迭代 职位要求 1、本科及以上学历,计算机、电子、通信及相关专业毕业;2、3-5年及其以上EMULATION验证项目经历;3、熟练掌握Palladium 仿真环境的搭建与调试流程,熟悉仿真加速器的资源管理与分配策略,能够独立完成从 RTL 到 emulation 平台的移植工作。4、了解验证流程以及SystemVerilog和UVM验证方法学;5、有软硬件协同设计者优先,有过tape-out经验者优先;6、熟悉Linux系统下的验证环境、流程,熟练掌握VCS等验证相关工具;7、具有相关脚本语言开发经验,熟练使用以下脚本至少其中一种:Shell、Makefile、Tcl、Perl、Python等。8、能够支持软件团队在 emulation 平台上进行早期软件开发和调试。 有如下经验或技术者更佳: . 熟悉CPU,GPU,NPU等架构和指令集 . 对神经网络算法有较好的了解 . 较强的编程能力和debug能力 . 有较强的C语言编程和debug能力 . 具有PCIe、DDR、Serdes等高速接口和AHB、AXI总线调试经验者优先; . 对Cache,CMN,DDR等有较好的了解 . 有power-aware emulation(DPA/UPF)经验
AI多核架构师 急招 上海 全职 芯片板块 职位描述 1.多核系统架构设计•根据产品需求制定 Core × NoC × Cache × DRAM × Die-to-Die 总体架构;•有能力设计调度,总线,多层Cache存储架构,同步硬件架构。2.软硬件协同•与 Compiler / Runtime / 框架团队沟通 Graph Compiler + Kernel Scheduler + 弹性分布式通信库,分解硬件架构需求;•有能力根据 PyTorch / vLLM 等需求做端到端 Benchmark Sign-off。 职位要求 1.硬件能力•计算机体系结构 /
TW Online Service team is a dedicated engineering org for Coupang core business in Taiwan. The team is working with local business stakeholders, product team very closely to wow the customers and scale the business.We develop
Taiwan engineering is a dedicated engineering org for Coupang core business in Taiwan. Coupang started the business in Taiwan from 2022 and the business is growing fast, and we see many opportunities there. The team has
【研究型实习生】生成式重排 上海 实习 技术类 研究型实习生项目 职位描述 项目描述:基于transformer、LLM构建重排模型,充分挖掘上下文信息,提升模型预估准确率;通过列表级(List-wise)损失函数、强化学习等手段,优化list级点击、时长、多样性及生态等多目标全局收益; 模型性能优化,通过多 Token 预测(MTP)、KV Cache、模型量化、算子融合等技术,实现高并发下的低延迟推理。岗位职责:1. 跟进和设计基于强化学习的生成式Listwise混排框架,重点研究探索多目标reward设计、强化学习优化算法、兼顾激励相容原则等方向;2. 结合以上方向的探索和研究,撰写发表论文,和业界、学术界保持良好的交流。 职位要求 1. 2028届及以后毕业,本科及以上学历在读,自然语言处理、机器学习、数据挖掘、人工智能等相关专业; 2. 熟练掌握Tensorflow深度学习框架,扎实的编程基础,具备独立的算法实现能力; 3. 有强化学习实操经验,参与过业界强化学习大规模项目者优先; 4. 良好的逻辑分析能力和数理基础,对算法原理及应用有较深入的理解,在人工智能相关的各类国际顶级会议/期刊中发表过论文者优先本项目为得物研究型实习生项目。该项目岗位最低实习时长为3个月,岗位非纯业务开发岗位,主要目的为发表顶级期刊。 投递...
ABOUT YOU We’re seeking an ambitious Team Lead with strong communication skills, strong work ethic, and the ability and desire to work in an exciting and demanding environment. You will help us to adopt our products
大模型推理框架工程师(RL 方向) 北京、上海 社招 全职 互联网 / 电子 / 网游 - 研发 职位描述 我们希望你在某个领域有真正的深度——推理加速、GPU 性能优化、分布式系统、RL 工程,都行——同时对算法前沿保持真实的好奇心。你不需要什么都懂,但你应该知道自己不懂的东西在哪,并且想去弄懂它。1. RL Rollout:推理是 RL 循环的发动机,我们使用Forge作为我们的RL框架。Rollout占据整个 RL 循环大部分的 wall-clock 时间,并且约束RL算法和Rollout策略的多样性,能多快、多灵活地生成轨迹,直接决定迭代速度。难点包括:Agentic(多轮、环境交互、外部状态机感知的推理系统优化、工具调用和环境的速度不稳定性)、长尾(深入的调度策略和latency优化)、KV Cache 管理、极致的吞吐优化、RL算法Co-design的Rollout策略和优化。2. 通用高性能推理 serving——RL Rollout的效率,最终落在一个底座上:一个业界顶尖的高性能推理引擎。模型能力的上限,常常不卡在算法,而卡在基础设施的某个角落,我们做的事,就是把系统的瓶颈找出来,把它打通。3. 算法与推理 codesign——我们不把推理当成训练下游被动的执行方,而是让推理、模型结构、训练算法三者协同优化。一方面,我们做的是托底:让模型不受工程与推理的约束,去 scale up 模型规模、设计模型结构、实现算法——想法不该死在推理跑不动上。另一方面,我们把推理效率作为核心指标之一反向输入到设计里,和团队一起深度优化模型结构与训练算法,端到端地抬高模型能力与效率的双重上限。从架构设计阶段就一起做,而不是等方案定了再来实现。 职位要求 基本要求1. 编程能力扎实,有清晰的系统设计思路,有强烈的工程品味和责任心;2.
MaaS 架构师 上海、北京 社招 全职 互联网 / 电子 / 网游 - 研发 职位描述 作为 MaaS 架构师,你将全面负责大模型线上服务的全链路架构设计与质量保障,构建高性能、高可用、可弹性伸缩的模型服务平台,确保模型在生产环境中的 SLA、延迟、吞吐量达到业界领先水平。工作包括不限于:负责 MaaS 平台架构设计,明确模型从产出到上线的全链路环节,对模型服务的 SLA、延迟、吞吐量等核心指标负责主导大模型推理网关的设计与建设,包括多模型路由、流量调度、优先级队列、多租户隔离与 Token 级计量能力设计 GPU 资源弹性伸缩策略,结合模型特征与负载信号实现智能调度与资源高效利用推动 KV Cache 感知调度的方案设计与落地,包括 Prefix Caching、Paged Attention 等技术在生产环境的应用,提升显存利用率与系统吞吐参与单机推理框架的选型、适配与性能调优,跟进 vLLM / TensorRT-LLM / SGLang 等主流引擎的演进,推动
处理器集成设计工程师 上海 社招 全职 职位 ID:A16416 职位描述 1. 参与或主导处理器顶层集成架构设计,完成子系统(CPU Core、Cache、NoC互联、外设接口等)的集成方案制定、RTL集成与调优;2. 负责处理器SoC级集成验证环境搭建,包括子系统间接口联调、时钟/复位/电源管理集成、中断控制器集成等;3. 主导处理器顶层时序约束(SDC)制定与时序收敛,协同后端团队确保芯片PPA目标达成;4. 与处理器架构、各子系统设计(AI计算、存储、Vector/Matrix)、验证、软件团队协同,确保集成方案与各子系统架构的高效配合,支撑端侧AI芯片的整体性能目标;5. 跟踪业界处理器SoC集成架构前沿技术(如UCIe/CXL片间互联、Chiplet集成、异构计算集成),输出技术洞察,牵引集成架构演进方向;6. 参与芯片流片和回片验证,负责处理器集成层面的Bring-up调试和问题定位,确保芯片集成方案的工程落地; 职位要求 1. 硕士及以上学历,计算机/电子工程/微电子等相关专业;2. 精通计算机体系结构核心理论,深入理解处理器SoC集成架构(总线/互联、中断、时钟树、电源域);3. 熟悉ARM/RISC-V处理器SoC集成流程,熟练使用Verilog/SystemVerilog,掌握主流EDA工具链(VCS/Genus/Innovus等);4. 掌握Gem5/VCS等仿真工具链,在SoC集成/子系统接口联调/时序收敛/低功耗集成至少一个方向有深度研究;5. 有RTL集成设计或芯片流片经验者优先;6. 具备异构计算SoC集成经验(如CPU+NPU+DSP)、多Die/Chiplet集成设计经验或跨领域(芯片集成+AI框架/编译器)协作经验者优先。 投递...
ESL建模工程师 上海、西安、北京 社招 全职 职位 ID:O5097 职位描述 1. 负责开发和优化SoC架构性能模型,对性能关键模型进行微架构性能优化和瓶颈定位;2. 对SoC架构进行性能探索和评估,根据模型仿真结果分析关键瓶颈并给出优化方案;3. 参与ESL建模方法学建设,推动模型精度和仿真效率持续提升;4. 与芯片架构、设计团队协同,用模型驱动架构决策和设计优化;5. 跟踪业界ESL建模和架构探索前沿技术(如AI工作负载建模、异构计算架构探索),输出技术洞察; 职位要求 1. 硕士及以上学历,计算机或电子工程相关专业;2. 3年以上SystemC建模经验;3. 良好的C/C++编程能力;4. 对计算机体系结构有较深入了解(总线/Cache/DDR控制器);5. 有SoC架构性能探索经验者优先;6. 有微架构瓶颈分析和优化经验,或具备AI工作负载分析和异构计算架构探索经验者优先。 投递...
SOC系统能效优化专家 上海、北京、西安 社招 全职 职位 ID:O2822 职位描述 1. 负责Android/iOS平台用户典型业务场景的系统性能能效分析;2. 负责自研芯片平台性能功耗分析和优化,构建性能能效分析工具链和大数据平台;3. 挖掘用户隐藏痛点(续航/游戏/应用体验),提炼产品设计需求;4. 与芯片设计、系统软件团队协同,推动性能能效优化方案落地;5. 跟踪业界竞品平台性能能效前沿技术及端侧AI场景能效需求,进行专利技术挖掘,牵引芯片设计和产品宣传方向; 职位要求 1. 本科及以上学历,计算机/通信/软件/电子等相关专业;2. 3年以上系统性能功耗分析经验;3. 具备C/C++/Python项目开发经验;4. 熟悉ARM体系结构和SoC平台设计架构(CPU/GPU/DPU/DDR/ISP/cache/总线),具备软硬件系统分析能力;5. 有Android/iOS系统性能功耗分析工具使用经验者优先;6. 有编译器工作经验或端侧AI场景性能功耗优化经验者优先。 投递...
GPU芯片架构师 上海、北京、西安 社招 全职 职位 ID:Z3987 职位描述 1. 作为GPU交付和应用领域owner,负责SoC中GPU选型、性能能效规划、供电热评估、低功耗策略;2. 负责GPU profile定义和优化、中后端实现策略评估;3. 和三方vendor及SoC团队一起,针对GPU微架构特点实现GPU和SoC/总线/cache/DDR的联合优化设计;4. 和软件及量产团队一起,完成GPU相关软件和应用优化,支撑量产中GPU相关PI/热/memory等问题的端到端交付;5. 跟踪GPU/图形处理器技术演进及端侧AI芯片对GPU算力的需求,牵引三方GPU微架构设计优化; 职位要求 1. 本科及以上学历,计算机/电子工程等相关专业;2. 8年以上工作经验,有处理器背景,特别是GPU图形学和渲染相关知识和经验;3. 作为领域owner参与过2款以上SoC量产商用,对SoC交付和量产有深刻理解;4. 自驱和驱动能力强,能独立推动跨团队协作;5. 有带团队经验者优先;6. 有GPU performance counter分析和业务行为对比分析经验,或具备端侧AI芯片优化、跨领域(GPU+AI框架)协作经验者优先。 投递...
优才-多模态交互算法工程师-X-Lab 上海、深圳 正式 职位描述 1. 训练流水线建设: 搭建与维护多模态模型训练 Pipeline(涵盖数据预处理、实验追踪、Checkpoint 管理与回归评测),支持音视频、状态序列等多模态输入。2. Teacher-Student 蒸馏: 使用大模型/专家模块生成 Richer Labels,设计蒸馏目标、Loss 函数与 Hard-negative 机制,将高价值能力稳定转移至端侧,摆脱对云端的在线依赖。3. 模型压缩与部署优化: 负责 PTQ/QAT、量化感知训练、剪枝与 KV/Cache 优化;导出 ONNX/TensorRT 等格式;在真实设备上死磕 Latency、显存、功耗与推理抖动。4. 质量与回归治理: 建立可复现机制,系统性归因模型失效(数据、标签、结构或部署问题);联合团队建设 Hard slices 与回放评测。5. 运行时协同: 与系统侧拆分快慢路径,trade-off 端侧性能与业务收益,推动模型从“实验室能跑”跨越到“设备稳跑”。6. 同时需要兼顾交互语义建模与任务定义(如回应对象判断、交互时机、主动策略等) 职位要求 1. 硕士及以上在读,计算机、人工智能、自动化、电子信息等相关专业优先。2.
高级总线验证工程师 西安、上海 社招 全职 职位 ID:F6871 职位描述 1. 负责高性能一致性SOC总线验证,独立制定验证计划,搭建维护UVM验证平台(driver/monitor/reference model/checker);2. 编写、收集功能覆盖率,保证验证完备性,确保总线从模块级到子系统级的设计规格充分验证;3. 探索总线验证方法学,研发验证工具,推动验证效率和完备性提升;4. 与芯片设计团队紧密合作,协同解决总线验证过程中的复杂技术问题;与AI/异构计算团队协同,支撑AI芯片高带宽互联场景的验证需求;5. 跟踪AMBA总线协议演进和前沿验证技术(如AI辅助覆盖率收敛),输出技术洞察; 职位要求 1. 本科及以上学历,电子/通信/计算机/自动化等相关专业;2. 5年以上总线领域验证经验;3. 精通SystemVerilog/UVM,精通以功能覆盖率为驱动的验证流程;4. 熟练掌握Perl/Python脚本语言,熟悉AMBA总线协议(NIC/NOC/DesignWare);5. 具备CHI一致性总线协议经验、Cache背景知识和验证经验;6. 有Reference model/VIP开发经验者优先;7. 熟悉处理器微架构(多核一致性/访存子系统)或具备AI芯片高带宽互联验证经验者优先。 投递...
软硬融合-整机性能&功耗分析与优化架构师 北京、上海、西安 社招 全职 职位 ID:W9216 职位描述 1. 分析从应用到操作系统到硬件关键业务流程中的关键瓶颈,对比竞品负载差距;2. 推动跨团队优化,构建从问题到模块的自动化分析能力;3. 从操作系统整体创新增供给、降负载解决方案;4. 与芯片、系统软件、应用团队协同,推动性能功耗优化方案落地;5. 跟踪Android/iOS系统级创新和硬件架构演进及端侧AI对整机性能功耗的影响,输出性能功耗优化技术规划; 职位要求 1. 本科及以上学历,计算机/电子/通信等相关专业;2. 6年以上整机性能/功耗从业经验,有手机或车机从业经验;3. 对Android/iOS关键模块(AMS/图形栈/内核/网络)及应用业务需求对系统性能功耗的影响有认知与交付经验;4. 理解CPU/GPU/NPU/DDR/cache等硬件对系统性能功耗的影响;5. 有整机性能功耗优化交付和分析经验者优先;6. 有操作系统整体创新经验或AI场景整机性能功耗优化经验者优先。 投递...