2月26日消息,2月15日-19日,在被业界誉为“芯片设计国际奥林匹克会议”的国际固态电路大会(ISSCC 2026)上,清华大学、华为等大学与公司的研究人员发表论文,首次提出一款基于HYDAR框架的28nm混合存内计算(CiR)芯片的推荐系统(RecSys)加速器。

这款36M RRAM CiR芯片能实现390K QPS的吞吐率与1574K QPS/W能效比。其构建的多芯片系统可实现百万级实时端到端推荐系统(RecSys)。

▲芯片显微照片与系统概述
在实际推荐系统任务中,CiR通过扩展至576M规模的多芯片系统,QPS提升了66倍,QPS/W提升181倍,准确率与CPU相当。

▲芯片性能与当前顶尖设计的对比
该芯片的核心优势包括:采用DL-ADC实现非Top-K计算的早期终止;基于预测的预取调度流水线(PPSP)数据流提升不规则工作负载的吞吐量;由粗到细的检索架构(coarse-to-fine)在保证系统召回精度的同时,可扩展至大规模应用。
推荐系统中的核心运算单元是相似向量检索(SVS),该方式通过计算查询向量与大规模向量库之间的距离,检索出Top‑K最邻近向量。
SVS会占据推荐系统绝大部分的计算时间与功耗,主要原因是外部存储器访问(EMA)开销。其中,采用混合键合技术的DRAM加速器成本高昂,基于NAND TCAM的加速器存在读取延迟高、数据与距离表示精度有限等问题。
针对上述痛点,研究人员提出一种基于RRAM的数模混合存内计算加速器HYDAR,可实现高吞吐量、高能效、高精度的SVS。
基于RRAM的存内计算(Compute-in-RRAM,CiR)因能最大限度减少数据移动、存储密度高、并行度极大,已被公认为深度学习加速的极具前景的技术路线。但将CiR应用于SVS仍会带来额外挑战,如能耗与延迟急剧增加、降低PE利用率与吞吐量、精度降低等。