近日,由北京大学集成电路学院教授杨玉超、人工智能研究院研究员陶耀宇组成的团队,在国际上首次实现了基于存算一体技术的高效排序硬件架构,解决了传统计算架构面对复杂非线性排序问题时计算效率低下的瓶颈问题,将为具身智能、大语言模型、智能驾驶、智慧交通、智慧城市等人工智能(AI)应用提供更高效的算力支持。
陶耀宇在接受《中国电子报》记者采访时表示:“排序,作为人工智能系统中常用、耗时的基础操作之一,广泛存在于自然语言处理、信息检索、图神经网络、智能决策等人工智能相关领域中。
在传统的冯·诺依曼计算架构中,处理器与存储器分离的特点导致数据被频繁搬运,严重制约了计算速度和系统能效,因此将存储与计算融合的‘存算一体’架构是突破硬件性能的必由之路。”
例如,在大语言模型训练、机器人路径规划、强化学习搜索等场景中,快速评估多个决策或行动的优劣并进行排序,也是必不可少而又极为费时的步骤。
然而,在传统计算架构下,大规模的非线性排序难以在端侧或边缘设备高效完成,这一过程消耗大量时间与功耗,制约了具身智能、智能驾驶等新兴技术的发展与普及。近年来,“存算一体”被认为是突破传统硬件架构计算瓶颈的关键技术,已经在矩阵计算等规则性强的数值计算环节取得显著成果。然而,由于排序过程仍存在逻辑复杂、操作非线性、数据访问不规则、高度依赖复杂比较器网络,以及缺乏通用、高效的硬件排序原语等诸多障碍,目前国际主流的存算一体架构均无法解决大数据排序问题,上述难题成为了制约下一代人工智能计算硬件发展的前沿焦点与核心卡点问题。北大科研团队本次发布的基于存算一体技术的高效排序硬件架构,围绕“让数据就地排序”的第一性原理目标,在存算一体架构上攻克了多个核心技术难题,实现了排序速度与能效的数量级提升。实现了多项突破:一是开发了一套基于新型存内阵列结构的高并行位读取机制;二是开创性地引入了忆阻器阵列,提出了按数、按位、多值三种并行策略,实现了低延迟、多通路的硬件级并行排序电路设计;三是在算子层面,优化了面向人工智能任务的算法—架构协同路径,同时兼容现有矩阵计算;四是完全自主设计的器件—电路—系统级技术栈整合。实测结果显示,该硬件方案在典型排序任务中实现运算速度超过15倍的提升,但功耗仅为传统CPU或GPU处理器的1/10。在人工智能推理场景中,支持动态稀疏度下的推理响应速度可提升70%以上,特别适用于要求极高实时性的任务环境。