近日,北京大学人工智能研究院孙仲研究员团队联合集成电路学院研究团队,成功研制出一款基于阻变存储器的高精度、可扩展模拟矩阵计算芯片。
该芯片首次在精度上达到可与数字计算媲美的水平,将传统模拟计算的准确度提升了五个数量级,并实现了24位定点精度。
这一成果意味着我国科研团队在模拟计算领域实现了真正意义上的突破,也为后摩尔时代的计算架构转型提供了全新的技术方向。
相关成果已发表于国际顶级学术期刊《Nature Electronics》。(期刊链接:使用电阻式随机存取存储器芯片求解精确且可扩展的模拟矩阵方程 |自然电子)
传统的模拟计算虽然速度快,但精度低、难扩展。精度一直模拟计算的核心瓶颈,长期以来被认为是全球性的世纪难题。
数字计算凭借高精度和可编程性逐渐占据主导地位,但它的计算速度受到“内存墙”限制,算力密度与能效提升空间有限,已成为人工智能、科学计算和6G通信等高负载任务的瓶颈。
为了打破这一困局,孙仲团队提出了一种融合创新的新方案。
他们结合模拟低精度矩阵求逆与高精度矩阵向量乘法运算,构建出基于阻变存储器阵列的高精度、可扩展全模拟矩阵方程求解器。
这一架构采用晶圆厂制造的三位阻变存储芯片,并通过分块矩阵算法实现24位定点精度,相当于32位浮点数(FP32)精度。
在实验中,芯片成功完成了16×16矩阵求逆运算,矩阵方程求解经过10次迭代后,相对误差可低至10??量级。仅需三次迭代即可达到与FP32数字处理器相当的精度表现。
性能方面的提升同样令人惊讶。测试显示,在求解32×32矩阵求逆时,这款芯片的算力已超越高端GPU的单核性能,当矩阵规模扩大至128×128时,计算吞吐量更是达到顶级数字处理器(GPU)的1000倍以上,能效提升超过100倍。
换句话说,传统GPU干一天的活,这颗芯片一分钟就能完成。
未来的6G通信中,该芯片能让基站以更低的能耗实时处理海量天线信号,显著提升网络容量与能效;在人工智能领域,它有望加速大模型训练中计算密集的二阶优化算法,显著缩短训练时间。
同时,这种低功耗特性使其具备在终端设备上直接运行复杂AI模型的能力,减少对云端算力的依赖,推动边缘计算向更高阶段发展。
除了北大的突破外,复旦大学团队也传来捷报。
他们研发出全球首颗二维-硅基混合架构芯片,相关成果发表在《Nature》杂志上。这款芯片将二维超快闪存与成熟的CMOS工艺深度融合,攻克了二维信息器件工程化和存储速率的技术难题,首次实现了混合架构的工程化流片。(原文:通过系统集成实现的全功能 2D 闪存芯片 |自然界)
根据复旦大学的介绍,这颗芯片的性能“碾压”当前的Flash闪存技术,全片测试显示支持8位指令操作、32位并行与随机寻址,良率高达94.34%,展现出极强的工程落地能力。
1617