8位芯片突破AI技术瓶颈

发布于:2018/12/12 11:21:43 | 442 次阅读

  随着在美国旧金山举行的国际电子组件会议(IEDM)以及在加拿大蒙特利尔举行的神经信息处理系统大会(NeurlPS)双双启动,对于任何希望迎头赶上人工智能(AI)研发进展步伐的人来说,最近正是把握庞大机会的时刻。
  例如,IBM研究人员介绍其打造数字和模拟AI芯片的新AI途径。IBM声称其数字AI芯片首次展现“使用8位浮点数成功训练深度神经网络(DNN),同时在一系列深度学习模型和数据集上完整保持准确性(accuracy)。”
  另外,IBM研究人员在IEDM还展示了一款模拟AI芯片,采用了8位(precision)的内存(in-memory)乘法以及相变内存。
  IBM Research-Almaden副总裁兼实验室主任Jeffrey Welser在接受《EE Times》访问时指出,“我们确实认为目前进行中的这些工作——例如试图降低以提高性能提升并降低功率——对于持续推进AI非常重要。”
  这一点至关重要。Weiser解释说,因为这个世界正从“狭义AI”(narrow AI)转变为“广义AI”(broad AI),例如我们从“用AI在因特网上辨识猫”进展到“分析医学影像,或者我们希望能够将文本和成像信息整合在一起,以提出解决方案”。
  他补充说:“所有这些更广泛的问题需要更大的神经网络、更大的数据集和多模态数据集……为此,我们需要改变架构和硬件来实现这一切。”
  Weiser认为IBM发表的两篇论文可看出“一连串有趣的进展”,有助于使业界走向“广义AI”的未来。
  市场研究公司Linley Group总裁兼首席分析师Linley Gwennap说:“机器学习继续迅速发展。现有硬件无法有效处理研究人员建构的神经网络,因此他们正在寻找各种新方法来提高性能和效率。”
  Gwennap补充说,这些新的发展将会对于硬件供货商带来巨大压力,因为芯片公司“必须灵活、快速地在这个混乱的市场中生存”。
  AI的GPU时代结束
  IBM大胆预测GPU在AI领域的主导地位即将结束。
  Welser说:“GPU能够为绘图处理进行大量的平行矩阵乘法运算。这种矩阵乘法恰巧与神经网络所需的完全相同。”在他看来,“这有点巧合,但它非常重要。因为没有那些‘GPU’,我们永远无法达到我们目前已在AI实现的性能。”但是,Welser补充说,“随着我们更能掌握关于如何实现AI的更多知识,目前也正着手寻找方法设计一种更高效的硬件。”
  降低
  提高效率的途径之一是降低AI处理所需的。
  Welser解释说:“几年前我们开始意识到一个大方向是,虽然习惯于非常的计算——以32位计算浮点作为标准,甚至64位,才能为真正准确的计算类型倍增,但这一点在AI中并不一定非常重要。”
  他强调,在AI中,“对于神经网络在意的是当你展示一个影像或单词时,它是否能得到正确的答案。当我们问它是猫还是狗时,它回答说是一只猫。如果答案正确,你并不一定会注意到其间进行的所有计算过程。”
  理想情况下,AI应该模仿人眼。Welser说:“如果你从一扇起雾的窗子看出去,你看到一个人走在街上。这是一个低度定位的影象……但是你可能经常会说:‘喔,那是我妈走过来了!’所以,只要你得到正确的答案,视觉影像是否“正确精准其实是无关紧要的。”
  他解释说,这就解释了AI处理中逐渐较低的趋势。
  Welser继续说道:“对于32位计算,我必须在32位上进行计算。如果我们可以在16位上进行,那基本上只需要一半的计算能力,或者可能是芯片面积的一半甚至更少。如果你可以再降低至8位或4位,那就更好了。”他说,“所以,这让我在面积、功率、性能和吞吐量方面获得了巨大的胜利——我们能够以多快的速度完成这一切。”
   然而,Welser坦承,“很长一段时间,我们认为我们必须持续使用32位进行AI培训,当时别无他法。”
  2015年,IBM Research发表了针对传统CMOS技术的新型数据流相关文章,推出为AI模型训练与推论而降低的途径。IBM展示以16位的训练模型,其准确度约相当于32位训练模型,而不至于牺牲准确度。
  从那时起,IBM观察到:“降低的方法很快地被采纳为业界标准,16位训练和8位推论如今已经司空见惯,并促使新创公司和创投业者(VC)投资大量涌入,投入打造降低的AI芯片。”尽管存在这样一种新兴趋势,但由于人们需要保持模型的高准确度,因此,小于16位的“训练”几乎不可能实现。
  如何实现?
  Welser说IBM开发一连串让研究人员可应用于AI处理的方法,实现了这一目的。例如,他说:“我们确实有一部份以8位来做,有些部份采用16位进行累积,而其他部份则以不同组件实现,所以不至于失去。”
  换句话说,比起普遍将8位计算应用于整个操作,IBM团队的研究成果更加复杂,但研究人员找到了各种方法组合,分别应用于流程的不同部份。
  Welser证实,“没错,这完全正确。例如,我们现在可以使用8位进行所有的权重更新过程,但仍然使用16位进行一些加法和累积步骤过程。事实证明这非常重要,因为16位加法比16位乘法更容易,所以实际上以16位的方式执行它是有帮助的。”
  也许更重要的是,正如Welser所指出的,IBM的研究成果关键在于“提出一种数据流架构,让数据以非常流畅的方式流经芯片,而且以这种方式运行最终也不至于造成瓶颈。”
  ,“我们证明您可以有效地使用8位浮点,以取得较过去人们使用16位或32位相同的准确度。”
  8位操作的障碍?
  Linley Group的Gwennap表示,的GPU和AI芯片支持使用IEEE定义格式的16位浮点(FP16)。
  然而,他补充说,“尽管如此,大多数开发人员还在使用FP32训练神经网络。”他说,“8位FP的问题在于缺乏标准格式,只有几种可能的指数组合和有意义的尾数。在标准(IEEE或某些非正式协议)建立之前,芯片制造商将发现难以在硬件中有效实施。”
  那么在商业世界多久才开始使用8位进行训练?Welser说目前还不得而知,因为“我们现在看到次使用16位技术的情况越来越多,但是产业界大部份还是着眼于32位……”
  然而,他强调说他并未看到任何降低的实际障碍,“只要我们能够显示出相同输出的结果。”他指出,从用户的角度来看,“如果芯片速度更快、耗功更低,价格更便宜,而且也能得到同样的答案,就没什么好计较的了。”
  当然,在其下的软件基础设施修改必发挥作用。
  Welser证实,“你必须拥有能够降低的软件或算法,使其得以正确执行。」由于现在所有的软件架构都是为使用GPU和32位而建构的,「所有的一切都必须为接受16位或8位而进行修改。”
  在用户存取实际硬件之前,业界可能持续使用已知的内容。
  8位的内存乘法
  IBM在IEDM展示该公司所谓的8位内存乘法以及设计中的相变内存(PCM)。
  

  在IEDM上,IBM科学家发表了一项关于新型内存内运算(in-memory computing;IMC)装置的研究,它比起当今的商业技术达到了更低100-1000倍的运算能耗级。该组件非常适用于边缘AI应用,例如自动驾驶、医疗保健监控和安全性(来源:IBM Research)工程界已经意识到,降低能耗的关键是尽量减少运算架构中出现数据必须从内存移至处理器进行运算的机会。这种移动需要耗负大量的时间和精力。
  对于更高效AI处理的需求促使许多人致力于研究内存内运算。Mythic在追逐这一点的AI芯片新创公司中脱颖而出,但其后还可能出现更多竞争对手。
  在Welser看来,模拟技术“很自然地适于边缘AI”。正如从运算发展史的观察,模拟运算需要低功耗,证明它具有高能效。但它也不准确。Welser说:“这就是为什么数字运算最终胜过模拟运算。”
  但是,Tirias Research首席分析师Kevin Krewell表示,模拟正在回归中,因为内存内运算与模拟运算可以相互搭配。他解释说:“内存数组保持神经网络权重,模拟组件则执行总和和触发。”
  Krewell补充说,“挑战在于保持模拟的正确校准,以及过程和温度变化的准确性。此外,内存和模拟组件也不像数字组件那样扩展。”
  权重是内存的阻值
  同样地,Welser解释说,模拟运算中神经网络使用的权重是“存在于内存内部的阻值”。它们不必移入和移出,都是固定的。Welser说:“换句话说,由于采用内存内运算架构,内存单元兼作处理器,有效地实现了储存和运算的双重任务。”
  然而,Welser所说的挑战是:“我们将要使用的是什么阻值状态?它能使我们在训练时将其设置为各种不同的阻值吗?它必须够准确才可用。”
  Welser解释说,虽然数字AI硬件会降低,但模拟至今一直受到内部相对较低的限制,从而影响了模型。
  在开发接近8位的能力时,IBM使用了相变内存(PCM)。Welser说,PCM长久以来一直用于模拟内存。在此情况下,“我们使用PCM来回储存更多不同的阻值。更重要的是,我们正使用一种新颖的架构。”
  IBM的论文详细介绍在纯量乘法运算中实现8位的技术。该公司声称,这导致“以往的模拟芯片准确度提高了大约一倍,而且也比同类的数字架构功耗更低33倍”。
  Gwennap坦言IBM已经在PCM上研究一段时间了,但他称之为“仅仅是一项研究计划”。
  Gwennap认为这种PCM途径的挑战在于可制造性。“模拟特性因不同的晶体管以及产在线的不同芯片而异,这就是为什么大多数产业都使用较不易受这种变化影响的数字电路。”
  《EE Times》向Linley Group和IBM分别询问了商用AI芯片(如Mythic)使用内存内运算架构的情况。Gwennap说:“Mythic似乎最接近于将这项技术投入生产,但即使如此也还需要至少一年的时间。”
  IBM承认,“Mythic采用了一种专注于使用内存内运算的有趣方法。”然而,IBM也指出,Mythic的芯片“仅适用于推论应用”。
  根据IBM发言人,IBM的不同之处是:“我们相信完整的AI解决方案需要加速推论和训练。我们正在开发可用于推论和训练的非挥发性内存组件,并使其发展得更成熟。”
参与讨论
后参与讨论

//评论区

推荐阅读

智能网联汽车国际标准法规协调专家组(HEAG)召开工作会议

近年来智能网联汽车快速发展,新技术不断涌现,与相关产业融合度持续提升,正在推动全球汽车产业发生深刻变革。为应对此种形势,欧、美、日等汽车工业发达国家和地区都加大了智能网联汽车的国际标准法规协调的参与力度,在联合国世界车辆法规论坛(UN/WP.29)和国际标准化组织(ISO)层面,智能网联汽车相关国际标准法规协调活动正快速推进。 为更有效地支撑上述组织的国际标准法规协调活动,2017年全国汽车标准

0215jiejie | 发布于:2022-12-01 0评论 0赞

苹果推出搭载M2芯片的新款iPad Pro 799美元起售

据苹果官网,苹果推出搭载M2芯片的新款iPadPro。 11英寸wifi版起售价为799美元,wifi+蜂窝网络版起售价为999美元;12.9英寸wifi版起售价为1099美元,wifi+蜂窝网络版起售价为1299美元。

0215jiejie | 发布于:2022-10-19 0评论 0赞

新能源汽车领衔 “中国智造”加速登陆欧洲市场

全球五大车展之一巴黎车展时隔四年再度启幕。在这场被视为“全球汽车行业风向标”的盛会上,国内外汽车品牌云集,长城汽车、比亚迪等再次领衔中国汽车出海。 长城汽车欧洲区域总裁孟祥军表示:“欧洲是长城汽车最重要的海外市场之一,巴黎车展是长城汽车向欧洲市场展示GWM品牌和产品的最佳机会。长城汽车正在研究汽车行业碳排放的整个生命周期,到2025年,将推出50多款新能源产品,全力支持可再生能源使用,为全球用户

0215jiejie | 发布于:2022-10-19 0评论 0赞

严监管时代来临,电子烟“通配”大战走向何方?

针对通配烟弹厂商的一系列诉讼的结果,将对生产通配烟弹的品牌未来在电子烟行业的发展产生深远影响。 10月1日,《电子烟强制性国家标准》正式实施,中国电子烟监管全面生效。而在电子烟行业进入规范化、法治化阶段前夕,一场围绕着通配烟弹的争论在行业里发酵。 “通配”是电子烟从业者约定俗成的概念。换弹式电子烟由烟杆和烟弹组成,“通配”烟弹指的是非品牌商生产、可与品牌烟杆匹配使用的烟弹。多位业内人士表示,被

0215jiejie | 发布于:2022-10-19 0评论 0赞

Bourns 全新大功率分流电阻器

采用金属感应引脚,专用于大电流应用中进行精确测量 全新分流电阻器专为电池管理系统、大电流工业控制和电动汽车充电站 提供高可靠性、高成本效益的解决方案 美国柏恩Bourns全球知名电子组件领导制造供货商,宣布新增12款CSM2F系列功率分流电阻器,扩展其产品组合。全新系列采用铆接通孔金属传感引脚,可满足大电流应用中对电压测试点精确定位日益增长的需求。最新型Bourns?CSM2F系列分流电阻器

0215jiejie | 发布于:2022-10-18 0评论 0赞

请尊重元宇宙“这个筐”

元宇宙是个筐,啥都往里装,但区别在于有的像聚宝盆,有的像垃圾桶。国庆假期刚结束,中青宝“90后”董事长李逸伦便亲自上阵,玩起了元宇宙婚礼。靠着老板首秀和代言,中青宝顺势推出“MetaLove元囍”App,正式进军元宇宙婚礼赛道。 就产品而言,如同其他元宇宙产品,李逸伦的元宇宙婚礼“新奇与吐槽齐飞”:有人说是有趣的尝试,有人则认为像QQ炫舞结婚系统。要知道,QQ炫舞是一款推出了十余年的老游戏。

0215jiejie | 发布于:2022-10-13 0评论 0赞

边缘计算:突围商业模式痛点

截至8月末,中国5G基站总数达210.2万个,中国5G发展已经进入下半场。随着5G加速融入千行百业,互动直播、vCDN、安防监控等场景率先大规模落地,车联网、云游戏、工业互联网、智慧园区、智慧物流等场景也快速走向成熟,这些更大流量、更低时延、更高性能的场景涌现,对边缘计算的刚性需求势必爆发。 GrandViewResearch预测,即使在新型冠状病毒肺炎疫情肆虐全球的背景下,边缘计算和5G网络市

0215jiejie | 发布于:2022-10-13 0评论 0赞

商务部回应美商务部升级半导体等领域对华出口管制并调整出口管制“未经验证清单”

商务部新闻发言人10日就美商务部升级半导体等领域对华出口管制并调整出口管制“未经验证清单”应询答记者问。 有记者问:近日,美国商务部在半导体制造和先进计算等领域对华升级出口管制措施。同时,在将9家中国实体移出“未经验证清单”过程中,又将31家中国实体列入,请问中方对此有何回应? 对此,商务部新闻发言人回应称,中方注意到相关情况。首先,通过中美双方前一阶段共同努力,9家中国实体zui终

0215jiejie | 发布于:2022-10-13 0评论 0赞

TCL华星官宣与奔驰合作:推出全球首款横贯A柱的车载显示屏

今年1月,奔驰带来了VISIONEQSS概念车,其中控台采用了一块完全无缝的47.5英寸曲面显示屏,横贯整个A柱,令人印象深刻。今天,TCL华星正式官宣与奔驰达成合作,并认领了VISIONEQSS上这块全球首款横贯整个A柱曲面的车载显示屏。 根据TCL介绍,这款显示屏采用了完全无缝的超薄一体化设计,将仪表盘、中控与副驾娱乐显示融为一体,并能够与3D实时导航系统相辅相成。 同时,这块显示屏还采用

0215jiejie | 发布于:2022-10-12 0评论 0赞

半导体板块暴跌 谁最受伤

国庆假期后首日开盘,上证综指时隔5个月再次失守3000点,与此同时,半导体板块也再度走低,其中,北方华创、雅克科技等个股跌停。10月11日早盘期间,半导体板块持续下挫,北方华创、雅克科技再度跌停。截至下午收盘,北方华创、雅克科技维持跌停状态,华海清科、拓荆科技-U、盛美上海、清溢光电、海光信息的跌幅则超10%。同日,半导体板块中的119只个股中超五成呈现下跌趋势。 在半导体板块遭遇下挫的同时,北

0215jiejie | 发布于:2022-10-12 0评论 0赞