电子工程专辑
UBM China

前NASA局长退隐创业十年,打造神经芯片KnuPath

上网日期: 2016年06月08日 ?? 作者: Luffy整理 ?? 我来评论 字号:放大 | 缩小 分享到:sina weibo tencent weibo tencent weibo


打开微信“扫一扫”,打开网页后点击屏幕右上角分享按钮

1.扫描左侧二维码
2.点击右上角的分享按钮
3.选择分享给朋友

关键字:NASA局长? 神经芯片? KnuPath?

据外媒Fudzilla、 VentureBeat、华尔街日报报导,NASA前任局长丹尼尔·戈尔丁掌权期间,声誉卓著,但是卸任之后神隐多年,6月6日突然重出水面,投下震撼弹。如果把他开设的公司 KnuEdge定位成一家初创公司,可能不太准确,因为这家公司已经创立有十年时间了,最近一笔1亿美元的巨额融资才让他们浮出水面。

他们花了十年研发能像人类大脑一样运作的神经芯片。首款芯片名为“KnuPath”,内建256个核心,运作方式一如大脑神经元,能各自处理不同任务,并即时相互串联。该公司的技术可连结51.2万组KnuPath芯片,足以执行庞大工作,而且速度飞快。

NASA前任局长丹尼尔·戈尔丁《电子工程专辑》

突破“冯·诺依曼瓶颈”

戈尔丁表示,人类大脑有上千亿个神经元,每个神经元都连接1万~10个神经元,大脑是世界上最有效率、最强大的电脑,他们依据类似原理设计新芯片,从根本颠覆电脑运算,让电脑能以超快速度完成艰巨任务,比如寻找影像、声音、金融数字的模式等。

神经芯片KnuPath《电子工程专辑》

戈尔丁相信,KnuEdge所开发的神经芯片将比基于“现代计算机理论之父”约翰·冯·诺依曼设计的传统芯片成本更低,效率更高。基于冯·诺依曼理论设计的芯片,内存和处理器是分开的,它们需要通过一条数据通路(也是我们俗称的总线)才能连接起来。当内存和处理器进行交互时,总线内的数据越多、速度越快,计算机速度也会变得更快。但这也会产生问题,因为计算机速度通常会受到总线容量的限制,继而导致我们俗称的“冯·诺依曼瓶颈”问题。

神经芯片KnuPath《电子工程专辑》

IBM已经预见到了同样的问题,所以他们旗下的研究团队目前也正在开发能够支持数据中心的神经芯片。事实上,我们开发这类芯片的目的,就是为了应对人工智能机器学习所带来的数据爆炸性增长。类神经网络的研发,近来方兴未艾,不少公司都发现传统处理器无法处理暴增数据,英特尔(Intel)、IBM等都投入开发新款芯片。

技术分析一代二代产品的差别

Knupath的第二代产品“Hermosa”,将会在2017年下半年推出,这是一款完全内部设计和组装的定制DSP,以及新的“Lambda”模块,既可以连接多个Hermosa芯片,也有潜力被多个系统的机架(Racks)采用。

在一个由以稀疏矩阵为基础的计算主导的未来,这会是一个解决的办法,正如戈尔丁预测的的那样,这种计算方式在未来的机器学习应用中将会越来越多。

神经芯片KnuPath《电子工程专辑》

这样的系统是可扩展的,可容纳到512,000块芯片,每一个芯片有256t的DSP内核(t 指的是“tiny”,配一个单一的ARM管理内核)。

延迟率是比较有说服力的,机架到机架(rack to rack)的延迟为400纳秒(十亿分之一秒)(与当下最快的Ethernet一样快),所有的这些芯片都有高效且特别处理稀疏矩阵的能力。迄今为止,已经有一些研究开始把在深度学习中使用的稀疏矩阵驱动的计算向专用型转化,但是,一个平台上来做这件事的,还没有。确实,这意味着在工作流上完全的转换。戈尔丁在这方面下了很大的赌注,他认为这种转换是值得的。

第一代的产品基于PCIe,有多个处理器,可以在多个Hermosa处理器上建立。Fabric是异构的,能容纳多种类型的处理器(X86,GPUs,FPGAs)。这家公司的计划是,到2017年推出的第二代产品,要支持所有的这些处理器,同时也是多程序的和多数据的。这意味着从理论上来说,256种不同的算法可以在Hermosa中的单个内核中运行。Goldin说,在未来的应用,比如信号处理和机器学习,以及一些被他们列为目标的金融服务中,这种芯片的重要性会变得越来越明显。

在这,Lamba Fabric 是最有意思的。它包括在主板上的多个小型处理器或者一个设备中的单个处理器上,一直到521000块芯片的组合。它基于一个分布式内存模型,在那儿,内核之间会共享内存,并且,被分享的内存也在系统中进行分布,这就是你得以看到DMA控制器(在系统中移动数据)的原因。

在一个综合的存储器内,机器的带宽能达到3.7兆兆字节(terabytes)每秒。而在可扩展的边界,每一个小的“cluster”都拥有DSP中 共享的内存,所以记忆带宽数量能和芯片的数量同比例增长(为系统增加更多意义,增加更多内存和内存带宽)。

每一个Knupath处理器内核都有针对通信、同步以及解决稀疏矩阵难题(处理能力的分散或聚集)的内部指令,还拥有可编程的DMA引擎,以支持256t DSP内核的内存基础工作。从可扩展性上看,除了可以建立512,000个排列外,系统还能提供最高3.702GB每秒的内存带宽。最大能耗峰值达34瓦特每芯片。跟FFT和公司在运行的其他Benchmarks比起来,这提供了一个稳定的”watt-to-watt“的性能(但是在2017年正式发布前,将不会有更多的消息)。

那么问题来了,鉴于深度学习中广泛使用的GPU,以及FPGA的潜力,为什么这里要使用DSP?如果说接下来,这一处理器 将会得到广泛地采用,其中还包括即将推出的Tianhe-2超级计算机,但是,除了信号处理外,还没有别的应用。

戈尔丁说,他们关注的主要还是处理,但是把这些能力转换到一个节能的稀疏矩阵的功能中,其实并不是首例。

虽然他没有分析Benchmarks,但他提到AlexNet 和GoogleNet 的性能是2X到6X之间。当然,没有细节我们也不方便作过多评论。戈尔丁确实提到了其他两个可能会是做出这种选择的原因。第一是成本,第二个是可编程性。DSP并不贵(当然,只是相对的),但是,Knupath没有从TI或者别的地方为自己的技术寻找产品,而是自己设计。

从编程的角度看,戈尔丁说他希望获得DSP的灵活性,尤其是在信号处理方面的用户,在这领域中,FPGA的编程是昂贵且费时的。

“我们希望在内存附近进行即时的处理——一个推模式(a push model)。你不需要Cache,你不也需要做提取(Fetch)。我们设计这个并不仅仅为了处理,我们还要在沟通和内存处理中做平衡。它是一个沟通者,正中的地方有一个路由器(router )”,戈尔丁解释说。不过,他们能在2015年拿下第一款芯片的出售合同,却是因为eDRAM,它把每一个tDSP都紧靠在内存旁,以进行即时的联系。虽然下一款芯片不能再使用这一技术,但是他们发现了一个合适的的工作区。虽然他们也不能就此提供更多的细节。

基于PCIe的加速器版本的编程模式很像CUDA/OpenCL,尤其是在主系统和芯片之间进行沟通时,系统内的芯片之间的沟通有一个更像MPI的模式。然而,跟使用GPU不一样,这一芯片能在不同的cards之间进行沟通,并允许他们在不通过PCIe或者CPU的情况下进行交流。戈尔丁说,他的团队正在与Larry Smarr博士合作,准备推出一个未来大赛,关注稀疏矩阵操作的工作,以推动平台上软件的发展。

神经芯片KnuPath《电子工程专辑》
戈尔丁说,公司正在寻找合作伙伴,包括FPGA和GPU市场。他还说,未来ARM的重要性将会得到稳固增长。

“需要指出的是,从数据在Fabric中的流动来看,这有什么不一样”,Goldin解释说,“我们通过架构来发送数据,而不是从内存和提取数据和应用,在这一个数据的集合中,不仅是数据会被计算,编程的每一步也会被计算,数据的下一个目的地也会被计算出来。”最终,随着其他的数据按照架构设定的目标流动,这完全翻转了冯·诺伊曼架构。

说得更清楚一些,Hermosa处理器依然能够处理稠密矩阵,即使这并不是它的目标。“谈到机器学习,我们依然处于蛮荒之中”,Goldin说,“但是随着我们开发出许多不同的算法,平台是必须的,而这一切依靠的新趋势就是稀疏矩阵。”

虽然仍处于早期,但是确实有许多探索在寻找用稀疏矩阵来促进深度学习训练在性能、效率和编程上获得优势的可能性。然而,要下结论还为时尚早,并且,向这种模型的转化,对潜在的回报也有高的要求。

所以,我们已经把关于这一架构的一切都展现了出来,对于未来深度学习中分散和聚集/稀疏矩阵中的深度研究还非常少。虽然如此,一种基于DSP的方法就能获得1亿美元的投资,已经相当有启发性。我们必须思考,有人看到了这个机遇,特别是考虑到在过去几年中,我们已经看到许多深度学习芯片的崛起。

另一个角度是,许多新的客户尤为钟爱单一处理器,并且,与深度学习沾边是获得更大吸引力的保证,虽然深度学习还是在发展之中,并且能发展到什么程度谁也不能保证。

Tirias Research首席分析师Paul Teich表示,KnuEdge惊喜特点在于该公司的新架构已经准备出货,并非停留在概念或早期原型阶段。戈尔丁称,该公司技术超前一个世代,首款芯片 去年12月完成研发,并已送往财星500大企业,如金融、保险业等潜在客户测试,预计今年第三季底出货。据戈尔丁透露,KnuEdge公司的使命就是要彻底改变计算世界。

本文下一页:所有这一切,都源自一个NASA火星任务


1???2?下一页?最后一页





我来评论 - 前NASA局长退隐创业十年,打造神经芯片KnuPath
评论:
*? 您还能输入[0]字
分享到: 新浪微博 qq空间
验证码:
????????????????
?

关注电子工程专辑微信
扫描以下二维码或添加微信号“eet-china”

访问电子工程专辑手机网站
随时把握电子产业动态,请扫描以下二维码

?

5G网络在提供1Gbps至10Gbps吞吐量方面具有很好的前途, 并且功耗要求比今天的网络和手机都要低,同时还能为关键应用提供严格的延时性能。本期封面故事将会与您分享5G的关键技术发展,以及在4G网络上有怎样的进步。

?
?
有问题请反馈
推荐到论坛,赢取4积分X