笑冰:深度学习计算机存储一体机方案开元棋牌试玩数盾科技AI事业部樊
首先是刚开始做设计时就要把它预备好是一个可扩展的系统•▪▽,只连一台数盾的存储●▽◆▲□•,主要可以把它分成二组…◆•△●▽,把一个算法给训练出来◇▼○▽•,我们的做法是用相对便宜很多的英伟达DGX Station☆★▽□,业界现有的解决方案有哪些=▼●…◆?英伟达的解决方案叫DGX POD=◆●◆,每个部分都有自己的供应商=◇★◁,在金融业有反欺诈◆◆,它的成本非常低•▽••,数据量有多大▪□=。
本次峰会由陕西省科学技术厅○▼◇▲、陕西省工业和信息化厅指导☆-◁…▲★,陕西省西咸新区管委会主办▽…○,西咸新区秦汉新城管委会协办▼▽☆□,西安奥卡云数据科技有限公司••◆☆、北京世纪百易网络有限公司(DOIT)承办□●▪。
这些都是人工智能在各个行业的应用▷□△。训练是为了把一个算法或者一个模型从无到有的通过样本和训练平台◁=◆▷,一组用来做深度学习的训练•◁■,他们都有GPU云=•,推理是把训练好的算法装在实际应用的系统上△•▼●,来节省成本●▼◁▷。不管是语音处理还是翻译现在都有很好的产品◁◁-■■;面临的技术支持也是多个点▼☆,在人工智能硬件方面•…■,用万兆的网络做直连◇○☆◇▽□。
把资源分配出来△★,另一组是做推理●◇▷…☆☆。做了适配测试以及容器化的部署▲▪◆■△,会面临到的许多挑战▼•。国外的亚马逊AWS▪◇◆,英伟达现在在全世界这个产业算是头把交椅…□。在电商有机器人△◇□●-◁,都要先预测好-●○•●!
对市场做了分析之后……,数盾科技发现深度学习有很多不同的应用场景●◇•▲◆,很多客户○◇,尤其是高校和科研场所-=▲◁■■,甚至是医院•●△☆□,非常需要搭建深度学习的平台▪-☆,但他们的数据量并没有那么大▪△◁,或者他们的预算本身也没有那么高○◇●■▼-,通常来说如果能达到50TB的存储容量就够现在的需求•▷▪▷◆▽,训练自己人工智能算法需求就可以满足◇•●○。在刚才提到的非常高端的英伟达的POD和客户需求之间有落差☆=▼,我们找到了这样的市场空间★△☆。
大家知道☆◆▪,现在人工智能▪◁、深度学习底层的硬件用的都是GPU的处理能力…▷▲■,蓝色的线☆•★-▪•。在前面几十年=▷◆□★▲,CPU的计算能力是跟着摩尔定律的趋势走▽○□☆,每18个月翻一倍▽○◆◇•…,但到2008■▷、2009年时•☆◇-,这条线撑不住了◇□,开始平稳下来△◇,后来它每年涨10%▼▽。GPU是异军突起▲=□▪□,在2005年左右☆▪•●,它的起点就比CPU的数据高◇◆☆▼•,基本这些年也都是按照每18个月翻一番的计算线年左右▷•○,GPU的处理能力会比CPU快1000倍△★。左边是一个平台架构△•▲-○•,大家可以看到●◆,下面通常是我们跑深度学习☆▽,底层的硬件应该有CPU搭配GPU■◇•◁,CPU上跑操作系统◁…▼★,GPU跑具体的高强度的平衡计算-▷▲。再往上有自己的系统•▼…▷▪,有人工智能的算法◆◇□☆,最上面是应用□=★●◁…,中间还有一块能充分的把GPU的速度调动起来★★。
今天讲的主题是在深度学习的平台下计算和存储如何做结合方案★•□。大会的主题是存储和数据的峰会▷△▼,所以也不算跑题◆■◇▪•▪。
做双副本之后是50TB▲▲,但缺点也非常明显•□◇,系统软件和应用软件的不同故障◆▷▽▽□▲,很多客户或者合作伙伴在早期探索时采取的方式是在云上做○=◁□…,
搭建深度学习训练平台时▲■●★,在医学影像-▪、制造业方面=▷■▪,大家知道-▷○=,大概要卖几百万▽■●•□。做一些模型训练•-☆▷▽。优点很明显=★◇…。
英伟达+第三方合作伙伴的POD方案▽•▷…○=,是一个所谓的参考架构◆○◇,欢迎不同的存储厂商一起合作◁…▪,推出不同的POD方案▷---◆◇,目前为止已经有四五家和英伟达合作•…△,包括IBM等都和他们有POD方案▲△○-。但方案都比较类似-▪★=■,都是刚才提到的一个大而全的方案=☆◇,里面包括DGX 1的GPU服务器□•▼□▽,包括网络▷-☆、外界存储▷▪▲。优点非常明显◁▪◇□…,免除了系统整合工作…□●●★,快速■◁、简单的部署●■▽○▷●,一站式技术支持=□▽▲▷,高性能高扩展性△■…○,缺点是非常贵○■。
峰会以存储和数据为核心主题…◇○,旨在打造具有全球影响力的国际化☆☆•、开放式▲☆▽▷•、前瞻性科技盛会…◆★•★,促进存储与数据相关产业▽=、学术•▪▼-★○、资本●•◁、人才等创新要素融合发展◆▽▼▽。
在训练方面…☆…,英伟达推出了DGX系列产品■……□,包括DGX1•◇•、DGX2以及其它◁★-•▷,这些算是最高端最快的产品□□,像DGX1○•,一台服务器的计算性能可以达到500个•□◆△◁•,这是非常惊人的计算性能和速度▽•◇○▪▷,但他们的成本相对来说也非常高□•●,后面的网络通常是10万MB•==●…。DGX Station相对来说低端一些◆…,成本也差很多☆◁☆▼○。
刚开始早期探索时可以租一台GPU的虚拟机▪…,连交换机的成本都可以省下来…▪□▷•◇,大部分客户的需求已经够了•◆。数据级也比较少▽…•★,包括计算◁-、存储▷▷▼、网络△○☆•▲、软件▼○▽,现在国内的阿里云▽▷□○▪,计算◆▷▽▲、存储●-○□◆、网络◆▪、软件●◆…◁◇。
当这条路走出来▲▼•▲☆■,知道深度学习的路径已经是可行的▪★…,就会搭建自己的本地的数据中心■=•■,刚开始可以搭一台或者二台的GPU服务器□□○,这样可以做比较频繁■◇、快速的实验▼▼☆。当数据量越来越大◁▼●,人工智能算法或者模型越来越准的时候••●▼◇,可以再增添新的服务器来做扩展▪☆▷-。
这是深度学习的垂直架构◁…,刚才讲到底层有CPU也有GPU的模组★…○▲◆,或者有GPU搭起来的服务器••■,包括BGX的服务器■•,以及IBM=□★、戴尔搭起来的品牌GPU服务器□☆▽。这边是在亚马逊的AWS等上的虚拟GPU•▼□▲,中间是深度学习的框架开元棋牌试玩=▼,现在可能比较常用的有很多■◁▲,右边的是在高性能计算或者是在一些图像影像处理和分析▲=▪•,我们的重点是在左边△△,在深度学习这一块◁-●。
跑一些运算○▲▽★•,从硬件到GPU服务器-◁□◆★、操作系统▼●◁◇…、深度学习平台○◆◇=•-,科大讯飞在自然语言处理上-□■,一台存储的原始容量是100TB◆•,这样搭建出来的平台叫数盾POD▷•▲▽▪▷,既然搭建深度学习平台会遇到这么多问题★▪-■,非常贵▽◆。
樊笑冰△=△☆:大家下午好▲▷▲◁,我声明一下○•▷●◁,今天的主题和信息安全的关系并不大△□▽,我来自数盾科技■▷▽,负责AI事业部◆△-◆▼●,之所以把我们分到这个论坛■-,我想是因为数盾科技的主业是做密码产品-○。
中国工程院院士☆▲▼△☆、国家973项目首席科学家◆○、浙江大学特聘教授▲□•、博士生导师谭建荣▲●◇•,中国科学院院士◆★■•◁□、西北工业大学教授▲▪•、国家杰出青年科学基金获得者黄维◁▽•■,西安市政协主席▽◇、西咸新区党工委书记岳华峰■★▲◆★,西安市副市长非▪▲•-☆★,西咸新区秦汉新城党委书记•-、管委会主任杨占文▪□★,西咸新区管委会副主任亢振峰▷□■•,陕西省工信厅副巡视员郭正强▷☆☆▲,西安市工信局局长李初管☆…◆•,西安市科技局党组成员邓谷斌○=▼=◁,清华大学计算机系教授◇•、中国计算机学会信息存储技术专业委员会副主任▽◆-、灾备技术国家工程实验室副主任舒继武出席活动■▲•,近千名国内外专家学者和企业代表齐聚峰会■□▼○☆★。
这样的系统加下来是50万左右▼●▪★★,和英伟达的POD比起来有几个优点△■◁○,和动辄大几百万的比起来成本低了非常多▷●▪☆,性价比也非常高▲◁-,现在我们做万兆的网络☆▲△☆△,两条可以跑满★▽◇☆△□,开箱即用◆▽▽○,我们工程师已经把这套系统▷•○,已经把容器做完了测试▪•○▽=…、适配和安装★□。容器化☆•▪▪■,大家常用到的深度学习的框架☆-◇▼○▽,都可以以容器化的方式在上面安装部署好△◆▼△▲△。
数盾科技AI事业部总经理樊笑冰在峰会△□○“安全可控论坛•★=▪■○”上发表了题为《深度学习计算机存储一体机方案》的主题演讲-=•,介绍了 数盾科技基于英伟达DGX Station 推出的数盾POD -△-▲◆,以优秀的性价比为高校和科研场所◁▲▽▪:为你的肌肤注入奢华修护能量ky开元棋牌海蓝之谜3件套装,、医院搭建深度学习的平台客户提供 人脸识别…•、车辆识别-◆•、动作行为识别等方面的AI帮助▼▽□●。
DGX—1的GPU服务器=◇•,每一台里有5个SSD△▲-•▪,一个做操作系统◆=,另外4块是数据▪•★◆★◁,加起来是8TB的容量▪☆□◇,在深度学习中▽●▲■…,通常来说这样的容量是不够的▽▲,所以需要接外界的存储★▲,这也是为什么英伟达推出了POD服务器◆•□◁■,整个打包做☆▷△-▷▪。外界的服务器□●○◁,我刚开始做了铺垫□•▲□,要把它的性能充分发挥出来▪••▲案开元棋牌试玩数盾科技AI事业部樊,外界的I/O一定要跟得上▲◆▼▽●,这是在不同场景下所需要的性能能力推荐◇•★…。如果做数据分析的话◇-,大概万兆的网络就可以▷•▪●◆,如果做到高性能计算•■△○=,可能就要从万兆到10万兆▼-■★-△。
现在GPU的性能越来越高○▲▽…△●,如果要把GPU的性能充分发挥出来▲◇★=,存储要相应的能跟上去★☆-□●,但现在市场上大部分的方案▼▷▼,整体系统的造价非常高☆☆▽••。我负责的AI事业部在做市场分析之后▪◇▷•◆•,推出了这样一个方案◇◁…★•=,可以做到相对来说低成本●●•△-、高性价比▪■•◇,又能把GPU的处理能力充分发挥出来的一套系统▲■○=▪。
这些不同的平台△▽◆=…,IT人员会面临很多不同领域的问题◆▲。通常来说都是面临这些挑战○▷□▽◇,为以后的扩展做准备▼●□◇•▼。需要解决不同的问题时面临的基础支撑也是多个点◁=★…▪,所以每次运行时都要做认真的准备◇▽=▷•,由他们的工程师把这一套系统提前做好适配☆=…●○…、安装•▲、调优…▽=△,基本有这个POD就能解决●▲▽…●☆,在这上面是深度学习的应用场景◇★□○◆◁。
所有的工作都做完之后有统一的技术支持接口▲•◇•▪▪。有很多计算机视觉的应用☆•◁○,人工智能的算法会有多复杂•●,说白了就是把GPU服务器☆▷◇、网络▪-●、存储等打包=▷★○••,IT人员在购买☆▼★○▲△、安装◁▷…、实施这些设备时会面临不同的方面•★!
在GPU做虚拟化之后•▲,刚才提到的各个客户或者各个IT人员所遇到的各种问题◆■-,所以IT人员也头痛★□,GPU虚拟机的成本不低▼■▷-▽▼,做实际的不管是图像识别还是声音识别•▪◆★▪、声音翻译这些具体的应用…◁◇☆▲•。如果这是一台一体机▼=•?
刚才讲那么多主要是想铺垫一个背景•●◆○▪,为什么我们的存储跟GPU的硬件要做搭配▪•,因为大家可以看到GPU的处理能力越来越快开元棋牌试玩◇◇,如果要把GPU的计算性能或者处理能力充分发挥出来=☆,存储就要有相应匹配★○,尤其是如果是外接存储的话对存储的要求就非常高-==。
下面几个是做图像处理▼▷-▽●…,现在人工智能最多的应用是计算机视觉▽-☆,比如人脸识别●▼、车辆识别…▽☆…●、动作行为识别▼▽◇▷◁、视频里的物质分类◆▼笑冰:深度学习计算机存储一体机方,图片处理是人工智能里用到最多的一个应用场景○▽•,在不同的图片大小中▪=▼,如果是256*256•…▷▼▽-,4K无压缩的△▲☆◁•■,在不同图片大要的情况下▽▪●■,需要推荐的外界存储网络类型或者I/O类型都有推荐▲●。在不同的应用场景下…▪▪•,从万兆网络再到4万兆在到IB网络•=◁,都会有不同的需求◇○-●。外界存储文件系统方面◁◆=,用NFS就可以解决绝大多数的需求○▽□•◇。如果图片比较大★▽…△=,可能会用到高行僧的NFS▲•◁。在这种场景下▲-▷□◆,刚才讲到的DGX1本身带的那四款SSD就是做缓存▷◆,外界的存储用来储存大量的数据▪★。
通常搭建一个深度学习的训练平台时▼△,会面临一个选择——是在云上做平台还是在本地的数据中心做深度学习的应用■▷●▼▼。