2017年4月19日星期三

NVIDIA結合Power架構 成就新一代超級電腦

人工智慧(Artificial IntelligenceAI)經過幾乎近六十年發展,從純學術研究日漸成熟,逐漸進入應用階段。除了IBMWatson,其他人工智慧成果陸續浮現,全球正步向人工智慧普及化(Democratizing AI)的世代,影響各行各業,互聯網服務供應商更積極以AI轉型。

AI之所以水到渠成,簡中原因亦是互聯網累積了大量數據,發展機器學習,AI可不斷臻善數學模式。近年運算模式突破,AI運算模式憑大量數據,改善電腦認知能力作深度學習,甚至分辨圖片和解讀聲響。AI要求極快速運算,超級運算能力之所以加快實現,又歸功於圖型加速卡(GPU)浮點運算,被借用作一般用途運算General purpose computing)。中央處理器(CPU)利用了GPU作平行運算,稱之為GPGPU,爆發出驚人運算能力,AI也更快變成現實。

NVIDIA是最早投資於GPGPU的圖型加速卡廠商。CPU要借助GPU運算,須通過另一套轉譯工具,一般程式變為GPU能處理的源碼,NVIDIA推出CUDA,正是目前最流行轉譯工具,NVIDIA也成為AINVIDIA推出了專供機器學習GPGPUTesla平台,GPGPU價格進一步下調。

但是,CPU要充份利用GPGPU性能,數據交換速度必須夠高。否則GPU再快,亦無用武之地。NVIDIA開發了NVLink,供多張GPGPU之間高速交換數據;可是GPGPUCPU之間仍有瓶頸,GPGPU只有空轉等待CPU送來的數據。

IBM服務器方案經理張智恆說,去年IBM公佈開發代MinskyPower架構,同一服務器可容納最多四張GPU的叢集,專用於高性能運算或者AI,徹底解決GPGPUCPU傳輸限制。

公開架構加快創新

2013年,IBM成立了OpenPOWER Foundation,公開了Power處理器的架構設計,以便與合作夥伴協作,加快Power服務器演進。OpenPOWER推出了OpenCAPI,以便連接GPUASICFPGA等輔助加速芯片,提供協作的平行運算。

NVIDIAOpenPOWER Foundation獻了NVLinkNVLinkNVIDIA用於連接GPU之間,一種極高速的管理。OpenCAPI加入了NVLink,新一代Power構可讓CPUGPU數據交換速度,一下子提高數倍。NVLink速度達80GB/s,較英特爾系統採用PCI Express快了四倍。目前英特爾沒有相應的方案,足以挑戰Minsky的速度

新一代Power系統Minsky支援兩枚Power處理器和四張NVIDIATesla 100GPGPU,全部以NVLink互連,足以取代數以十計X86電腦組成的叢集系統,節省大量硬件、電力和周邊配置。
張智恆說,本港不少大專院校的研究部門,已對採用Minsky開發AI應用表示極大興趣。

NVIDIA亞太區業務行銷副總裁Raymond Teh說,Tesla 100採用NVIDIA新一代Pascal架構,比上一代快了幾倍,支援CUDA和用於類神經運算CUCNN語言,不少公司都在CUDA上加上本身開發AI架構,最著名可數GoogleTensorflowIBMCoffeMicrosoftCNTK,公開架構如Torch用於深度學習的運算架構。上述架構,均可在MinskyUbuntu作業系統上執行,透過CUDA轉譯放到Tesla 100 GPU上加速。

Raymond Teh說,Power處理器加上NVLinkOpenCAPIPascal架構組成的Minsky平台,為迄今速皮最高的深度學習平台不少金融、醫療研究、無人駕駛,甚至互聯網企業GoogleFacebook國內多家互聯網,紛紛轉用上述組合,支援新一代運算。

「互聯網產業要過濾大量訊息以往靠大量CPU組成的叢集,如今通過GPU的平行運算減少負荷。另一個很大用途是用於人臉或聲音的識別。騰訊、百度、阿里等均部署大量Power處理器和NVIDIAGPGPU。」

NVIDIA作為AI方案的最大廠商,亦有不少挑戰對手,包括了可編程低功耗技术的FPGA,以及不同的 ASIC芯片不久之前,由於GoogleTensorflow架構極受歡迎,宣佈推出TPUASIC芯片,專門用於執行Tensorflow。不過Teh表示,TPU只針對執行Tensorflow負載,並非GPU一般性能指標。

他說,不同領域廠商推出本身方案有望加快AI發展較早前英特爾收購Mobleye就是為了加快AISoC芯片開發,預計會有更多ASICFPGA方案陸續出現挑戰NVIDIA的地位


沒有留言:

發佈留言