專業圖像加速卡市場,一直以來是兩頭馬車。2006年,AMD收購了ATI,與Nvidia的市場佔有率一直相若,只是近年Nvidia技術一直領先。
專業圖像加速GPU顯卡,除了最大的遊戲市場,也包括專業和設計應用,甚至醫學和建築應用;為不同的專業工作站,製作設計和渲染(Rendering)圖像,動畫製作如Maya、 BIM數碼化建築設計模型,甚至4K內容制作;新興技術也包括GPU進行平行運算(Parallel Programming),以加快科學和模擬運算等。
今年的GPU市場,AMD終於推出全新版本FirePro,Nvidia則推出了Kepler架構Quadro加速卡。但是,除了專業圖像,Nvidia也發展流動運算,推出針對流動Tegra處理器。而AMD則針對高端圖像應用。
據AMD業務總監Ed Caracappa表示,FirePro針對一般ISV應用加以優化,故比Quadro有更佳優化效能。Caracappa說,FirePro針對不同圖像應用加以優化,也是業界首張支援PCIe Gen3顯卡,應付4K製作極嚴苛的頻寬要求。
FirePro支援高規格的硬件;類似FirePro W8000支援GDDR5記憶體達4GB,W9000的GDDR5記憶達6GB,QDR mode時脈為1,375 MHz,每秒轉移數據達55億次,相等於每於傳輸達264GB的電腦/影像頻寬;同級Nvidia的K5000M只有96GB的電腦/影像頻寬。
此外,以往Nvidia支援Cuda平台,可為專業軟件;例如是Adobe的Premiere Pro採用的Mercury Playback Engine加速重播,加快剪輯影片後期製作,並加入不同特殊效果時,通過GPU來加快製作。後來,蘋果電腦也推出了OpenCL,也逐漸成為公開標準,不少軟件已同時支援上述標準,OpenCL支援不同廠商硬件,流行程度也漸加快。
AMD支援OpenCL
Cuda只支援Nvidia的GPU上執行,並非公開標準。OpenCL卻由蘋果開發,支援GPU、CPU、DSP甚至ARM上執行,甚至Nvidia和IBM的Power處理器,均是支援OpenCL廠商之一。
根據測試,AMD利用OpenCL為Mercury Playback Engine作硬件加速,執行速度較以軟件(亦即CPU處理器)加速快上五成。而利用Nvidia K2000與FirePro W5000同樣以硬件加速,執行速度不相伯仲,FirePro W5000卻有價格上優勢。
以上述兩張顯卡執行Solidworks 2013,AMD比Nvidia的同級產品更快,FirePro 甚至為工業設計程式PTC Creo 2.0提供了獨家功能,Order Independent Transparency (OIT)能在打開透明度模式時,模型轉動時更平滑順暢。
據Caracappa表示,4K製作對CPU、GPU、顯卡之間的頻寬要求極高,FirePro 是首個支援PCIe Gen3的顯卡;PCIe Gen2記憶傳輸速度只有每秒2.4GB,但Gen3已達到每秒5.5GB。FirePro的W9000支援PCIe Gen3,製作4K影視可以近乎實時速度重播剪輯。Caracappa表示,PCIe Gen3可支援Assimilate Scratch等影視製作軟件,PCIe Gen3上操作速度,比Gen2足快上兩倍。
高端系列可用於平行運算
GPU只用來計算浮點運算(Floating Point)圖像,不過研究人員很快發現,利用一般用途GPU(GPGPU),即專門從事浮點運算的GPU來加速平行運算,令一般電腦也可發揮類似超級電腦效能。
因此,Nvidia開發了Cuda框架,為簡化以GPU作平行運算奠下基礎。只要懂得高階語言如C++,就可利用Cuda為平行運算平台及編程,令Cuda一度成GPU執行平行運算的標準。平行運算廣泛用於醫學和財經預測領域,甚至是天氣預測。以往,天文台採用超級電腦,如今可被GPU取代,不少精確天氣預測,可用較低成本來完成。
平行運算的原理,一般循序(Sequential)執行部分仍然留在CPU上執行,迴圈執行不斷重覆部分,則卸載至GPU上執行。不少X86伺服系統類似IBM的PureFlex,已預留位置安裝GPU作平行運算。
Cuda 解決一般平行運算,須利用低階語言的門檻,寫作並不困難,可直接將C、C++或Fortran程式,直接送至GPU去執行。困難之處在優化,須解決不少硬體細節。但即使未最優化Cuda 程式 GPU 上面執行,已比傳統 CPU 快上 5至10 倍,優化後甚至達 25至100 倍加速。例如傳統上迴圈執行數萬次程式碼,Cuda拆解成數千個同時執行的執行緒,同時利用GPU執行,每個執行緒同一時間執行十幾次而己,產生數百倍效能。去年Nvidia推出了Cuda的5.0版本。
Nvidia的GPGPU圖像加速產品系列為Teslas(即所謂用於以上Cuda運算的GPGPU),針對圖像專業工作站則為Quadro系列。Teslas應用於不少超級電腦上;包括著名中國天津天河1A超級電腦,作大規模平行算運。但Teslas不能直接輸出影像,主要為了支援大規模模擬運算,或者純粹運算產生極之高質素的科學影像。換言之,Teslas以計算為主,不包括輸出影響。如果支援輸出,還要外加Quadro產品。儘管Tesla C-class產品也包含了一個Dual-Link DVI port,只屬於聊勝於無。
AMD則合二為一,伺服端應用的FirePro S10000,同時具備了Teslas和Quadro兩者效能;也就是說,大規模的模擬計算後,可通過同一強顯卡輸出影像。
未來圖像產品走向雲端
雖然Cuda的API較成熟,卻只能在Nvidia的GPU上執行,英特爾也宣佈未來支援OpenCL,OpenCL可於系統沒有GPU時,轉而英特爾和Power上CPU上執行(當然效能較差)。 FirePro強調支援OpenCL,寄望OpenCL流行,也可改變Nvidia平行運算世界中獨大情況。
AMD也不斷推出極大規模的應用,2012年Stony Brook大學舉行介紹新興技術的CEWIT會議上,展出了全球最大視覺化裝置Reality Deck,就是利用AMD技術以416個高清螢幕,建立高達15億Pixel虛擬視覺化環境,AMD又跟聲寶及HP合作,支援全球首個解像度達8K的LCD顯示屏。
雲運算流行,預算愈來愈多的圖像和設計創作工作,未來以VDI形式提供,透過數據中心進行遠端渲染等動作。事實上,Autodesk等廠商近年已推出雲運算圖像服務。近年不少電影大製作,均利用雲端數據中心遠端完成。Caracappa表示,AMD會推出極高效能的Radeon Sky,供數據中心為網上遊戲作遠端圖像加速,AMD也會推出更多伺服端產品,針對未來VDI及遠端渲染的市場。
沒有留言:
發佈留言