2011年4月13日星期三

微軟推PDW數據庫機器,解決大數據商業智能難題

過去數年,商業智能(Business Intelligence, BI)的應用愈趨普遍,企業從不同來源,也獲得更多數據作分析和決策支援,建立數據庫愈來愈大,規模隨時超越Terabyte(TB)(即1024 GB),甚至Perabyte(PB)(即1024 TB)的容量。

據研究機構Gartner副總裁Matthew Boon表示,二O一一年,Gartner向全球進行CIO調查顯示,雲運算已成最受關注的課題,其次則為虛擬化和流動運算,商業智能則仍然排在第五,可見如何轉化資訊為有用知識,BI在CIO議程上仍有重要位置。

Matthew Boon指出,「過去五年,全球數據增長了八倍,其中八成屬於非結構性數據。」這些非結構數據可能是一般文件或者試算表內。隨著網絡和物聯網(Internet of things)迅速發展,加上監控、感應器、交易等數碼化後,大量數據必須即時作出分析,甚至未進入數據倉庫前,就要得出決策結果。大量非結構數據,必須經過快速的ETL(萃取、轉置、載入),再下載至關聯式數據庫(RDBM),建立數據倉庫,再擷取多維Dataset Cube作OLAP線上分析處理,或者進行數據挖掘和建立報表,發揮數據內藏價值。」

「問題在於,數據庫和Dataset過大,此問題經常被業內形容為大數據(Big Data),必須採用新運算架構來應付;其中一個方向,就是利用專門的數據庫機器來處理。」

數據庫為了加速,一向傾向於利用多枚處理器一齊算運,也就是「多路處理系統」(Symmetrical Multi Processing)SMP架構。另一類運用多枚處理器的技術,主要用加速BI應用,被稱為大規模平行處理技術(Massively Parallel Processing)MPP技術,每枚處理器均擁有本身作業系統(OS)和記憶體,恍如另一部獨立伺服系統,分工服務同一數據庫,加快分析速度。

但是,MPP系統硬件架構亦更複雜和昴貴,同一數據庫,同時分割予不同處理器平行分析,必須精細分割,彼此又須互通。專攻BI研究的Teradata,也是最早發展MPP技術的廠商,專供BI數據庫機器,已獲不少金融和公共機構採用。

去年,甲骨文收購了太陽電腦後,中止了跟HP合作開發Exadata數據庫機器,轉而自行開發並推出ExaData第二版和ExaLogic中間件機器,Exadata也局部運用了MPP技術。另一家MPP廠商Netezza則於去年底為 IBM所收購。EMC則收購了Greenplum,並稱其MPP技術比對手快好數倍。

去年微軟也夥拍HP、IBM、戴爾、Bull 和EMC等,推出預裝SQL 2008 R2企業版本FastTrack V2的數據庫機器,並作出優化並預裝特定規格的伺服系統,供數據倉庫和BI用途。另去年十一月,微軟再與HP及Bull兩家廠商,推出建基於MPP技術數據庫機器(Parallel Data Warehouse) PDW。

微軟Azure及中間件總經理Zane Adam表示,微軟會推出以數據庫機器,此項名為PDW的數據庫機器,利用MPP的技術,針對建立超龐大數據倉庫(Data Warehousing)和 BI數據挖掘,甚至讓客戶從桌上作OLAP分析。

微軟的Excel試算表仍是OLAP的客戶端最普遍採用查詢工具,OLAP運算能力主要靠伺服系統,利用Excel連接即可作多維深度數據分析。此外,Excel 2010版本的PowerPivot也能作離線數據倉庫和BI分析,可處理的Dataset體積達4GB,相當驚人。

微軟FastTrack和PDW的最大分別,是FastTrack利用了 傳統SMP,針對沒有經驗自行安裝數據倉庫的企業,加快BI方案的付運時間和減低風險。

「PDW針對極高端的高階用戶,能夠分析極大量數據,並短時間內獲得結果,也支援串流分析( Streaming Analysis)。此方案預先整合及測試,機器並由微軟Critical Advantage Program直接提供支援,微軟會作為支援的最前線,與硬件商合作解決技術問題。」

二O一一年微軟亦將推出開發代號Denali的SQL數據庫版本,並且再推出FastTrack V3機器。Zane透露,微軟稍後會推出針對OLTP用途數據庫機器,由於OLTP對於輸出入IO要求極高,預計OLTP數據庫機器亦加入大量固態儲存(SSD)技術,但未有計畫推出類似Exalogic的中間件機器。

沒有留言:

發佈留言