每年一度美國三藩市Oracle OpenWorld用戶大會,均吸引大量用戶參加。甲骨文也乘勢發表多項新產品,推出兩部專用機器,加上以往的Exadata和ExaLogic,整個家族成員增至四名。
數據庫炙手可熱的話題,無疑是Big Data,包括 如何分析大量的非結構性數據。甲骨文行政總裁Larry Ellison主題演說中介紹了最新Exalytics,其中包含了兩項業界甚感興趣的技術;InMemory數據庫和處理非結構性數據的Big Data Appliance。
Exalytics和Big Data Appliance跟數據庫機器Exadata和中間件機器ExaLogic一樣,均是結合了軟硬件的方案,甲骨文收購太陽後,不斷鼓吹針對軟件效率,加以優化的專門化設備,實行軟硬通吃。
商業智能和分析的速度,一直受制於系統硬盤讀寫和IO瓶頸。數年前,64元位系統日漸流行,定址空間大增,記憶體價格下滑,極速BI也露出曙光,足以打破IO限制,辦法為所有資料均置於記憶體中,以極的速存取,加上平行運算加快執行速度。但記憶體量再多,也始終有限,必須按優先,篩選的數據放上記憶和快閃。但Exadata已廣泛使用上述技術,IBM也發展類似的Easy Tier。
比人腦更快的BI機器
據Ellison介紹,Exalytics處理BI反應神速,無須等待可馬上獲得結果:「Exalytics既可處理結構性數據,以人類思考速度來分析多維的數據,更可處理非結構數據。」前兩者毫不意外,關聯式數據庫一向擅於結構數據,O七年甲骨文收購了Hyperion,再獲得多維數據庫(Multidimensional database),主要OLAP Cube核心技術,如今全盤注入了Exalytics。
Exalytics除了大量應用平行運算和壓縮技術,也首次加入InMemory數據庫。二OO五年,甲骨文收購TimesTen,擁有了InMemory數據庫技術,再通過高度壓縮,原本10 TB數據可壓縮在1 TB記憶體上,以全盤平行運算化(Parallelize Everything),以「大量平行運算」(Massively Parallel Processing)執行;Exalytics就是以大量平行架構上,執行壓縮了的InMemory數據庫,加上不斷自我調整的InMemory緩衝技術(Heuristic Adaptive InMemory Cache),學習用戶查詢傾向,篩選記憶體和快閃之上應存放的熱門數據。
此外,不少所謂Big Data,均是從網上社交網站、感應器,甚至紀錄檔(Log file)產生,其中甚多均為非結構數據。Exalytics指處理新的數據類型,就是指上述非結構性數據。
Big Data針對非結構性數據
非結構數據為Big Data核心難題,令新一代如Splunk等的工具一夜成名。後來,執行副總裁Thomas Kurian介紹甲骨文Big Data Appliance,包括NonSQL數據庫,配搭Hadoop平台來處理Extract, transform and load (ETL)工序,專門整理非結構數據,甲骨文的Big Data藍圖,才漸見端倪。
乍看之下,此部機器實為ETL 工具的優化版,加上了Hadoop的MapReduce技術,加快非結構性數據經ETL處理和Normalization後,輸入Exadata,再經Exalytics上BI工具,加上開源統計工具R,實時製作出顯示趨勢的圖表和數碼儀表。
Kurian指Big Data技術以Hadoop為基礎;包括了甲骨文本身NonSQL database,配合Loader for Hadoop和Hadoop工具,上載於甲骨文Linux 和VM上運行,以MapReduce原理,分散運算至各VM叢集執行。
Exalytics分析數據機器包括四十枚Intel處理器核心,以40Gbps的Infiniband連接Exadata數據庫機器。至於Big Data Appliance硬件規格,則未見透露。Hadoop為開放源碼的技術,從Google發明的MapReduce技術演化而來,最近熱門的Splunk,也是建基於MapReduce,但則以搜尋引擎原理,處理海量非結構數據。Hadoop也廣泛應用於Yahoo!及亞馬遜的Ec2,儼然為高性能運算的大勢所趨。
近年,SAP和IBM均積極發展InMemory技術。去年,SAP率先推出鎮鎮High Performance Analytic Appliance( HANA)設備,最近宣佈成功為中國最大之瓶裝水生產商農夫山泉,實施了HANA方案。但是,SAP的InMemory技術主要來自收購Sybase,再加上收購BusinessObjects的BI工具,速度性能不相伯仲。如今甲骨文再加入加速處理非結構性數據的專用設備,又可謂後發先至。
沒有留言:
發佈留言