2016年3月23日星期三

Microsoft推出SQL Server 2016 預測分析飛入尋常百姓家


SQL Server 2016加強了數據分析的功能,除了可以執行查詢數據的SQL語言,還加進了分析和預測數據的R語言,並且可以伸延數據庫到Azure,減少對SAN 或NAS儲存的依賴。

Microsoft SQL Server全球產品市場營銷總監湯中權說:「SQL 2016整合了多項功能,除了數據庫以外;包括了ETL、數據倉庫、再加上商業智能(Business Intelligence)和建立預測模型的統計語言R,總擁有成本(TCO)比對手低十二倍。」他表示,SQL 2016成本較低,因為所有功能都是高度整合,毋須再另外安裝採購。

SQL 2016也通過雲端技術,減低企業營運成本。例如一般SAN儲存,遇上空間不足,升級時往往全盤更換,對企業負擔不輕。SAN耗用的空間,又跟資料保留原則(Retention policy)關係密切,保留在線的資料愈多,成本愈重。不少企業都有很少有機會查詢數據,稱為冷(Cold)或暖數據(Warm data),可能仍有必要保留,但又鮮有機會用到。傳統方法是先歸檔(Archive),有需要才恢復。如此一來,一旦要查詢又費時失事。

一體結合內部雲端數據

SQL 2016的Stretch Database功能,可擴展內部數據庫的資料庫到Azure的雲端SQL數據庫,以省回SAN空間。湯中權說, Stretch Database將內部數據庫伸延到Azure,經常查詢熱數據(Hot data)仍置於內部,優點是冷數據仍可在線查詢,只是反應略遜而已,可延長數據在線時間,又不佔用SAN,推遲升級時間,節省大筆支出。

SQL Server 2016一直被譽為業內最安全的數據庫,連續六年獲美國國家標準及技術局(National Institute of Standards and Technology,NIST)獲評定為最少攻擊弱點(Vulnerability)數據庫。

湯中權說:SQL 2016數據可「時刻予以加密」(Always encrypted);從存取、傳送、甚至是數據靜止時,均受加密保護,或以極輕微影響性能,全面加密用戶資料,甚至動態遮蓋敏感數據,數據即使延伸到Azure雲上仍然受加密全面保護。

性能冠絕數據倉庫

湯中權說,SQL 2016在OLTP交易和數據庫OLAP性能測試,均獲得甚高評分;尤其是利用內存(in-memory)技術之後,速度更上層樓。業內以TPC-H效能,作評定資料倉儲工作負載效能的基準。SQL 2014於TPC-H效能,以內存in-memory columnstore index技術,創下了非叢集數據庫(Non-clustered)10 TB和3 TB在性能和價格/性能比率的兩項世界紀錄。3 TB 的每小時支援的查詢次數(query-per-hour,QphH)高達461,837次,比Oracle/SPARC以往保持的世界紀錄409,721次,高出了近一成半。

SQL Server Integration Services (SSIS)也是業內用於建置資料倉庫( Data Warehouse ) 時,進行資料擷取、轉換、載入(Extraction, transformation, load, ETL),建立數據倉庫最常用的數據平台。SSIS可擷取幾乎任何來源的數據,以建立數據倉庫和OLAP供用戶作多維分析用的Cube,再利用Reporting Service快速製作報表和分析,甚至支援輸出到Excel 報表、瀏覽器或流動設備上。

SQL 2016加入了進階分析語言R的R Service,可發掘出數據的更多價值,甚至作出預測性分析。傳統上,類似功能必須採用高級統計語言,不單昂貴,技術也不易掌握。去年,Microsoft收購了Revolution Analytics後,加入了R語言作分析大數據的多種工具。全球最著名的統計語言;可數SAS Institute的SAS和社會科學研究上廣泛應用的SPSS。SPSS早於1968年面世,1993年 納斯達克上市後,2009年以十二億美元歸入IBM旗下。目前,IBM和SAS是預測分析最大廠商,兩者皆成本高昂。

公開源碼R語言於1995年誕生;從學術研究逐漸進入商業領域,具備先進的圖像化工具,學術研究上應用率愈來愈高。不少數據科學家採用了 R建立預測分析模型;即使是Revolution Analytics,原本也是耶魯大學的研究單位,專門製作R語言套件(Package)和分析函數,並提供顧問服務,並與Hadoop及Teradata數據庫整合,可作大數據的統計分析。Microsoft收購後Revolution Analytics,於Azure內提供R語言的機器學習,推出多項R語言的分析和開發工具,進行資料清理和建立預測模型等。

R可作出機率的推測,應用於金融和零售業,預測客戶行為和市場變化,愈來愈多數據庫支援R。一般來說,數據科學家可於不同的開發環境(IDE),開發好預測模型,然後連接至SQL數據庫,擷取相關數據,利用模型給客戶作預測分析。

Microsoft大中華區先進分析及大數據解決方案全球黑帶團隊黄河燕說,SQL 2016的ScaleR套件,可直接於SQL數據庫內運算R語言的預測模型,不用再來回移動數據,所有運算皆於數據庫內完成,只輸出運算後所獲統計評分(Score)和圖表,不用輸出數據,也更安全。

ScaleR套件可簡化部署,支援Transact-SQL的介面,直接以SQL語法擷取運算的結果。數據庫管理人員以熟悉的SQL語法或建立Store Procedure,從R預測模型取回統計圖表或評分,透過Reporting Service,以不同介面和方式,甚至流動設備上呈現,減低整合難度。R很容易就可開發統計運算,另外也借助數據倉庫性能;如內存(in-memory)數據庫引擎,以加快R模型運算的性能。



沒有留言:

發佈留言