2016年5月18日星期三

非結構化數據急增 減少暗數據刻不容緩


一家公司運作愈久,累積數據幾乎必然愈多。商業信息可能是企業最寶貴資產之一,所以耗費大量開支,維持數據的可用性。諷刺的是,不少企業並不掌握數據的內容和用途,結果既喪失了數據的商業價值,又浪費大量IT開支。

企業最頭痛的問題,莫過於非結構化數據(Unstructured Data)激增。非結構化數據多是用戶個別產生的檔案;可以是Office文件、報表、電郵、圖片、視頻、地理資訊、IM和社交媒體通訊、XML、HTML檔。用戶從網上蒐集大量資料,以不同方式通訊,從業務系統下載資料製作分析、甚至簡報,開發內容和應用,過程產生甚多非結構化數據,結果須頻繁配置儲存應付。

究意有多少數據具備商業價值?據Veritas的調查,用戶經常存取具商業價值的數據,原來只佔總數約一成半。但每天IT備份資料,不少系統甚至維持多個副本容錯,成本更以倍計。原來IT部門每日所重複抄寫和保護,不少皆是可有可無的所謂「暗數據」(Dark Data)。

暗數據困擾信息管治

「暗數據」並非全無商業價值,只不過缺乏了透明度,又不能確定內容和擁有權誰屬,難以確定價值而已。

近年開始流行「信息管治」(Information Governance),泛指識別商業價值較高數據,確立保存和處理數據方式,以符合風險和法規的要求。Veritas作為管理信息的最大廠商,備份和恢復旗艦產品,市場佔有率全球最大,也擁有管理儲存系統的方案,開始推動信息管治,紓解因數據膨脹而添置儲存的壓力。

今年二月,Bill Coleman履新成Veritas行政總裁,集中火力發展信息管理(Information Management)業務;分開兩大業務範疇;其一是數據保護和持續商業運作;包括了Backup Exec和NetBackup備份及恢復,儲存平台管理等;其次則為信息管治(Information Governance),重新掌握數據的內容和價值,自動化管理數據的生命周期。

Veritas香港及台灣董事總經理郭顯達說,為了探索「暗數據」的影響,Veritas 訪問了全球22國家逾2,500名IT專才,發佈了Global Databerg Report, 發現全球已儲存數據,竟有52%可界定為「暗數據」,即無法得悉箇中價值;33%更可視為「冗餘、過時或瑣碎」(ROT),甚至毫無商業價值。報告編纂了業內首項《數據基因指數》(Data Genomics Index),研究衍生數據的成因、性質,存在狀態和佔用的資源。

四成數據閒置三年

郭顯達說,Veritas全球擁有超過五萬家企業客戶;當中包括86%的財富500強企業;《數據基因指數》深入分析客戶以百億計檔案,相當具代表性。

報告發現41%的已儲存數據,已經超過三年都沒被存取,12%數據,更是七年以來未曾打開過;其中二成乃類似簡報、試算表、視頻等內容豐富的文件,不少更是難以決定擁有權誰屬的無主孤魂檔案(Orphan file),體積較一般正常為大;Orphan file佔檔案量只有1.6,所佔儲存空間卻達5.1%。

按研究機構Gartner估計,以每Petabyte數據,每年維護費約五百萬美元。從成本考慮,用戶經常使用數據,才應維持在線,某些偶爾才用的數據,則可歸檔(archive)處理。不過,數據缺乏擁有者和使用模式,要處理也不知從何著手。

Veritas系統工程經理張逸雄說:檔案量迅速成長,不少機構習慣了「囤積數據」(Data hoarding),也有採用雲運算,表面成本好像降低,結果反不知不覺存儲數據。因此,有效數據管治的先決條件,必須重建數據的「能見度」(Visibility),從數據的使用狀況和擁有權,判斷商業價值和處理方式。

「Veritas產品線;涵蓋備份、儲存管理、數據生命周期管理;觸及了數據從產生、以至保護及歸檔的流程。市場上的數據管理,只集中複製和保護,結果積壓愈來愈多數據,治標不治本。Veritas解決方案,不再限於保護數據,而伸延至信息管治。」

整頓數據必須治本

「暗數據」的出現,多少亦跟近年鼓勵用戶自助(Self service)開發有關。不少數據屬於開發者擁有;從商業系統數據庫,自行下載至報表,或下載數據至試算表自行分析,結果產生大量報表。

張逸雄說,報表商業價值,可能止於產生後三月內,或者一年後會比對年度變化,中間絕大部分時間,作用其實不大。不少Office檔案內容也比以往豐富;包含自動化 Macro指令和下載的多媒體。

張逸雄說,企業難以發現「暗數據」,原於一般的檔案系統,根本無法詳細記錄存取歷史和詳細屬性,只知類型和最後存取。Veritas的Data Insight工具,可從檔案系統、備份,甚至是NAS儲存平台,根據存取歷史和擁有權,重構數據本質和使用狀態,分析檔案內容和價值,甚至支援雲端儲存如Box,記錄各項細節,以決定處理方式。

歸檔提昇系統表現

非結構化數據以不同方式儲存,不少直接儲存檔案系統或置於共享磁盤上、又或者上載至文件管理系統內;類似SharePoint之類;詳細分門別類,傳統的歸檔流程只將舊檔案封存,時間一久,亦是無從稽考。

張逸雄說,本港不少用戶仍依靠電郵分享、儲存甚至作歸檔資料。但以電郵共享和處理信息,也容易喪失能見度,日後更難追尋擁有者。以Exchange電郵系統為例,不少郵箱設定了配額限制,要求用戶定期打包舊郵件為PST格式,置於雲端或網絡上。隨著日子一久,或原有用戶離職,內容無從稽查,更無從追尋誰屬。調查發現,不少PST檔案,已無法追尋原主,更無法得悉內容。

張逸雄說,不少企業均希望可先獲悉數據清晰內容,才處理如何處理和歸檔,所以先利用了Data Insight等工具,分析、過濾、界別檔案性質,再通過Enterprise Vault歸檔工具,自動分類和檢索屬於可歸檔、又商業價值檔案。

Enterprise Vault從不同方面抽取關於檔案的有用資訊,作自動化分類,建立檢索以作搜尋。數據歸檔後,大幅減輕了日常備份,即時釋放儲存空間,也可按法規要求預設保留數據,同時減輕應用的負荷。

張逸雄說:Enterprise Vault自動整理遊離分散的PST檔,集中到專用的歸檔中心,再建立索引和擁有權,用戶仍可檢索已歸檔PST內容,Enterprise Vault也可定期歸檔其他應用內,陳舊和鮮有存取的資料;如SharePoint文件庫和IM系統等內容。

不少誤解以為,數據一旦歸檔和庫存,必然拖摱搜尋時間。張逸雄說:其實應用處理資料量一旦減輕,運行反而暢順。暗數據歸檔之後,用戶發現要找資料時間,如檢索Exchange,或者從檢索找回歸檔,時間反而縮短不少。不少數據庫數據太多,結果拖垮了系統,搜尋資料更慢,歸檔反有助改善用戶體驗。Enterprise Vault也支援Box和Google等雲儲存作為歸檔,既減輕升級儲存壓力,數據卻仍可供隨時檢索搜尋。



沒有留言:

發佈留言