2010年6月10日星期四

同步重複資料刪除毋懼顧此失彼



儲存方案市場近一兩年相對沈寂,除受全球經濟環境和IT預算緊縮影響,早年過度購置亦是主因。在資訊與日俱增下,逐漸浮現的問題反而並非儲存不足,而是備份和管理。

香港寸金尺土,加上全球電力成本不斷上漲,結果積存的備份磁帶愈多,成本也愈高。虛擬磁帶庫(Virtual Tape LibraryVTL)近年之所以日趨普及,正正因為這項技術能虛擬出多個磁帶機,大幅節省企業對實體磁帶機的需求,有助降低整體擁有成本。然而備份數據有增無減,管理成本上揚之餘,多次重複寫入的數據,亦佔去大量不必要的備份空間,拖慢了還原讀取備份數據的效能表現。

「數據增長自o四年起,即以倍數上升。不少企業未能預期數據銳增,只按自然增長(Organic Growth)推算備份所需,固有備份根本追不上數據增長速度。不少企業以為只須增加磁帶機即可解決問題,然而成本不斷上升,撮取速度卻每況愈下。」

FalconStor華南地區區域總監余灌昌認為,在數據倍數增長的情況下,虛擬磁帶庫(VTL)肯定是最理想的解決方案。以FalconStor的虛擬磁帶庫方案為例,因資料毋須直接寫入磁碟機,改為寫入虛擬的磁帶機,除能大幅降低投資成本,亦明顯縮減備份所需時間,更可集重複資料刪除、企業內複製,以及磁帶整合於單一解決方案,而毋須變更既有儲存環境。其內建的重複資料刪除(deduplication)功能,可透過雜湊演算法(Hashing),自動且有效地刪除複寫資料,從而延長資料保存期,進一步減省實體磁帶媒體的投資成本。

破解重複資料刪除謬誤

雜湊演算法(Hashing)有別於一般搜尋方法。鍵值(key value)或識別字(identifier)在記憶體的位址,乃經由雜湊函數(hash function)轉換而得,簡單可理解為重新為數據建立一個數位指紋,用以代表一個短的隨機字母和數位組成的字串。透過計算雜湊函數,系統即可自行對比數位指紋,判斷數據是否重複,從而刪除資料。據悉,市場上主要的重複資料刪除方案,均採用雜湊演算法技術,因該技術可利用適當的散置函數,將資料壓縮到較小的範圍內,以節省空間,同時加速讀寫速度。

「以雜湊演算法,在硬碟記錄內進行二進制的重複資料刪除,可說是目前最有效率的做法。有廠商企圖以數字遊戲混淆使用者,指重複資料刪除比率約可達301甚至更高。事實上,重複資料刪除比率很視乎有多少份重複的數據派下來進行計算,假如系統僅存20份重複數據,那麼即使雜湊演算法再精確,也只能達致20 1的重複資料刪除比率;其次,千萬別為比率數字所騙。」

余氏闡釋指,以中位數的平均比率,即約20 1為例,事實上已可為用戶節省95%的儲存空間。即使將比率提升至301,在節省儲存空間的考慮上,亦僅能提升至97%,實際可節省的儲存空間分別並不明顯。他續澄清,部分業界人士視FalconStor的重複資料刪除為離線功能,是一種誤解。FalconStor採用的,乃同步重複資料刪除(concurrent deduplication)技術,介乎在線與離線之間。

「有別於離線重複資料刪除,同步重複資料刪除毋須等全數磁帶機均已進行備份後,才開始進行雜湊演算,而是在一個磁帶機正進行備份的當兒,即為上一個已完成備份的磁帶機進行重複資料刪除。好處是不會顧此失彼,為遷就重複資料刪除而犧牲備份效能。」

VTL勢走向SaaS

近年不少應用軟件、平台,甚至基建紛紛推出網雲方案服務,備份領域也不例外。余氏表示,FalconStor的虛擬磁帶庫方案很早期已開始支援iSCSI,因此他們的VTL和重複資料刪除功能,技術上絕對可以透過互聯網,支援SaaS(軟件即服務)供應商提供服務。他透露,有關方案將於今年下半年度推出。

另外,據聞因IBM收購了DiligentProtecTIER),而EMC則收購了Data Domain,市場上的企業級重複數據刪除方案只餘下FalconStor,因此HDS未來將主力經銷FalconStor的重覆資料刪除方案。

沒有留言:

發佈留言