重複數據删除技術
發布人:scutech 發布日期:2012-09-27 16:38:23 點擊數:3307
1.什麽是重複數據删除技術?
首先,重複數據删除技術不同于普通的壓縮技術。壓縮是通過壓縮算法消除文件内的冗餘數據來縮減文件大(dà)小(xiǎo),而重複數據删除是通過算法消除分(fēn)布在存儲系統中(zhōng)的相同文件或者數據塊。其次,重複數據删除也不同于普通的增量備份。增量備份的要旨是隻備份新産生(shēng)的數據,而重複數據删除技術的關鍵是隻保留唯一(yī)的數據實例,所以重複數據删除技術在減少數據存儲量方面更加有效。大(dà)部分(fēn)廠商(shāng)聲稱其重複數據删除産品能将數據縮減到正常容量的1/20。重複數據删除技術的基本原理是将數據分(fēn)塊篩選,找出相同的數據塊并以指向唯一(yī)實例的指針取代。重複數據删除技術是一(yī)種數據縮減技術,通常用于基于磁盤的備份系統,旨在減少存儲系統中(zhōng)使用的存儲容量。它的工(gōng)作方式是在某個時間周期内查找不同文件中(zhōng)不同位置的重複可變大(dà)小(xiǎo)數據塊。重複的數據塊用指示符取代。高度冗餘的數據集(例如備份數據)從數據重複删除技術的獲益極大(dà);用戶可以實現10比1至50比1的縮減比。而且,重複數據删除技術可以允許用戶的不同站點之間進行高效,經濟的備份數據複制。
2.基于軟件的重複數據删除和基于硬件的重複數據删除的優缺點
基于軟件的重複數據删除旨在消除源的冗餘,而基于硬件的重複數據删除強調存儲系統本身的數據削減。雖然基于硬件的重複數據删除無法提供帶寬補償,而在源中(zhōng)進行重複數據删除中(zhōng)有可能獲得帶寬補償,但是基于硬件的重複數據删除的壓縮級别通常會更高,并且基于硬件的重複數據删除産品需要的維護更少。硬件重複數據删除設備以它們的高性能、可擴展性以及相對不間斷的部署而備受關注。正常情況下(xià),備份軟件會将專用設備看作是一(yī)種一(yī)般的“磁盤系統”,并且完全不會發覺其内部正在進行的重複數據删除進程。小(xiǎo)型企業或遠程辦公通常會避免使用設備,因爲這些設備的費(fèi)用要比用軟件來實現重複數據删除的費(fèi)用高,但是,它們确實是企業級部署的理想選擇。基于硬件的重複數據删除也可能融合到其它存儲(目标)平台上。例如,重複數據删除經常是VTL系統的一(yī)項功能之一(yī)。VTL系統通過使用磁盤而不是磁帶進行存儲,從而提高備份任務的速度,而且,添加重複數據删除使VTL磁盤使用率達到最大(dà)。在很多情況下(xià),VTL重複數據删除是作爲一(yī)種out-of-band進程來執行的。這是其一(yī)項優勢,因爲所有VTL的内容都可以通過重複數據删除技術以達到很好的壓縮比率。不好之處在于重複數據删除不是實時的。然而,一(yī)些VTL系統在接收到備份服務器的數據之後,引入了in-band重複備份數據删除的處理能力。
3.硬件的重複數據删除産品中(zhōng)In-band和Out-of-band比較
基于硬件的重複數據删除産品的好處:基于硬件的重複數據删除産品能減輕與基于軟件的重複數據删除産品相關的處理負擔。重複數據删除功能還被融合到其它數據保護硬件中(zhōng),如備份平台、虛拟磁帶庫(VTL)系統甚至通用存儲系統像網絡附加存儲(NAS)等。通常這種方法并不旨在縮小(xiǎo)備份窗口或恢複目标,但是一(yī)般而言,用戶能借此達到最高的壓縮級别,從而創造最大(dà)的可用存儲空間。in-band重複數據删除在數據寫入存儲器時削減數據。盡管進程處理需要額外(wài)的處理能力從而可能擴大(dà)備份窗口的大(dà)小(xiǎo),但是in-band重複删除是有效率的,因爲它隻執行一(yī)次。out-of-band重複數據删除是在數據存儲完之後執行。這種方法不會影響備份窗口的大(dà)小(xiǎo),并且能緩解對CPU進程處理的關注,從而避免在備份服務器和存儲器之間産生(shēng)瓶頸。然而,out-of-band重複數據删除在執行過程中(zhōng)使用稍微多一(yī)點的磁盤空間。還有,out-of-band重複數據删除需要花費(fèi)的時間可能要比實際的備份窗口長。磁盤競争是另一(yī)個問題,因爲用戶在重複數據删除過程期間嘗試訪問存儲器,從而降低了磁盤性能。
4.兩種主要的重複數據删除方法
目前有兩種主要的重複數據删除方法:基于散列的方法和基于字節比較的方法。基于散列的方法利用一(yī)種算法對輸入數據進行處理來創建很小(xiǎo)的表達式和數據唯一(yī)的标識符(即所謂的散列值)。然後,将其與保存在查尋表中(zhōng)的散列值進行比較。但是,利用查尋表來确定重複的散列串會造成巨大(dà)的性能壓力,并且可能需要幾周時間才能取得最優的重複删除效率。效率更高的方法是在對象級上進行比較。例如,将Word文檔與另一(yī)個Word文檔進行比較,要麽采用模式匹配算法;要麽采用效率更高的智能分(fēn)析技術。智能分(fēn)析在更詳細地比較兩個文件之前會分(fēn)析備份文件和參考數據集合來确定可能是冗餘的文件。由于把處理重點放(fàng)在可能的重複數據上,它可以更徹底地去(qù)除重複數據和避免不必要的處理新文件。一(yī)些技術在數據備份過程中(zhōng)進行重複數據删除。這種在線的重複數據删除會降低備份性能,增加備份的複雜(zá)性。另一(yī)些技術執行帶外(wài)的重複數據删除,在執行時,它們首先備份數據,然後再執行重複數據删除。字節級重複數據删除可提供高達25:1數據壓縮率。當與典型的VTL特性,即壓縮技術配合使用時,企業無須增加存儲容量就可在同樣的空間中(zhōng)多保存50倍的數據。這種壓縮技術不僅使用戶可以在線保存更多的數據,并使數據保持更長的在線時間,還帶來了将數據保存在硬盤上的優勢。例如,把數據保存在硬盤上比保存在磁帶上占用更少的物(wù)理空間,并大(dà)大(dà)減少電(diàn)源、冷卻、安全和其他運營與基礎設施費(fèi)用。重複數據删除技術通過使備份到VTL的費(fèi)用大(dà)大(dà)低于純基于硬盤的數據保護解決方案,改進了數據保護的經濟性。同時,它也是數據中(zhōng)心應對急劇增加的能源、勞動力和空間費(fèi)用,以及管理即将出現的電(diàn)源和冷卻容量短缺的重要的途徑。