重复数据删除中的可变分块算法[开题报告]

3.0 文小白 2023-11-09 8 0 27.5KB 4 页 10文币
侵权投诉
开题报告
信息管理与信息系统
重复数据删除中的可变分块算法
一、选题的背景和意义
随着数字图书馆、电子商务、科学计算、多媒体等应用的不断发展,数据从万亿字节(TB)
急速增长到千万亿字节(PB)甚至到一百亿亿字节(EB)IDC(国际数据公司)统计显示,
年全球产生的数字信息量共计161 EB字节,世界上有足够存储185 EB字节的存储设备,到
2010年,世界上将有能够存储601 EB字节的设备。然而到2010年,全球所产生的数码信息量
将由现在的161 EB字节猛增到988 EB字节[1]
由于信息的海量增长,磁盘备份设备的容量已经趋于饱和,在数据中心需要不停地增加
硬盘来备份PB级的数据,在这种情况下,当我们希望将备份数据保存一个月时,却只能保
两到三天,硬盘里的数据开始变得臃肿和庞大,但对这些数据进行仔细分析,不难发现其中
有太多的重复数据,因此重复数据删除技术开始受到工业与学术界的关注[2]
为了缓解存储系统的空间增长问题,缩减数据占用空间,降低成本、最大程度的利用已
有资源,我们需要对重复数据删除技术进行研究。
一方面,利用重复数据删除技术,可以对存储空间的利用率进行优化。因传统的数据压
缩技术主要根据一些固定的模式利用传统的数据分析工具和技术来消除重复数据,不能有效
地改善基于磁盘数据的成本效益[3],所以我们需要通过探究重复数据的特性,利用相应的重
复数据删除技术,以消除分布在存储系统中的相同文件或者数据块。
另一方面,利用重复数据删除技术,可以减少在网络中传输的数据量,进而降低能量消
耗和网络成本。由于重复数据删除技术的目标是消除分布在存储系统中的相同及相似文件或
者数据块,因此能够减少大量的磁盘消耗,并且为数据复制大大节省网络带宽。
二、研究的基本内容与拟解决的主要问题
1.研究的基本内容
为了缓解存储系统的空间增长问题,缩减数据占用空间,降低成本、最大程度的利用已
有资源,我们需要对重复数据删除技术进行研究。重复数据删除技术可以有效提高存储设备
的利用率,减少存储容量。同时在重复数据删除技术中存在一种可变分块算法,这种算法允
许某些数据片段进行伸缩,而不影响后面的数据块,有助于提高系统查找重复数据块的能力,
从而达到大幅节省空间的目的。同时这种算法对于数据的敏感性不高,所以对于数据的一些
小的改变不会引起数据的大模的改变。例如该算法对于插入问题和删除问题处理高效。无论
插入还是删除一小分字节,只影响一到两个块,其的块保不变。这种算法对于数
据的重复冗余有着多的清理检测
题设计并现重复数据删除中的可变分块算法,现数据块的可变长分,并将其
应用于重复数据删除件中,检验算法的性能。
2的主要问题
的设计过程中,主要对数据加算法方法进行学和研究,并在熟悉算法的
上用系统开发件,本设计中需要解的问题为
1)掌握该算法中记录指纹和计算数据块 Hash ,重复数据比较,数据存储等。
2)运用开发工具进行系统的加算法的开发与设计。由于目有许多不同的系统平台
为了使件有良好跨平台性,在不同的系统环境能有效的行,本C++
编写。因为 C++在设计时具有避免平台限定或普遍的特性。
三、研究的方法与技术路线、研究难点,预期达到的目标
1.研究方法和技术路线
设计通过用文分析方法、设计方法来定的目标。具体研究方
法和技术路线如
1首先删除年的据产术已
运作体系,于一过程达到共,分析重复数据删除主要用的关技术。
2对数据块进行 Hash 算,文件被切分成数据,需要对个数据块的内
计算 HASH ,保存下数据块的hash ,一以后数据比较内容不同,HASH 不同。
内容相同,HASH 相同。对于数据块进行 hash 使得数据块的存在不同时,hash 不同,
使得数据重复检测成为可能。
3重复数据删除中的可变分块算法。
4重复数据删除中的可变分块算法的现。
5现过程进行安排,并总结参考成本设计。
2.研究难
当然,设计过程中也会有许多难需要解决:第一,有一种方法可以为通用
检测技术,因此,高效的这些技术,找到一个最佳融合点将是一个研究的难
第二因相同数据检测种技术对存储空间的节省,网络带宽的消耗以及系统为支持每
方法所需的计算和存储的额外的影响不同,如何融合各技术特的同时,对数据特
性进行分的分析和挖掘,找到其规律认识来为系统种开的缩减提一种技术支持
将是一个研究热点
3.系统预期目标
本系统预期达到的目标是通过方便易懂的界面操作成对重复数据删除技术同时
达到高全性和高效率。系统的基本设计目标
1)调研重复数据删除技术和可变分块算法。
2研究并现基于 CDC 算法的可变分块检测技术。
3在重复数据删除件中评测算法,并改进。
四、论文详细工作进度和安排
2011.01.11—2011.03.01 成重复数据删除中的可变分块算法,文提
2011.03.01—2011.03.15 初稿
2011.03.16—2011.05.05 实习善。
2011.05.06—2011.05.20 文定稿评阅老师评阅
2011.05.21-- 答辩
五、主要参考文献
[1].重复数据删除技术的研究[J]. 华赛科技,2008,4:8-11.
[2] Douglis, F., Iyengar, A. Application-Specific delta encoding via resemblance detection[R]. In
Usenix Annual Technical Conference, San Antonio, Texas: USENIX Association, 2003:113-126.
[3] 刘俊辉. HUSH消息要算法现及改进[J].福建,2007,(4): 92-93.
[4] 颜军.重复数据删除带来集群架构革命[J]. 计算世界·技术与应用,2008,6(24):40-41.
[5] 范涛.网络存储技术的研究与应用[J].福建,2008(6):90-93.
[6] Lawrence L. You, Kristal T. Pollack, Darrell D. E. Long. Deep Store: An Archival Storage
System Architecture[R]. In Proceedings of the 21st International Conference on Data Engineering
(ICDE). Tokyo, Japan: IEEE Computer Society,2005: 804-815.
[7] 蔡盛鑫.一种基于重复数据删除的备份系统[D].北京邮电大学硕士论,2006.
[8] J. McKnight, T. Asaro, B. Babineau. Digital Archiving: End-User Survey and Market Forecast
[J]. The Enterprise Strategy Group, 2006:30-35.
[9] Athicha Muthitacharoen, Benjie Chen, David Mazi´eres. A Low-Bandwidth Network File
System[A]. In Proceedings of the Symposium on Operating Systems Principles (SOSP'01). Chateau
Lake Louise, Banff, Canada: ACM Association,2001:174-187.
[10]SAVAGE S,WETHERALL D,KARLINA,etal.Network support for IPtraceback[J].ACM/IEEE
Transactions on Networking,2001,9(3):226-237.
[11] 胡汗平,王凌斐,,.性可变率分片标及其压缩标[J].中科技大学学:
(自然科学版),2007,35(3):15-18.
[12] RICHARD S W , 范伟华,胥光辉,张清,.TCP/IP 解一 1:协议[M].北京:机械工业
版社.2000.
[11] 敖莉, 舒继武, 李明强. 重复数据删除技术研究综述 [J]. 件学, 2010,21(5):916-929.
[12] Calicrates Policroniades, Ian Pratt. Alternatives for Detecting Redundancy in Storage Systems
Data[R]. In Proceedings of the USENIX Annual Technical Conference 2004 on USENIX Annual
摘要:

开题报告信息管理与信息系统重复数据删除中的可变分块算法一、选题的背景和意义随着数字图书馆、电子商务、科学计算、多媒体等应用的不断发展,数据从万亿字节(TB)急速增长到千万亿字节(PB),甚至到一百亿亿字节(EB)。据IDC(国际数据公司)统计显示,去年全球产生的数字信息量共计161EB字节,世界上有足够存储185EB字节的存储设备,到2010年,世界上将有能够存储601EB字节的设备。然而到2010年,全球所产生的数码信息量将由现在的161EB字节猛增到988EB字节[1]。由于信息的海量增长,磁盘备份设备的容量已经趋于饱和,在数据中心需要不停地增加硬盘来备份PB级的数据,在这种情况下,当我们...

展开>> 收起<<
重复数据删除中的可变分块算法[开题报告].doc

共4页,预览4页

还剩页未读, 继续阅读

作者:文小白 分类:学术研究 价格:10文币 属性:4 页 大小:27.5KB 格式:doc 时间:2023-11-09

开通VIP享超值会员特权

  • 多端同步记录
  • 高速下载文档
  • 免费文档工具
  • 分享文档赚钱
  • 每日登录抽奖
  • 优质衍生服务
/ 4
客服
关注