书籍详情
《重复数据删除技术》[36M]百度网盘|亲测有效|pdf下载
  • 重复数据删除技术

  • 出版社:清华大学出版社
  • 出版时间:2021-01
  • 热度:5259
  • 上架时间:2024-06-30 09:08:33
  • 价格:0.0
书籍下载
书籍预览
免责声明

本站支持尊重有效期内的版权/著作权,所有的资源均来自于互联网网友分享或网盘资源,一旦发现资源涉及侵权,将立即删除。希望所有用户一同监督并反馈问题,如有侵权请联系站长或发送邮件到ebook666@outlook.com,本站将立马改正

内容介绍

产品特色

编辑推荐

重复数据删除是提升大数据性能、节省成本的极高效方法。本书将各种前沿技术以及落地方案进行了讲解,对大数据从业者、存储从业者、院校师生都是一本极好的参考资料。

内容简介

本书是一本专门介绍重复数据删除技术的专业书籍。全书共分为8章,以大数据存储为背景,介绍重复数据删除的关键技术及其应用场景。通过学习本书,读者能够了解信息存储技术基础、大数据管理主流技术和高效能存储管理基本知识,并可以深入理解重复数据删除技术的概念、分类、存储原理及关键技术,还可掌握前沿的应用,如感知源端重删机制和高可扩展集群重删技术,了解主流厂商重删存储相关产品及其应用案例。
本书面向从事大数据存储系统设计及相关技术研究和开发工作的读者。既可以作为存储系统架构师、软件开发工程师、产品或项目经理、数据中心运维人员等的实用工具书,还可以作为普通高等院校计算机和大数据科学相关专业的教学或科研人员、研究生、高年级本科生及相关培训机构学员的学习参考书。

作者简介

付印金/博士,国防科学技术大学计算机学院博士、军事科学院系统工程研究院博士后,现为中国计算机学会高级会员、信息存储技术/系统软件专业委员会委员。长期从事网络存储、大数据管理与云计算方向的相关课题研究。主持完成国家自然科学基金、江苏省自然科学基金等课题,发表学术论文50多篇,申请和授权国家发明专利10余项。

目录

第1章 概述
1.1 大数据简介
1.1.1 大数据定义和维度
1.1.2 大数据管理挑战
1.2 高效能存储管理
1.2.1 存储虚拟化
1.2.2 自动分层存储
1.2.3 自动精简配置
1.2.4 数据缩减技术
1.3 本章小结
第2章 存储技术基础
2.1 存储介质
2.1.1 磁存储介质
2.1.2 光存储介质
2.1.3 电子存储介质
2.2 存储接口
2.2.1 IDE接口
2.2.2 SATA接口
2.2.3 SCSI接口
2.2.4 SAS接口
2.2.5 PCIE接口
2.2.6 FC接口
2.3 存储系统架构
2.3.1 存储器分层结构
2.3.2 RAID技术
2.4 网络存储系统
2.4.1 直接连接存储
2.4.2 网络附加存储
2.4.3 存储区域网络
2.4.4 基于对象存储
2.4.5 几种存储结构的比较
2.5 本章小结
第3章 大数据管理技术
3.1 分布式计算框架
3.2 分布式文件系统
3.2.1 HDFS
3.2.2 Ceph
3.2.3 Lustre
3.3 NoSQL数据库
3.3.1 HBase
3.3.2 MongoDB
3.4 大数据仓库
3.4.1 Hive
3.4.2 Pig
3.4.3 Phoenix
3.5 本章小结
第4章 重复数据删除存储系统
4.1 重复数据删除的概念及分类
4.1.1 基本概念
4.1.2 技术分类
4.2 重复数据删除存储原理
4.2.1 系统架构
4.2.2 主要步骤
4.2.3 衡量指标
4.3 重复数据删除技术应用场景
4.3.1 数据备份
4.3.2 归档存储
4.3.3 远程容灾
4.3.4 虚拟化环境
4.3.5 主存储系统
4.3.6 新型存储介质
4.4 相关产品及开源项目
4.4.1 企业产品
4.4.2 开源项目
4.5 本章小结
第5章 重复数据删除关键技术
5.1 数据划分方法
5.1.1 全文件分块
5.1.2 静态分块
5.1.3 基于内容分块
5.1.4 基于应用分块
5.1.5 Delta编码
5.2 块索引查询优化技术
5.2.1 基于块局部性的优化策略
5.2.2 基于分层消重的优化策略
5.2.3 基于固态存储的优化策略
5.3 可扩展数据路由技术
5.3.1 基于分布式哈希表的块级数据路由技术
5.3.2 基于状态信息的超块级数据路由技术
5.3.3 基于相似性的文件级数据路由技术
5.4 块指纹计算加速方法
5.4.1 多核CPU助口速方法
5.4.2 GPGPU加速方法
5.5 数据还原方法
5.5.1 主存储还原方法
5.5.2 备份存储还原方法
5.5.3 云存储还原方法
5.6 垃圾回收技术
5.6.1 引用计数法
5.6.2 标记清理法
5.7 高可靠数据配置策略
5.7.1 纠错编码技术
5.7.2 副本策略
5.8 数据安全技术
5.8.1 加密冲突
5.8.2 旁路攻击
5.8.3 所有权证明
5.9 本章小结
第6章 应用感知源端重复数据删除机制
6.1 研究背景
6.2 相关研究工作
6.2.1 应用感知存储研究
6.2.2 基于源端重复数据删除的云备份研究
6.3 基本形式化模型
6.3.1 符号与基本定义
6.3.2 模型抽象与问题定义
6.4 研究动机
6.5 高效应用感知源端重复数据删除的设计与实现
6.5.1 ALG-Dedupe体系结构简介
6.5.2 文件大小过滤器
6.5.3 智能数据分块策略
6.5.4 应用感知的消重器
6.5.5 应用感知索引结构
6.5.6 段和容器管理
6.6 实验评估
6.6.1 实验平台和数据集
6.6.2 重复数据删除效果
6.6.3 重复数据删除效率
6.6.4 云备份窗口
6.6.5 能耗利用率
6.6.6 云存储代价
6.6.7 系统开销
6.7 本章小结
第7章 高可扩展集群重复数据删除技术
7.1 研究背景
7.2 相关研究工作
7.3 基本模型与算法
7.3.1 超块相似性分析
7.3.2 基于手纹的数据路由算法
7.4 系统设计与实现
7.4.1 ∑-Dedupe系统架构
7.4.2 数据路由消息通信
7.4.3 相似索引查询优化
7.5 性能评估
7.5.1 实验平台和工作负载
7.5.2 验证度量
7.5.3 单节点并行重复数据删除效率
7.5.4 集群重复数据删除效率
7.6 本章小结
第8章 重复数据删除存储案例分析
8.1 重复数据删除缩减率评估
8.2 主流厂商相关产品应用案例
8.2.1 Dell EMC公司产品案例
8.2.2 IBM公司产品案例
8.2.3 飞康软件公司产品案例
8.2.4 富士通公司产品案例
8.2.5 NetApp公司产品案例
8.2.6 Quantum公司产品案例
8.3 本章小结

前言/序言

  序 言
  大数据时代数据量暴涨带来的问题
  大数据时代,数据量呈直线上涨。5G时代的到来、各种AI技术的落地,都在加速数据量的暴涨,而暴涨的数据量带来的问题都有哪些呢?
  1. 数据存储成本的上升
  由于诸多数据鱼龙混杂,数据分析提炼的速度赶不上数据生成的速度,导致不得不存储大量混杂在一起的冷热数据。当前,机械硬盘仍然是数据存储的主力介质,截至目前,市面上最大容量的硬盘为单盘16TB。而随着5G等技术逐渐普及,对存储容量的要求会更高,目前的单盘容量压力越来越大。机械硬盘厂商也在使出浑身解数来扩大单盘容量,目前已经确定的下一代磁存储技术是热辅助磁记录(HAMR)或者微波辅助磁记录(MAMR)技术,据说能够将单盘容量提升到80TB左右,所以从硬件上来讲,应该还能够支撑数据量暴涨几年。另一方面,NAND Flash的成本也在逐年下降,但当前NAND恐怕很难彻底取代磁存储介质,因为其自身的保存机制不够强壮,而将来的固态存储介质可能终将取代磁存储。无论如何,保存数据越多,付出的成本也就越高,不仅是硬件保有成本,相当一部分成本会落入管理维护方面。
  2. 数据访问的性能与成本没有成比例上升
  高性能一直是存储系统所追求的目标之一,然而磁存储的性能已经达到了瓶颈,性能的继续提升只能交给固态存储介质了。由于成本因素,固态硬盘目前更多用于存储热数据。由于机械盘无法支撑实时高性能数据分析所产生的I/O压力,人们不得不建立数据分层体系,将热数据保留在高速介质中,将冷数据?移动到机械硬盘上。然而目前的NAND Flash的寿命问题与日益增加的I/O压力是矛盾的,从SLC到MLC、TLC,再到现在的QLC,它们的寿命越来越短,因此如何有效利用Flash介质的生命周期,也是当下的研究热点。
  3. 数据安全问题
  如此庞大的数据量,会给数据安全带来压力。传统的Raid保护模式下,单盘故障后的重建周期会极大提升,可能会达到周级,期间会有很高概率出现双盘失效从而丢失数据。为此人们设计出了新型的Raid,比如Raid 2.0数据分布模式,可以大大缩短数据恢复的时间。在数据的容灾方面,庞大的数据量会导致容灾的RTO和RPO双双增加。
  综上所述,如果能够降低数据保有量,无形中就会降低成本并提高性能。所以,就催生了使用软件技术来降低数据量的方式。在前端,可以从数据产生的源头入手,比如剔除一些垃圾数据;在后端,则可以从存储系统角度入手,用一些普适性的技术来直接缩减数据量,比如实时的压缩/解压,或者识别并剔除一些冗余的数据。
  重复数据删除(Deduplication)技术是近几年来兴起并广泛落地的一种数据缩减技术。其对数据进行分块,然后分别计算哈希指纹,并对指纹进行比对以查找冗余数据块,具有良好的普适性和缩减率。重复数据删除技术目前已经被广泛应用于商用存储系统中,包括SAN/NAS/分布式存储系统,已经成为标配特性。另外,很多SSD也在其主控内部实现了重删技术,以延长SSD的寿命。在一些容灾备份产品中,普遍采用了源端重删技术,以缩减数据量,从而节省远程同步所需的时间。
  目前,市面上对重复数据删除技术进行讲解分析的书籍很少见,而本书应该是解了燃眉之急,其对重复数据删除技术的背景、原理、场景做了一个非常好的综述和演绎,是不可多得的存储特定技术领域的书籍。我在此向大家郑重推荐本书,同时也感谢本书作者为业界提供了一本优秀的书籍。
  ——《大话存储》《大话计算机》
  作者 冬瓜哥