书籍详情
《数据质量管理基础》[32M]百度网盘|亲测有效|pdf下载
  • 数据质量管理基础

  • 出版社:国防工业出版社
  • 出版时间:2016-01
  • 热度:10308
  • 上架时间:2024-06-30 09:08:33
  • 价格:0.0
书籍下载
书籍预览
免责声明

本站支持尊重有效期内的版权/著作权,所有的资源均来自于互联网网友分享或网盘资源,一旦发现资源涉及侵权,将立即删除。希望所有用户一同监督并反馈问题,如有侵权请联系站长或发送邮件到ebook666@outlook.com,本站将立马改正

内容介绍

内容简介

  数据质量是数据管理中极其重要的一个方面。现有数据库系统通常可支持大规模数据的创建、维护、使用。侧重于数据的“量”的管理。但真实世界中的数据通常是“脏”的。常见问题包括数据不一致、重复、不完整或时效性不强。数据库中的问题数据则带来诸多后果,例如:产生误导性或偏向性的分析结果与决策制定,以及效益、信誉以及客户的损失等。因而,数据质量管理可谓当务之急。与传统的数据管理任务不同。数据质量管理在语法和语义方面对数据错误进行检测并修正,以增强数据质量,进而为商业过程增值。
  《数据质量管理基础》概述了数据质量的5个核心问题,即数据一致性、数据去重、数据时效性及信息完整性,提出了一个统一的基于数据质量规则的逻辑框架来解决上述问题。
  《数据质量管理基础》适合作为研究生教材,也可供数据质量管理领域的研究者与实践者参考。

内页插图

目录

第1章 数据质量概述
1.1 数据质量管理
1.2 数据质量的核心问题
1.2.1 数据一致性
1.2.2 数据(去重)
1.2.3 数据精确性
1.2.4 信息完整性
1.2.5 数据时效性
1.2.6 数据质量问题之间的相互作用
1.3 基于规则的数据质量改进
1.4 背景介绍
参考文献注解

第2章 条件依赖
2.1 概述
2.1.1 条件函数依赖
2.1.2 条件包含依赖
2.2 条件依赖的静态分析
2.2.1 可满足性
2.2.2 蕴含性
2.2.3 有限公理化
2.2.4 依赖传递性
参考文献注解

第3章 基于条件依赖的数据清洗
3.1 发现条件依赖
3.1.1 CFD的发现问题
3.1.2 常量CFD的发现方法
3.1.3 发现通用CFD
3.2 错误检测
3.2.1 单个CFD的SQL验证法
3.2.2 验证多个CFD规则
3.3 数据修复
3.3.1 数据修复问题
3.3.2 修复违反CFD和CIND规则的数据
参考文献注解

第4章 数据去重
4.1 概述
4.2 匹配依赖
4.3 匹配依赖的推理
4.4 记录匹配的相对键
4.5 用于数据修复的匹配依赖
参考文献注解

第5章 信息完整性
5.1 相对信息完整性
5.1.1 部分封闭数据库
5.1.2 相对信息完整性模型
5.1.3 相对完整性和数据一致性
5.2 判定相对完整性
5.3 可能世界的表示系统
5.4 捕获丢失的元组和数值
5.5 基础问题的复杂度
参考文献注解

第6章 数据时效性
6.1 数据时效性概述
6.2 数据时效性模型
6.3 数据时效性推理
6.4 融合复制函数
6.4.1 数据时效性模型的修订
6.4.2 时效性保持的复制函数
6.5 时效性保持的判定
参考文献注释

第7章 数据质量问题之间的相互作用
7.1 发现确定性修复
7.1.1 确定性修复概述
7.1.2 编辑规则
7.1.3 确定性修复和区域
7.1.4 发现确定性修复的框架
7.1.5 确定性修复的基础问题
7.2 统一数据修复和记录匹配
7.2.1 CFD和MD相互作用简介
7.2.2 数据清洗问题和清洗规则
7.2.3 数据清洗框架
7.2.4 用CFD和MD进行数据清洗的静态分析
7.3 消解冲突
7.3.1 冲突消解概述
7.3.2 冲突消解的模型
7.3.3 冲突消解的框架
7.3.4 冲突消解的基础问题
7.4 综述
参考文献注解

附录符号表
参考文献

前言/序言

  数据质量是数据管理中极其重要的一个方面。现有数据库系统通常可支持大规模数据的创建、维护、使用,侧重于数据的“量”的管理。但真实世界中的数据通常是“脏”的,常见问题包括数据不一致、重复、不完整或时效性不强。数据库中的问题数据,则带来诸多后果,例如,产生误导性或偏向性的分析结果与决策制定,以及效益、信誉、客户的损失等。因而,数据质量管理可谓当务之急。与传统数据管理任务不同,数据质量管理在语法和语义方面对数据错误进行检测并修正,以增强数据质量,进而为商业过程增值。
  本书概述数据质量的5个核心问题,即数据一致性、数据重复性、数据时效性及信息完整性。我们提出一个统一的基于数据质量规则的逻辑框架来解决上述问题。本书正文由7章组成(重点考虑关系型结构化数据):第1章简介数据质量问题;第2章展开讨论条件依赖理论;第3章阐述发现条件依赖,以及基于发现条件依赖检测数据不一致、修复数据的实践技术;第4章介绍依赖匹配作为数据去重的匹配规则;第5章重温经典的两个信息完整性假定,即封闭世界假定和开放世界假定,并提出和研究相对信息完整性理论;第6章进行数据时效性建模,以便时间戳缺失情况下,在数据库中进行实体新值辨别并基于此返回查询结果;第7章探索数据质量问题之间的交互作用。本书内容同时覆盖重点理论和实践性算法,但并不给出正式论证。参考文献注解中可找到本书中理论与算法的相关论文出处和论证,以及拓展阅读材料。本书适合作为研究生教材,也可供数据质量管理领域的研究者与实践者的参考。为消化本书内容,建议读者熟悉数据质量的相关基础知识,包括数理逻辑、计算复杂度理论、数据库理论等。本书回答数据质量管理的诸多问题,同时也启发细心的读者发现问题。