数据清洗pdf下载pdf下载

数据清洗百度网盘pdf下载

作者:
简介:本篇主要提供数据清洗pdf下载
出版社:机械工业出版社自营官方旗舰店
出版时间:2020-07
pdf下载价格:0.00¥

免费下载


书籍下载


内容介绍

产品特色

编辑推荐

适读人群 :高职高专院校大数据技术与应用、软件技术、信息管理、计算机网络等专业的学生

配套资源:微课视频、教学课件、源代码和数据集、习题答案

本书特色:

1)采用“理实一体化”的教学方式,既有教师授课部分又有让学生独立思考、上机操作的内容。

2)包含丰富的教学资源,本书配有微课视频、教学课件、习题答案等。

3)紧跟时代潮流,注重技术变化,书中包含了*新的大数据分析知识及一些开源库的使用。

4)编写本书的教师都具有多年的教学经验,重难点突出,能够激发学生的学习热情。


内容简介

《数据清洗》主要介绍数据清洗技术的基本概念与应用。全书共有8章,分别讲述了数据清洗基础、数据清洗方法、文件类型、数据采集与抽取、Excel数据清洗与转换、ETL数据清洗与转换、Python数据清洗、R语言数据清洗。
《数据清洗》将理论与实践操作相结合,通过大量的案例帮助读者快速了解和应用大数据清洗的相关技术。针对书中重要的、核心的知识点,提供了较多的练习,帮助读者达到熟练应用的目的。
《数据清洗》可作为高职高专院校大数据技术与应用、软件技术、信息管理、计算机网络等专业的专业课教材,也可作为大数据爱好者的参考书。

作者简介

黄源,重庆航天职业技术学院副教授,参加工作以来,一直从事计算机课程的教学与科研,公开发表科研,教改论文多篇,并于2013年获得副教授职称。积极参加学校的精品课程建设与微课改革,出版专著3部,以前参编的北大出版社《网页设计教程与实训》曾获教材一等奖。

目录

目 录

前言
第1章 数据清洗基础
11 数据清洗概述
111 数据清洗的定义
112 数据清洗的对象
113 数据清洗的原理
114 数据清洗的评估
115 数据清洗的框架模型
116 数据清洗研究与应用展望
117 数据清洗的行业发展
12 数据标准化
121 数据标准化简介
122 数据标准化方法
123 数据标准化的实例
13 数据清洗的常用工具
14 实训1 安装和运行Kettle
15 实训2 安装和运行OpenRefine
16 实训3 安装和运行Python 3
17 小结
习题1
第2章 数据清洗方法
21 数据质量
211 数据质量的定义
212 数据质量中的常见术语
22 数据预处理
221 数据预处理简介
222 数据预处理方法
23 数据清洗方法
231 数据缺失值的处理方法
232 噪声数据的处理方法
233 冗余数据的处理方法
234 数据格式与内容的处理方法
24 数据清洗中的统计学基础
25 实训1 找出离群点
26 实训2 找出统计对象
27 实训3 找出数据清洗的步骤
28 实训4 找出异常数据
29 小结
习题2
第3章 文件类型
31 文件格式
311 文件格式概述
312 Windows中常见的文件格式
32 数据类型与字符编码
321 数据类型概述
322 字符编码
323 用Python读取文件
324 数据转换
33 数据转换的实现
331 用Python生成与读取CSV文件
332 用Python读取与转换JSON文件
34 实训1 将XML文件转换为JSON文件
35 实训2 将JSON文件转换为CSV文件
36 小结
习题3
第4章 数据采集与抽取
41 数据采集概述
411 了解数据采集
412 日志数据采集与处理的常见方法
413 数据采集平台
414 数据采集工具
42 网页数据采集与实现
421 网络爬虫概述
422 网页数据采集的实现
43 数据抽取
431 数据抽取概述
432 文本数据抽取
433 网页数据抽取
44 实训1 使用Kettle抽取本地XML文件
45 实训2 使用Kettle抽取CSV数据并输出为文本文件
46 小结
习题4
第5章 Excel数据清洗与转换
51 Excel数据清洗概述
511 Excel简介
512 Excel数据清洗与转换方法
52 Excel数据清洗与转换的实现
521 常用数据分析函数介绍
522 删除重复行
523 文本查找和替换
524 数据替换
525 字符串截取
526 字母大小写转换
527 删除空格和非打印字符
528 数字和数字符号的转换
529 日期和时间处理
5210 合并和拆分列
5211 数据的转置
5212 数据查询和引用
53 实训1 清洗简单数据
54 实训2 清洗复杂数据
55 小结
习题5
第6章 ETL数据清洗与转换
61 数据仓库与ETL
611 数据仓库
612 ETL概述
62 Kettle数据清洗与转换基础
621 Kettle数据清洗
622 Kettle数据转换
63 Kettle数据仓库高级应用
64 实训1 在Kettle中识别流的最后一行并写入日志
65 实训2 在Kettle中用正则表达式清洗数据
66 实训3 使用Kettle过滤数据表
67 实训4 使用Kettle生成随机数并相加
68 小结
习题6
第7章 Python数据清洗
71 Python数据清洗基础
711 Python语言基础
712 Python数据清洗所用库
72 数据读写、选择、整理和描述
721 从CSV文件读取数据
722 写入数据到CSV文件
723 数据整理和描述
73 数据分组、分割、合并和变形
731 数据分组
732 数据分割
733 数据合并
734 数据变形
74 缺失值、异常值和重复值处理
741 缺失值处理
742 异常值检测和过滤
743 移除重复数据
75 时间序列处理
751 Python的日期与时间工具
752 Pandas时间序列数据结构
76 字符串处理
761 Python字符串方法列表
762 Python正则表达式
763 Pandas的字符串方法
77 实训1 清洗企业员工信息
78 实训2 清洗在校生饮酒消费数据
79 小结
习题7
第8章 R语言数据清洗
81 R语言简介
82 R语言基础
821 R语言运算符号
822 R语言数据类型
83 R语言datatable数据包
831 datatable数据包介绍
832 创建datatable对象

前言/序言

前 言
大数据是现代社会高科技发展的产物,相对于传统的数据分析,大数据是海量数据的集合,它以采集、整理、存储、挖掘、共享、分析、应用、清洗为核心,正广泛地应用在经济、军事、金融、环境保护、通信等各个行业。在信息时代,数据即是资源。数据可靠无误才能准确地反映现实状况,有效地支持组织决策。但是,现实世界中的“脏”数据无处不在,数据不正确或者不一致会严重影响数据分析的结果,从而产生消极作用,因此系统地学习大数据清洗的知识十分有必要。
《数据清洗》以理论和实践操作相结合的方式深入地讲解了数据清洗技术的基本知识和实现,在内容设计上既有适合课堂教学的理论讲解部分,包括详细的理论与典型的案例;又有大量的实训环节,双管齐下,极大地激发了学生在课堂上的学习积极性与主动创造性,让学生在课堂上跟上老师的思维,从而学到更多有用的知识和技能。
《数据清洗》共有8章,分别讲述了数据清洗基础、数据清洗方法、文件类型、数据采集与抽取、Excel数据清洗与转换、ETL数据清洗与转换、Python数据清洗、R语言数据清洗。
《数据清洗》特色如下:
(1)采用“理实一体化”教学方式,既有理论讲解又有让学生独立思考和上机操作的内容。
(2)配有丰富的教学资源,包括重难点微课视频、教学课件、源代码和数据集、习题答案等。
(3)紧跟时代潮流,注重技术更新,涉及当前最新的大数据清洗知识及开源库与开源工具的使用。
(4)作者都具有多年的教学经验,能够把握数据清洗教学中的重难点,激发学生的学习热情。
《数据清洗》可作为高职高专院校大数据技术与应用、软件技术、信息管理、计算机网络等专业的专业课教材,也可作为大数据爱好者的参考书。
《数据清洗》建议学时为60学时,具体分配如表所示:
章 建议学时
第1章 数据清洗基础 4
第2章 数据清洗方法 4
第3章 文件类型 4
第4章 数据采集与抽取 8
第5章 Excel数据清洗与转换8
第6章 ETL数据清洗与转换12
第7章 Python数据清洗 16
第8章 R语言数据清洗 4

《数据清洗》由黄源和涂旭东担任主编,陈继和吴文灵参与编写。其中,黄源编写了第3章、第4章、第6章;涂旭东编写了第5章、第7章、第8章;陈继和黄源共同编写了第1章;吴文灵和黄源共同编写了第2章。全书由黄源负责统稿工作。
《数据清洗》是校企合作共同编写的结果,在编写过程中得到了重庆翰海睿智大数据科技股份有限公司的大力支持,在此表示感谢。
在编写过程中,我们参阅了大量的相关资料,在此一并表示感谢。
由于编者水平有限,书中难免出现疏漏,衷心希望广大读者批评指正,来信可发送到作者电子邮箱:2103069667@qqcom。

编 者