书籍详情
《大数据平台运维新华三技术有限公司大数据平台组件安装配置基础实施简单维护及监》[53M]百度网盘|亲测有效|pdf下载
  • 大数据平台运维新华三技术有限公司大数据平台组件安装配置基础实施简单维护及监

  • 出版社:华心图书专营店
  • 出版时间:2021-04
  • 热度:4429
  • 上架时间:2024-06-30 09:08:33
  • 价格:0.0
书籍下载
书籍预览
免责声明

本站支持尊重有效期内的版权/著作权,所有的资源均来自于互联网网友分享或网盘资源,一旦发现资源涉及侵权,将立即删除。希望所有用户一同监督并反馈问题,如有侵权请联系站长或发送邮件到ebook666@outlook.com,本站将立马改正

内容介绍



商品参数

【套装2本】大数据平台运维
            定价 128.80
出版社 电子工业出版社
版次 1
出版时间 2021年04月
开本 16开
作者 新华三技术有限公司
装帧 平塑
页数 292
字数 489700
ISBN编码 9787121410307


内容介绍


《大数据平台运维(中级)》
本书为“1+X”职业技能等级证书配套教材,按国家1+X 证书制度试点大数据平台运维职业技能等级标准编写。本书从大数据平台运维工程师的角度,由浅入深、QFW地介绍了大数据平台运维的相关实践知识和核心实操。本书共六部分,包括21章:DY部分,大数据平台架构,涉及大数据的特点及发展趋势、大数据的实施和运维流程、大数据的应用场景与案例;D二部分,大数据平台高可用(HA)集群部署,涉及Hadoop集群基础环境的配置、Hadoop HA集群的配置、Hadoop HA集群的启动;D三部分,大数据组件的维护,涉及HBase组件的维护、Hive组件的维护、ZooKeeper组件的维护、ETL组件的维护、Spark组件的维护;D四部分,大数据平台优化,涉及Linux系统优化、HDFS配置优化、MapReduce配置优化、Spark配置优化;D五部分,大数据平台的诊断与处理,涉及Hadoop及生态圈组件负载均衡的诊断与处理、集群节点故障的诊断与处理、集群组件服务故障的诊断与处理;D六部分,大数据平台项目综合案例,涉及数据仓库运维项目实战、金融行业运维项目实战、典型大数据平台监控运维项目实战。本书可作为中职院校和高职院校大数据及计算机类相关专业的教材,也可作为大数据平台运维人员的参考用书。
《大数据平台运维(初级)》

本书为“1+X”职业技能等级证书配套教材,按国家“1+X”大数据平台运维职业技能等级标准编写。本书属于大数据平台运维初级教材,从大数据平台运维工程师角度由浅入深、QFW地介绍大数据平台运维的相关基础知识和基本实操。本书共分6个部分18章,DY部分为大数据平台安装,涉及平台操作系统的使用、Hadoop平台安装、平台基础环境配置;D二部分为大数据平台配置,涉及Hadoop文件参数配置、Hadoop集群运行;D三部分为大数据平台组件的安装与配置,涉及Hive、HBase、ZooKeeper、Sqoop和Flume组件的安装与配置;D四部分为大数据平台实施,涉及大数据平台实施方案、培训方案;D五部分为大数据平台监控,涉及基于大数据平台的监控命令、监控界面和报表、日志和告警信息监控;D六部分为大数据运维综合实战案例,以实际项目为例介绍从平台部署、数据业务采集、数据分析到数据可视化的整体基础实施过程,并介绍了大数据平台运维的常见故障及处理流程。本书可作为中高职院校大数据及计算机类相关专业的教材,也可作为大数据平台运维人员的参考用书。



作者介绍

9787121410307 大数据平台运维(中级) 69.8
9787121397455 大数据平台运维(初级) 59
  


目录


《大数据平台运维(中级)》
目录


DY部分 大数据平台架构
D1章 大数据的特点及发展趋势 2
1.1 大数据平台架构概述 2
1.1.1 大数据的概念 2
1.1.2 大数据的特征 3
1.1.3 大数据的处理流程及相关
技术 4
1.1.4 大数据平台架构的特点 5
1.2 大数据平台架构的原理 5
1.3 大数据的发展历程 6
1.3.1 大数据的具体发展过程 6
1.3.2 大数据技术的具体发展历程 7
1.4 大数据的发展趋势 8
1.4.1 大数据技术面临的挑战 8
1.4.2 大数据应用的发展趋势 10
1.5 本章小结 11
D2章 大数据的实施和运维流程 12
2.1 大数据实施和运维工程师的
工作职责 12
2.1.1 大数据职位体系 12
2.1.2 大数据实施工程师的
工作职责 14
2.1.3 大数据运维工程师的
工作职责 15
2.2 大数据实施和运维工程师的
工作能力素养要求 15
2.2.1 大数据实施工程师的
工作能力素养要求 15
2.2.2 大数据运维工程师的
工作能力素养要求 16
2.3 大数据项目实施的工作流程 18
2.3.1 大数据项目规划阶段 18
2.3.2 大数据项目数据治理阶段 19
2.3.3 大数据项目设计阶段 20
2.3.4 大数据项目数据应用阶段 21
2.3.5 大数据项目迭代实施与
应用推广阶段 22
2.4 大数据运维的日常工作 23
2.4.1 应急处置 23
2.4.2 故障报告 24
2.4.3 故障检查 24
2.4.4 故障诊断 25
2.4.5 故障测试与修复 25
2.5 本章小结 26
D3章 大数据的应用场景与案例 27
3.1 大数据平台架构的典型
行业应用场景 27
3.1.1 医疗行业的应用 27
3.1.2 金融行业的应用 28
3.1.3 零售行业的应用 29
3.1.4 地产行业的应用 29
3.1.5 农业的应用 30
3.1.6 政务和智慧城市的应用 30
3.1.7 教育行业的应用 30
3.1.8 环境行业的应用 30
3.2 大数据平台架构的典型
企业应用场景 30
3.2.1 舆情分析 31
3.2.2 商业智能 31
3.3 Hadoop生态圈中行业应用的
典型实战案例 32
3.3.1 电信行业——中国移动
基于Hadoop的大数据应用 32
3.3.2 金融行业——VISA公司
的Hadoop应用案例 33
3.3.3 电商行业——eBaywz
的Hadoop应用案例 33
3.4 Hadoop生态圈中企业应用的
典型实战案例 33
3.4.1 新华三大数据集成平台
在大地影院的应用案例背景 33
3.4.2 大地的应用案例的用户
痛点分析 34
3.4.3 大地的应用案例的项目需求 34
3.4.4 大地的应用案例的数据构成 34
3.4.5 大地的应用案例的技术
方案设计与实现 34

3.4.6 大地的应用案例系统核心组件
(H3C数据集成组件)简介 36

3.4.7 大地的应用案例的系统
优势及成效 36
3.5 本章小结 36
D二部分 大数据平台高可用(HA)集群部署
D4章 Hadoop集群基础环境的配置 38
4.1 Hadoop集群概述 38
4.1.1 Hadoop集群的核心组件 38
4.1.2 Hadoop集群的网络拓扑
结构 40
4.2 平台系统的环境设置 41
4.2.1 Linux系统环境配置 41
4.2.2 创建hadoop用户 43
4.3 Linux防火墙 43
4.3.1 Linux防火墙的种类与特点 44
4.3.2 Linux防火墙管理 45
4.4 SELinux 47
4.4.1 SELinux简介 47
4.4.2 SELinux的功能 47
4.4.3 SELinux的配置 47
4.4.4 关闭集群中的SELinux 47
4.5 配置集群主机之间时钟同步 48
4.5.1 直接同步 48
4.5.2 平滑同步 49
4.6 SSH无密码登录 50
4.6.1 生成SSH密钥 50
4.6.2 交换SSH密钥 51
4.6.3 验证SSH无密码登录 52
4.7 Java环境变量配置 52
4.7.1 JDK功能简介 52
4.7.2 下载JDK安装包 53
4.7.3 JDK的安装与环境变量配置 53
4.8 Hadoop的安装与配置 54
4.8.1 获取Hadoop安装包 54
4.8.2 安装Hadoop软件 54
4.9 本章小结 55
D5章 Hadoop HA集群的配置 56
5.1 Hadoop HA集群的特点 56
5.2 Hadoop HA集群的实现原理 57
5.2.1 HDFS HA的实现原理 57
5.2.2 YARN HA的实现原理 58
5.3 ZooKeeper的特点 58
5.3.1 ZooKeeper的功能原理 58
5.3.2 ZooKeeper集群节点组成 59
5.3.3 ZooKeeper的同步机制 60
5.3.4 ZooKeeper的选举机制 60
5.4 ZooKeeper HA集群 61
5.4.1 在master节点上安装
部署ZooKeeper 61
5.4.2 在master节点上配置
ZooKeeper文件参数 61
5.4.3 分发ZooKeeper给slave1节点
和slave2节点 62
5.5 Hadoop HA集群的文件参数 64
5.5.1 在master节点上配置
Hadoop HA集群的文件参数 64
5.5.2 分发hadoop相关文件给
slave1节点和slave2节点 68
5.6 JournalNode服务 69
5.6.1 JournalNode服务的原理 69
5.6.2 启动JournalNode服务 70
5.7 本章小结 70
D6章 Hadoop HA集群的启动 71
6.1 HDFS的格式化 71
6.1.1 active NameNode的格式化
和启动 71
6.1.2 standby NameNode的格式化
和启动 72
6.1.3 格式化ZKFC 73
6.2 Hadoop HA集群的启动流程 73
6.2.1 启动HDFS 73
6.2.2 启动YARN 74
6.2.3 启动MapReduce的
历史服务器 75
6.3 启动后验证 75
6.3.1 查看进程 75
6.3.2 查看端口 76
6.3.3 运行测试 77
6.4 Hadoop HA集群的主备切换 78
6.4.1 Hadoop HA集群的切换
机制 78
6.4.2 手动切换测试 79
6.4.3 自动切换测试 79
6.5 本章小结 81
D三部分 大数据组件的维护
D7章 HBase组件的维护 84
7.1 NoSQL与传统RDBMS的
差异 84
7.1.1 传统RDBMS及其
应用场景 84
7.1.2 NoSQL简介 85
7.2 HBase组件的原理 86
7.2.1 HBase简介 86
7.2.2 HBase的体系结构 86
7.3 HBase的分布式部署 87
7.3.1 HBase集群环境准备 87
7.3.2 HBase的分布式安装 88
7.4 HBase库/表管理 90
7.4.1 HBase库管理 90
7.4.2 HBase表管理 91
7.5 HBase数据操作 93
7.5.1 基础操作 93
7.5.2 模糊查询 94
7.5.3 批量导入/导出 95
7.6 HBase错误恢复 97
7.7 退出HBase库 98
7.8 卸载HBase库 98
7.9 本章小结 98
D8章 Hive组件的维护 99
8.1 Hive的架构 99
8.1.1 Hive简介 99
8.1.2 Hive的数据类型 100
8.2 分布式部署Hive 101
8.2.1 环境需求 101
8.2.2 MySQL的安装与启动 102
8.2.3 配置Hive参数 103
8.2.4 Beeline CLI远程访问Hive 105
8.3 Hive库操作 106
8.4 Hive表操作 107
8.4.1 创建表 107
8.4.2 查看与修改表 108
8.4.3 删除表和退出Hive 108
8.5 Hive数据操作 109
8.5.1 数据导入 109
8.5.2 查询 110
8.6 Hive宕机恢复 111
8.6.1 数据备份 111
8.6.2 基于HDFS的数据恢复 112

8.6.3 基于MySQL元数据
生成表结构 112
8.7 退出和卸载Hive组件 115
8.7.1 退出Hive 115
8.7.2 卸载Hive 115
8.8 本章小结 115
D9章 ZooKeeper组件的维护 116
9.1 ZooKeeper基础 116
9.1.1 ZooKeeper简介 116
9.1.2 ZooKeeper中的重要概念 117
9.2 ZooKeeper的功能及其优点
和局限性 117
9.2.1 ZooKeeper的功能 117
9.2.2 ZooKeeper的优点 118
9.2.3 ZooKeeper的局限性 118
9.3 ZooKeeper的架构 118
9.4 ZooKeeper仲裁模式 119
9.5 配置ZooKeeper 120
9.6 配置ZooKeeper集群 120
9.6.1 集群环境准备 120
9.6.2 ZooKeeper集群的安装 121
9.7 Zookeeper集群的决策选举 122
9.8 ZooKeeper组件管理 123
9.8.1 JMX管理框架 123
9.8.2 ZooKeeper Shell操作 125
9.9 本章小结 127
D10章 ETL组件的维护 128
10.1 Sqoop概述与架构 128
10.1.1 Sqoop概述 128
10.1.2 Sqoop的架构 129
10.2 Flume概述与架构 130
10.2.1 Flume概述 130
10.2.2 Flume的架构 130
10.3 Kafka概述与架构 131
10.3.1 Kafka概述 131
10.3.2 Kafka的架构 132
10.4 Sqoop导入数据 133
10.5 Sqoop导出数据 134
10.6 修改控制Sqoop组件的
参数 134
10.7 Flume组件代理配置 136
10.8 Flume组件的数据获取 137
10.9 Flume组件管理 137
10.10 Kafka组件的部署 138
10.11 Kafka组件的验证部署 139
10.12 Kafka组件的数据处理 140
10.13 本章小结 141
D11章 Spark组件的维护 142
11.1 Spark概述与架构 142
11.1.1 Spark概述 142
11.1.2 Spark的架构 144
11.2 Spark的工作原理 146
11.3 Scala的安装部署 148
11.3.1 Scala简介 148
11.3.2 Scala的安装 148
11.4 安装Spark 149
11.4.1 Spark模式介绍 149
11.4.2 Spark的安装部署 151
11.5 修改Spark参数 154
11.5.1 Spark属性 154
11.5.2 环境变量 155
11.5.3 Spark日志 156
11.5.4 覆盖配置目录 156
11.6 Spark Shell编程 156
11.6.1 Spark Shell概述 156
11.6.2 Spark Shell操作 156
11.7 Spark的基本管理 158
11.8 本章小结 160
D四部分 大数据平台优化
D12章 Linux系统优化 162
12.1 Linux系统优化工具 162
12.1.1 free命令 162
12.1.2 top命令 163
12.2 优化Linux系统的内存 164
12.2.1 将hadoop用户添加到
sudo组中 164
12.2.2 避免使用Swap分区 164
12.2.3 脏页配置优化 165
12.3 优化Linux系统网络 167
12.3.1 关闭Linux防火墙 167
12.3.2 禁用IPv6 167
12.3.3 修改somaxconn参数 167
12.3.4 Socket读/写缓冲区的
调优 168
12.3.5 iperf网络测试工具 169
12.4 优化Linux系统磁盘 169
12.4.1 I/O调度器的选择 169
12.4.2 禁止记录访问时间戳 171
12.5 优化Linux文件系统 172
12.5.1 增大可打开文件描述符的
数目 172
12.5.2 关闭THP 172
12.5.3 关闭SELinux 173
12.6 优化Linux系统预读缓冲区 173
12.7 本章小结 174
D13章 HDFS配置优化 175
13.1 HDFS概述 175
13.1.1 HDFS写数据流程 176
13.1.2 HDFS读数据流程 176
13.2 存储优化 176
13.2.1 合理的副本系数 177
13.2.2 合理的数据块大小 178
13.3 磁盘I/O优化 179
13.3.1 多数据存储目录 179
13.3.2 开启HDFS的短路本地
读配置 183
13.4 节点通信优化 183
13.4.1 延迟blockreport次数 183
13.4.2 增大DataNode文件并发
传输的大小 184
13.4.3 增大NameNode工作线
程池的大小 184
13.4.4 增加DataNode连接
NameNode的RPC请求的
线程数量 185
13.4.5 调整DataNode用于平衡
操作的带宽 185
13.5 其他常见的优化项 186
13.5.1 避免读取“过时”的
DataNode 186
13.5.2 避免写入失效的
DataNode 186
13.5.3 为MapReduce任务保留
一些硬盘资源 187
13.6 本章小结 187
D14章 MapReduce配置优化 188
14.1 MapReduce概述 188
14.2 Map阶段的优化 190
14.2.1 降低溢出(spill)的次数 190
14.2.2 在Map Task结束前对spill
文件进行合并 191
14.2.3 减少合并写入磁盘文件的
数据量 192
14.2.4 控制Map中间结果是否
使用压缩 192
14.2.5 选择Map中间结果的
压缩算法 193
14.3 Reduce阶段的优化 193
14.3.1 Reduce Task的数量 193
14.3.2 Reduce I/O的相关参数 195
14.3.3 Reduce Shuffle阶段并行
传输数据的数量 196
14.3.4 tasktracker并发执行的
Reduce数 196
14.3.5 可并发处理来自tasktracker
的RPC请求数 197
14.4 本章小结 197
D15章 Spark配置优化 198
15.1 优化Spark Streaming配置 198
15.1.1 Spark Streaming简介 198
15.1.2 Spark参数的配置方式 199
15.1.3 Spark常用的优化参数 202
15.2 优化Spark读取Kafka 202
15.2.1 Spark参数设置 202
15.2.2 Kafka参数设置 203
15.3 优化读取Flume 205
15.3.1 Flume参数设置 205
15.3.2 接收端参数设置 206
15.3.3 Spark读取Flume 206
15.4 优化Spark写入HDFS 208
15.4.1 Spark Shell读取并
写入HDFS 208
15.4.2 显示调用Hadoop API
写入HDFS 208
15.4.3 Spark Streaming实时
监控HDFS 209
15.5 优化Spark Scala代码 210
15.5.1 Scala编程技巧 210
15.5.2 Scala数据优化 211
15.6 本章小结 212
D五部分 大数据平台的诊断与处理
D16章 Hadoop及生态圈组件负载均衡
的诊断与处理 214
16.1 HDFS磁盘负载不均衡问题
及解决方案 214
16.1.1 问题概述 214
16.1.2 磁盘负载不均衡的原因
与影响 215
16.1.3 HDFS磁盘负载不均衡
的解决方案 215
16.2 MapReduce负载不均衡
问题 215
16.2.1 问题概述 215
16.2.2 MapReduce的原理分析 216
16.2.3 MapReduce负载不均衡的
解决方案 216
16.3 Spark负载不均衡问题 216
16.3.1 问题概述 216
16.3.2 Spark负载不均衡的危害 217
16.3.3 Spark负载不均衡的原因 217
16.3.4 问题发现与定位 217
16.3.5 Spark负载不均衡的
《大数据平台运维(初级)》

目 录

DY部分 大数据平台安装

D1章 平台操作系统的使用 3

1.1 Linux操作系统概述 3

1.1.1 Linux操作系统的起源 3

1.1.2 Linux操作系统的特点 4

1.1.3 Linux操作系统的应用场景 5

1.1.4 Linux版本 6

1.2 Linux常用命令 7

1.2.1 文件与目录操作 7

1.2.2 用户操作 9

1.2.3 文本操作 10

1.2.4 系统操作 11

1.3 Linux操作系统用户信息 14

1.3.1 用户和组 14

1.3.2 文件类型和权限 15

1.4 本章小结 17

D2章 Hadoop平台安装 18

2.1 Hadoop概述 18

2.1.1 Hadoop的起源 18

2.1.2 Hadoop的生态圈 19

2.1.3 Hadoop的版本 21

2.1.4 Hadoop的优点 22

2.1.5 Hadoop的应用场景 22

2.1.6 Hadoop的运行模式 23

2.2 Hadoop的核心组件 23

2.2.1 HDFS 23

2.2.2 MapReduce 26

2.2.3 YARN 28

2.3 平台操作系统环境设置 29

2.3.1 配置Linux操作系统基础

环境 30

2.3.2 安装Java环境 32

2.4 安装Hadoop软件 35

2.4.1 获取Hadoop安装包 35

2.4.2 安装Hadoop软件 35

2.4.3 修改目录所有者和所有者组 36

2.5 安装单机版Hadoop系统 36

2.5.1 配置Hadoop配置文件 37

2.5.2 测试Hadoop本地模式的

运行 37

2.6 本章小结 38

D3章 平台基础环境配置 39

3.1 集群网络连接 39

3.1.1 实验环境下的大数据Hadoop

平台集群网络 39

3.1.2 生产环境下的大数据Hadoop

平台集群网络 40

3.2 SSH无密码登录 41

3.2.1 SSH简介 41

3.2.2 SSH特点介绍 41

3.2.3 非对称加密机制 42

3.2.4 SSH安全机制 42

3.2.5 SSH基于口令的安全验证 43

3.2.6 基于密钥的安全验证 43

3.3 集群网络配置 44

3.3.1 实验环境下的集群网络配置 44

3.3.2 生产环境下的集群网络配置 44

3.4 SSH无密码验证配置 47

3.4.1 生成SSH密钥 47

3.4.2 交换SSH密钥 49

3.4.3 验证SSH无密码登录 50

3.5 本章小结 51

D二部分 大数据平台配置

D4章 Hadoop文件参数配置 55

4.1 Hadoop配置文件说明 55

4.1.1 Hadoop环境配置 55

4.1.2 Hadoop守护进程环境配置 56

4.1.3 Hadoop配置参数格式 57

4.1.4 获得Hadoop集群全部配置

信息 57

4.2 在master节点上安装Hadoop 58

4.3 配置hdfs-site.xml文件参数 58

4.4 配置core-site.xml文件参数 59

4.5 配置mapred-site.xml 60

4.6 配置yarn-site.xml 61

4.7 Hadoop其他相关配置 62

4.8 本章小结 63

D5章 Hadoop集群运行 64

5.1 Hadoop运行状态 64

5.2 配置Hadoop格式化 68

5.3 查看Java进程 69

5.4 查看HDFS的报告 70

5.5 使用浏览器查看节点状态 71

5.6 停止Hadoop 74

5.7 本章小结 74

D三部分 大数据平台组件的安装与配置

D6章 Hive组件的安装与配置 77

6.1 Hive相关知识 77

6.2 Hive组件架构 78

6.3 下载和解压安装文件 79

6.3.1 基础环境和安装准备 79

6.3.2 解压安装文件 79

6.4 设置Hive环境 80

6.4.1 卸载MariaDB数据库 80

6.4.2 安装MySQL数据库 80

6.4.3 配置Hive组件 85

6.5 初始化Hive元数据 87

6.6 启动Hive 89

6.7 本章小结 89

D7章 HBase组件的安装与配置 90

7.1 HBase相关知识 90

7.2 HBase功能应用 91

7.3 HBase组件设置 92

7.4 HBase安装与配置 94

7.5 HBase常用Shell命令 98

7.6 本章小结 101

D8章 ZooKeeper组件的安装与配置 102

8.1 ZooKeeper相关知识 102

8.1.1 ZooKeeper的重要概念 103

8.1.2 ZooKeeper的特点 104

8.2 ZooKeeper选项设置 104

8.3 ZooKeeper角色选举 105

8.4 下载和安装ZooKeeper 105

8.5 ZooKeeper的配置选项 106

8.5.1 master节点配置 106

8.5.2 slave节点配置 106

8.5.3 系统环境变量配置 106

8.6 启动ZooKeeper 107

8.7 本章小结 107

D9章 Sqoop组件的安装与配置 108

9.1 Sqoop相关知识 108

9.2 Sqoop的功能应用 109

9.2.1 Sqoop架构 109

9.2.2 Sqoop导入原理 109

9.2.3 Sqoop导出原理 110

9.3 下载和解压Sqoop 112

9.4 配置Sqoop环境 112

9.5 启动Sqoop 113

9.6 Sqoop模板命令 114

9.7 Sqoop组件应用 116

9.8 本章小结 117

D10章 Flume组件的安装与配置 118

10.1 Flume相关知识 118

10.2 Flume功能应用 119

10.2.1 Flume功能 119

10.2.2 Flume结构 119

10.3 Flume组件设置 119

10.4 下载和解压Flume 120

10.5 Flume组件部署 121

10.6 使用Flume发送和接收

信息 121

10.7 本章小结 122

D四部分 大数据平台实施

D11章 大数据平台实施方案的理解 125

11.1 系统实施方案概述 125

11.1.1 方案概述 125

11.1.2 项目实施思路 126

11.1.3 项目实施流程 126

11.2 确认客户需求 127

11.2.1 确认需求分析准备 127


省略部分目录