《大数据技术丛书:Flume日志收集与MapReduce模式》[61M]百度网盘|pdf下载|亲测有效
《大数据技术丛书:Flume日志收集与MapReduce模式》[61M]百度网盘|pdf下载|亲测有效

大数据技术丛书:Flume日志收集与MapReduce模式 pdf下载

出版社 机械工业出版社自营官方旗舰店
出版年 2015-06
页数 390页
装帧 精装
评分 9.2(豆瓣)
8.99¥ 10.99¥

内容简介

本篇主要提供大数据技术丛书:Flume日志收集与MapReduce模式电子书的pdf版本下载,本电子书下载方式为百度网盘方式,点击以上按钮下单完成后即会通过邮件和网页的方式发货,有问题请联系邮箱ebook666@outlook.com

内容简介

  《大数据技术丛书:Flume日志收集与MapReduce模式》分为上下两篇,其中上篇介绍了HDFS以及流式数据/日志的问题,同时还谈到了Flume是如何解决这些问题的。《大数据技术丛书:Flume日志收集与MapReduce模式》展示了Flume的架构,包括将数据移动到数据库中以及从数据库中获取数据、NoSQL数据存储和性能调优。对于各个架构组件(源、通道、接收器、通道处理器、接收器组等),都提供了详尽的各种实现以及配置选项,你可以借此根据自己的需要来定制Flume。同时,还介绍了如何编写自定义的实现,这将有助于你的学习与实现。下篇简洁明快地介绍了Hadoop以及如何使用MapReduce进行编程,旨在帮助读者快速起步并对使用Hadoop进行编程有个总体的认识,通过《大数据技术丛书:Flume日志收集与MapReduce模式》的学习,你将具备坚实的基础并可以解决遇到的各种MapReduce问题。

目录

译者序
前言
上篇 Flume日志收集
第1章 概览与架构
1.1 Flume 0.9
1.2 Flume 1.X(Flume-NG)
1.3 HDFS与流式数据/日志的问题
1.4 源、通道与接收器
1.5 Flume事件
1.5.1 拦截器、通道选择器与选择处理器
1.5.2 分层数据收集(多数据流与代理)
1.6 小结

第2章 Flume快速起步
2.1 下载Flume
2.2 Flume配置文件概览
2.3 从“Hello World”开始
2.4 小结

第3章 通道
3.1 内存通道
3.2 文件通道
3.3 小结

第4章 接收器与接收处理器
4.1 HDFS接收器
4.1.1 路径与文件名
4.1.2 文件转储
4.2 压缩编解码器
4.3 事件序列化器
4.3.1 文本输出
4.3.2 带有头信息的文本
4.3.3 Apache Avro
4.3.4 文件类型
4.3.5 超时设置与线程池
4.4 接收器组
4.4.1 负载均衡
4.4.2 故障恢复
4.5 小结

第5章 源与通道选择器
5.1 使用tail的问题
5.2 exec源
5.3 假脱机源
5.4 syslog源
5.4.1 syslog UDP源
5.4.2 syslog TCP源
5.4.3 多端口syslog TCP源
5.5 通道选择器
5.5.1 复制
5.5.2 多路复用
5.6 小结

第6章 拦截器、ETL与路由
6.1 拦截器
6.1.1 Timestamp
6.1.2 Host
6.1.3 Static
6.1.4 正则表达式过滤
6.1.5 正则表达式抽取
6.1.6 自定义拦截器
6.2 数据流分层
6.2.1 Avro源/接收器
6.2.2 命令行Avro
6.2.3 Log4J追加器
6.2.4 负载均衡Log4J追加器
6.3 路由
6.4 小结

第7章 监控Flume
7.1 监控代理进程
7.1.1 Monit
7.1.2 Nagios
7.2 监控性能度量情况
7.2.1 Ganglia
7.2.2 内部HTTP服务器
7.2.3 自定义监控钩子
7.3 小结

第8章 万法皆空——实时分布式数据收集的现状
8.1 传输时间与日志事件
8.2 万恶的时区
8.3 容量规划
8.4 多数据中心的注意事项
8.5 合规性与数据失效
8.6 小结

下篇 MapReduce模式
第9章 使用Java编写一个单词统计应用(初级)
9.1 准备工作
9.2 操作步骤
9.3 示例说明

第10章 使用MapReduce编写一个单词统计应用并运行(初级)
10.1 准备工作
10.2 操作步骤
10.3 示例说明
10.4 补充说明

第11章 在分布式环境中安装Hadoop并运行单词统计应用(初级)
11.1 准备工作
11.2 操作步骤
11.3 示例说明

第12章 编写格式化器(中级)
12.1 准备工作
12.2 操作步骤
12.3 示例说明
12.4 补充说明

第13章 分析——使用MapReduce绘制频度分布(中级)
13.1 准备工作
13.2 操作步骤
13.3 示例说明
13.4 补充说明

第14章 关系操作——使用MapReduce连接两个数据集(高级)
14.1 准备工作
14.2 操作步骤
14.3 示例说明
14.4 补充说明

第15章 使用MapReduce实现集合操作(中级)
15.1 准备工作
15.2 操作步骤
15.3 示例说明
15.4 补充说明

第16章 使用MapReduce实现交叉相关(中级)
16.1 准备工作
16.2 操作步骤
16.3 示例说明
16.4 补充说明

第17章 使用MapReduce实现简单搜索(中级)
17.1 准备工作
17.2 操作步骤
17.3 示例说明
17.4 补充说明

第18章 使用MapReduce实现简单的图操作(高级)
18.1 准备工作
18.2 操作步骤
18.3 示例说明
18.4 补充说明

第19章 使用MapReduce实现Kmeans(高级)
19.1 准备工作
19.2 操作步骤
19.3 示例说明
19.4 补充说明

前言/序言

  Hadoop是个非常优秀的开源工具,可以将海量的非结构化数据转换为易于管理的内容,从而更好地洞察客户需求。它很便宜(几乎是免费的),只要数据中心有空间和电源,它就能够水平扩展,并且可以处理传统数据仓库难以解决的问题。需要注意的是,你得将数据填入Hadoop集群中,否则你所得到的只不过是昂贵的热量产生器而已。你很快就会发现,一旦对Hadoop的使用经过 “试验性”阶段后,你就需要工具来自动化地将数据填充到集群中。过去,你需要自己找到该问题的解决方案,但现在则不必如此!Flume一开始是Cloudera的项目,当时它们的集成工程师需要一次又一次地为客户编写工具来实现数据的自动化导入。时至今日,Flume已经成为Apache软件基金会的项目,并且处于活跃开发状态中,很多用户已经将其用于产品环境多年。
  本书将会通过Flume的架构概览与快速起步指南帮助你迅速掌握Flume。接下来将会深入介绍Flume众多更加有用的组件的细节信息,包括用于即时数据记录持久化的重要的文件通道、用于缓存并将数据写到HDFS中的HDFS接收器,以及Hadoop分布式文件系统。由于Flume内置很多模块,因此上手Flume时你所需要的唯一工具就是一个用于编写配置文件的文本编辑器而已。
  通过阅读上篇,你将掌握构建高可用、容错、流式数据管道(用于填充Hadoop集群)所需的一切知识。
  虽然网上关于Hadoop的资料已经汗牛充栋,但大多数都止步于表面或是仅针对某个具体问题给出解决方案。下篇则对Hadoop以及MapReduce编程进行了简明介绍,旨在让你快速起步并对Hadoop编程有个总体印象,打好基础才能深入探索每一类MapReduce问题。
  本书主要内容第1章介绍了Flume及其将会解决的问题空间(特别是与Hadoop相关的部分),架构概览介绍了将会在后续章节中讨论的各个组件。
  第2章帮助你尽快上手Flume,包括下载Flume、创建“Hello World”配置并运行。
  第3章介绍了大多数人都会用到的两个主要通道以及每个通道可用的配置选项。
  第4章详细介绍了如何使用HDFS Flume输出,包括压缩选项以及数据格式化选项。此外还介绍了故障恢复选项以创建更为健壮的数据管道。
  第5章介绍了几种Flume输入机制及其配置选项。此外,还介绍了如何根据数据内容在不同的通道间切换,这样就可以创建复杂的数据流了。
  第6章介绍了如何即时转换数据以及如何从负载中抽取信息来与通道选择器搭配以进行路由判定。还介绍了如何通过Avro序列化对Flume代理进行分层,如何将Flume命令行作为独立的Avro客户端进行测试以及手工导入数据。
  第7章介绍了内外部用于监控Flume的各种方式,包括Monit、Nagios、Ganglia以及自定义钩子。
  第8章超越了Flume配置与使用本身,对实时分布式数据收集的各个方面进行了讨论。
  第9章介绍了如何使用Java(不使用MapReduce)编写一个单词统计应用。我们会将其与MapReduce模型进行比对。
  第10章介绍了如何使用MapReduce编写单词统计应用以及如何使用Hadoop本地模式运行。
  第11章介绍了如何在分布式环境中安装Hadoop并运行之前的Wordcount job。
  第12章介绍了如何编写一个Hadoop数据格式化器来读取Amazon数据格式以作为记录而非逐行读取数据。
  第13章介绍了如何通过MapReduce处理Amazon数据,生成直方图数据以及使用gnuplot来绘制结果。
  第14章介绍了如何通过MapReduce连接两个数据集。
  第15章介绍了如何处理Amazon数据以及通过MapReduce实现差集。此外还介绍了如何通过类似的方法实现其他的集合操作。
  第16章介绍了如何通过MapReduce统计两个条目同时出现的次数(交叉相关)。
  第17章介绍了如何处理Amazon数据以及通过反向索引实现简单的搜索。
  第18章介绍了如何通过MapReduce实现图的遍历。
  第19章介绍了如何通过Kmeans算法建立数据集的集群。集群会将数据划分为各个小组,这样每个分组中的条目都是类似的,根据不同的距离度量方法,不同分组中的条目是不同的。
  学习本书的前提你需要一台安装有Java虚拟机的Linux或Mac电脑,并安装有JDK 1.6,因为Flume是用Java编写的。如果电脑上没有安装Java,那么可以从http://java.com/下载。
  还需要网络连接,这样才能下载Flume并运行快速入门示例。
  上篇主要讲解了Apache Flume 1.3.0,此外还对Cloudera的Flume CDH4进行了介绍。
  本书面向的读者本书面向需要将来自各种系统的数据自动化地移动到Hadoop集群中的人。如果需要定期将数据加载到Hadoop中,那么本书就是为你准备的,它将使你从手工工作中解脱出来,也无需再继续维护一些自己编写的工具。
  阅读本书只需要对基本的Hadoop HDFS知识有一定了解。我们提供了一些自定义的实现,如果需要可以使用。对于这种级别的实现,你需要了解如何使用Java进行编程。
  最后,你需要使用一款自己喜欢的文本编辑器,因为本书的大部分内容都涉及如何通过代理的文本配置文件来配置各种Flume组件。