作 者:董西成 著
定 价:79
出 版 社:机械工业出版社
出版日期:2018年03月01日
页 数:361
装 帧:平装
ISBN:9787111590729
●前言
●部分概述篇
●章企业级大数据技术体系概述2
●1.1大数据系统产生背景及应用场景2
●1.1.1产生背景2
●1.1.2常见大数据应用场景3
●1.2企业级大数据技术框架5
●1.2.1数据收集层6
●1.2.2数据存储层7
●1.2.3资源管理与服务协调层7
●1.2.4计算引擎层8
●1.2.5数据分析层9
●1.2.6数据可视化层9
●1.3企业级大数据技术实现方案9
●1.3.1Google大数据技术栈10
●1.3.2Hadoop与Spark开源大数据技术栈12
●1.4大数据架构:LambdaArchitecture15
●1.5Hadoop与Spark版本选择及安装部署16
●1.5.1Hadoop与Spark版本选择16
●1.5.2Hadoop与Spark安装部署17
●部分目录
本书站在大数据落地应用的角度,系统阐述大数据从数据收集,到数据存储、分布式协调及资源管理、计算引擎、分析工具,再到数据可视化这一完整流程,本书既包含主要技术的实现原理及其框架,也包含了具体落地指导,是帮助企业和个人整体了解大数据框架的参考书。本章主要包括6个部分共16章的内容,其中:第壹部分介绍了大数据体系架构,以及Google和Hadoop技术栈;第二部分介绍大数据分析相关技术,主要涉及关系型数据收集工具Sqoop与Canel、非关系型数据收集系统Flume以及分布式消息队列Kafka;第三部分介绍大数据存储相关技术,涉及数据存储格式、分布式文件系统以及分布式数据库;第四部分介绍资源管理和服务协调相关技术,涉及资源管理和调度系统YARN以及资源协调系统ZooKeeper;第五部分介绍计算引擎相关技术,涉及批处理、交互式处理以及流式实时处理三类引擎;第六部分数据分析相关技术,涉及基于数据分等
董西成 著
董西成,资历大数据技术实践者和研究者,对大数据基础架构有很好深刻的认识和理解,有着丰富的实践经验。熟悉常见的开源大数据解决方案,包括Hadoop和spark生态系统等,擅长底层分布式系统的优化和开发。撰写了大量Had00p和spark等大数据相关的技术文章并分享在自己的博客上,由于文章技术含量高,所以很好受欢迎。
Preface?前 言为什么要写这本书随着大数据技术的普及,它已经被广泛应用于互联网、电信、金融、工业制造等诸多行业。据相关报告统计,大数据人才需求呈井喷态势,越来越多的程序员开始学数据技术,这使得它已经成为程序员所需的基本技能。 为了满足大数据人才市场需求,越来越多的大数据技术书籍不断面世,包括《Hadoop指南》《Hadoop实战》等。尽管如此,面向初、中级学者,能够系统化、体系化介绍大数据技术的基础书籍并不多见。笔者曾接触过大量大数据初学者,他们一直渴望能有一本简单且易于理解的教科书式的大数据书籍出现。为了满足这些读者的需求,笔者根据自己多年的数据项目和培训经验,继《Hadoop技术内幕》书籍之后,于两年前开始尝试编写一本浅显易读的大数据基础书籍。 等