书籍详情
《Spark高级数据分析》[51M]百度网盘|亲测有效|pdf下载
  • Spark高级数据分析

  • 出版社:文轩网旗舰店
  • 出版时间:2018-06
  • 热度:4528
  • 上架时间:2024-06-30 09:08:33
  • 价格:0.0
书籍下载
书籍预览
免责声明

本站支持尊重有效期内的版权/著作权,所有的资源均来自于互联网网友分享或网盘资源,一旦发现资源涉及侵权,将立即删除。希望所有用户一同监督并反馈问题,如有侵权请联系站长或发送邮件到ebook666@outlook.com,本站将立马改正

内容介绍

作  者:(美)桑迪·里扎(Sandy Ryza) 等 著;龚少成,邱鑫 译
定  价:69
出 版 社:人民邮电出版社
出版日期:2018年06月01日
页  数:226
装  帧:平装
ISBN:9787115482525
目录
推荐序 ix
译者序
序ii
前言xv
章 大数据分析1
1.1数据科学面临的挑战2
1.2认识Apache Spark4
1.3关于本书5
1.4第 2版说明6
第2章 用Scala 和Spark 进行数据分析8
2.1数据科学家的Scala9
2.2Spark编程模型10
2.3记录关联问题10
2.4小试牛刀:Spark shell和SparkContext11
2.5把数据从集群上获取到客户端16
2.6把代码从客户端发送到集群19
2.7从RDD到DataFrame20
2.8用DataFrame API来分析数据23
2.9DataFrame的统计信息27
2.10DataFrame的转置和重塑29
部分目录
内容简介
本书是使用Spark进行大规模数据分析的实战宝典,由数据科学家撰写。本书在靠前版的基础上,针对Spark近年来的发展,对样例代码和所使用的资料进行了大量更新。新版Spark使用了全新的核心API,MLlib和Spark SQL子项目也发生了较大变化,本书为关注Spark发展趋势的读者提供了与时俱进的资料,例如Dataset和DataFrame的使用,以及与DataFrame API高度集成的Spark ML API。
作者简介
(美)桑迪·里扎(Sandy Ryza) 等 著;龚少成,邱鑫 译
桑迪·里扎(Sandy Ryza),Spark项目代码提交者、Hadoop项目管理委员会委员,Time Series for Spark项目创始人。曾任Cloudera公司不错数据科学家,现就职于Remix公司从事公共交通算法开发。
于里·莱瑟森(Uri Laserson),MIT博士毕业,致力于用技术解决遗传学问题,曾利用Hadoop生态系统开发了可扩展的基因组学和免疫学技术。目前是西奈山伊坎医学院遗传学助理教授,曾任Cloudera公司核心数据科学家。
肖恩·欧文(Sean Owen),Spark、Mahout项目等