本站支持尊重有效期内的版权/著作权,所有的资源均来自于互联网网友分享或网盘资源,一旦发现资源涉及侵权,将立即删除。希望所有用户一同监督并反馈问题,如有侵权请联系站长或发送邮件到ebook666@outlook.com,本站将立马改正
Greenplum是业界领先的开源MPP大数据平台。2019年,Greenplum被Gartner评为全球排名第三的分析型数据库和排名第四的实时分析数据库,且为前十名中开源的产品。中国信息通信研究院评测的14款MPP数据库中约半数基于Greenplum。本书由Greenplum核心研发团队精心编写,融入了团队十余年来对云计算、大数据和人工智能驱动的企业数字化转型、先进技术发展趋势以及产品研发的深刻思考,对Greenplum这款快速成长的开源大数据平台进行了全方位深度解读,无论是企业决策者,还是大数据相关的技术人员,都能从本书中获益。
这是一本系统剖析Greenplum开源大数据平台的书籍,也是大数据战略制定与落地的实战型指导书!
本书围绕数字原生和云计算、大数据、人工智能驱动的企业数字化转型的核心诉求,从商业和技术实战视角分享了业界领先企业大数据战略的深刻思考,并提供了大数据战略从制定到落地的全面指导。既有高阶数字化战略高度对大数据的解读,又有技术实战角度对使用 Greenplum 大数据和机器学习平台实现大数据战略的实践指南。
本书作者来自Greenplum 核心研发团队,致力于以开源、开放的理念和先进的技术推进大数据产业生态,助力企业以更低的成本、更高的效率实现数字化转型,并基于Greenplum 开源社区培养大数据产业更多人才。
本书分为四个部分。
● 第一部分介绍大数据战略。其中,第 1 章将分享作者对于人工智能、大数据和云计算之间关系的理解以及对人和人工智能的思考。第 2 章将介绍进取型企业为什么需要大数据战略以及如何建立大数据战略。
● 第二部分介绍大数据平台。其中,第 3 章将以数据平台演进历史和未来趋势为主题,描述三次整合的背景及影响,介绍选择大数据平台需要考虑的因素,以及为什么Greenplum 是理想的大数据平台。第 4 章将介绍 Greenplum 数据库快速入门指南。第 5章将介绍 Greenplum 架构的主要特点和核心引擎。第 6 章将介绍数据加载、数据联邦和数据虚拟化。第 7 章将介绍 Greenplum 的资源管理以及对混合负载的支持。
● 第三部分介绍机器学习。其中,第 8 章介绍 Greenplum 的各种过程化编程语言(用户自定义函数),用户可以使用 Python、R、Java 等实现用户自定义函数,还可以通过容器化技术实现自定义函数的安全性和隔离性。第 9 章将介绍 Greenplum 内建的机器学习库 MADlib,数据科学家可以使用内建的 50 多种机器学习算法用 SQL 对数据进行高级分析,并介绍如何扩展 MADlib 以实现新算法。第 10 章和第 11 章将分别介绍Greenplum 如何对文本数据和时空数据(GIS)进行存储、计算和分析。第 12 章将介绍Greenplum 丰富的图计算能力。
● 第四部分介绍运维管理和数据迁移。其中,第 13 章会介绍各种监控和管理工具及相关企业级产品。第 14 章介绍数据库备份和恢复。第 15 章和第 16 章将分别介绍如何从Oracle 和 Teradta 迁移到 Greenplum。
冯雷(Ray Feng)
Pivotal中国常务董事(Managing Director)兼研发中心总经理。Pivotal中国成立至今,冯雷主持了近十亿人民币投资的中国运营和研发体系。作为Pivotal全球产品关键领导人,为Pivotal公司的数字化理念建立及其对应的Cloud Foundry和Greenplum产品提供战略输入。冯雷于2010年从美国硅谷归国,在世界500强公司EMC旗下组建了Pivotal中国。在归国之前,冯雷曾在500强企业甲骨文(Oracle)总部从事云计算产品研发。作为云计算早的一批从业人员,帮助甲骨文云计算资源调度领域成为意见领袖。拥有多项云计算专利。
姚延栋
Pivotal中国研发中心副总裁,在Pivotal公司全球范围内为Greenplum技术发展路线提供战略输入。联合创建了Pivotal中国研发中心,发起了Greenplum中国开源社区,奠定了包括阿里云、腾讯云和百度云在内的广大开源Greenplum用户群。在Pivotal中国招募并建设了Greenplum和HAWQ团队成为大数据和机器学习的意见领袖,培养团队成员同时成为Apache和Greenplum代码提交者。在创建Greenplum/Pivotal中国之前, 曾在Sun Microsystem 与 Symantec 系统和存储部门工作多年。拥有多项国内外云计算和大数据专利。
高小明
Pivotal中国研发中心Greenplum产品总监,先后参与和负责数据分析协作平台Chorus、开源PaaS云平台Cloud Foundry、MPP数据库Greenplum等产品的开发、运维和技术推广。目前着重关注PaaS云平台与大数据平台支撑下的数字化转型、微服务架构以及容器化与混合负载给数据产品带来的机遇和挑战。
杨瑜
Pivotal中国研发中心Greenplum工程技术总监,长期从事 Greenplum 内核的研发和管理工作,先后参与和负责基于Greenplum内核的机器学习库MADlib的研发、Greenplum 内核和PostgreSQL内核持续归并等工作,并参与组建Greenplum文本挖掘引擎GPText团队,有丰富的一线内核研发经验。
本书作者均为 Greenplum 内核开发团队核心成员,在大数据和机器学习行业具有丰富经验,全球视野和技术前瞻性都毋庸置疑。我也有幸和作者团队多次深度合作,相信他们精心打造的这本书可以给读者全新的启发,用正确的理念和方法论来迎接大数据和人工智能时代的挑战与机遇。
——腾讯云副总裁 王龙
随着数字资源持续爆炸式的增长,各行各业都在探索如何更好地利用数字资源,抓住机遇,实现数字化转型。在此过程中,有很多亟待解决的问题,其中,选择什么样的大数据平台是至关重要的决定。Greenplum 是业界领先的并行数据库MPP平台;经过15年的打磨,Greenplum以其计算速度快、扩展性强、接口丰富、原生支持丰富的大数据分析算法以及灵活支持多种存储协议等特点成为当今大数据分析平台的优秀选择。本书作者长期从事大数据平台领域的创新和研发工作,作为Greenplum的主要开发者,对大数据平台技术以及整个大数据产业链有丰富的实操经验和独到的见解。相信这本著作会令致力于大数据应用开发、设计、科研和教学的读者感到受益匪浅。
——戴尔科技集团全球副总裁,中国研发集团总经理 刘伟博士
阿里云选择开源Greenplum数据库发布数据库产品主要基于三个方面的考虑:首先,Pivotal在Greenplum上持续投入了近十年的时间,打造出这款优秀的开源数据库产品。一个优秀的数据库引擎需要很长时间的沉淀和巨大的投入才能形成;第二,Greenplum是一个成熟的产品,在SQL的兼容性方面尤其出色,而SQL的兼容性会在很大程度上影响用户的体验和数据的迁移;第三,用户需要的不仅是引擎,更是一个完整的生态,Greenplum已经形成了完整的开源生态,并培养了很多的用户。在Greenplum生态中形成了很多优秀的BI 工具和ET工具,用户在使用时变得更加便捷。
——余锋 阿里云数据库研究员
Greenplum作为Pivotal公司投入研发十多年的 MPP产品,能够完美地满足高性能并行计算、海量数据存储及人工智能数据分析等需求。在金融、电信、零售等领域有着广泛应用。
Greenplum自2015年开源以来,产品迭代速度逐渐加快,推出了很多值得期待的新特性,开源社区也得到了快速发展,帮助越来越多的企业获得成功。在开源之初,百度即将 Greenplum引入内部使用,现已支撑了金融、搜索和教育等多个核心业务,同时也在百度云上推出了基于Greenplum的云服务。
本书由Greenplum研发梦之队精心编写,不仅深度解密其背后的设计理念和实现细节,还给读者带来了诸多场景的应用实践经验,是Greenplum使用、开发、运维人员的优秀参考资料。
——赖宝华 百度数据库团队技术经理