现在是大数据和人工智能蓬勃发展的时代。大数据的力量正在改变我们的生活方式和工作方式,甚至是寻找爱情的方式。因此,我们有必要真正理解大数据这个极其重要的议题。对于身处大数据时代的企业而言,成功的关键还在于找出大数据隐含的背后真知。以前,人们总说信息就是力量,如今,对数据进行分析、利用和挖掘才是力量之所在。
在大数据生态系统中,基础设施主要负责数据存储以及处理公司掌握的海量数据,应用程序则是人类和计算机系统从数据中获知关键信息的工具。
在传统的数据存储、处理平台中,需要用ELT工具将数据从CRM、ERP等系统中提取出来,并转换为容易使用的形式,再导入像数据仓库和RDBMS等专用于分析的数据库中。当管理的数据超过一定规模时,用现有的数据处理平台已经很难处理具备3V特征的大数据,即便能够处理,在性能方面也很难有良好的表现。对这些时时刻刻都在产生的非结构化数据进行实时分析,并从中获取有意义的观点,是十分困难的。为了应对大数据时代,需要从根本上考虑用于数据存储和处理的平台。
关系数据库和NoSQL数据库是数据库演化过程中的两个里程碑。NoSQL数据库就是为了解决关系数据库的局限而创设的。实际工作中产生的数据管理问题,促使专业人士和软件设计者开始研发NoSQL数据库。不同的应用程序需要使用不同类型的数据库,而这恰恰是数据管理系统在过去几十年间不断发展的动力所在。
对于在校大学生来说,大数据及其分析、处理和存储的理念、技术与应用是理论性和实践性都很强的必修课程。在长期的教学实践中,我们体会到,坚持“因材施教”的重要原则,把实践环节与理论教学相融合,抓实践教学,促进理论知识的学习,是有效地改善教学效果和提高教学水平的重要方法之一。本书的主要特色是理论联系实际,结合一系列了解和熟悉大数据存储的理念、技术与应用的学习和实践活动,把相关概念、基础知识和技术技巧融入实践,使学生保持浓厚的学习热情,加深对大数据存储技术的认识、理解和掌握。
本书是为高等院校相关专业,尤其是大数据、人工智能、信息管理、经济管理类专业开设“大数据存储”相关课程而全新设计编写的具有丰富实践特色的主教材,也可供有一定实践经验的IT应用人员、管理人员参考,或作为继续教育的教材。
本书系统、全面地介绍了大数据存储与管理的基本知识和技能,介绍了大数据存储基础、数据管理技术发展、RDBMS与SQL、NoSQL数据模型、键值数据库、文档数据库、列族数据库、图数据库、数据库技术的发展(NewSQL),重点安排了熟悉MongoDB文档数据库和HBase列族数据库两个课程实践。全书具有较强的系统性、可读性和实用性。
结合课堂教学方法改革的要求,全书设计了课程教学过程,为每章都有针对性地安排了课程知识内容和课后作业与实验等环节,要求和指导学生在课前、课后阅读课文、网络搜索浏览的基础上延伸阅读,深入理解课程知识内涵。
本课程的教学安排见“课程教学进度表”。实际执行时,应按照教学大纲编排教学进度,按照校历考虑教学时间,确定教学进度。
本课程的教学评测可以从以下几个方面入手,即:
(1) 每章的课后作业(13个)。
(2) 每章的实验与思考(15次),含MongoDB文档数据库和HBase列族数据库课程实践。
(3) 课程学习与实验总结(附录B)。
(4) 结合平时考勤。
(5) 任课老师认为必要的其他考核方法。
与本书配套的教学课件等文档,读者可从清华大学出版社官方网站(www.tup.com.cn)下载。
本书是浙大城市学院2019年度新工科教材建设项目“大数据存储”的建设成果,得到“十三五”(第二批)浙江省普通高校新形态教材建设“高职大数据技术与应用(系列教材)”、浙江安防职业技术学院2018年度教材建设“高职大数据系列教材”、温州市2018年数字经济特色专业建设“大数据技术与应用”、浙江安防职业技术学院2018年度特色专业建设“大数据技术与应用专业”等项目的支持。
本书的编写得到了浙大城市学院、浙江安防职业技术学院、杭州汇萃智能科技有限公司、浙江商业职业技术学院等多所院校师生的支持,张丽娜、王硕苹、乔凤凤、蔡锦锦、王文等参与了本书的部分编写工作,在此一并表示感谢!
周苏2021年春于西子湖畔