前 言
随着信息技术的迅猛发展和大数据时代的到来,现代企业的信息化系统快速积累了大量数据,数据驱动逐渐成为企业经营决策分析的基本模式。数据分析就是从海量数据中透视数据特征、发现数据内在模式规律、挖掘数据中蕴含的高价值信息的过程,同时通过强大的数据可视化技术生动、直观地为企业提供能够展现数据宏微观特征、内在规律和动态发展过程的数字化画像。数据分析是企业数据驱动决策战略体系下的核心技术,也是大数据时代各专业的学生都需要掌握的实用技能。数据分析是一门交叉学科的技术,需要数据库技术来存储、管理海量的企业数据,通过结构化数据库语言SQL实现数据管理、提取、转换和分析;还需要通过数据分析与数据可视化工具对数据进行深入分析与可视化展现,为用户提供交互的可视化报表;然后进一步应用数学、统计学、计算机编程等方面的专业知识,挖掘数据内在规律和特征,了解历史数据并预测未来以辅助企业决策。
本书针对数据分析的特点,采用融合式教学方法,即在企业级数据分析应用背景下,基于统一的企业级基准数据实战案例,基于当前主流的SQL Server 2019数据库系统、Excel Power插件、Power BI、Tableau数据分析与可视化工具、Python编程语言,综合设计了企业级数据分析与数据可视化案例教学内容,以数据分析需求为中心,按需定制需要掌握的数据库技术、数据分析技术、数据可视化技术和数据挖掘建模技术,并通过完整的案例展现从数据管理到数据抓取、数据可视化、数据挖掘建模的整个数据分析工作流程,为读者提供企业级数据分析处理的技术参考。
本书分为3篇,分别是预备篇、技能篇和实战篇。
预备篇由第1、2章构成,主要介绍建立数据分析的基本概念和本书所采用的案例数据集的基本情况。
第1章介绍了数据分析与数据库的基本概念、数据驱动决策的基本含义及数据分析与挖掘的一般工作流程,为读者建立数据分析的基本框架、构建知识体系结构和工具选择打下基础。
第2章介绍了贯穿本书始终的实战案例数据集TPC-DS,包括整个数据集结构及基本的字段语义解析,使读者了解企业级数据的基本特征和分析需求。
技能篇由第3、4、5章构成,本篇面向数据分析与数据可视化的支撑技术,介绍了主流数据库系统及数据分析与可视化工具的使用方法。
第3章首先介绍了SQL Server 2019的安装与配置方法,以及如何基于TPC-DS数据集创建数据库和将数据导入的方法,构建以数据库为中心的数据分析平台;然后以主流的数据分析与数据可视化工具Excel Power插件、Power BI、Tableau为例介绍了相应的安装配置方法及数据库连接方法,以及Python的安装及与数据库连接方法。第3章的内容帮助读者在自己的计算机上搭建起企业级数据分析的基本环境,为后续章节的实践打好基础。
第4章介绍了结构化查询语言SQL的基本语法及进阶查询技巧,通过SQL命令实现数据管理、数据查询、数据转换及数据分析处理等功能,为数据分析提供数据存储访问服务支持,并通过若干SQL查询实战案例帮助读者理解各种查询技巧在实际工作中的应用。
第5章对比了Excel Power插件、Power BI、Tableau三种主流的数据分析及数据可视化工具的使用方法,以可视化功能为核心横向对比了当前主流的Excel Power插件、Power BI及Tableau等数据可视化工具的操作技巧及功能特点,使读者既可以全面掌握三种不同数据可视化工具的使用方法,又可以根据特定的数据可视化需求选择适合的工具,在企业级数据分析与数据可视化实践工作中拥有灵活的技术选择和全面的技术掌控能力。
实战篇由第6、7章构成,本篇通过两个详细的企业级数据分析与挖掘案例,以实际的企业级业务决策需求为核心,系统地展现了数据分析的整个工作流程、相关工具的配合使用及挖掘建模方法。
第6章基于企业级用户数据分析展现了数据分析和数据可视化的工作流程及相关技术。在数据可视化部分设计了用户宏观监控与微观监控仪表板,通过交互式的数据可视化报表动态展示用户数据特征、定义用户历史行为、评估用户行为特征及相对价值高低。在挖掘建模方法上,设计了用户价值识别模型案例和用户优惠券使用行为预测模型案例,运用Python语言和聚类、分类机器学习算法实现了用户行为数据的基本分析、深入挖掘与针对性预测,展示了用户数据分析与挖掘的完整过程。
第7章演示了企业级供应链数据分析案例。在数据可视化部分通过设计用户偏好维度及用户满足维度的监控仪表板,展现了企业级供应链动态数据分析结果。产品需求量预测案例系统地展示了对产品历史需求行为模式的深入挖掘及应用时间序列算法实现预测性建模的完整过程。
本书提供丰富的教辅资源,包括操作指导视频、数据管理与数据挖掘案例的全套源程序、部分课后习题的参考答案,以及教学大纲、教学日历、教学课件、教学方式设计、考核设计等教学资源。读者可登录华信教育资源网(www.hxedu.com.cn)免费注册后下载本书提供的配套资源。
本书的目标是向跨学科的学生或研究人员介绍数据分析与数据可视化领域最具影响力的系统及工具,使读者能够及时掌握最新的软件工具使用方法并应用于数据分析实务,形成解决企业级数据分析问题的批判性思维方式并培养扎实的技术能力。本教材使用的软件,如SQL Server 2019、Power BI、Tableau等均有免费的试用版或学生版,Python为免费的开源计算机语言,可以作为教材的实战平台。SQL Server 2019是微软最新的数据库系统软件,它具有强大的数据管理和数据处理能力,对Excel、Power BI、Tableau等具有良好的集成能力。Power BI、Tableau是2019年Gartner BI魔力象限I 中位居领导位置的数据分析与数据可视化工具,也是当前企业中主流的数据分析平台。本书基于这些最新、最具影响力的数据分析和数据可视化工具设计基于企业级基准数据集TPC-DS的案例教学内容,使读者能够更加接近企业数据分析实践内容,更好地掌握企业级数据分析及数据可视化工具的使用。
最后,本书也是面向经济、人文、社会、管理学科的高校在校学生及企业从业人员学习数据分析与数据可视化技术的一个教学方法试点:在教学内容的组织上,本书覆盖了理工科的数据库技术、BI商业智能技术、计算机编程技术、机器学习算法技术及商科的战略决策思维,帮助跨学科学生增强数据分析处理能力;在教学内容的选择上,本书采用需求驱动策略简化数据库技术,并面向数据分析处理需求定制教学内容,适当地降低经济、人文、社会、管理学科学生学习数据库知识的技术门槛,以增强实践能力;在教学案例的设计上,本书采用与领域知识相结合的方法,以数据为中心、基于数据分析实务设计教学实践案例,增强教学内容的针对性与现实性;在教材的编写上,本书从文商科学生的视角及理解方式出发,结合企业实践经验组织教材内容的编写和案例设计,力求使教材内容接近企业数据分析的实际需求,使读者掌握来自现实世界的实际应用技能。
本书由中国人民大学张延松、徐新哲共同编著。张延松来自信息学院,主要负责本书的整体设计与基础内容,徐新哲来自商学院,主要负责从文商科学生的视角与理解方式上对教材内容进行全面的改写与组织,并根据自身的企业实践经验设计实践案例,从而使本书具有从文商科学生的理解能力出发、适应文商科学生学习与实践的特点,为广大经济、人文、社会、管理学科学生学习与掌握数据分析及数据可视化技术提供学习素材与指导。
大数据浪潮覆盖全社会,不仅理工科学生需要掌握数据分析处理技能,对于广大经济、人文、社会、管理学科学生及从业者而言,掌握与学科领域知识相结合的数据分析技能尤为重要,数据分析与数据可视化技术也是当前大数据时代的“刚需”技能。本书在编写过程中力求弱化复杂的概念与技术壁垒,采用以数据为中心、以实际业务需求为驱动的方法组织知识结构与实践操作技能,通过融合式案例设计将具体数据集与实际数据分析处理需求相结合,并基于最新、最前沿的工具平台为读者提供实践能力训练,力求使本书有用、好用、实用。由于数据分析与数据可视化需求覆盖领域极广,数据分析与数据可视化软件的更新迅速,加之我们在知识结构上的局限性,书中可能存在一些不足与错误之处,敬请广大读者与同行批评指正,也希望能够获得更多的建议,为广大经济、人文、社会、管理学科学生及从业者提供更加专业、更加实用的实践教材。
张延松 徐新哲
2019年12月于中国人民大学