书籍详情
《数据科学理论与实践》[50M]百度网盘|亲测有效|pdf下载
  • 数据科学理论与实践

  • 出版社:清华大学出版社
  • 出版时间:2019-09
  • 热度:4831
  • 上架时间:2024-06-30 09:08:33
  • 价格:0.0
书籍下载
书籍预览
免责声明

本站支持尊重有效期内的版权/著作权,所有的资源均来自于互联网网友分享或网盘资源,一旦发现资源涉及侵权,将立即删除。希望所有用户一同监督并反馈问题,如有侵权请联系站长或发送邮件到ebook666@outlook.com,本站将立马改正

内容介绍

产品特色

编辑推荐

(1)国家精品开放在线课程《数据科学导论》的配套教材(2)一本系统讲解全球范围内的数据科学的新理论与代表性实践的教材;

内容简介

重点介绍数据科学中的新理论和代表性实践,填补数据科学与大数据技术专业的核心教材的空白。主要内容包括:基础理论(术语定义、研究目的、发展简史、理论体系、基本原则、数据科学家)、理论基础(数据科学的学科地位、统计学、机器学习、数据可视化)、流程与方法(基本历程、数据加工、数据审计、数据分析、数据可视化、数据故事化、项目管理)、技术与工具(技术体系、MapReduce、Hadoop、Spark、NoSQL与NewSQL、R与Python)、数据产品及开发(主要特征、关键活动、数据柔术、数据能力、数据战略、数据治理)、典型案例及实践等


精彩书摘

  第5章数据产品及开发
  如何开始学习
  【学习目的】
   【掌握】 数据产品的类型、主要特征及开发方法。
   【理解】 数据能力的评估方法、数据治理的主要内容、数据柔术的基本思想。
   【了解】 数据战略的制定要求。
  【学习重点】
   数据产品的开发方法。
   数据能力的评估方法。
   数据治理的主要内容。
   数据柔术的基本思想。
  【学习难点】
   数据产品的设计。
   数据柔术的基本思想。
   DMM模型的应用。
  【学习问答】
  序号我 的 提 问本章中的答案
  1数据产品是什么?与传统产品之间的区别是什么?定义(5.1节)、主要特征(5.2节)
  2如何开发数据产品?关键活动(5.3节)、数据柔术(5.4节)、数据能力(5.5节)、数据战略(5.6节)、数据治理(5.7节)
  3数据产品开发需要具备哪些基本功?数据柔术(5.4节)、数据能力评估(5.5节)、数据战略制定(5.6节)、数据治理(5.7节)
  4数据管理与数据治理的区别是什么?数据治理与数据管理的区别(5.7节)
  5数据柔术是什么?如何掌握数据柔术?数据柔术(5.4节)
  6如何评估一个组织机构的数据管理能力?数据能力(5.5节)
  7如何制定一个组织机构的大数据战略?数据战略(5.6节)
  数据产品开发是数据科学的重要研究任务之一,也是数据科学区别于其他科学的重要研究任务。与传统产品开发不同的是,数据产品开发具有以数据为中心、多样性、层次性和增值性等特征。数据产品开发是数据科学的主要抓手,也是传统产品的下一轮创新和更新换代的关键所在。
  数据产品开发案例1——Metromile项目及保险产品的创新
  Metromile是2011年在美国旧金山成立的一家汽车保险机构。在传统汽车保险中,无论您行车多或少,所缴的汽车保费是固定不变的,这对于那些行车少的人明显不够公平。
  根据Metromile提供的数据,65%的车主支付了过高的保费以补贴少数行车最多的人。Metromile提供的是按里程收费的汽车保险,以改变传统的固定收费模式,让行车少的人支付更少的保费,实现里程维度上的个性化定价。
  Metromile提供的车险由基础费用和按里程变动费用两部分组成,其计算公式为: 每月保费总额=每月基础保费+每月行车里程×单位里程保费。其中,每月基础保费和单位里程保费会根据不同车主的情况有所不同(例如年龄、车型、驾车历史等),每月基础保费一般为15~40美元,按里程计费的部分一般是2~6美分/英里(1英里=1.609344千米)。Metromile还设置了保费上限,当日里程数超过150英里(华盛顿地区是250英里)时,超过的部分不需要再多缴保费。
  之所以能够实现按里程计算保费,源于物联网等信息技术的应用。车主需要安装一个由Metromile免费提供的OBD设备——Metromile Pulse,以计算每次出行的里程数。配合手机APP,Metromile还能为车主提供更多的智能服务,例如最优的导航线路、查看
  油耗情况、检测汽车健康状况、汽车定位、一键寻找附近修车公司、贴条警示等服务,并且每月会通过短信或者邮件对车主的相关数据进行总结晓保.Metromile: 更公平的车险[J].金融经济,2018(17).。
  数据产品开发案例2——Amazon专利及电商产品的创新
  在您购买之前,电商已经知道您近期会买什么并把货物送到你家附近?本文为您解读亚马逊的一项重要发明——Amazons Anticipatory Shipping(预期送货),具有很强的开创性,是数据科学领域的经典实践之一。
  1. 提出者
  提出者是Amazon Technologies Inc的 Joel R.Spiegel 等。
  2. 提出时间
  2004年首次申请专利,后全文并入新专利中,于2013年底发布。
  3. 提出目的
  提出目的是降低物流成本,缩短顾客收货时间。
  4. 基本思路
  这项专利采用的是大数据预测性分析技术,属于数据科学中的数据产品开发范畴。基本思路为预测用户需求,提前运送商品到目的地区域,在运输中匹配订单,确定最终送货地址。主要创新之处在于提出预期运输的方法和计算机系统,并应用于预测先前物品状态,确定包裹的位置、成本、风险、重定向及顾客动机。
  5. Amazon应用
  据美国国家公共电台报道,自亚马逊取得“预期送货”专利之后,它在全国各地建立了庞大的仓储业务,并且持续在靠近市中心的地方增加小型仓库。后推出Prime Now超快速交付选项。 Prime Now会员可以享受免费2小时到货。
  ……

前言/序言

  前 言
  自第1版出版以来,本教材得到了国内外专家的高度评价。目前,国内多数高校的相关课程均选择本教材为指定教材或主要参考书。本书第2版中进行了如下修订。
  (1) 调查研究国内外大数据与数据科学相关工作岗位的用人要求及岗位面试题,对第1版内容进行了删减与补充。例如,新增了Lambda架构、A/B测试、Tableau、VizQL技术、大数据/算法偏见、大数据算法与模型、Jupyter Notebook/Lab、Python编程等面试中常见的问题。同时,还补充了数据产品开发、Python/R数据分析等内容,力争使本教材具备更高的实用价值和更多的干货知识。
  (2) 调查研究国内外大数据与数据科学相关的国际/国家标准、调研报告和理论研究现状,补充了必要的标准、报告和理论,如《信息技术 大数据 术语》(GB/T 35295—2017)、《信息技术 大数据 技术参考模型》(GB/T 35589—2017)、《信息技术服务 治理 第5部分: 数据治理规范》(GB/T 34960.5—2018)、《数据管理能力成熟度评估模型》(GB/T 36073—2018)以及来自Gartner、DataCamp、KDnuggets等专业机构的著名调查报告,力争全景展现国内外数据科学领域的重要理论与代表性实践。
  (3) 在深入研究世界一流大学数据科学课程的教材建设、教学大纲和教学内容的基础上,广泛征求兄弟院校师生就本教材第1版的意见与建议,对本书内容进行了补充和调整,如全书例题采用Python和R双语言版本,并补充了一些经典小理论、案例及其数据科学的内在联系,如亚马逊预期货运(Amazons Anticipatory Shipping)、幸存者偏差(Survivorship Bias)、辛普森悖论(Simpsons Paradox)、大数据杀熟、Google图片搜索Idiot事件、Facebook -剑桥分析公司数据丑闻(FacebookCambridge Analytica Data Scandal)、P2DR模型和奥卡姆剃刀(Occams Razor),力争使本教材与世界顶级大学接轨。
  (4) 结合自己在中国人民大学开设的“数据科学”(本科)、“数据科学理论与实践”(硕士)、“信息分析前沿研究”(博士)课程以及建设国家精品开放在线课程“数据科学导论”的教学经验以及在企事业单位担任首席数据科学家和参与部分高校数据科学专业建设的经验,并结合自己在数据科学与大数据技术领域的学术研究,对第1版内容进行了调整与优化,突显了“数据产品开发”在数据科学教与学中的“抓手”地位,并按照本人首次提出的“开源课程倡议”,在GitHub上建立配套社区,与同行老师共同维护课程资源,使本教材的内容更加符合我国大数据人才培养的需求。
  本书旨在系统讲解数据科学领域的经典理论与最佳实践,满足不同层次读者的需求。因此,建议读者结合自己的教学或学习需要,对本书进行定制使用,参考方案如表1所示。
  表1本教材的教学与学习建议
  章名
  导论类课程非导论类课程
  非大数据类
  专业大数据类
  专业本科
  低年级本科高年级
  或硕士
  第1章基础理论√√√√
  第2章理论基础〖5〗√
  第3章流程与方法〖3〗√√√
  第4章技术与工具〖3〗√√
  第5章数据产品及开发〖4〗√√
  第6章典型案例及实践√√√√
  注: 与数据科学相关的“导论类课程”有数据科学导论、大数据导论、数据科学与大数据技术导论等; “非导论类课程”有数据科学、数据科学理论与实践、数据科学原理与实践、数据科学方法与技术等; 常见的大数据类专业有数据科学与大数据技术、大数据管理与应用、大数据技术与应用和大数据分析等。
  作者以本教材为基础,将提供MOOC公开课,帮助培养数据科学领域的人才。
  朝乐门
  2019年6月