书籍详情
《大数据时代对建模仿真的挑战与思考》[37M]百度网盘|亲测有效|pdf下载
  • 大数据时代对建模仿真的挑战与思考

  • 出版社:中国科学技术出版社自营旗舰店
  • 出版时间:2014-07
  • 热度:10847
  • 上架时间:2024-06-30 09:08:33
  • 价格:0.0
书籍下载
书籍预览
免责声明

本站支持尊重有效期内的版权/著作权,所有的资源均来自于互联网网友分享或网盘资源,一旦发现资源涉及侵权,将立即删除。希望所有用户一同监督并反馈问题,如有侵权请联系站长或发送邮件到ebook666@outlook.com,本站将立马改正

内容介绍

内容简介

  来自全国近20余家科研院所的专家学者一起,从“产、学、研、用”等多个方面,围绕“大数据时代对建模仿真的挑战与思考”这一主题,就“以大数据为基础的第四范式是否成立?大数据方法对仿真建模带来了什么挑战?大数据方法对仿真建模带来了什么机遇?”等三个重点议题进行了深入地探讨。

作者简介

  中国科协学会学术部,本书由中国科协学会学术部编,包含了来自全国的20余位专家就相关议题进行探讨。

内页插图

目录

大数据时代对建模仿真的挑战与思考(引导发言)
基于大数据的第四范式问题思考
以大数据为基础的第四范式现在不能证实成立
大数据时代SBE&S 面临的挑战
大数据技术及其对复杂系统仿真建模的影响
复杂系统仿真建模的一种新方法——大数据
大数据的智能处理与仿真
总结
专家简介
部分媒体报道

前言/序言

  大数据时代对建模仿真的挑战与思考(引导发言)
  ◎胡晓峰
  本次沙龙的题目是“大数据时代对建模仿真的挑战与思考”,主题不完全是“大数据”,而是要对“大数据”背景下的建模仿真影响进行研讨。
  近两年来,“大数据”这个词已经被广泛提及,甚至有被用滥了的嫌疑。但大数据究竟会对科学研究带来哪些影响,还需要更深入的研究。对受到直接影响的建模仿真领域来说,同样面临这个问题。大数据对建模仿真带来哪些困惑、挑战和机遇?这就是中国科协召开这次沙龙要讨论的主要问题。
  一、问题的相关背景——大数据及其特性
  什么是大数据?大家听着很熟悉,但至今仍没有一致认可的准确定义。一般用4 个V 进行定义,也有用6 个V 的。即:第一个V(Volume),即规模性,指的是体量大,一般在TB、PB 乃至EB 以上;第二个V(Variety),即多样性,也就是信息的种类多,并以各种信息载体形式存在;第三个V(Velocity),即高速性,要求处理速度在合理时间之内;第四个V(Value),即价值性,或者叫真实性(Veracity),是说大数据一般是高价值低密度,但也指对真实数据的处理。
  也有其他的定义,比如说维基百科的定义是,大数据是指利用常规软件工具去捕获、管理和处理数据所耗时间超过可容忍时间限度的数据集。这个定义是从处理方法角度来说的。当然,还有专家认为,大数据是在赛博空间(Cyberspace),“人、机、物”三元交互融合产生出来的结果。
  其实不管它的定义是什么,大家知道这个意思就差不多了。但是,我想提出一个问题,即为什么现在才有了大数据?我觉得主要有以下几个原因:
  第一,信息技术的发展创造了数据产生和处理条件。像云计算及网络、存储设施、数据库等技术的发展,以及现在开始冒出苗头来的广泛应用,像物联网、RFID 的使用以及视频监控等技术的普及应用等,都是如此。
  第二,特别是因为互联网运用的广泛普及。互联网带来了大量数据,例如社交网络、博客、微信、基于位置服务、搜索服务等,已经遍地开花。有统计说,“近两年产生的数据等于2010 年前人类产生数据的总和”,每两年数据翻一番,可见数据爆炸性的发展。
  第三,各类大数据应用产生了很好的效果并提出了更高的要求。对数据的深度挖掘获得了出人意料的效果,已远超早期数据挖掘“啤酒与尿布”等经典案例的水平,出现了诸如“纸牌屋”、“点球成金”这样的新传奇,并且得到各界的广泛关注。
  此外,各国政府对此十分关注。美国奥巴马政府2012 年3 月发布了“大数据研究与发展倡议”,已将其作为美国未来发展的重要战略,并作为国家战略启动了“大数据发展计划”。如果我们跳出技术看国家战略问题,我认为奥巴马的想法就是要通过“大数据发展计划”,试图再次重复“信息高速公路计划”给美国人带来的互联网霸权所获得的广泛优势。从这次“斯诺登事件”我们可以发现,美国的互联网霸权已经置其他国家于非常危险的境地,而大多数人还浑然不觉。现在,美国人已经把目光瞄准到大数据等未来新的领域,我觉得这就是为创造未
  来的大数据霸权奠定基础。
  经济界也很关心。达沃斯经济论坛发表了关于大数据的研究报告,在论坛上成为各国首脑和企业家关注的主题,这是很引人注目的。比如说,论坛的主题就叫做:“大数据、大影响,国际开发新可能”。我国各有关部门和企业也十分重视,召开了很多会议,许多企业家也发表了一些重要的言论。
  学术界也十分关注。2008 年,《自然》杂志推出大数据专刊,研究“PB 时代的科学”,探讨科研形态变化,认为“以数据为准绳的理念指导,以及强大的计算能力支撑,正在驱动一次科学研究方法论的革命”。《科学》杂志2011 年也推出专刊“Dealing With Data”,围绕“数据洪流”展开讨论,将大数据深度分析看成未来的研究重点与突破点。同时,各类学术机构也纷纷组织各种研究和探讨,发表了大量研究报告,召开了各种会议,并成立了许多大数据学术组织等。这些都已经如火如荼地展开了。
  但是,也有很多疑问同时在我们每个人头脑中会产生出来。大数据到底是什么?值得我们这么兴师动众吗?主要疑问有以下三个方面:
  第一个疑问:大数据与以前一些数据概念有哪些不同?它与我们早期提出的海量数据(Massive Data )、超大规模数据(Very Large Data ) 有何不同?是不是一个意思?如果是一个意思,对它来说这些就是大数据;但如果不是,又应该是什么意思?
  第二个疑问:大数据方法与过去的数据方法有什么差异呢?比如说,我们早就提出了数据挖掘的概念,以及数据分析等理论,但现在又来说大数据的数据挖掘和数据分析,有什么不同吗?
  第三个疑问:大数据应用与过去基于数据分析的应用又有什么不同呢?最典型的就是商业智能BI(Business Intelligence)。商业智能也是用数据分析得到一些对未来的洞见。现在大数据出来到底又有什么不同呢?
  这些名词都似曾相识,一点都不陌生,但是为什么它又掀起了一个如此值得大家关注的热门话题呢?我个人认为最根本的是,大数据带来了全新的研究思维和方式,主要表现在四个革命性的特征上:
  第一,从局部到全体:将网络化的大数据作为分析对象。
  这不同于以往的方法。直接面向全体的数据,这里“全体”主要指的是某一研究的所有数据,或者说是网络化的数据。
  (1)网络化的数据分析,“数据大”是条件。这不是过去只对少量样本数据进行分析的数据分析,而是直接面向整体数据,或者叫作所有数据,甚至说是全部数据的数据分析。没有一定规模的量,没有这个“大”字是不成立的。而网络化则是核心。网络化最重要的一点是,它终结了还原论的分解式分析方法,而从整体关系进行考虑。也有专家认为,如果没有网络,大数据也不能成立。
  (2)对数据的处理完全不同于传统数据库的分析与处理方法。在大数据方法中,一是要将“局部的和明确的数据”转化为“所有几乎全部且不明确”的数据。有位专家打了一个很好的比喻,他说:我们过去的数据库处理是在池塘里抓鱼,池塘里养了多少鲤鱼、鲢鱼、草鱼都是心中有数的,投放多少就收获多少,这就是“池塘里抓鱼”,是我们原来的处理方式;而现在大数据方法是要在“大海里捞鱼”,有“鱼”与否并不知道,也就是有什么问题也不知道,需要我们想各种方法把“鱼”捞出来。我觉得这个比喻非常恰当。二是要变“脱机”处理为“联网”处理。处理的同时,数据还可能发生变化,因为它与网络的关系极为密
  切!因而大数据的处理规模、类型、模式、工具、对象都会有所不同。
  第二,从单纯到繁杂:接收数据的繁杂和不精确。
  我们常用的数据库一般要求数据是非常干净的,对不干净的还要加以清洗。而大数据则要以非结构化、种类繁多的数据为主,因此就要抛弃对有条理和纯净数据的偏爱,容忍凌乱数据的存在。在操作上,不以“匹配性查找、增删改管理”为数据库应用目标,而是更深层次的应用。“海量”、“超大规模”指的都是数据量,而没有涉及数据的本质问题。另一方面,大数据方法的不确定性和涌现性的特点比较突出。在不确定性方面,它的数据来源不确定、处理模型不确定、模型参数学习也不确定等。在涌现性方面,包括演化模式的涌现、群体行为的涌现、网络智慧的涌现等。这些都可以找到大数据的不确定性和涌现性的影子。
  第三,从因果到关联:更强调相关性而非因果性。
  大数据最重要的思想是放弃对事情原委的追究,取而代之的是对相关性的接纳,因此它更适合于回答“是什么”,而不是回答“为什么”。这就为“知其然而不知其所以然”找到了依据:直接获取答案,不去问为什么。也就是说,它可以告诉你这样不会错,但是为什么?不知道。
  之所以这样做,是因为许多事物的因果关系是难以明确的,有的可能是找不到,而也有的是根本就不存在这样的因果关系。这就完全颠覆了我们过去关于牛顿、爱因斯坦科学体系下因果关系明确的还原论思想,当然就这个问题大家还可以进一步探讨。因此,大数据方法认为,根据海量数据的相互关系,已经足以产生新的发现。也就是因为如此,美国和欧盟都展开了一些相关的研究,初步统计大概有20 多个研究计划,比如说“大脑扫描计划”、“星球皮肤计划”、“太空追踪计划”等,或多或少都采用了这个思想。
  第四,从简单到深入:更强调深度和间接分析。
  将简单分析方法发展为大数据的深度分析方法。我们过去的智能分析实际上还是强调以因果关系为主的简单分析,主要针对已有数据的分析,如商业智能BI 的因果分析。但是大数据就具有了自己明显的特色,更关注深度、间接、外推分析等。有许多数据分析结果的质量依赖于数据量的多少,比如说苹果公司手机的Siri 语音识别,就是根据联网数据分析的。还有的分析属于外延分析,也就是分析的结果并不是分析的初衷,而是通过这个结果得到另外的结论。比如说基于搜索词的流感趋势分析,就是典型的范例。分析的是搜索词,但结果却是流行病的预警。还有就是按需分析,有意地产生所需数据,再进行分析,比如说“数据客”。
  这些革命性的特征变化,在很多有关大数据的会议上都在反复探讨,大家都有自己的看法。但是,我们这期沙龙的主题是要研究它对建模仿真带来的影响,以及它会带来哪些挑战和机遇。