前言大数据集成是两大重要工作的结合:一个是相对较老的“数据集成”工作;另一个是相对较新的“大数据”工作。
只要存在人们要将多个数据集链接并融合起来以提升它们价值的情况,数据集成就必不可少。早在计算机科学家开始研究这一领域之前,统计学家们就已经取得了许多进展,因为他们迫切需要关联和分析随时间不断积累的普查数据集。数据集成具有很大的挑战性是由多种原因造成的,不仅仅因为我们表示现实世界中实体的方式多种多样。为了有效地应对这些挑战,在过去几十年里,数据集成研究者们已经在一些基础问题(如模式对齐、记录链接和数据融合),尤其是结构化数据的研究上,取得了巨大进步。
近年来,我们在将现实世界中的每个事件和交互都捕获成数字化数据方面的能力增长十分显著。伴随着这种能力的增长,我们渴望从这些数据中分析和抽取出价值,从而迎来了大数据时代。在大数据时代,数据的数量和异构性以及数据源的数目,都极大地增长了,而且许多数据源是非常动态的并且质量千差万别。不同数据进行链接和融合会使数据的价值爆炸性地增大,因而大数据要能使我们做出改变社会各方面的有价值的、数据驱动的决策,数据集成是关键。
大数据上的数据集成称为大数据集成。本书探讨数据集成研究界在应对大数据集成带来的新的挑战方面已经取得的进展。它的目的是可以作为研究者、从业者和学生想要了解更多关于大数据集成的一个起点。我们试图覆盖该领域内各种各样的研究问题和工作,但显然要全面覆盖这样一个动态发展的领域是不可能的。我们希望本书的读者能对这个重要领域有所贡献,帮助发展大数据的美好愿景。
致谢本书在成书过程中得到了许多人的帮助。衷心感谢Tamer?zsu邀请我们写这本书,感谢DianeCerra管理整个出版过程,并感谢PaulAnagnostopoulos制作本书。没有他们温和的提醒、定期的推动和提示编辑,本书的完成将花费长得多的时间。
本书的大部分内容从我们在以下学校开的讲习班和会议上做的大会报告演化而来,这些会议和学校包括:ICDE2013、VLDB2013、COMAD2013、苏黎世大学、ADC2014和BDA2014的博士学校。感谢许多同行在报告进行中或之后所给的建设性的反馈。
我们也想感谢许多合作者,他们多年来影响了我们对该研究领域的思考和理解。
最后,感谢我们的家人,他们持续的鼓励和爱的支持使所有的付出更加值得。
XinLunaDong和DiveshSrivastava2014年12月