数据科学发展简史

我正在研究作为一门学科与一种职业的数据科学的产生与发展,以下是我所罗列的一些具有里程碑意义的事件,这些事件记载了“数据科学”这一术语的发展历程,包括概念的界定以及相关的发展情况。如果有人能够进一步补充一些事件、出版物等,我将非常高兴。

 1974年

彼得·诺尔在瑞典与美国同时出版了《计算机方法的简明调查》,对当时应用非常广泛的一些数据处理方法进行了调查。这本书以国际信息处理联合会(IFIP)出版的《数据处理概念与术语指南》中对数据所下的定义为基础进行展开,指南将数据界定为“通过某种处理程序能够以一种正式方式被传播与控制的事实与思想的表现形式。”诺尔在《简明调查》的序言中写道,1968年IFIP代表大会通过了一份题为《数据科学:数据与数据处理的科学,及其在教育中的地位》的报告。在《简明调查》一书的正文中,“数据科学”这一术语被大量使用。诺尔对数据科学定义如下:“数据科学是处理数据的科学,一旦数据与其所代表事物的关系被建立起来,将为其它领域与科学提供借鉴。”

1977年

国际统计计算协会(IASC)作为国际统计协会(ISI)的一个分支组织正式成立。“IASC的使命是整合传统统计方法、现代计算机技术,以及行业专家的知识,以将数据转化为信息与知识。”

1989年

格雷戈里·皮亚捷茨基·夏皮罗组织并主持了第一期“数据库中的知识发现”(KDD)研讨会。

1995年

该研讨会发展成为美国计算机协会知识发现与数据挖掘专业委员会每年举办的一个国际性会议SIGKDD。

1996年

国际分类学会联合会(IFCS)在东京召开了两年一次的国际大会。“数据科学”这一术语首次被用于大会标题中(会议标题为:“数据科学、分类、及相关方法”)。IFCS成立于1985年,由六个具有特定语系的国家级的分类协会组成,其中就有成立于1964年的(美国)分类协会(CS)。这些分类协会的目标在于支持“不同学科的分类理论与实践”研究(CS)、“分类中存在的问题、数据分析、及知识整序系统研究”(IFCS)、“分类与聚类(包括从数据中创建分类体系的系统化方法)研究,及有关统计学和数据分析方法的研究”(CSNA章程)。这些分类协会在其出版物中广泛地运用了数据分析、数据挖掘以及数据科学这些术语。

1997年

《知识发现与数据挖掘》的创刊号中写道:“在数据收集、存储与分布方面所取得的进展产生了对支持数据分析的计算工具与技术的需求。数据挖掘与数据库中的知识发现是一个迅速发展的研究与应用领域,其建立在许多领域的技术与理论基础之上,包括统计学、数据库、模式识别与学习、数据可视化、不确定性建模、数据仓库、联机分析处理、数据优化、以及高性能计算。数据库中的知识发现涉及到数据可扩展性问题,即从原始数据集中提取有用模式与模型的多级知识发现程序(包括数据清理和噪声建模),也涉及到使所发现的模式具有可理解性问题。

2001年

威廉·S·克利夫兰(当时就职于贝尔实验室,现任职于普渡大学统计学系)发表了《数据科学:拓展统计学技术领域的行动计划》,这是一项旨在 “扩大统计学领域的主要技术工作范围的计划。由于这项计划雄心勃勃,且暗含实质性变革,因此这些改变了的领域将被称为‘数据科学’。” 这项计划“为一所大学的院系设计了六个技术方向”:多学科调查研究、数据模型与方法、数据计算、教学法、工具评估及理论研究。克利夫兰将这一拟议中的新学科放在了计算机科学与当前数据挖掘工作的背景中:“数据分析师的受益之处有了限制,因为计算机科学家头脑中关于如何思考、如何处理数据分析结果的知识是有限的,正如统计学家关于计算机运行环境的知识是有限的一样。知识基础的整合将为创新提供一股强大的动力。这意味着当前统计学家处理知识需要依靠计算机,就如同数据科学过去依靠数学一样。数据科学院系应该拥有这样的教职员工:他们在运用计算机处理数据的工作中不断探索,他们与计算机科学家形成合作伙伴关系。”

2002年4月

《数据科学》创刊,刊登关于“科技领域中的数据与数据库管理”方面的文章。“杂志的刊载范围包括数据系统的描述、网络发布、各种应用以及相关法律问题。”《数据科学》由国际科学理事会(ICSU)下属的“科学技术数据委员会”(CODATA)出版。

2003年1月

《数据科学杂志》创刊,“‘数据科学’意味着几乎与数据有关的任何事情:收集、分析、建模…然而,最重要是数据的应用——各种各样的应用。这本杂志专注于统计方法的具体运用…《数据科学杂志》将为所有的数据工作者们提供一个各抒己见、交流思想的平台。

2005年9月

美国国家科学委员会(NSB)发布了一份研究报告:《永存的数字化数据收集:21世纪科研与教育的基础》。这份报告的一项建议指出:“在最大限度上与数据收集管理者和社会协同工作的美国国家科学基金会(NSF),应该采取行动以发展和完善数据科学家的职业道路,以确保研究机构拥有足够数量的高素质数据科学家。”这份报告将数据科学家界定为“对于数字化数据收集的成功管理具有决定性作用的信息与计算机科学家、数据库与软件工程师和程序员、跨学科专家、管理者与专业分析师、图书馆员、档案工作者及其他。”

2008年7月

日本工业标准委员会(JISC)发布了一份最终研究报告,这是一份受委托研究“数据科学家的角色与职业发展,以及为研究社区提供专门数据管理技能的调研与建议”的报告。这项研究的最终报告《数据科学家与管理者的技能、角色与职业构建:当前实践评估与未来发展需求》将数据科学家定义为:“从事研究工作的人——或者,就数据中心的工作人员而言,他们与数据创造者有着紧密的联系——这些人从事创造性的问询和分析工作,使得他人能够处理数字化的数据,并促进数据库技术的发展。”

2009年

由美国国家科学技术委员会(NSTC)科学分委会的数字化数据多部门合作工作组提交了一份研究报告《利用数字化数据的力量为科学与社会发展提供支持》。这份报告指出:“国家需要支持并促进新学科与特殊才能专家的产生,以应对数据在数字保存、持续获取、再利用方面所面临的复杂的、不断变化的挑战。许多学科见证了一种新型的数据科学与管理专家的诞生,他们在计算机、信息、数据科学领域及其他学科领域内卓有成就。这些人是当前及未来科学事业取得成功的关键因素。然而,他们所做的贡献通常不被认可,且他们的职业发展受到限制。实现我们战略愿景的重要挑战包括为数据从业者提供一种有效的职业发展途径,以确保能够满足未来科学发展的需求并抓住机遇,也包括为这些从业者提供适当的报酬和奖励。”这份报告讨论了“新型信息专家”的产生,并列举了一些例子:

  • 数字管理者:对数字收集内容具有广博知识并承担责任的专家
  • 数字档案工作者:有能力评估、获取、鉴定、保存并以数字形式提供记录获取的专家
  • 数据科学家:信息与计算机科学家、数据库与软件工程师和程序员、跨学科专家、专业分析师及其他对数字化数据收集的成功管理具有决定性作用的专家。

2009年5月

迈克·德里斯科尔在《数据极客的三项性感技能》中写道:“随着数据时代的到来,那些能够建模、转换、并可视化传播数据的人——称其为统计学家或者数据极客——将是热门商品。

2009年6月

内森·姚在《数据科学家的崛起》中写道:“正如我们现在所知道的,谷歌首席经济学家哈尔·瓦里安在一月份曾讲到,统计师在未来十年中将是一个热门职业。显然,我完全同意这种说法。即便如此,我想进一步指出,无论从精神上还是从物质上来讲,统计师现在就相当受欢迎。然而,如果你继续阅读对瓦里安的采访,你将发现,他所提及的统计师,事实上是对这些人的统称:能够从大规模数据集中提取信息,并为非数据专家提供有用数据的人。…本•弗莱认为这是一个完全新兴的领域,它将专门知识领域中经常脱节的技能与才能结合起来…[计算机科学;数学、统计学、数据挖掘;图形设计;信息可视化与人机交互]。在Flowing Data 宣传了两年的可视化之后,似乎上述领域的合作越来越普遍,但是更为重要的是,计算机所进行的信息设计边界更接近现实。我们看到数据科学家——能够处理一切数据的人——正从其他人中脱颖而出。

2009年6月

特洛伊·赛德努斯基在LinkedIn上创建了数据科学家群组,作为他的网站datasceintists.com的一个补充。

【更新】

2010年2月

肯尼思•库克尔在《数据,无所不在的数据:管理信息的特别报告》中指出:“…一种新型职业已经出现了,数据科学家,他们融合了软件程序员、统计学家、叙事人/艺术家的技能,在海量数据中掘金。”

2010年6月

迈克·劳克德斯在《什么是数据科学》中写道:“数据科学家将创业精神与毅力、不断创造数据产品的意愿、持续探索的能力以及反复寻求解决方案的能力结合起来。他们有着与生俱来的跨学科性。他们能够应付各种问题,从最初的数据收集与数据处理到得出结论。他们能够跳出固有思维模式,以全新的角度看待问题,也能够解决如‘这里有许多数据,你从中能够得到什么?’这样宽泛的问题”。

2010年9月

希拉里·梅森和克里斯·威金斯在《数据科学的分类法》中写道:“…我们认为提出一个可行的分类法是非常有用的…数据科学家所从事的工作,以时间顺序排列,大致可分为获取、清理、勘查、建模与解析…数据科学显然是综合运用了计算机艺术…统计学与机器学习知识…数学和数据领域中的专门技能,以使数据分析能够顺利进行…它需要在讲求科学的前提下具有创造性的决策能力与开放的思想。

2010年9月

德鲁•康威在《数据科学的维恩图》中写道:“…如果一个人想成为完全胜任的数据科学家,他需要学习很多知识,这不是通过简单地学习课本和教程就能完成的。因此,为使讨论的问题简化,在现有的关于数据科学的研究基础上,我提出了“数据科学的维恩图”(即数据科学的组成要素 译者注)… 包括计算机能力、数学和统计知识、货真价实的专业技能。

2011年5月

皮特·华登在《术语“数据科学”存有缺陷却仍然适用:为什么?》一文中指出:“对于数据科学而言,其研究范围并没有清晰的界定。它只是统计学的一个时髦的新名称吗?我并不这么认为,但是对于数据科学我也没有一个完整的概念。我相信,近年来数据的急剧增加已经使一些新事物若隐若现。我环顾四周,发现一些拥有共同特征的人们并不能被划分到传统的分类标准中去。这些人的工作往往超越了在传统企业和机构中占主导地位的那些狭隘专业,他们处理任何问题都从寻找数据入手,大规模地处理数据,使其可视化,并像叙述故事一样将其展现出来。他们也似乎从数据本身的含义着手,然后寻求解决问题的途径,而不像传统意义上的科学家们首先从选择问题入手,然后再为解决这些问题而寻找数据。

2011年5月

大卫·史密斯在《“数据科学”:名称之争》中写道:“‘数据科学’和‘数据科学家’这两个术语只是在近一年多的时间里比较常用,然而他们发展得非常迅速:现在许多公司正在聘请‘数据科学家’,许多会议都以‘数据科学’的名义召开。但是虽然‘数据科学’这一名称被广泛接受,一些人依然坚持使用更为传统意义上的称谓如‘统计学家’或者‘定量分析师’或者‘数据分析员’…我认为‘数据科学’更好地描述了我们真正从事的工作:计算机运用、数据分析、解决问题。”

2011年9月

哈伦·哈里斯在《数据科学·摩尔定律·魔球理论》中写道:“‘数据科学’被界定为‘数据科学家’所从事的工作。数据科学家所从事的工作已经被很好地诠释了:通过运用统计学、机器学习与相关技术,对数据进行收集、转换,并对结果进行解释、交流与可视化。谁是数据科学家可能是更为基础的问题…我比较认同这样一种观点:数据科学应该由它的从业者来界定,它更像是一种职业道路,而不是某一类别的活动。在我与人们的交谈中,似乎那些将自己称之为数据科学家的人们都有着折中的职业道路,在某些程度上似乎很难表述清楚。”

2011年9月

帕提尔在《创建数据科学团队》中写道:“从2008年开始,杰夫·哈默巴赫和我经常就创建Facebook和LinkedIn的数据与分析团队交流经验。在很多情况下,这些交流都是从具有清晰职业特征的数据科学开始的…我们意识到,随着我们团队的不断发展壮大,我们都需要明确如何称呼我们团队中的成员。‘商业分析师’看似过于局限。‘数据分析师’是一种选择,但是我们觉得这种称谓也许会限制人们可能从事的一些工作。毕竟,我们团队中的许多人都有着深厚的工程师技术背景。‘研究科学家’是一个合理的工作头衔,被诸如Sun、惠普、佳能、雅虎、IBM等公司运用。然而我们觉得大多数研究科学家所从事的项目都是面向未来的、抽象的,他们在实验室中所进行的工作是与产品研发团队相脱节的。如果可能的话,实验室研究可能需要进行多年,才能影响关键产品的开发。然而,我们团队的中心工作是从事数据应用,这将对公司运营产生即刻的、巨大的影响。看来最为合适的称谓就是数据科学家了:那些运用数据与科学创造新事物的人们。”

 【更新】:关于从数据挖掘到大数据的发展历程,格雷戈里·皮亚捷茨基·夏皮罗发起了一场大讨论。请注意,在上述时间段中,我把重点放在了特定提法“科学数据”上,并试图为其定义。

Gil Press 著  王丽华 译

 存档地址:上图学会研究资料 http://conf.library.sh.cn/node/652

 原文:A Very Short History of Data Science(http://whatsthebigdata.com/2012/04/26/a-very-short-history-of-data-science/

发表评论

电子邮件地址不会被公开。 必填项已用*标注


*