图林中文译站

架信息之桥 谋图林之善

图林中文译站 header image 2

李爵士谈下一代网络

六月 29th, 2009 · 3 Comments · Featured, 资料解析

原文出处: Tim Berners-Lee on the next Web
翻译:zhxxmu http://deepocean.amoyu.org/ 杨薇 http://blog.xmulib.org/oceansky/
下载演讲视频Watch this talk as high-res video (MP4) 下载视频中文字幕
演讲全文中文版
TED代表着Technology技术,Entertainment娱乐,Design设计。它开始时( 1984年) ,会议将这三个领域的人们聚集起来。自那时以来,它的范围以越来越广泛。

光阴似箭。差不多是20年前,当我想重新构造我们使用信息、协同工作方式的时候,我发明了万维网。20年过去了,现在,在TED,我请求你们帮助创建新的架构。

回到1989年,我写了个备忘录建议一种全球的超链接系统。几乎没有人乐意做,但是,18个月后,革新就是这么开始的,18个月后,老板说,我可以兼职做这件事,就像是拿我们新买来的一台电脑做一种类似游戏的项目。他给了我些时间写代码实现。我草拟了下HTML应该是什么样子,超链接协议HTTP – 关于URLs 的想法,这些事物都以HTTP开头命名。我完成了代码并发布出来。

我为什么要这么做?这是一个充满挫败感的过程。我感到很挫败是因为我作为名软件工程师,工作在这个令人兴奋的超大的实验室中,很多人从世界各地来到这里。他们的电脑各不相同、数据格式各不相同、文件系统各不相同。所以,如果我想在这些差异性很大的东西上建立一点点东西,我都不得不连接到一些新的机器,运行一些新的程序,我能在新的数据格式中找到一些信息。这些都是不兼容的,这非常令人沮丧。这种挫败感却正显示出这个项目的潜力所在。

事实上,这些磁盘里全是文件。所以如果你仅仅把他们想象成天空中某些大型虚拟文件系统的一部分,比如Internet,生活就会简单得多。但是,一旦你有了这样的想法,即使人们并没有读到你的想法,它还是存在于你的皮肤之下,触手可及—事实上他们读到了你的想法,在死后尸体的备份中被发现了。他用铅笔在角落写道“模糊,但是令人兴奋”。(Laughter)

但一般情况下,它是困难的 – 的确很难解释网络是什么样的。现在都很难向人们解释,更别提当初了。但是,当TED开始时,那时没有网络,所以像点击这样的事情含义是不同的。我现在可以向某人展示一大堆超链接,某个包含链接的网页,我们点击一个链接,然后bing — 就会转到另一个超链接的页面。没什么令人印象深刻的。你知道,我们已经见到,通过超链接找到CD-ROMs中的内容。困难的是把他们想象出来。所以,想象那个链接可以到任何实际的你能想象得到的文件。好的,这个跳跃对于人们是很难做到的。然而,一些人做到了。尽管很难解释,但是有一场草根运动。这正是使它好玩的地方。这是最令人激动人心的事情,而不是技术,不是人们用它所作的东西,实际上是一种交流,一种精神,所有这些人聚在一起,发送emails。这是那时的情况。

你知道吗?很有趣,但是现在跟那时候又有点像了。我问每一个人,或多或少都发布过他们的文档。 我说“你能把你的文档放到网络上吗?”。然后,你做了。谢谢。这已经是一场疾风,不是吗?我的意思是,它已经非常有趣,因为我们发现,网络上发生的事情似乎已经把我们吹到了一边。它们已经比我们最初的想象更多,我们最初开始只是把它们放在一起。现在我想让你把你的数据放在网上。结果是还有巨大的可释放潜力。人们仍有很大的挫败感,因为我们从网上得到的数据不是我们想要的数据。

你说的数据是什么?文档和数据之间有什么区别?文档是你阅读的东西。或多或少,你都读过,你可以通过追踪他们的链接,就是这样。数据—你可以通过一台电脑使用各种数据。谁在这里或者其他地方听过Hans Rosling的演讲?一个伟大的 – 很多人已经看过了 – 一个伟大的TED演讲。Hans在他的演示文档中,使用不同的颜色表示不同的国家 – 他在一个轴上显示收入水平,同时他用动画按年份显示婴儿死亡率。他使用这个数据完成了一场演讲并且打破了很多人对发展中国家的经济神话。

他展示了一个类似的幻灯片。它把数据埋在地下,数据是棕色的、四方盒子、无趣的,这就是我们看待它的方式,不是吗?但事实上,数据驱动了我们的生活,因为某些人使用了数据并且做了些事情。在这个例子中,Hans将他从各种美国网站上找到的数据放到一起。他把数据放到一起,将他们组合起来使之比原始数据有趣得多,然后把数据放到这个软件中,这个软件我觉得是他儿子开发的,最终他做出了这个美妙的演示。最后Hans点到“瞧,有大量的数据是非常重要的”。我高兴地看到在昨天的晚会上,他仍然强烈地表示“有大量数据是非常重要的”。

现在我想让大家想想不仅仅是两条数据间的连接,或者像他所说的那样六条数据,而是这个世界上任何人都把数据和可以虚拟化的一切内容放到网络上。然后把他们称为关联数据。这个技术就是关联数据,它是极其简单的。如果你想把什么东西放在网络上三年以上,第一条规则是,需要有HTTP的名字 – 那些东西要以http:开头,我们现在不只用它获取文档,我们使用它们获取和文档相关的东西。我们通过它查找人物、地点,产品,事件等。所有概念化的东西现在都已HTTP开头命名。

第二条规则,如果我有一个HTTP名称,然后我查找它并且在网上做些事情,我可以从网上通过HTTP协议获取数据,我将得到一些有用的、标准的格式化数据,这些数据或许可以帮助人们理解那事情是什么?事件的主人公是谁?关于这个人的所有信息,他们什么时候生的,等等。所以,第二条规则就是我获得一些有用的数据。

第三条规则是,我得到的信息不仅仅是某人的身高、体重和出生日期,还有数据间的关系。数据是有联系的。很有趣,数据是有联系的。这个人出生在柏林,柏林在德国。当数据有联系时,无论何时它表现出这种联系,另一件与之有联系的事物就已HTTP开头命名。所以,我可以直接去找那件事。比如,我查一个人 – 我查他们出生的城市,这个城市的所在区域,城市的城镇,人口等等。这样我就能浏览这些信息。

真的,就是这样。这就是关联数据。我多年前在一篇文章中给它命名为“关联数据”,之后不久,有些事开始发生了。关联数据的想法就像我们得到了很多很多像Hans拥有的盒子,很多很多的事物开始发芽生长。它带给我们的不仅仅是相当多的其他植物。它不仅仅是一个根供给一个植物,而且对于这的每一个植物,无论它是什么 – 一个演示,一个分析,某些人查看数据的样式 – 它们都着眼于所有的数据并且它们把数据联系起来。关于数据真正重要的是你把很多东西联系起来,数据就更加有价值。

所以,关联数据,由此而来。很快,来自柏林Freie大学的Chris Spitzer,做为第一人把有趣的东西放在一起,他注意到维基百科,一部在线百科全书,拥有很多有趣的文档。在这些文档中,有些小方格子和小盒子。在许多信息盒子中,就是数据。他写了 一个程序将数据从维基百科中提取出来,然后将它放到网络上的一个关联数据的blob中,他称之为dbpedia。这张幻灯片中部蓝色的blob表示Dbpedia,如果你去找柏林,就会发现还有其他的blob也包含柏林,它们被链接到了一起。所以,如果你要从dbpedia中摘出关于柏林的数据,你也最终会摘出其他内容。令人兴奋的事情是它正在成长。这又是一个草根做的事情,OK?
让我们多想想数据。数据实际上来源于很多很多不同的形式。想想网络的多样性,很重要的一点是网络允许你将各式各样的数据放在一起。说到数据,我能说出各种各样的数据。我们可以说政府数据,企业数据真的很重要,还有科学数据,个人数据,天气数据,关于事件的数据,关于谈话的数据,还有新闻和各种类似的东西。我只提到了一小部分数据,你们就可以看出其多样性,所以你可以看到其中的潜力。

让我们从政府数据说起。巴拉克奥巴马在一次演讲中说道,美国的政府数据将在互联网上以一种可访问的形式被应用。我希望他们把这些数据做成关联数据。这非常重要,难道不是吗?不仅仅是为了透明性,透明性对政府很重要,而且数据,尤其是从政府部门出来的数据更重要。想想有多少关系到在美国如何生活的数据。它的确很有用,也很有价值。我可以把它用在我的公司。我可以像个小孩子般把它用在我的家庭作业中。所以,我们谈论的是将这些数据变得有用,从而使世界变得更好。

事实上,如果你们有责任,如果你们知道政府部门的某些数据,你常常发现,这些人会被这些数据吸引,Hans称之为拥抱数据。你拥抱你的数据库,你不会放它走,直到你为它建立了一个漂亮的网站。嗯,我想建议的是,除了建一个漂亮的网站,没人说不要建漂亮的网站。建一个漂亮的网站,首先要给我们纯粹的数据,我们要的是数据。我们要纯粹的数据。OK,我们不得不要求原始数据了。我要请你们练习一下,OK?请说“原始”
(听众:原始)
Tim Berners-Lee: 请说“数据”
(听众:数据)
TBL:请说“现在”
(听众:现在)
TBL:好了,raw data now
(听众: Raw data now!Raw data now!)

这样练习是非常重要的,因为你不知道那些拥有数据的人有多少理由拒绝将数据给你,甚至你作为一个纳税人是为此付了钱的。这不仅仅存在于美国,全世界都有。也不仅仅在政府,当然也存在与企业。

我还想再谈谈关于数据的其他想法。我们现在在TED,我们一直对于人类社会现在面临的问题有所警觉 – 癌症治疗,了解阿尔茨海默病,了解经济好让它稳定点,了解世界是如何运转的。那些致力于解决这些问题的科学家,他们脑海中有些还不成熟的想法,他们试图在网络上与他人交流。但是现状是很多人类的知识现在都在数据库中,放在他们的电脑里,目前并没有共享。
事实上,我就从一个方面来说明 –以药物发现为例,如果你正在研究阿尔茨海默病,这个领域具有相当多的刚刚出现的关联数据,因为这个领域的科学家们意识到关联数据是一种很好的方法,可以帮助他们摆脱数据孤岛,因为他们在一个数据库中建立了基因图组,他们在另一个数据库中建立蛋白质数据。现在,他们将基因图组和蛋白质数据形成了关联数据,他们可以问排序的问题,也许你不会问,我不会问,但是他们会。哪些蛋白质参与信号转导并且也和锥体神经元相关?当你将这个问题放到Google上搜索,当然你得不到任何结果,因为之前没有人问过这样的问题,自然没有回答结果的页面。你得到了223.000个结果,但是没有一个你用得上。你再看看关联数据,现在他们已经被放到了一起,命中32个结果,你们看看,每一个结果都是与你需要的特征相关的蛋白质一个科学家所质询的问题大多都是跨学科的问题,而他们质询这些问题的能力发生了完全的C-变化。这是非常非常重要的。科学家们那时完全陷入了困境 – 那些其他科学家搜集的数据,其价值被锁起来了,我们需要将之解锁,以便处理那些大问题。

现在,如果我继续像这样,你将会认为那些从大机构出来数据和你没有一点关系。但是,这种想法并不对。事实上,数据跟你生活相关。你刚刚登陆了你的社会化网络站点,你最喜欢的一个,你说“这是我朋友”。Bing!联系,数据。你说“这副照片,是这个人的”。Bing!那是数据。数据,数据,数据。每次你在社会化网络上做的事,社会化网络站点就获取数据并利用它。重新设计数据的目的是为了让这个站点的其他人过得更有趣。但是,当你上另一个关联数据网站,假设是一个旅游网站,你说“我想把这张照片发给那个组里的所有人”,但你却翻过。经济学家曾经写了一篇关于这个问题的文章,并且许多人也发了相关博文巨大的挫败感。打破孤岛的方式是实现社会化网络站点之间的互操作。我们需要通过关联数据做这件事。

最后一种我将要谈到的数据,也许是最令人激动的。在我来这之前,我通过OpenStreetMap查找了一下。OpenStreetMap是一个地图,但同样也是一个维基。放大这个方块,这是一个剧场,就是我们现在所处的地方,Terrace剧场。它现在还没有被标上名字。所以我可以到编辑模式,选择剧场,然后在底下填上名字,然后保存它。现在你再去访问OpenStreetMap.org,你找到这个地方,你会发现它现在有名字了。这都是我做的。我在地图上做的,刚刚做的。我把它放在那里。嗨,你知道吗,这个街道地图,也就是所有人标注的内容,将会产生难以置信的资源,因为不光我,其他每个人都这么做了。这就是关联数据。关联数据就是将人们所产生一点内容都联系起来。你做一点,每个人都做一点。可能你自己没有很多数据放在关联数据中,但你知道你需要它。我们已经在实践了。

关联数据是非常巨大的。我只能告诉你很小一部分。我们生活的每个方面、工作的每个方面、快乐的每一个方面都有数据。不管是数据出处的有多少,关键是把它联系起来。当你把数据联系起来,你能从这样的方式中获取在网络或文档中无法获取的能量。你能从中得到巨大的能量。现在我们处在必须要做这件事的阶段 –那些认为这是一个伟大的想法的人们。而且,所有人,我想在TED的大部分人,他们做事情并不是为了要使投资得到立即的回报,因为只有当每个人都这么做了才会有所回报。而是因为他们希望大家一起参与进来从而让事情变好的那一类人。OK,这就是关联数据。我希望你做,我希望你需要它,我也认为这个想法值得宣扬。

谢谢(Applause)

下载演讲视频: Watch this talk as high-res video (MP4) 下载视频中文字幕

感谢厦门大学饭团的无私共享,感谢kevenlw的推荐!

Tags:

3 responses so far ↓

  • 1 keven // 六 29, 2009 at 9:33 下午

    谢谢!

    [回复]

    Guofu 回复:

    感谢小薇和zhxxmu的劳动,感谢sogg的传输,感谢互联网的便捷!

    [回复]

  • 2 gsls // 七 4, 2009 at 2:03 上午

    棒!

    [回复]

Leave a Comment