关联数据问答(Linked Data FAQ)

原文出处:http://structureddynamics.com/linked_data.html
翻译:李佳佳 审校:张春景 刘炜
关联数据是语义万维网第一种可行的表达形式,实用且可操作,适用于各种形式的数据。

蒂姆•伯纳斯-李(Tim Berners-Lee)在《关联数据的设计问题》中所提到的关联数据四原则,以及维基百科上有关关联数据的介绍,都给出了关联数据大致能够被接受的、正式的或官方的定义。以这些定义为基础,为了更为精确地说明关联数据,本站(Structured Dynamic)采用如下定义:
关联数据是一组最佳实践的集合,它采用RDF数据模型,利用URI(统一资源标识符)命名数据实体,来发布和部署实例数据和类数据,从而可以通过HTTP协议揭示并获取这些数据,同时强调数据的相互关联、相互联系以及有益于人机理解的语境信息。

以下内容涉及的“关联数据”,都符合上述定义。

常见问题及解答

1. 关联数据是否一定要用RDF?
2. 发布RDF足以创建关联数据吗?
3. 如何发布或部署关联数据?
4. 关联数据只是语义万维网的另一种表述,或者是语义万维网的另一个商标吗?
5. 关联数据只能应用于实例数据吗?
6. 本体在关联数据中扮演什么角色?
7. 关联数据采用的是集中式的方法,还是联邦式(federated)式的方法?
8. 在联合(federating)关联数据的时如何维护语境?
9. 开放数据是关联数据的前提吗?
10. 遗留数据可以表示为关联数据吗?
11. 企业数据,公开数据和公共数据可以混合成关联数据吗?
12. 如何查询或获取关联数据?
13. 如何对关联数据进行访问控制或安全维护?
14. 企业能够从关联数据中获得哪些益处?(或者企业为什么要使用关联数据?)
15. 早期的关联数据应用或使用于哪些方面?

1. 关联数据是否一定要用RDF?
是的,一定要用。尽管其他方法也可以建立基于主体-谓词-客体(subject-predicate-object)结构的一阶谓词逻辑模型,该结构是资源描述框架(RDF)数据模型的核心,但RDF是基于W3C一系列开放标准。RDF和一阶逻辑之所以强大,在于它的简单性,并有能力表达复杂的模式和关系,适合为现有的各种非结构化、半结构化和结构化数据框架建立模型。

2.发布RDF足以创建关联数据吗?
并非这样。关联数据只是一套应用了RDF模型的技术,这个模型要求以URIs命名所有的对象,并能够通过HTTP协议访问获取(也有一些其他考虑,参见上文定义以及下文的进一步讨论)。
一些厂商和数据提供者声称支持关联数据,但是如果他们的数据不能通过HTTP获取,并使用URI作为数据对象的标识,这些数据就不是关联数据。幸运的是,这些数据可以比较直接地将非标准的RDF数据(non-compliant RDF)转化为关联数据。

3.如何发布或者部署关联数据?
关于如何发布关联数据有许多不错的参考资料,例如《如何在网络上发布关联数据》(How to publish linked data on the web)教程和白皮书《部署关联数据》(Deploying linked data),该白皮书采用了OpenLinks Virtuoso软件作为例子。除此之外,还有一些使用URI的推荐方法,比如W3C的工作草案《语义万维网的“酷”URIs》(Cool URIs for the Semantic Web)。
但是,目前还没有指南性的文档,能够符合上述定义,同时强调数据类和语境的匹配。很多公司和专业顾问目前能够提供这方面的帮助。
关键之处在于积极地使数据单元之间的联系具有一定的语义(属性或关系,即三元组中连接主客体的“谓词”),它利用URI进行对象标识,并通过HTTP协议进行揭示(expose)和访问。

4. 关联数据只是语义万维网的另一种表述,或者是语义万维网的另一个商标吗?
绝对不是,虽然这个问题目前是产生许多困惑的源头。
语义万维网可能最好被理解为一种愿景或者目标,希望机器代理可以使用经过富语义标注的数据来创建链接,找到信息或者自动地在背后替人做事。虽然那我们正在朝着这个目标努力,但是按此解释,语义万维网更多的是一种过程而不是状态。如果认识到语义万维网是一种愿景或者目标,我们就能理解类似“Web 3.0”之类的标签未免过于简单而且片面。
关联数据是一类实践活动,如果把从最初的文件网络(Web of Documents)到如今的语义万维网愿景看成一个频谱的话,关联数据处于其中部靠前的某个位置。
关联数据已经呈现在诸位眼前,可行而且实用。可以用它来建立有意义的语义连接,并实现很多其它好处(如下文所述),但后台的自动推理以及自主行为目前还不能实现。
严格地讲,在语境信息的Web访问和语义万维网的长期愿景尚无着落的前提下,关联数据提供了一种可行的最佳方案。

5. 关联数据只能应用于实例数据吗?
绝对不是,尽管早期的一些实践都是这样应用的。
IBM的Dr. Anant Jhingran非常正确而有说服力地指出,关联数据是人、实例和模式相互影响和相互作用的结果。以他的角度来看,早期的关联数据以维基百科这样的实例数据为主,缺少对企业所需要的模式关系的描述。人的因素包括联系、协作以及妥协认可等,这就要求数据之间首先建立信任和权威关系。
对于本站(指Structured Dynamics)的词表,类层次的映射将使整个领域急剧膨胀,产生的信息价值类似于梅特卡夫定律,即网络的价值是类链接数量的函数[注]。尽管关联数据社区都知道这一网络效应,但目前在关联数据应用中还没有体现多少,如同Anant所指出的,模式定义了企业过程和知识结构,展示模式(类)的各种关系将成为关联数据界今后重要的工作。

6.本体在关联数据中扮演什么角色?
相对于RDF,本体是构成上文中所提到的那些模式的词汇和结构。本体定义了类和实体,以及谓词(属性)关系,这些可使遗留的模式和数据转化成关联数据图。
现在有很多公开的RDF词汇及本体,当语义与现有遗留系统能够匹配的时候应该尽可能重用。但是企业仍然需要特殊的本体来反映他们自己特有的数据和信息关系。
尽管本体这一术语刚出现时听起来挺唬人的,但事实上本体并不复杂,而且比企业所熟悉的标准的关系模式更简单更强大。如果你愿意,简单地将模式一词替换为“本体”,你其实是在描述同一件事情,只不过是在RDF语境中。

7.关联数据采用的是集中式的方法,还是联邦式(federated)的方法?
两者都不是。事实上,尽管关联数据的推理及证明根植于联邦式的、广泛的、分散的数据源中,并且这些数据源在存在格式和结构上也有很大差异。
因为关联数据是表达、揭示和发布数据的一整套技术和最佳实践的集合,因此它可以很容易地应用在集中式环境中,或者在联邦式环境中。
然而,真实世界中任何可能相关的数据,都可以通过不同的、分布的,因而是联邦的方式进行定义,从而获得相互联系。由于RDF数据模型以及Web数据表达和获取技术的普遍性,关联数据是一个极好的载体,最终可以实现数据无障碍的整合和互操作。

8. 在联合(federating)关联数据的时,如何维护语境?
最简单的情况是两个数据源指向完全同样的实体或者是有同样标识的实例。在这种情况下,用标准的SameAs谓词来声明两者之间的等同性。
更为重要的一种情况是多个数据源都是“关于”一些相类似的主题或者概念,这种情况下采用“定义良好”的参考类。此外,如果这些实例可以自行表达为图表的结构,描述了概念之间的关系,我们就可以在概念信息空间中有一些固定的节点,以将这些分离的数据进行关联并联系在一起。更进一步,这样的概念结构也可以提供人物、地点、事物、组织、事件等个体实例之间的关联。
任何参考结构都是由相互联系的多个概念类组成,从而提供了普遍联系的“胶水”和支撑。
本网站(Structured Dynamics)提供了一个开源的类似结构UMBEL,由21000个主题概念节点,UMBEL来源于OpenCyc知识库。这些一般的参考结构经常与更为具体的领域概念本体共同提供特定领域的语境。

9. 开放数据是关联数据的前提吗?
不,当然不是。
然而,到目前为止,确实存在这样一种情况:关联数据以公开的Web数据形式存在,且期望通过开放数据open data运动公开更多的数据。但是没有什么技术原因阻止私人的、私有的或订购的数据成为关联数据。
大概18个月前关联开放数据(Linking Open Data:LOD)小组成立,它以开放数据来展示关联数据技术。与之对应, François-Paul Servant提出“关联企业数据”(Linking Enterprise Data,参见幻灯片slides)来说明关联数据不只用于开放数据。
例如,利用关联数据(不是严格的关联开放数据),两个或者两个以上的企业或私人团体可以合法地通过HTTP在私有网络上交换私有的关联数据。又例如,关联数据可以在不同部门之间利用内联网进行交换。
只要能够支持URI命名,HTTP访问和关联谓词这些规则,该方法就可适用于关联数据。

10.遗留数据(legacy data)可以表示为关联数据吗?
绝对可以。事实上,非事务处理型的遗留数据恐怕只有表达为关联数据,才能继续体现其的价值。参见第十四条。

11. 企业数据,公开数据或者公共数据可以混合为关联数据吗?
当然可以。因为关联数据可以应用于任何数据格式,来源或者模式,所以它最适用于整合防火墙内外部的数据,无论是开放的还是私有的。

12. 如何查询或获取关联数据?
关联数据的基本查询语言是SPARQL (发音为“Sparkle”),可以认为是适用于RDF数据查询的SQL语言。实际应用的RDF数据仓储还需要在这个三元组基础上增加第四维,用以表示命名空间,这样能带来访问和规模扩展之后的效率。这类系统因此得名“四维存储”。此外,还可以在SPARQL查询之前对数据进行过滤,可以进一步提高效率,。
SPARQL的模板查询以及其它技术可以快速高效地部署Web服务和报表,这是本公司(Structured Dynamics)和其它类似公司经常采用的技术。例如UMBEL Web服务就是采用这种SPARQL模板进行表达的。
这种SPARQL模板方法也可以与Fresnel之类的模板标准结合使用,从而绑定实例数据并显示这些模板。

13.围绕关联数据如何进行访问控制或者安全维护?
按照Structured Dynamics的观点,访问控制或安全管理应该在HTTP的访问和协议这一层实现,而不是关联数据层。因此,适用于一般网络访问和安全方面的政策和规程同样适用于关联数据。
然而,标准数据层或Web服务器的可访问性和安全性可以通过对数据宿主系统的选择而得以提高。例如,Structured Dynamics采用了OpenLink的Virtuoso universal server,具有经过实践证明的强大的安全机制。此外,使用RDF本体来表达安全和访问政策也是可能的。这些潜在的发展方向基本上都独立于关联数据技术。
关键问题是关联数据并不存在独特的、区别于标准的Web访问控制的安全特征。假设一个链接指向一个受限或被控制的数据对象,最终就不会为那些受限制的用户显示访问结果。

14. 企业能够从关联数据中获得哪些益处?为什么要采用关联数据?
企业界广泛采用电子信息系统以来已经有30多年历史了,长期梦寐以求的“圣杯”——即整合所有数据的访问——已然呈现。因为有了关联数据,这一愿望即将实现。以下是关联数据为企业带来的种种关键性的好处,同时这些好处也成为企业采用关联数据绝好的理由:
RDF模型,可以同样地应用于非结构化、半结构化和结构化的数据与内容。
消除内部数据相互分隔的“仓储”(silos)。
整合内部和外部数据。
易于在企业、行业、开放订阅和开放数据之间进行连接。
对遗留模式的数据实现完全的模型化。
可以很容易地对现有模式进行灵活更新和变更。
不再需要因为商业模式的改变或者并购而重构遗留的数据模式。
基于模板和查询的报表创建和数据呈现,不再需要人工操作。
数据访问、分析和操作并推送到用户层。
采用现有的数据库管理程序和设施进行内部关联数据存储的能力。

15.早期关联数据应用或使用在哪些方面?
关联数据非常适用传统的知识库或者知识管理应用系统。近期在事务性或者资料处理方面应用的不多。
还有一种特殊的应用,是利用网络链接实现现有的内外部内容的联系,已达到使已有资源增值的目的。

感谢译者授权本站发布!

《关联数据问答(Linked Data FAQ)》上有2条评论

发表评论

电子邮件地址不会被公开。 必填项已用*标注


*