图书馆关联数据孵化小组最终报告

(2011年10月25日W3C孵化小组起草)译者:娄秀明,同济大学图书馆

当前版本:http://www.w3.org/2005/Incubator/lld/XGR-lld-20111025/

最新版本:http://www.w3.org/2005/Incubator/lld/XGR-lld/

根据关联数据孵化小组2010年5月至2011年8月的章程(W3C Library Linked Data Incubator Group)规定,W3C 图书馆关联数据孵化小组的使命是通过带动更多的图书馆及相关领域的人参与语义网活动,关注关联数据技术,应用现有的技术成果,共同描述未来合作发展的轨迹,帮助图书馆实现图书馆数据在网络上的互操作。关联数据技术用统一标准描述数据(如用RDF三元组描述数据,能够清楚描述实体之间的关系),用统一资源标识符(URIs或者”Web addresses”))标识数据。图书馆关联数据孵化小组的最终报告描述了图书馆如何遵循语义网标准及关联数据原则,将图书馆的有价值的数据(如书目数据、规范文档、概念模型等)发布到互联网中,实现数据的可视化和重用。

本文档PDF版本下载:http://libspace.org/wp-content/uploads/2011/11/LLD XG Final Report.pdf

作者:

Thomas Baker, 都柏林核心元数据先导 , 美国 (W3C 特邀专家)

Emmanuelle Bermès, 蓬皮杜中心, 法国 (W3C 特邀专家)

Karen Coyle, 美国图书馆协会, US (W3C 特邀专家)

Gordon Dunsire, 美国图书馆协会, UK (W3C特邀专家)

Antoine Isaac, 欧盟和阿姆斯特丹自由大学, 荷兰

Peter Murray, LYRASIS, 美国 (W3C 特邀专家)

Michael Panzer, OCLC, 美国

Jodi Schneider,爱尔兰高威国立大学,爱尔兰,高威

Ross Singer, Talis 公司, 英国

Ed Summers, 美国国会图书馆, 美国

William Waites, 爱丁堡大学 (信息学院), 英国

Jeff Young, OCLC ,美国

Marcia Zeng, 肯特州立大学, US (W3C 特邀专家)

目录

报告的范围

2关联数据技术优势所在

2.1对研究者、学生和用户的影响

2.2 对机构的影响

2.3对图书馆管理者、档案管理者及馆长的影响

2.4对开发者和供应商的影响

3目前存在的问题

3.1传统图书馆数据存在的问题

3.1.1图书馆数据没有整合成为网络资源

3.1.2图书馆的标准只为图书馆机构制定的

3.1.3图书馆的数据以自然语言文本格式为主

3.1.4图书馆和语义网社团对相似的元数据概念往往有不同的术语

3.1.5图书馆技术的改变依赖于系统供应商的开发

3.2图书馆关联数据目前的可用情况

3.2.1与取值词汇和元数据集相比,书目数据集作为关联数据发布的很少

3.2.2可用数据的水平参差不齐

3.2.3跨数据集的关联已经开始,但是还需要进一步的合作和努力

3.3版权问题

3.3.1版权关系比较复杂

3.3.2数据版权视为商业财富

4建议

4.1对图书馆的领导的建议

4.1.1尽可能早的确定哪些数据集可以以关联数据形式发布

4.1.2促成关于开放数据和版权的讨论

4.2对标准制定者及参与者的建议

4.2.1提高图书馆参与制定语义网标准的积极性

4.2.2制定.图书馆数据标准使之与关联数据兼容

4.2.3为图书馆的关联数据量身设计实践模式及宣传最佳实践模式

4.3对数据和系统设计者的建议

4.3.1基于关联数据的功能开发和测试用户服务

4.3.2为图书馆数据集中的款目创建URIs

4.3.3制定管理关联数据词汇和URIs的策略

4.3.4通过重用词汇及建立与已有关联数据词汇的映射描述图书馆的数据

4.4对图书馆员和档案管理员的建议

4.4.1保存和管理好图书馆关联数据元素和取值词汇

4.4.2吸收应用图书馆在长期保存和维护关联数据数据集方面的经验

致谢

参考文献

Appendix A已存在的图书馆关联数据资源目录

Appendix B:相关技术

B.1标识实体而不是用来定位

B.2离散和批量获取信息

B.3在前端将已存在的数据库映射成关联数据和RDF

B.4数据设计者的工具

B.5 SKOS及相关工具

B.6微格式、微数据和RDFa

B.7网络应用框架

B.8内容管理系统

B.9针对图书馆关联数据的网络服务

Appendix C:语义匹配

摘要

根据关联数据孵化小组2010年5月至2011年8月的章程(W3C Library Linked Data Incubator Group)规定,W3C 图书馆关联数据孵化小组的使命是通过带动更多的图书馆及相关领域的人参与语义网活动,关注关联数据技术,应用现有的技术成果,共同描述未来合作发展的轨迹,帮助图书馆实现图书馆数据在网络上的互操作。关联数据技术用统一标准描述数据(如用RDF三元组描述数据,能够清楚描述实体之间的关系),用统一资源标识符(URIs或者”Web addresses”))标识数据。图书馆关联数据孵化小组的最终报告描述了图书馆如何遵循语义网标准及关联数据原则,将图书馆的有价值的数据(如书目数据、规范文档、概念模型等)发布到互联网中,实现数据的可视化和重用。

图书馆关联数据孵化小组的最终报告,以各个机构(小到小型机构大到国家图书馆)从事的关联数据的相关活动为出发点 (见独立报告,图书馆关联数据孵化小组: 用例(Use Cases)),这些用例为报告的总结提供了很好的出发点,如报告中关于图书馆关联数据的优点;关于传统图书馆数据的讨论;关于图书馆关联数据现状;关于图书馆数据的版权问题;关于建议等部分都是建立在用例的分析基础上。报告还总结了当前关联数据技术调研结果以及目前可用的图书馆关联数据资源。(详见报告, 图书馆关联数据孵化小组: Datasets, Value Vocabularies, and Metadata Element Sets).

文档概况

本部分介绍了该文档发布时的情况,该文档也可能会被其他文档取代。该文档由Library Linked Data Incubator Group制定,Final Incubator Group ReportsW3C technical reports index (http://www.w3.org/TR/可获取。

该文档由图书馆关联数据孵化小组(Library Linked Data Incubator)制定。

该报告由作为W3C孵化小组活动成果的一部分而由W3C发布并不等于该文档由W3C认可,也不等于说W3C将投入资源以解决由该文档所提出的问题。参与孵化小组及发布孵化小组报告对W3C的成员都是有益的。

孵化小组的目标是生产能在免税基础上被应用的产品,这正如W3C专利政策(W3C Patent Policy)所定义的。孵化小组的参与者均同意根据W3C专利政策许可协议而提供许可,即允许W3C今后在某W3C推荐文件(W3C Recommendation)中采用孵化小组报告的部分内容。

欢迎通过公开邮件列表(the public mailing list public-lld@w3.org (archive).)对本文档提出评论。

报告的主要建议:

l 图书馆领导要尽可能早的确定图书馆可用开发利用的关联数据,要促进关于开放数据和版权的讨论。

l 制定图书馆标准的机构,要积极参与制定语义网中关于图书馆领域的标准,制定出使图书馆数据符合关联数据要求的标准,宣传推广符合图书馆关联数据要求的最佳实践和设计模型。

l 数据和系统设计者要在关联数据基础上提升用户服务,为图书馆的款目创建URIs,制定管理RDF词汇和URIs的策略,通过重用词汇及建立与已有关联数据词汇的映射,描述本图书馆的数据。

l 图书馆馆及档案管理员等专业人士要保存和管理好图书馆关联数据元素和取值词汇,吸收应用图书馆在长期保存和维护关联数据数据集方面的经验。

1 报告的范围

报告的范围——图书馆关联数据,可做如下理解:

图书馆广泛的定义包括图书馆、博物馆、档案馆等文化机构。图书馆这一术语包含3个不同但又相关的概念:馆藏文献(包括数字文献,可以是任何类型的资源)、场所(文献的所在地)、管理者(负责文献和场所的管理)。

图书馆数据指图书馆中为描述及检索信息资源所产的数字化信息,图书馆隐私政策所包含的信息一般不在范围内。本报告根据数据的使用性能将其分为三类:数据集、元素集和取值词汇(参见 Appendix A)。

关联数据:是一种数据发布技术,根据关联数据原则,关联数据技术的应用是为了方便实现数据集、元素集及词汇集之间的关联[LINKEDDATA]。关联数据使用URI作为唯一标识符标识任何类型的资源,类似于传统图书馆领域如何用于规范控制的标识符。在关联数据中,URIs可能是国际化的资源标识符Internationalized Resource Identifiers (IRIs),是网络地址(Web addresses),该网络地址使用扩展的自然语言脚本,Unicode支持该自然语言脚本。关联数据技术使用统一标准描述数据(RDF),可以明确各实体之间的关系;各实体之间的关系可以用于导航、资源整合。

开放数据:关联数据指的是实现技术上的数据互操作。开放数据关注的是法律成面的互操作。根据开放的书目数据(Open Bibliographic Data,)的定义,开放数据其本质是可自由使用、重用、传播—–最起码可以根据需要进行资源重组和共享。值得注意的是关联数据技术本身并不要求将数据开放,但是该技术的魅力是最大程度的意识到何时该将数据发布为关联的开放的数据。

图书馆关联数据是指图书馆馆中任何应用关联数据技术描述的图书馆数据。

2关联数据技术优势所在

在创建数据和传递数据方面关联数据技术比现行的技术具有很大优势,关联数据技术扩展了图书馆以前使用的共享模型。关联数据特别是关联的开放的数据是可共享的、可扩展和容易重用的。在数据和用户服务方面,关联数据具有支持多语言功能,概念的多语言标签通过language-agnostic URIs标识,以上这些特性是关联数据与生俱来的,并且也是受到数据和概念标识符所支持的。利用关联数据技术各个机构可以合作对资源进行描述,也可以参引其他机构或者个人对资源进行描述的数据。这与当前的文档互连相似,关联数据技术允许任何人或者机构贡献自己专业数据资源,并且允许其他专业机构重用和资源重组。标识符的使用达到不同的描述同时指同一实体的效果,与可信资源的富链接,使得图书馆的数据价值远远大于其原来本身的数据价值。

用统一资源标识符标识作品、地点、人物、事件、主题或者相关概念,利用标识符图书馆的资源可以跨领域的得到广泛的参引,图书馆描述性元数据可以被广泛获取。互联网的域名系统保证了资源标识符的稳定性、可信性和可持续性,这和图书馆的长期保存文化资源的使命是一致的,图书馆和档案馆在为文化事业长期保存可信的描述元数据地位是同等重要的。

重用标识符另一大优势是数据发布者可以将发布的数据信息的部分信息作为“声明”信息。在当前的文档系统中,数据的交换总是以整条记录的形式进行的,每条记录都视为是一个完整的描述,而在图示化的系统里(译者理解:RDF三元组图示),每个机构都可以为资源提供单个”声明”信息,所有关于某一特定标识资源的”声明”都可以整合到一张图示中(译者理解:整合到RDF中),例如,某图书馆为某资源提供了国家书目控制号,而其他机构可能提供了翻译题名,关于该资源描述就可以进行整合。图书馆服务从外部资源获取以上这些“声明”信息,就向图书馆从书的封面题名中获取信息一样。在关联数据系统,不因善小而不为,一个小小的属性可能都是一个发现一个潜在资源的重要关联。

在关联数据集里通过对关键实体的明确标识,然后再通过图书馆名称和主题规范数据,可以帮助减小了书目描述的冗余,减少了图书馆书目数据的冗余。

2.1对研究者、学生和用户的影响

图书馆和文化服务机构的用户可能还没用意识到关联数据的应用,因为这些变化在潜移默化中。但当潜在的结构化数据变成富链接时,用户才可能意识到发现和使用潜在信息资源的能力提高了,跨图书馆及非图书馆资源的导航变的更加成熟完善。利用索引扩展产生的关联可以提高跨库检索水平,为用户可供了更为丰富的浏览途径。

关联数据建立在Web定义的特性之上:从无缝的信息空间抓取浏览链接(URIs),所有的网页和网站就像是一个整体呈现给用户或者应用程序,所有使用URIsRDF描述的数据集就像一个无限关联的RDF图,用户和应用程序通过解析URI链接实现无缝浏览。关联数据对图书馆用户的价值源于这种基本的导航原则。图书馆和非图书馆(如Wikipedia, GeoNames, MusicBrainz, the BBC, 和 The New York Times)之间关联服务将所有的信息集成为一个更大的信息网。

关联数据不是创建一个不同的Web,而是通过结构化数据的增加提高Web的性能。这些结构化的数据,可以通过RDF属性(RDFa)和微数据描述,这在搜索引擎和社会化网络中的爬行算法及相关度逻辑算法中起着重要作用,通过搜索引擎优化(search engine optimization ,SEO)为图书馆提高可视化程度提供了一种方法。把结构化的数据嵌入到HTML网页中方便信息搜索者重用图书馆数据,在管理“参引”数据时就如剪切和复制URIs一样简单。网络资源和图书馆资源之间创建数据的关联,实现关联数据之间的索引检索的自动化,这意味着图书馆的数据完全整合到了研究性文档或者书目数据中。再者,利用关联数据技术建立了多个专业领域之间关联,丰富了知识信息利用跨学科研究。

将已存在的图书馆数据转换成关联数据只是第一步,在学术研究中,论文中介绍的实验使用的数据集及作者处理数据使用的模型也可以发布成关联数据,论文描述集中使用恰当词汇和格式的模型,其实验和数据集都可以被其他研究者复制和重用。

2.2 对机构的影响

通过这种自下而上发布数据的方法,关联数据技术为文化机构(包括图书馆)提供了改善描述资源的机会,提高了价值地位。过去采用自上而下的方式描述图书馆数据例如图书馆的书目记录作为一个独立的整体,因为先前的限制,图书馆的资源不能产生高粒度的信息。有了关联数据技术,同一资源可以以分散的方式有不同的责任者提供不同类型的描述数据,而这些数据可以整合在一起。

关联数据技术可以帮助机构提高内部数据的整合过程,更好的维护数字对象及其描述记录之间的关联。即使机构内部的数据没有完全开放,关联数据技术也可以提高机构内部数据的发布过程。目前的图书馆技术一般专指图书馆的数据格式,一般由图书馆集成系统商提供给图书馆,图书馆一般还是使用主流方法管理关联数据。若是图书馆采用主流的关联数据技术将给图书馆更多的选择供应商的机会,采用关联数据格式图书馆将会获取更多与开发者交流的机会。

关联数据的第一步是走向基于云的方式管理文化信息,这可能比之前封闭系统节省很多成本,将会让各个机构看到降低了基础设施成本的利好现象。

在开放的数据环境中,图书馆提高了在网络中的知名度,被更多的信息检索者所发现。对标识符的关注,使得描述可以被一些机构(如为博物馆、档案馆、美术馆以及视听档案馆)追踪,可以说开放数据提供更多的是机会而不是威胁。在开放许可条件明确的情况下,描述性元数据更易于重用,更易于提高机构的知名度。

2.3对图书馆管理者、档案管理者及馆长的影响

对用户和机构的影响也将直接影响着图书馆和博物馆的专业人员。利用关联数据技术,图书馆创建了开放的、全局性的、可共享的数据,这些数据可被重用描述资源,这减轻了当前的编目流程。

通过Web及标识符的使用编目员可以获取最新的资源描述信息,编目员可以跨越本地库从其他文献数据库甚至从网络上将关于某一资源的信息整合一起,这样他们就可以专注于他们自己的专业领域,而不用重复创在其他机构库里已存在的资源描述了。

历史证明所有的技术都是有寿命的,每一阶段代表性技术都不例外。关联数据描述的数据(包含语义),不受限于数据格式(语法或者格式),因此,保证了关联数据不会被格式的变化所淘汰。从某种意义上说,关联数据比元数据格式更长寿更强大,因为元数据格式依赖于特定的数据结构。

2.4对开发者和供应商的影响

图书馆开发者和供应商将直接从不在受限于图书馆特定数据格式中获益。关联数据使用众所周知的Web协议标准(如HTTP协议),替代图书馆核心协议(如Z39.50信息检索协议),为数据提供者提供了一致方法,支持数据的检索和混搭。

开发者不用再去管数据的格式是ISO2709还是MARC(这些通常都有相对的软件工具和应用程序),而关联数据以机器可理解的方式发布数据。在非图书馆的供应商还在用常用的产品满足图书馆特殊需求时,图书馆供应商可能已经利用关联数据技术将会为自己的产品开拓更广的市场。利用RDFHTTP,图书馆开发者摆脱了针对特殊数据格式开发特殊应用程序的苦恼,通过一般开源软件就可以满足开发需要,开发者发现利用顶层的数据更易于建立新的服务,此外,关联数据技术为图书馆开发人员提供了一个更大的活动空间,加强开发者之间的交流,在RDF的海洋中,没用一个开发者处于孤岛上。

3目前状况

3.1传统图书馆数据存在的问题

3.1.1图书馆数据没有整合成为网络资源

目前图书馆的数据存储在数据库中,虽然有检索界面,但是没有与网络上其他数据资源整合,其实有相当多的书目数据和网络上其他类型的资源,可以在日期、地理信息、人物、机构等方面建立共享数据的节点的。在今后的关联数据环境中,这些数据在相关点上是可以实现互连的。

3.1.2图书馆的标准只为图书馆机构制定的

很多标准如MARC或者信息检索协议Z39.50,都是针对图书馆领域开发的。图书馆领域的标准都是关注图书馆领域的主体执行制定的,如IFLA(国际图联,International Federation of Library Associations and Institutions)或者JSCRDA发展联合指导委员会Joint Steering Committee for Development of RDA)。通过扩大视角带动参与关联数据标准活动,这些主体可以制定数据创建和使用方面有所扩展的应用标准。

3.1.3图书馆的数据以自然语言文本格式为主

图书馆数据中的大多信息都是用自然语言文本编码的。MARC记录中的一些字段用代码值,如定长字符中描述语言的,由于没有明确所有字段应该包括哪些代码字段,因此图书馆系统中大多没有使用代码字段。MARC记录携带的标识符,如ISBNs是可以用来作为关联节点的,前提是将他们从被嵌入的文本字段中提取进行规范化处理。

在独立的文档中一些数据字段(如主题控制和名称规范)是有关联记录,这些记录的标识符可以用来描述图书馆元数据中的实体的。但是图书馆目前的数据格式不支持记录中包括这些标识符,因此大多数图书馆系统目前不支持他们的应用。再者,那些标识符目前倾向于本地而不是全局的,因此其不能像URIs那样在网络上进行关联。图书馆系统在关联方面的不足和缺失是一个重要的问题。规范显示变化要求所有相关记录能被检索到,为此应该改变文本字符串,但这是一个颠覆性和花费昂贵的过程,图书馆往往不能及时的实施。

3.1.4图书馆和语义网社团对相似的元数据概念往往有不同的术语

图书馆关联数据活动的开展还可能因为图书馆和语义网社团在概念和术语方面的差异而受阻。图书馆馆员不熟悉“statements”而语义网领域对于“headings”或“authority control”也缺乏清楚的概念。每个社团都有自己的专业术语,这反映了观点差异。在数据网的建设中所有的社团对重要的专业知识应该相互理解。

3.1.5图书馆技术的改变依赖于系统供应商的开发

图书馆的专业技术集中体现在图书馆系统和软件供应商上,供应商提供的软件和系统担任着图书馆的管理功能,如:采访、用户数据和流通及用户检索服务等。这意味着图书馆若是想大规模的应用关联数据技术,往往依赖于图书馆系统供应商的技术发展规划,而不是自己。

3.2图书馆关联数据目前的可用情况

图书馆关联数据技术的成功与否依赖于参与者在标识、重用或者与可用关联数据源的关联的能力,然而,到目前为止,对可作为关联数据的图书馆数据集和词汇还很难有个整体的概括。关联数据孵化小组列出一个可作为图书馆关联数据的资源目录(见 Appendix A),总的来说,有以下几点情况。

3.2.1与取值值词汇和元数据集相比,书目数据集作为关联数据发布的很少

在过去的几年中,有很多元数据元素集合取值词汇作为关联数据发布出来,其中有标杆影响的是美国国会主题词表(Library of Congress Subject Headings)和杜威十进制分类法(Dewey Decimal Classification)。重要元素集(如:都柏林核心(DCMI Metadata Terms))、参考模型(如:FRBR(书目记录功能需求,Functional Requirements for Bibliographic Records) )已以关联数据或者与关联数据兼容的形式发布。

相比较,目前书目数据以关联数据形式发布的很少,期刊文章的元数据、引用或者流通数据,可以无缝整合和有效利用的元数据较少。先导计划如英国国会书目展示的发布(the release of the British National Bibliography)揭示了目前努力存在的挑战(如授权、数据模型、遗留数据处理与多用户社区协作),然而,其也展示了书目数据作为关联数据的可观效益。随着社团相关经验的增加,相信作为关联数据发布的数据集会越来越多。

3.2.2可用数据的水平参差不齐

现有资源的稳定性及质量良莠不齐。现有的资源多是现行项目的成果,都是描述自己项目的原型,不是成熟的产品,这些展示了图书馆在关联数据活动方面的努力与收获,彰显了利用关联数据快速敏捷发展的过程,这种创造性、动态性的努力与图书馆关联数据资源的需求是平衡的,因为图书馆关联数据资源需要长期的稳定和可用。

越来越多的机构(如:瑞典国家图书馆、匈牙利国家图书馆、德国国家图书馆、法国国家图书馆、美国国会图书馆、大英图书馆、世界粮农组织、OCLC等)致力于关联数据项目研究令人鼓舞,这些机构为图书馆关联数据的发展提供了稳定的基础。

3.2.3跨数据集的关联已经开始,但是还需要进一步的合作和努力

跨数据集的关联彰显了关联数据的优势所在,同时也是关联数据技术成功的关键。据清单(见Appendix A),显示已发布取值词汇之间可以创建多个语义链接,也可以解决图书馆各种规范资源之间的冗余问题,为此需要更多数据集之间和元数据元素之间建立关联,用于描述结构化的关联数据,但目前关键的瓶颈是确定对词汇的长期支持维护,词汇开发者之间缺乏沟通、缺乏降低开发大量所需语义链接成本的成熟工具。为了方便参与者共享知识,因在创建和产生相关关联方面做出更多努力(见Appendix C)。

3.3版权问题

3.3.1版权关系比较复杂

图书馆数据的使用严格按照当地政策、合同和相关条例。数据若是存在不明确和未经验证的版权问题,就会阻碍数据的开放。权利问题各国都有差异,这使得在开放数据合作发布上存在困难。

在过去的五十年图书馆书目记录的共享的版权问题就很复杂,记录经常被复制,复制到本地后又进行修改,这些记录又可能重新聚合成地区、国家或者国际联合目录。在各个代理及机构之间分配合法知识产权是困难的,缺乏确定性阻碍了社团数据的共享,这些社团需要在法律方面比如审查制度、数据保密、和保护方面谨慎思考。

3.3.2数据版权可视为商业财富

若是图书馆数据从来没有与其他机构共享过,其版权仅为代理机构所有,在他们的商业计划中可能将他们的记录视为财富,不情愿将他们的数据发布成关联开放的数据,而是采用传统的自上而下的缺乏的语义的形式发布,当”preferred” 或 “parallel”题名以普通题名发布时,造成的后果是失去了参引的细节信息。

4建议

图书馆应该融入到互联网中,将自己的数据以关联数据的形式发布到网上供大家使用,(走出去),同时也可以将网络上的信息拿来用(拿来主义)。理想的状况,是将图书馆的数据同网上其它资源进行整合,扩大图书馆的知名度,同时也将图书馆的服务提供给信息检索者。在从事关联数据活动过程中,图书馆应该利用图书馆在传统价值(管理、描述资源、满足用户需求的基础作用)上发挥领导作用。

4.1对图书馆的领导得建议

4.1.1尽可能早的确定哪些数据集可以以关联数据形式发布

应该尽早的确定高优先级、低成本的关联数据项目。就其性质而言,关联数据以一种渐进的方式将数据网络化。图书馆的数据环境比较复杂,试图将这种复杂的数据一次性实现关联数据成功性是有限的,然而,也有一些图书馆在没有破坏现有系统和服务的情况下,将自己的数据资源(如规范文档和术语列表)发布为关联数据,这样”low-hanging fruit”的标识使得图书馆在不改变工作流程的前提下,扩大图书馆在关联数据云中的出现频率。

4.1.2促成关于开放数据和版权的讨论

数据版权的定义,版权所有者必须要考虑到限制使用的影响,复杂的限制会制约数据在关联数据环境中的重用。从某种意义上讲,图书馆领导要在图书馆联盟、国家或者国际范围内与作者协商版权和许可协议(参见UK高等教育图书馆开放书目数据指导(Open Bibliographic Data Guide)中的版权与许可协议(Rights and Licensing)章节)。

4.2对标准制定者及参与者的建议

4.2.1提高图书馆参与制定语义网标准的积极性

如果语义网标准不支持图书馆数据具有丰富语义的转换,标准就应该扩展,如,SKOS(将知识组织系统发布为关联数据的一种标准)不包含先组式主题的描述机制,执行者应该考虑解决方案,扩展器基本元素,如:使用OWL网络本体语言。为了确保关联数据的消费者能够理解这种新的结构,执行者应该与语义网社团协作确保这种解决方案和目前的最佳实践兼容,并且可以在图书馆以外的环境中得到最大化的应用。通过参加技术工作组或者参加公开审查活动,图书馆界的成员应该致力于与图书馆相关的标准活动中,如W3C致力于RDF的扩展满足概念“provenance”的表述。值得一提的是W3C各个社团在标准活动中起着重要作用。

4.2.2制定图书馆数据标准使之与关联数据兼容

从根本上讲语义网技术下数据的概念化与二十世纪数据格式形式下得概念化不同。关联数据主要特征是包含语义,实体之间的关系含有语义,而传统图书馆的数据格式,数据的语义和结构化的代码集成在一个数据包中,这导致了数据格式和数据语义不可分割,缺乏灵活性。自从20世纪60年代引进MARC格式,图书馆的数字化数据主要以“记录”为单元进行管理,数据捆绑在一起。关联数据,与之相反,结构化的数据好似图表,其结构原则上是非捆绑式的。两种不同的方式意味着图书馆数据集转换成关联数据是不同的,必须按照与数据设计新原则的相关知识执行。今后,在图书馆数据利用本体和结构化词汇的活动中,需要参考最佳实践文档和指导参与者的秘籍。

4.2.3为图书馆的关联数据量身实践模式和宣传最佳实践模式

设计模式可以建立在前人的经验上。传统的编目实践就是建立了前人的模式和最佳案例基础上,最佳实践在关联数据领域同样实用。Linked Data: Evolving the Web into a Global Data Space 和 Linked Data Patterns为社团实践提供了共享模式方法及使用词汇描述特定资源时的限制条件。目前需要做得是设定一种特定模式满足图书馆关联数据的需求,宣传推广符合图书馆关联数据的最佳实践设计模型。

4.3对数据和系统设计者的建议

4.3.1基于关联数据的功能开发和测试用户服务

关联数据最终可能导致更好的用户服务,同时可能让实施者利用图书馆数据在图书馆之外开发新的应用和服务,可能太早而不能预测什么类型的服务会为信息发现和使用而开发。为了探讨潜在的用例和发现未来信息服务的方向,利用图书馆关联数据实验性的开发服务应该执行。

4.3.2为图书馆数据集中的款目创建URIs

图书馆中的资源和标准概念若是没有用URIs(URI是用来标识现实世界实体real world objects)标识,是不能在关联数据环境下使用的。资源和标准概念的所有者应该尽早的为其分配URIs,因为应用开发者和其他用户不会推迟自己的活动,他们可能会自己制定URIs,而不使有属者的URIs。为了避免同一实体有多个URIs,及鼓励已分配的URIs被重用,当所属者没有及时分配URIs时,其应该寻求合作者或者转让或者委托他人维护URIs。

一些机构(如国家书目)对编目记录和其他元数据的创建负有责任,应该在资源描述创建URIs方面其主导作用。

4.3.3为管理关联数据词汇和URIs制定策略

机构或个人为资源和标准概念创建和维护URIs,倘若能制定域名策略,他们将会从中获益。域名策略保证了URIs得一致性、稳定性,提高了效率和效果。策略如下:

  • 使用URIs定制模式,最好是基于最佳实践指导
  • 保证URIs的持久性
  • 词汇和款目的版本控制
  • 使用HTTP URIs超文本传输协议,支持任何Web浏览器,而且任何网页或者机器可读的陈述都能处理
  • 其他组织的词汇可以扩展
  • 可以将标签或者注释转换成其他语言

4.3.4通过重用词汇及建立与已有关联数据词汇的映射描述图书馆的数据

为了最大限度的与其他数据集关联,图书馆数据集必须使用关联数据术语(属性、类、实例)描述,这样的话在广阔的关联数据空间中可以具有良好定义的语义关系,主要通过两种方式实现:一,基于已有的标准使用关联数据词汇;二,在图书馆领域的关联数据术语和其他社团的术语之间定义明确的关系(语义)(详细讨论见Appendix C.))。

4.4对图书馆员和档案管理员的建议

4.4.1保存和管理好图书馆关联数据元素和取值词汇

许多关联数据词汇对文献参考非常重要,提供了在地区、国家或者国际背景下,关于人物、地点、事件、概念得规范信息,因此,在文化机构活动中保存关联数据词汇是自然而然和重要的。只要URIs持续存在并且可以解决语义问题,关联数据可能会持续可用二十年。无论是现在还是将来,元素集和属性词汇同项目保存同等重要,这揭示了图书馆在关联数据生态系统内保存和管理元素集合取值词汇的重要性。

4.4.2吸收应用图书馆在长期保存和维护关联数据数据集方面的经验

目前大部分关联数据中的内容是可用数据集点对点一次性转换成RDF的结果,但是缺乏定期检查和更新。在质量控制和承诺长期维护的影响下,图书馆在重要的关联数据功能扩展上有着重要机会。将资源描述成在数据集内部关联对象,图书馆将会从其他社团开放数据中获益,为资源添加附加的属性信息,以系谱或者传记资料添加关联为例,可以为资源添加丰富的描述,这些信息是图书馆没有的,并可以提高图书馆文献资料的查找和导航功能。

致谢

除了编辑,图书馆关联数据小组还包括其他成员,没有他们的努力报告也不会完成,成员有:Alexander Haffner, Alexandru Constantin, András Micsik, Andrew Houghton, Anette Seiler, Asaf Bartov, Bernard Vatant, Brian Kelly, Carlo Meghini, Dan Brickley, Daniel Vila Suero, Dickson Lukose, Felix Sasaki, Fumihiro Kato, Glen Newton, Guenther Neher, Herbert Van De Sompel, Hideaki Takeda, Ikki Ohmukai, Joachim Neubert, Jon Phipps, Jonathan Rees, Kai Eckert, Kendall Clark, Kevin Ford, Kim Viljanen, Kosuke Tanabe, Lars Svensson, Laszlo Kovacs, Marcel Ruhl, Mark van Assem, Martin Malmsten, Michael Hausenblas, Mike Bergman, Monica Duke, Nicolas Delaforge, Oreste Signore, Ray Denenberg, Renato Iannella, Stu Weibel, Tod Matola, Uldis Bojars, Wolfgang Halb.

社团评论帮助我们修订了报告,特别感谢Adrian Pohl, Alan Danskin, Catherine Jones, Ed Chamberlain, J. McRee Elrod, James Weinheimer, Jennifer Bowen, Jody DeRidder, Juha Hakala, Laura Krier, Laura Smart, Lukas Koster, Nicolas Chauvat, Patrick Danowski, René van der Ark, Romain Wenz, Roy Tennant, Teague Allen.

参考文献

[LINKEDDATA]

Linked Data, Tim Berners-Lee, World Wide Web Consortium, accessed 18 October 2011. See http://www.w3.org/DesignIssues/LinkedData.html.

[RDF]

Resource Description Framework (RDF), World Wide Web Consortium, accessed 18 October 2011. See http://www.w3.org/RDF/.

[URI]

RFC 3986 — Uniform Resource Identifier (URI): Generic Syntax, T. Berners-Lee, R. Fielding, L. Masinter, The Internet Society, January 2005, accessed 18 October 2011. See http://tools.ietf.org/html/rfc3986.

[USECASE]

Library Linked Data Incubator Group: Use Cases, Daniel Vila Suero, Editor, W3C Incubator Group Report, 25 October 2011. See http://www.w3.org/2005/Incubator/lld/XGR-lld-usecase-20111025/. Latest version available at http://www.w3.org/2005/Incubator/lld/XGR-lld-usecase/.

[VOCABDATASET]

Library Linked Data Incubator Group: Datasets, Value Vocabularies, and Metadata Element Sets, Antoine Isaac, William Waites, Jeff Young, and Marcia Zeng, W3C Incubator Group Report, 25 October 2011. See http://www.w3.org/2005/Incubator/lld/XGR-lld-vocabdataset-20111025/. Latest version available at http://www.w3.org/2005/Incubator/lld/XGR-lld-vocabdataset/.

Appendix A已存在的图书馆关联数据资源目录

可用词汇的复杂性、多变性、交叉关系、从属关系、和并列关系,导致了重用的不确定性,这对图书馆关联数据的成功是至关重要的。很多人特别是图书馆的专业人员不熟悉图书馆领域可用的关联数据集和词汇,因为这些词汇是在语义网研究社区中开发的。 当前全局性的观点对初学者了解图书馆关联数据概况及专家迅速查找或者温习图书馆关联数据项目都有帮助。

因此,关联数据孵化小组列出了一个图书馆领域可用于创建或消费关联数据的有用资源[VOCABDATASET],这个清单可在separate document获取。该清单表明了诸多领域最先应用语义网技术、关联数据原则及技术开发成熟的数据集和词汇,清单还指出了图书馆及相关机构可以在哪些方面做出重要成果。最后,文档试图为关联数据社团提供理解可用于图书馆的具体观点、资源、数据机会,帮助图书馆和信息科学专业人士根据自己的传统情况把握关联数据的概念。

关联数据技术有别于传统的图书馆数据概念,本报告将可用的资源分为三个并非互相排斥的类,如下:

● 数据集:描述图书馆相关资源,如英国国家书目、匈牙利国家图书馆目录开放图书馆, CrossRef, Europeana;

● 取值词汇,如美国国会主题词表、AGROVOC、 虚拟国际规范挡(VIAF)、 杜威十进制分类法(Dewey Decimal Classification)、GeoNames;

● 元数据元素集:如都柏林核心元数据术语(Dublin Core Metadata Terms)、 RDA(资源描述与检索,Resource Description and Access)元素、 简单知识组织系统(Simple Knowledge Organization System ,SKOS)、关于朋友的朋友词汇(the Friend of a Friend vocabulary ,FOAF)。

从各个取值词汇中重用的数据集元素,其结构化根据元数据元素集的需要设定。例如:英国国家书目数据集重用了美国国会图书馆主题词汇中的concept,属性重用了都柏林核心元素集。这些实例都有一个简单的描述,网上附有相关链接,并且和本孵化组收集的用例之间也设有链接。

我们的成果是为了提供一个可供广泛使用的数据集,然而,我们的报告目前还没有完全获取当前的数据集,特别是考虑到关联数据的动态性,不断有新的可用资源添加进来,而且已经存在资源可能还会有定期更新。为了获取一个整体的情况,我们从我们可以获取的使用案例上着手,将来不断增加的资源有参加孵化小组的专家提供,这样确保新增的关键资源及时提供给大家参考而不被忽视。

为了保证报告具有长远意义,在孵化小组工作结束后,我们还会不断提供了大量可用工具和更新信息的网站给大家,值得一提的是我们成立了一个图书馆关联数据小组(Library Linked Data group),来收集图书馆相关关联数据集的信息,站点是http://ckan.net/group/lld, 由the Comprehensive Knowledge Archive Network (CKAN)维护,该站点是一个数据中枢(The Data Hub),收集了大量开放数据的数据包。我们希望在孵化小组结束后,有图书馆关联数据社团来维护该CKAN站点。

Appendix B:相关技术

关联数据技术是一种新出现的技术,因此很多工具都在开发中。关联数据的原则(principles of Linked Data)没有和任何工具绑定,而是直接和网络标准一致。大多情况下,产生和消费关联数据不需要另外开发,而是在已有应用的基础上进行的。列表包括的技术和工具并不详细,但大概描述了几类情况。从非技术的角度看,这些技术是相关的,他们都鼓励创造和发现可重用的词汇,或者提供一种重用(语义)声明的方法。

B.1标识实体而不是用来定位

在网络发展初期,并没有明确 HTTP URIS是否应该用来标识实体,而是关注定义新的URI模式如URNs“info” URIs,那些不确定性最终有W3C统一资源标识符兴趣小组的报告(RFC 3305)和W3C Technical Advisory Group关于“HTTPRange-14”.问题上得到解决。在关联数据范例中,HTTP URI是用来标识现实世界实体(real world objects),然而很多应用程序是建立在其他标识模式中的。使用owl:sameAs 属性是个不错的选择,可以解决非解析的URI模式映射成等同的HTTP URI,即使不这样做,非解析的URISRDF 和 SPARQL.仍然是有用的。

B.2离散和批量获取信息

关联数据的原则是2006年提出的,促成了2008“Cool URIs””概念的产生。关联数据标识符的特别之处,在于人和机器可理解和处理的,并且可以获取其他用例的关联信息,DBpedia关于(http://dbpedia.org/resource/Jane_Austen Jane Austen)就是一个很好的例子。解析URIs对自由使用、诊断数据、发现潜在资源意义重大,但是离散的HTTP GET请求对有大量数据集来说是不切实际的,幸运的是关联的数据集以RDF dumps格式发布,并且使用VoID 词汇(Vocabulary of Interlinked Datasets (VoID))描述。

B.3在前端将已存在的数据库映射成关联数据和RDF

相关用例: Cluster VocAlign

不像传统的XML文档的呈现方式,作为关联数据发布的资源摆脱了use-case-specific层次结构的限制,可以自由重用,这不仅使得信息容易使用mash up,而且工具和服务也容易mash up,这对关联数据的生产者及消费者都是有用的,例如,已存在的关系型数据库可以转换成关联数据及使用D2R Server服务器的SPARQLW3CRDB2RDF工作组(W3C RDB2RDF Working Group)目前致力于此类映射标准研究。类似的情况有SRU数据库(SRU databases)通过重写规则(rewrite rules)转换成关联数据。如果在SPARQL终端资源已经得到描述,那么关联数据前端(如Pubby)可以自动分析Cool URI内容协议。XSLT (Extensible Stylesheet Language Transformations) 可以将传统的 XML 转换成RDF/XML。

B.4数据设计者的工具

相关用例:Vocabulary alignment cluster

应用纲要(Application profiles)定义了社团实践如何定义域名模型和在描述某类资源重用词汇所需的模型。OWL web本体语言(OWL Web Ontology Language)提供跨词汇并列关系的描述,允许专家用该领域的术语描述,而又能同相关术语实现互操作。与OWL相关的工具可以在RDF wiki 和 OWL wiki网站发现了。UML(统一模型语言,Unified Modeling Language (UML))帮助设计人员描述和操作可视化领域模型。 ODM(本体定义元模型,Ontology Definition Metamodel)可以弥补UMLOWL之间的鸿沟

B.5 SKOS及相关工具

相关用例:Vocabulary alignment cluster

另一关键的技术是SKOS(简单知识组织系统,Simple Knowledge Organization System),是以OWL本体表述的概念体系,支持交替和首先标签。很多SKOS相关的工具可以在SKOS community wiki获取。

B.6微格式、微数据和RDFa

相关用例:Social and new uses cluster

微格式,微数据和RDFaMicroformatsMicrodata, 和 RDFa)提供了一种将格式化数据嵌入到网页中的方法。过去在网上发布信息就意味着在网页上发布信息,微格式、微数据等技术提升本来就有的内容,而不需要开发额外的设施。RDFa提供了将RDF数据直接嵌入到网页中,能够直接与其他关联数据设施实现互操作。

微数据在HTML5定义(HTML5 specification)下发展的。随着Google、 Microsoft、Yahoo宣布Schema.org的出现,突出微数据在优化搜索引擎方面的作用。这种特殊的微数据还没有用于复杂数据的描述,一些发布的词汇主要用于商业或者旅游。原则上微数据是可以扩展的,鉴于目前大多数所需词汇是缺乏的,所以为了描述图书馆信息,微数据模式需要大大的扩展。由于Schema.RDFS.org的努力,已达到一定的关联数据的互操作水平,但是还存在一些困难,不过使用这种方法实现图书馆和其他数据集更高层次的互操作,这是有可能的。

Schema.org支持RDFa的数据收割,并且会继续这样做,因此,出现用RDFa标记的HTML页面被微数据忽略的机会不会出现。使用微数据在搜索引擎的解析中将不会出现错误,在同一网页中使用所有的元数据技术是可能的。最终的结果是结构化的数据远远胜于非结构化数据。

B.7网络应用框架

相关用例:Archives and heterogeneous data cluster

正如网络发展迅速,软件开发者也开发了各种各样的图书馆软件,为了更容易的创建维护和重用网络应用。图书馆也会经常参考网络应用框架(Web application frameworks),特别是应用了时下流行的Model-View-Controller (MVC)模式,除此之外,还会参考当下流行的网络应用于框架Representational State Transfer (REST) Architectural Style 和面向资源框架(Resource Oriented Architecture)。

网络应用框架的共同组成部分是URI路径机制,允许软件开发者定义HTTP URI模式并映射到控制器,反过来,还会生成以个视图和模型的HTTP响应,这催生了开发者对Cool URIs和资源网络化的思考。关联数据关注URI标识资源和实现资源的网络传播(HTML人可理解,RDF机器可读),这正适合网络应用框架的需求,使得不同编码语、不同操作系统、不同文化环境下的网路应用框架实现互操作。

但是网络开发者不愿意用语义网技术(关联数据),因这会让他们放弃现有的应用,用三元组存储器替换数据库,用SPARQL替换数据库查询语言。可以利用Web应用框架,方便生成RDF格式的数据,并不比生成HTML、XML 和JSON复杂。关联数据正是用HTTP URI来命名资源,对人和机器分别使用不同的显示方式,如对人输出HTML格式,对机器输出RDF格式,这一点与Web应用框架的特点不谋而合。

B.8内容管理系统

相关用例:Social and new uses clusterDigital objects clusterArchives and heterogeneous data cluster

网络应用框架涉及到网络的演变,而内容管理系统是网络应用框架的一个类别。内容管理系统应用网络应用框架搭建,提供内容(文本、图片、视频等)的创建、编辑、描述功能模块和内容管理流程,内容管理系统是利用网络应用框架搭建的,自然要遵循HTTP URI命名规则。内容管理系统的广泛可用性使得他们在文化部门得到广泛使用。一些内容管理系统如Drupal开始在HTML中嵌入RDFa实现数据的结构化表达,数据的消费者如:Google Scholar, Google Maps,  Facebook开始在服务中利用这些结构化数据,而DrupalL也开始提供插件(如VARQL 和 SPARQL Views.)消费RDF

B.9针对图书馆关联数据的网络服务

相关用例:Bibliographic data clusterAuthority data cluster

从理论上说,大多数特定领域的Web Service API功能是可以重构为关联数据URIs, OWL, SPARQL, and SPARQL/Update。在原有数据库的前端植入关联数据URI,使后台数据库支持SPARQL检索也绝非易事,性能和健壮性方面的考虑也是一种阻碍。SPARQL 终端 和 bulk RDF下载易于已发布关联数据的发现和重用,然而,对许多开发人员来说还比较困难,另外从应用上看也是过重的负担。

为了最大程度的共享Web services应该提供多种方式,然而大多Web services APIs倾向于针对特定域名的(domain-specific),要求是自定义代理的(custom-coded agents),这就意味着要很好的描述。网络服务最常用的接口包括:OpenSearch 、Linked Data API 和RDF Web Applications Working Group 关于RDF 和 RDFa APIs。关联数据集将通过整合接口(syndicated access)获利,这种整合接口使用自动整合格式(Atom Syndication Format)或RSS

关联数据的应用就是致力于应用Web service提高发现和使用资源的能力,其主要通过提供API实现,如AGROVOC 和 STW (经济学词表)就是通过数据间的关系发现资源,VIAF、国会图书馆的ID.LOC.GOV s服务、 STW提供自动提示服务,针对AJAX浏览器消费数据提供JSON响应方式(原则上JSON根据内容协议,根据关联数据的URI解析,决定响应形式是HTMLRDF)。AGROVOC和 STITCH/CATCH 支持RDF响应格式,一些服务提供完全SOAP APIs,另一些支持RESTful方式。

通过关注请求参数及响应格式提高资源发现能力,有了关联数据 Web Services ,数据就不一定非得存储在特殊的三元组数据库中或者通过SAPRQL检索了,至少在某种程度上减少了这方面的需求,因为Web Service APIs是通用的,Web service可以降低采用关联数据方法的门槛。

Appendix C:语义匹配

匹配(”Alignments”)是指跨不同取值词汇、元数据元素集、数据集的语义等同、相似或者相关实体之间的关联关系。跨取值词汇的语义链接已经有的,但大多数是通过人工完成的,如MACS 或者 CRISSCROSS项目。很多取值词汇的发布者努力建立和维护语义资源同自己的链接如:VIAF,整合在整合地区代码和国家代码的规范记录;AGROVOC发布了同6个其他叙词表或主题词表的链接。虽然定量评价不是我们的任务,但是我们猜测诸如此类的链接会越来越多。在图书馆数据云中,增加取值词汇的语义关系还有许多工作要做。

并列关系同样存在于元数据元素集中。正如已经出现的开放的关联的词汇(Linked Open Vocabularies)目录,从业人员普遍遵循重用元素集的最佳案例或者建立从其他数据集重用元素的应用纲要,如词汇集映射框架项目(Vocabulary Mapping Framework)致力于匹配关系的建立。

元素集若是没有机构的支持维护,这将会威胁共享的长期持久性,此外,一些参考模型,特别是FRBR已经使用多种本体进行描述,但这些不同的描述没有明确的匹配关系,这限制了数据集的语义互操作。在创建新的数据集时,图书馆关联数据社团应该在重用和扩展已存在的元素集方面合作。当元数据关系交叉时,匹配关系同样存在于元素集之中,通常使用RDF词汇描述语言(RDF Vocabulary Description Language (RDF Schema))和OWL本体语言(OWL Web Ontology Language)描述语义关系,这应该受到鼓励。我们希望资源的创建者及维护者保持良好沟通,正如LOD-LAM先导计划(LOD-LAM initiative)、都柏林核心元数据先导和FOAF项目(Dublin Core Metadata Initiative and FOAF Project,)及我们孵化小组的倡议,这将促进元素集之间的概念联系更加明确。

数据集也存在语义匹配关系,如开放图书馆重视OCLC成员的书目项目,联合编目已经意识到整合book-level级数据的重要性。图书馆关联数据技术意在将图书馆相关数据集开放,而不是继续存在于自己的孤岛中,在过去的实践中,社区已经意识到这点,如:“删除重复数据”。

我们意识到关联是建立在图书馆资源及其他领域资源之间的,如VIAF从各个图书馆机构整合规范记录,标识所涉及到的主要实体,若有可能将他们将与DBpedia建立关联,并且尽可能从Wikipedia抽取关联数据。将VIAF、 Wikipedia和DBpedia里关于Jane Austen的进行语义匹配,就是利用关联数据技术优势所在。通过这种方式图书馆领域将通过重用其他领域数据而获利,图书馆数据可以促成其他图书馆领域没有的活动。

语义匹配的建立要利用已有的实现关联的工具,如利用计算机科学研究领域的Ontology Matching(已经做了很多努力,致力于字符串匹配和统计)。现在最常用的实现关联的工具有:Silk – Link Discovery FrameworkGoogle RefineGoogle Refine Reconciliation Service API.。今后社团仍然需要获取使用经验,寻找更加适合图书馆关联数据的工具。

忠告:数据的消费者要记住,不同于传统的封闭的IT系统,关联数据遵循开放世界的假设(open-world assumption):数据消费后不能假定为已完成,实际上,会有越来越多的数据提供给给定的实体。将来我们希望有越来越多的关联数据会出现在图书馆领域。

 

发表评论

电子邮件地址不会被公开。 必填项已用*标注


*