30 Oct 06 图书馆与长尾

 原文出处:Libraries and the Long Tail      作者:Lorcan Dempsey

有关图书馆的长尾的讨论,很多是关于图书馆如何包含广深丰富的馆藏,以及有关其系统广度的聚合(aggregation)如何代表学术和文化资源的长尾(一个系统可能是一个社团,或一个州,乃至一个国家。)然而,我不认为我们吸收了长尾的真正含义,即在网络环境下供需如何很好的匹配。在系统内仅仅提供资源是不够的:他们必须是容易获取的(用阮冈纳赞的话:每个读者有其书),潜在感兴趣的读者能够知道他们(每书有其读者)以及匹配供需的系统必须有效率(节省用户的时间)。

考虑这样两种情况:一个是馆际互借(图书馆之间的资源流),另一个是流通(图书馆内的资源流)

首先,馆际互借占全部图书馆流通的1.7%,如果我们只看学术图书馆,这个数值会上升到4.7%。这表明我们可以在使感兴趣的读者更容易发现和获取资源方面做的更好,或者换句话说,系统范围内的供应的聚合。与图书馆内的资源流相比,从一个图书馆到另外一个图书馆的资源流是很低的。

这可能也就是图书馆之间馆藏重复率很高的原因所在。去年,OCLC考察Google与五大图书馆的聚合馆藏的工作,结果发现,60%的G5聚合的印本图书馆藏被一个G5馆收藏,这表明馆藏并不像有时想的那样和“香草”一样。

第二个数字是流通。我们对两个研究性图书馆多年的流通数据进行观察,在每一个案例中,大约10%的图书(仅限于英文)占90%的流通量。这表明许多书没有被借出(当然,有些可能在图书馆内浏览)。

这些数字表明特定馆藏中的许多图书是没有被充分利用的,馆藏之间的资源交换也是受限的。当我们向前发展,我们就更要问问这是否是最佳的系统范围安排,尤其是越来越多的读者移向网络。我们要重新考虑阮冈纳赞的原则:书是为用的;每本书有其读者;每个读者有其书;节省用户的时间。

下面,我想在长尾讨论的环境下更具体的对这些问题进行分析。

长尾

第一个提出长尾的是Chris Anderson在《连线》杂志中提到的。

长尾是关于网络如何改变市场。在物理世界,分发、零售和消费的成本意味着一个东西必须有足够的销售量来证明它占据货架、剧院或场所等空间的使用是合理的。这会导致通过物理商店(outlet)获得是有限的,相应的潜在用户选择也是受局限的。同时,对特定产品或服务的需求受限于物理地点能够达到的地区的人口的规模。这种短缺就驱动行为,使我们会产生错误的判断:

很长时间,我们一直在忍受这些最小公分母的专制统治……我们的思维被阻塞在由主流需求驱动的经济模式下。为什么? 经济学,很多我们有关流行风尚的论点实际上是手工的糟糕的供需匹配――即市场对低效率分配的反映。

这些低效率的问题在网络环境中得到降低。因此,我们观察到网络服务的不同行为:

无限的选择正在揭示这样的事实:什么是客户想要的和他们如何从服务中或服务后得到,从Netflix的DVD到Yahoo上的music video, 到iTunes音乐商店的歌曲。人们正越来越深入的走进目录、走进长长的可得到的列表,远远超过在Blockbuster Video, Tower Records, and Barnes & Noble.中可以得到的。他们发现的越多,他们越喜欢。当他们从挫败的路上徘徊向前,他们发现他们的品味并不像他们想的那样都是要主流产品(或者他们被市场引导而相信,是一个缺乏替换和以主流产品为驱动的文化)

以Netflix为例,就是如上所讨论的聚合供应。它使可供浏览的长尾成为可得到的。然而,更重要的是,它也聚合了需求:大量潜在用户可以浏览任何特定项目,增加了这些项目被任何人借到的机会。
 
Anderson提供了一些有趣的数字来表明这个现象的影响,并在他的网站进行更新。他指出长尾的聚合是一些主要Internet服务(Amazon 、eBay、Google等)的商业模式的主要方面。以Google为例,提供广告的长尾――为那些在创业初期缺乏在报纸和广播上作广告的资金的人。通过聚合需求,传递给大量用户,他们增加了广告被任何与该广告有关的人看见的机会。

当然,让产品上网仅仅是一个方面。Web更重要的是使合并(consolidation)成为可能。Anderson 就是大规模数据consolidated网站的例子。正如前面提到的,这种合并有两个方面:聚合供应和聚合需求,每个都很重要。

有关供应和需求的聚合有五点:第一是交易成本,为取得某一目标,成本就是金钱、专门技术或一些其他资源。高的交易成本抑制了使用:他们增加了系统中的摩擦;低的交易成本鼓励使用:他们增加了系统内的流动。以iTunes为例,有低的交易成本,所以发现感兴趣的音乐、为使用他们而进行的交易以及下载他们的负担都是比较低的。那些音乐立刻就可以得到。Netflix有比较高的交易成本,因为会在邮件系统中延迟,但它仍然运行着,为用户提供尽可能多的无摩擦的工作流。我们可以考虑交易成本的两个方面:检索成本和实施(fulfillment)成本。发现是一件困难的事,一旦发现了获取服务或物件又如何困难?

第二,考虑有关选择和行为的整合数据(consolidated)的可获得性。Netflix,Amazon等提高了他们的服务,是基于他们知道他们用户的选择,从聚合的点击流clickstream中直接挖掘。这使得他们去开发服务,进而能够基于使用进行新的开发,能够围绕特定行为和偏好进行剪裁。此外,利用这些挖掘的用户数据还可以构建额外服务,如推荐服务。这些服务无形的降低了交易成本,因为他们使用关于行为的聚合数据来更好的提供服务.
 
第三,考虑物流。这些大型web知名网站整合物流。他们不受大量的冗余成本的阻碍,即时物流(just-in-case),通过多个物理传送地点分散存放。这种consolidation之所以能够发生,是借助馆藏的数字属性,如iTunes;或者,考虑物理存货地点,如Amazon,他们能以战略定位consolidate,或者与特定的提供商,因为存货不需要和物理店面联系。 他们通过管理和数据呈现表明了他们的商店,不是通过在某一物理商店中显示世界的货品。当然,存货的consolidation通过流水线的实现了交易成本的下降。
 
第四,导航整理过的资源。Google引入的主要创新是排序方法,通过聚合和挖掘由网页作者创造的链接选择。Amazon对通过评论、希望列表、读者选择的列表以及各种“词组”(不可能成为资本或统计的)等等之间的内在联系感兴趣。Amazon提供了一个丰富的建议结构。在每个事例中,简单的聚合是不够的:也需要有效的排序、推荐和关联。

最后,大型商业网站帮助聚合需求。资源使用程度部分依赖于能获取资源的用户的规模。长尾理论的一个方面是需求的聚合――把用户向可获得的资源扩展,这意味着资源有一个发现感兴趣用户的良好机会。换句话说,用户将延长尾扩展。这样,如上面讨论的。Netflix发现电影的观看者,他们不是转向物理仓储(outlet),因为Netflix聚合了更大的用户群的需求,这是单一物理商店所不能有的。Google、iTunes、Amazon和eBay:对开放web上的这些资源的重力拉意味着他们获得了大量潜在的购买者和销售者。这增加了资源披露的机会,使资源与web上感兴趣的客户在指定地点汇合。这样,他们通过吸引用户来聚合需求。然而,他们也更转向用户。例如,Google、Amazon和eBay在深入多用户环境方面非常积极,通过使用工具栏、ApI和其他方法。

图书馆与长尾

现在,让我们回到图书馆,关注两个问题:供应的聚合和需求的聚合。为了讨论的方面,我主要放在图书上,偶尔提到其他资源。我希望读者能看到如何把讨论扩展到其他馆藏。

图书馆内供应和需求的聚合

图书馆和书店等都容易受的物理场所的限制,虽然在不同的服务环境。图书馆馆藏并不局限于当前或流行的:图书馆有责任收藏历史记录,从过去能得到的以及现在能得到的全方位的收藏。这个责任因图书馆的类型而变化,也经常是可变的。图书馆在两个方面满足责任:通过集合当地馆藏,通过参加系统内或系统外的图书馆系统。后者可以以不同的方式组织。资源共享共同体就是一个常用模式,一个图书馆可以属于多个。

图书馆馆藏受需求的本地感知和可获得资源的驱动:馆藏发展活动是平衡资源与需求。大型研究性图书馆和一个繁忙的公共图书馆系统将有不同的特征,但两者都受物理限制的影响。在资源世界,从一个分布式图书馆馆藏获取的交易成本是很高的,这样,这些图书馆无法负担为聚合本地化需求而大量收集本地馆藏,例如,大型即时提供(just-in-case)的研究性图书馆馆藏。事实上,我们始终通过馆藏量来测度研究性图书馆的优势。一个繁忙的公共图书馆可能转向书店模式。我在近期有个演讲,是关于一个富裕郊区的繁忙公共图书馆系统的,他们每年移交出储藏的15%:他们想为流通来储藏,对需要的读者来储存最新的馆藏,就像在书店,所卖的图书必须受他们所占用的有限的架位空间所限制。

下面我讨论上面提到的――交易成本、有关选择和行为的数据、库存、通过大型web网站对需求的导航和聚合,他们是如何应用于图书馆的。

交易成本

一个图书馆用户有一套发现工具和服务,能够提供较全面范围的学术和学习资源的获取。这转而需要一个发展完善的图书馆馆藏体系、资源共享系统、联合目录、合作馆藏发展、文献提供和其他合作和商业服务的支持。这个支持系统可能是有缺点的相互连接是间断的,但它是重要的achievement。单一图书馆不能够提供的应该在图书馆参与的整个系统内能够提供。

然而,这种可获得性是以一些复杂的代价换取的,它意味着使用这个系统的交易成本太高,使得有些需求没有被认识到或没有被满足。一个图书馆用户可能对获取工具不熟悉,可能没有意识到其他可获得的资源。本地政策可能限制了一些获取类型。从历史上看,人们可以说当图书馆服务明确是以聚合供应和需求为目的时,两方面都是以满足用户需求和最大化的使用整体系统内的资源的,那么这个系统的不完善(imperfect articulation of that apparatus)意味着对用户的服务是易变的。为了更好理解这一点,考虑D2D链:发现、定位、请求、传递。这里缺乏整合则增加了交易成本。整合是指在过程内(例如,有很多发现的选择)和过程之间(这个过程不总是以无缝的是连接的)。

发现:发现的经历是片断式的。一个用户有一系列可得到的发现工具,但并不总知道哪个是最适合的。尤其是对期刊文献,元搜索方法的发展可能就是一个部分回答。即使对图书来说,用户不得不浏览目录的拼凑物来发现他们想找的;检索成本很高。人们可能做什么?一个方法就是合并(consolidation):少数但规模很大的元数据库能够支持发现。另外一个就是“联合”syndication,将元数据移到读者很容易去的集合地点。我使用syndication作为一个通用词,包括这样的想法,让元数据流进入引文管理器、搜索引擎和其他资源,使它们在服务中揭示出来,而在这些服务之上构建其他应用。后者就是我们熟悉的Amazon,它使数据和服务通过它的API从其他界面可以获得。

定位:一个用户如果发现了感兴趣的东西,就需要去发现能够提供它的服务。这就像记录一个货品条码并走到货架边上一样简单。或者它是一个resolution服· 务,实际上能提供多种服· 务选择。或者它包含在图书馆资源中更进一步的发现经历中,如果要找的东西最初是在图书馆外发现的。最后的情形尤其感兴趣,因为图书馆用户有更多的发现选择,馆外的多于馆内。所需要的是将发现经历与图书馆服务进行连接。这里Coins提供一个可能的方法,同时还有各种浏览器工具。

请求:这是另一个交易,包括一步或多步。它可能很简单,就像in placing a hold;或者很复杂,如果需要填写表单等。图书馆越来越想在多个方向发送请求:允许用户从Amazon购买,启动一个ILL请求,启动一个文献供应请求;或在请求的资料上 place a hold。

传递:资源传递有多种可能的选择,根据传递选择表现方式和供应商与用户的部署你可能会看到:在每一个阶段,都潜在地有很多需要连接的过程,而且它们潜在的需要彼此连接成不同的组合。连接的越好,交易成本越低。当然,有趣的是考虑,是否解释器服务将更多的成为图书馆运作的中心,因为它们是“服务路由器”,能有效的连接多种发现体验到多种fulfillment服务。

选择和行为的数据

交易和行为数据常用来改进和提高系统。在图书馆领域,我们还没有完全探索这些机会。这样的数据包括馆藏数据(图书馆产生的选择),流通和ILL馆际互借数据(用户产生的选择)和数据库使用数据(用户产生的选择)。我们几乎没有聚合这样数据的服务。图书馆对使用这样的数据越来越感兴趣,以提炼服务和创建新服务。例如,基于流通数据之上的推荐服务。因为在变化的数字空间中,新服务和用户行为是共同变化的,很可能我们需要捕获数据的新形式。

库存

历史的图书馆模式是将资料的物理分发到多个地点,这样资源能最接近需求点(就像书店模式)。而在网络环境,当然这种模式发生改变。资源不需要在需求之前分配;它们可能存在一个consolidated stores中,即使复制,也不需要我们现在有的物理建筑。随着图书馆的发展以及随着更多的资料可以以电子形式获得,我们将看到更多以较少的成本来管理印本馆藏的方法。我们可以看到已经有这样的讨论,即对mass数字化项目以及对off-site存储解决方案的讨论。在每种情况,更感兴趣的是使影响力最大化的投资选择,例如,基于从整体系统范围对系统内稀有资源或常用资源的很好理解,或者基于用户使用资料的程度等等。事实上,有的时候,有管理支持系统更好,它能够基于使用的模式、跨图书馆的分配以及一个统一的政策框架上的对存储和数字化提出建议。

这里有两个中期的问题。首先,在一个系统内,什么样的存储和传递的未来模式是最优的(在什么范围内要一个大型的图书馆系统,是州、协会还是一个国家?)。可以考虑一个仓储系统,基于使用和需求的模式,它们和一个好的传输体系毗邻,如全部跟一个传递提供商连接,并且能有使用这个仓储的较好的数据智能分析。第二,考虑长期保存。当前,我们担心数字保存的长期费用是不知道的。然而,印本长期保存的费用又怎样?我认为对大多数图书馆来说,它们也是不能支持的。如果大量即时提供馆藏使用的下降,如果使用数字资源继续上升,如果大型数字化项目的继续,那么将更难确定维持多个馆藏的大量消费,尤其是对稀有空间的日益增长的需求。从长期看,我们可以看到费用从印本向数字的转移,但只有在管理印本的费用减少的情况下才可能这样,也就意味着一些印本馆藏的合并consolidation。

因为这些问题使我们面对一个全系统的角度来看,有关提供和需求的聚合数据使我们对在系统中什么应该全部收藏,什么是正在使用的这些问题有一个较好的理解,并在这些基础上能够很容易的做出馆藏的最优收藏的决策。

导航

图书馆聚合还没有探索有效支持导航的数据结构。对分面浏览器、FRBR、推荐、按馆藏和其他数据的排序等等的兴趣是实现的实证,以探索开发大型书目资源的较好方式。排序、推荐和关联对连接读者和相关资料、把使用率很高的资料与潜在有用的但是使用很少的资源连接提供帮助。

需求的聚合

图书馆资源是零散的。在图书馆内是零散的,有很多数据库需要选择,它们在不同图书馆的组织方式也不同;如上讨论,在图书馆之间也是零散的。在新的网络环境下,这种零散降低了重力拉,这意味着资源只能被那些有毅力、有知识的用户找到,但不能到达那些对资源有潜在需求的用户的手中。此外,图书馆资源不能很好的融合到用户工作流。RSS feeds, APIs和其他方法使将图书馆嵌入用户环境成为可能,而不总是希望用户到图书馆环境中来,但我们只处于这种探索的初期阶段。有两个问题。首先,图书馆在它们自己机构内在聚合需求方面作更多的工作。其中一个方法就是合并consolidate图书馆网站(例如考虑元搜索),并将图书馆服务加入到用户工作空间,例如,在课程页面加入数据库搜索。第二个问题是对单个图书馆,聚合超出单个图书馆之上的需求是困难的。从历史上看,联合目录和资源共享系统是在单个图书馆之上运作的,我们现在看到,提供这些服务的机构正在考虑如何重新发展,作为主要web网站帮助聚合需求(需要聚合提供的支持)。RedLightGreen, OpenWorldCat, and Libraries Australia.都是例子。图书馆组织也很渴望在大型基于web的搜索引擎和图书销售网站上是可见的。当然,对一个图书馆来说,接近本地用户群的一个方法就是使这些资源在这些大型web网站上可见,这是它们的用户花费更多时间和注意力的地方。

GS和GBS就提供了很好的例子,尤其是它们与图书馆的相互作用。以GBS为例,Google在这里作的是聚合图书的需求:我们将看到什么对它们的使用产生影响。可以推测,这是对这些全范围馆藏的潜在兴趣,换句话说,形成了书目长尾。通过GS,它们也聚合了对图书和期刊的需求。为了避免使用户灰心,它们正聚合发现体验后面的供应。所以,它们和解释器数据resolver data以及多种供应商合作,来完成期刊资料的定位、请求和传递。此外,它们和OCLC合作,将GS的发现体验与“Find in a Library”选项连接以实现全方位服务。OCLC所作的就是把这些图书的元数据在大型搜索引擎上可获得,同时是用户回归图书馆服务,完成图书的D2D链。在这个意义上,大量资源通过这些服务可获得,Google正聚合需求、聚合提供并降低交易成本。

物流和图书馆

图书馆有丰富的馆藏,同时聚合图书馆系统是一个很大的成就。然而,在当前的网络环境下,图书馆没有足够的注意力。这表明如果图书馆的长尾要有效的发挥作用,发现和使用图书馆馆藏和服务的成本需要尽可能的降低。

这是一个物流问题。物流是关于跨越潜在群体的网络及时匹配提供和需求。在一个特定领域,一般图书馆已经做到了,图书馆最近的一些创新也使供应链自动化,如解释器服务。

这里提供一些需求聚合的方法:

统一发现体验:分散成本是昂贵的,少数但大型的资源是有帮助的。
将图书馆发现经验插入到其他环境:搜索引擎、浏览器工具、RSS聚合器等。(Bauer and Bakkalbasi, 2005)
在操作内部(如合并请求选项-Amazon的place hole)和操作之间:目标是将“get it”按钮放在任何地方,通过简单选择指导用户。
在中期,探索跨系统的“库存”和“分配”:不管这个系统是一个图书馆、一个协会、一个州、国家。

在网络内利用好的“智能”:包括在网络内比较好的描述实体。如日益增长的对登记的兴趣――服务登记(eep OPAC links, or OpenURL resolvers, or Z39.50 targets)、馆藏登记(数据库描述的登记)、机构登记(National Library of Australia Libraries Gateway)、政策登记(越来越重要,图书馆在政策框架内进行组织)等。在这种情况下,反映出联合目录最有特色的价值就是馆藏数据:联合目录是有关收藏机构信息对象数据的登记。这些登记数据将驱动支持图书馆物流的应用。

 提供交易支持:在图书馆之间的多种交易环境对跟踪和reconciling是有用的。OCLC’s Fee Management服务就是支持一些交易类别的服· 务的例子。考虑PayPal如何释放了多种相互作用的可能性。

通过重要web网站聚合需求:如果更多的用户知道图书馆的馆藏,· 馆藏将会更多的被使用。当然,有些情况,来自外部用户的需求只是没有更多将馆藏信息告诉用户的一个原因。然而,网络的动态性改变了使用。主要网络检索网站通常是研究首选和最主要去的地方,图书馆资源的零散降低了他的重力拉。图书馆正在竞争他们自己用户的注意力。他们需要在用户环境,而开放web现在是这样环境的主要部分。这需要考虑已经提到的发现策略。

结论

图书馆要全面管理研究、学习和文化资料的长尾。然而,我们需要在确认这个长尾是直接能提高我们用户工作和生活上面作很多工作。图书是为使用的。

在文章开头,我提到阮冈纳赞,他的五原则在图书馆界是经典的。即使环境发生了变化,他们的精髓也在。

我以聚合供应和聚合需求来解释长尾。聚合供应是关于提高发现和降低交易成本。也就是很容易让读者去发现和获得,换句话说,每个读者有其书。聚合需求是关于聚集一个用户社区,使资源和对其感兴趣的用户汇合的机会增加,换句话说,每书有其读者。在开放网络,发现匹配供应和需求的好的方法将“节省用户的时间”。
如何去做,是一个在网络环境下重新形成活动和组织的问题。我们需要在网络层面上操作的新服务,这是在单个图书馆之上的。这些将consolidate、D2D、馆藏管理或其他服务。他们可以与第三方合作来源或提供。这又有一个新的问题,资源如何分配以取得最好的本地影响和全系统效应。这个变化也表明图书馆是一个成长的有机体。

丁丁(tintin96@sohu.com)翻译,游园编辑。

2 Comments »

Leave your response!

Add your comment below, or trackback from your own site. You can also subscribe to these comments via RSS.

Be nice. Keep it clean. Stay on topic. No spam.

You can use these tags:
<a href="" title=""> <abbr title=""> <acronym title=""> <b> <blockquote cite=""> <cite> <code> <del datetime=""> <em> <i> <q cite=""> <strike> <strong>

This is a Gravatar-enabled weblog. To get your own globally-recognized-avatar, please register at Gravatar.