01 Feb 08 专访:图书馆员的未来 - Michael Hart

原文地址:Michael Hart - Interview on the Future of Libraries

Michael Hart发明了电子书,并建立了世界上最大的免费在线电子馆藏之一古登堡计划。Michael,您古登堡计划的灵感是从哪里来的?

我只能说那纯属意外。我知道一点我们的当地主机,是通过一位当操作员的好朋友,我经常在电脑室里混,因为在那里有冷气,我可以舒舒服服地做我的作业,而我的寝室里是没有的。

一天,我看到我们的一位老主顾来到小不锈钢窗口前(译者注:指电脑前,大概六七十年代时的机子),机子太忙了,没办法读盘,跑不起来,这位老兄的程序也没办法运行。我说让我看看。当时每个人,包括我最好的朋友,都以近乎惊异的眼光看着我。我说,“没那么难吧,是不是?”他们问我想怎么做,然后都觉得我的办法不至于伤到机子,就让我试了。结果行了,这么一来我相当于成了互联网上第一个“插播广告”的人。

然而后来,操作员头儿还是开始担心我会搞破坏,坚持让我有自己的帐户和密码;那样我就不能总以操作员的身份登录,不能删除所有的文件了,呵呵。得到这个帐户的那天恰好是1971年7月4日(译者注:美国独立日/国庆节),里面原原本本有我从未想过那么多钱,类似$100,000(译者注:不一定是实际的金额,可能只是借数字形容当时无法想象的意外)。这让我愧疚,我该做些更花时间和精力的什么,来值回这个给我的电脑帐户。

当晚放完烟花后,我没有回家,而是去了电脑室过夜。我分析了一下形势,觉得我要是写一个十年后还有用的程序几乎不大可能,于是我尝试去找那些我可以做、而又值回这种投资的想法。那时我才刚知道我们可以上网,可以给伯克利、哈佛,还有这两者之间的很多地方发文件,不过没有人要发开始信息,就像电报发明时的“上帝创造了什么奇迹”(译者注:1844年5月24日,摩尔斯发出了第一封电报,其内容是“上帝创造了什么奇迹?”知道自己正在创造奇迹的摩尔斯信心十足,将电报比喻为上帝创造的奇迹),于是我开始打算做出像那样长久的什么。

唔,1971年的时候他们已经开始准备即将来临的1976美国两百华诞。有人给我看了一个仿造的《独立宣言》羊皮卷,然后就像漫画或卡通中的情节,毫不夸张地,我头上闪过一道光!我知道如果我把《独立宣言》打进电脑,它将在因特网上永远不会消失。我那晚上就把它打进去了,技术上应该算是7月5号。自那时起,文字文件就可以下载了,那也是古登堡计划的开端。自此70年代每年都有一些新的“民主史”文件加进来,而且也并不总是我加的。雪球已经开始滚下山了。

Google图书搜索和古登堡计划主要有什么不同?

主要的不同是,古登堡计划的电子书是让你拥有的,你可以编辑、以此为基础创建新的版本,读的适合你可以选择你喜欢的字体、颜色、边距等等,一系列的多样性在你掌控之下。读Google的电子书则像是透过某人的肩膀读那种感觉——你大概得把过半数的控制权交给他们。(听说Google不时在承诺会对此有所改变,但我没看到有实际的结果。)而且,Google不给他们的电子书提供书目,不做版权调研;他们不会让人轻易下载他们的书,也不做校对。

如果Google只是把印刷型图书扫描成电子版本,为什么还要校对呢?

Google电子书不是完完整整、纯粹的一项工作,而实际上是两项独立的工作,一是图像/图片呈现,二是实际的计算机文本,即我们在电邮中都用的那些文字。这是不同的。你不能在图片上搜索文字。一幅书的照片不是电子书。就像这里我要引用的,玛格丽特的名画:在一个精确写实的烟斗下,画名是Ceci n’est pas une pipe(这不是一个烟斗)。

Google做的是,快速简单地扫描一遍书,然后用OCR[光学字符识别]快速过一遍,OCR会有误差,但他们不会像古登堡计划的志愿校对大军那样回头清一遍OCR记录的,Google的解决办法是写一个“模糊搜索引擎”,来容忍他们的OCR程序创建的潦草全文文件。

这就是为什么他们不让下载了,一旦下载了就很容易看出差别在哪里了,你会发现,要是跟网上已经流行的电子书比起来,Google印刷图书馆或Google图书搜索就不那么对味了。

古登堡计划第一版电子书的准确率达到了99.9%的标准,之后国会图书馆通过其操作把准确率提高到99.95%,再之后古登堡计划又把准确率提高到99.975%,而且我们目前也正在向99.99%努力。随着时间的推移,我们希望保持一个不断增长的准确率水平。不过,在Google看来,到简单、快捷、有点脏的OCR输出文件这一步就好了。

古登堡计划的电子书是为完全的全文搜索而设的,无论用何种搜索引擎、文字处理程序,剪切粘贴应该能够支持电邮、研究论文或你可以想象得到的……并将成为生产新纸本书或电子书一个简易的材料来源。所有这些有价值的考量Google都是刻意避开的,因为他们的“有限散播”哲学,而这将严重阻碍他们电子书的流通,使其难以引用,等等。

记住,Google电子书是两个实体……一个是未经校对的OCR转换程序输出的电子文本,另一个则是一整套通常是以页计数的图像文件,而这么一套图像文件加大了用户下载、储存、回溯等的难度,而单一文件的纯文字电子书就简单多了,绝大多数普通的软硬件条件都可以读它,引用和编辑它了。

试试在古登堡计划和Google图书搜索都下载莎翁《Romeo and Juliet》中的《The Balcony Scene》,你就会看到了。(译者注:这里特意保留了原文,读者如果有兴趣也可以做做试验。下同)

只要一分钟……我在Google搜”Project Gutenberg” “Romeo and Juliet” “wherefore art thou”,一键就搞定了。现在,试想想从图像中做同一件事需要多久吧,你会要一次次重新打字,或不得不OCR他们的文件的!!!这我甚至不用一分钟就找到、高亮显示、剪切兼粘贴了!!!那才是电子书应该要做的……

你应该拥有你的电子书,更正你见到的错误,剪切、粘贴整部剧到你创作的剧本里,诸如此类。

即使有了Google图书搜索,古登堡计划依然必要,甚至更必要,因为现在古登堡计划让你拥有电脑就等于拥有了图书馆,或说拥有“超级电脑”吧,因为现在卖的很多电脑不久前都叫超级电脑了。今天你可以给任何机子加个400美元有找的全新太级硬盘,或者再多一点点钱加个移动硬盘。这样就足够放未压缩的电子书一百万册,或最精简压缩的电子书两百五十万册了。

一百万册书!

而最近两年多来,因特网上已经多了一百万图书供免费下载了。在古登堡印刷机以前,普通人没有拥有过书;古登堡计划以前,普通人没有拥有过图书馆,当然,只是概念上说的,不是实体的图书馆或馆员等等。

您是说古登堡计划启发了Google图书搜索?

我收过来自全世界大多数或者讲所有各种各样电子书计划的电话或电话,都是咨询建议的。这都源于The World Library[最早的电子书CD],我很荣幸地带着各式各样电子书呈现、古登堡计划等问题,参加了1990年芝加哥的ALA(译者注:美国图书馆协会)仲冬会议。当时Voyager也有去,就是最早设计商业电子书的提供商,出过《侏罗纪公园》等经典的现代作品。

他们我都给了友好的建议,而如果Google当初接受了我的建议,很可能整个版权诉讼问题就不会出现,”Google印刷图书馆”也不用整个概念翻过来改为”Google图书搜索”,因为很明显他们的初衷既不是印刷图书也不是图书馆。我引用一句他们对这些问题的公开回应:“Google图书搜索是帮助用户发现图书的一种方式,而不是在线读书或下载的方式。”

很明显一开始是商业尝试,而如果他们一开始就着力让出版商知道,他们是要帮出版商们把书卖给更广大的读者,或许后来渐渐失控甚至走到诉讼这一步的情况会有所缓解。问题就在于Google又想装公共图书馆,又不肯作与公共图书馆相称的付出。我只能遗憾地说,显而易见,他们的真正目标还有一块商业图书馆。如果他们选了当中一个来做,更公共图书馆,或更商业,或者甚至两个都做,但是分开做,我想都会成事。

事实上,那有很多明显的缺点,而且不光是传统意义上的缺点,还包括了对读者努力的明显阻碍,致使一般的Google书读者都无法读到,甚至下载一小节下来读也不行。

对读者的限制太重了,而当这些限制跟Google的2004年12月14日庞大媒体运动结合起来时,尤其从牛津、哈佛、密歇根、斯坦福、纽约公共图书馆等等这些名字看来,每个媒体都充满着建立新式公共电子图书馆的暗示,那一刻起,巨大的失望已经埋下伏笔。

有了古登堡计划免费的电子书,图书馆依然重要吗?

我想的不是图书馆不重要了,我想的是它们会因电子书的诞生而改变,就像当年古登堡印刷机诞生时那样。举个例子,电子书诞生50年后,电子书会比纸质书多,就像古登堡印刷机诞生后50年印刷图书比过去所有时间的手抄本都要多一样。此外,记忆棒、U盘(译者注:原文为RAMstick和thumbdrive,小巧高密度的便携记忆体,其实现的技术各异。因汉译名称五花八门,有时计算机文献直接使用英文名称,这里译成大众比较熟悉的便携存储名称,不一定对得上号。大致理解为U盘就行了)等等的问世,还有400美元以下的太级硬盘,我想“个人电脑”很快就要进化成“个人图书馆”了。

就我个人来说,图书馆收藏电子书,跟图书馆做了几十年的收藏音乐、电影没什么不同。毕竟,光盘都是那些光盘,不同的只是所储存的比特。我想图书馆应该保存目前我们使用的所有媒介,历史上载体经历了很多很明显的变革,我很肯定同样的对话发生在每一次变革时,无论是从石桌到泥匾、黏土到纸草,或到麻、布,还是到我们今天称之为“纸”的东西。我们还用“刻入石头”表示不可改变的真相,但你什么时候见过有人要找原文时真的去找石头的?

我们有来自古埃及、古希腊、古罗马、古中国的“书”——不用说这很多是通过阿拉伯传来的,包括阿拉伯数字,也不用说西班牙摩尔人的图书馆给我们留下了多少光辉的科学和艺术经典(译者注:西班牙可能是第一个使用纸的欧洲国家,一般人相信摩尔人在第十二世纪引进了纸)。尽管如此,那些“图书”的作者们也不会认为未来的图书载体要跟今天的一摸一样——就像我们今天的图书也不是远古的泥板、卷轴一样。

未来50年里图书馆会怎样改变?

改变会很大,就像当年古登堡印刷机那样,其推动力今天任何人包括我都无法作出预测。不过,我的预言会在独立宣言起草50周年时2021年时实现的,届时公众可获取的电子书将会有1千万或更多。

会有个转机:2021年将出现一个新的因素,自动翻译将把那1千万公众可获取的电子书转化成100种语言,这样一来,净是册数上的增长,就足以建起一个世界从未想象过的巨型图书馆,十亿馆藏图书馆(译者注:卡内基梅隆大学有“百万图书馆”,Michael这里借用其称呼改编),如果我能做到的话,那些电子书都将免费提供。当然,到时候批级硬盘(译者注:批比特,petabyte=1015比特=1000,000GB)也将降到平民价,普通民众也能拥有这一整座图书馆了。

当然,今天的机器翻译还有很多问题,要再译成100种语言就难上加难了。不过我对此还是抱有希望,我将尽我所能,鼓励机器翻译业用古登堡计划的电子书作试验场,鼓励每个计划加一种语言。

这些会如何影响图书馆员?

唔,我记得图书馆员刚刚认为电影是他们必须提供的最新最伟大的资源的时候,有些人反对,有些根本就无法分出身做这个,于是,图书馆就出现了“视听”助理。我也记得同样的事情发生在电话咨询的时候,那些比较快适应的馆员最后操起了这行当。很多人不知道这些,不过其实几乎每一次技术变革都会经历一些混乱,只不过发生在幕后而已。

不过话说回来,因为计算机革命来得比电话、电影,或者音乐的从黑胶到CD等等都要迅猛,因此这些改变才来得比较明显。

据我所知没多少人关心太级硬盘(译者注:太比特,terabyte= 1012比特=1000GB),不过我可以很肯定地说,是时候关心这个了,而且马上就要考虑它什么时候变成批级硬盘了。为什么?因为我们的图书,包括曾经发表的每一个字,都将存储在批比特中了。现在它就是一个图书馆!重点是,今天每个人都可以凭借普通的家庭装备,就可以下载百万册图书文件了,还不用交过期罚款。

非常感谢Michael抽时间跟我们分享您的想法。在古登堡计划可以了解更多在线下载免费图书的信息。

翻译:SwinG

Leave your response!

Add your comment below, or trackback from your own site. You can also subscribe to these comments via RSS.

Be nice. Keep it clean. Stay on topic. No spam.

You can use these tags:
<a href="" title=""> <abbr title=""> <acronym title=""> <b> <blockquote cite=""> <cite> <code> <del datetime=""> <em> <i> <q cite=""> <strike> <strong>

This is a Gravatar-enabled weblog. To get your own globally-recognized-avatar, please register at Gravatar.