数据科学发展简史

我正在研究作为一门学科与一种职业的数据科学的产生与发展,以下是我所罗列的一些具有里程碑意义的事件,这些事件记载了“数据科学”这一术语的发展历程,包括概念的界定以及相关的发展情况。如果有人能够进一步补充一些事件、出版物等,我将非常高兴。

 1974年

彼得·诺尔在瑞典与美国同时出版了《计算机方法的简明调查》,对当时应用非常广泛的一些数据处理方法进行了调查。这本书以国际信息处理联合会(IFIP)出版的《数据处理概念与术语指南》中对数据所下的定义为基础进行展开,指南将数据界定为“通过某种处理程序能够以一种正式方式被传播与控制的事实与思想的表现形式。”诺尔在《简明调查》的序言中写道,1968年IFIP代表大会通过了一份题为《数据科学:数据与数据处理的科学,及其在教育中的地位》的报告。在《简明调查》一书的正文中,“数据科学”这一术语被大量使用。诺尔对数据科学定义如下:“数据科学是处理数据的科学,一旦数据与其所代表事物的关系被建立起来,将为其它领域与科学提供借鉴。”

继续阅读数据科学发展简史

大数据发展简史

        在研究《数据科学发展简史》之外,我也比较关注大数据是如何产生的。在这里,我着重探讨那段尝试确定数据量增长速度的历史,或者将其称之为众所周知的“数据爆炸”(据牛津英语辞典记载,这一术语首次使用于1941年)。以下是我所罗列的在计量数据量的历史过程中一些具有里程碑意义的事件,以及属于“大数据”概念进化历程中的一些“第一次”或者是新发现。

继续阅读大数据发展简史

系统图书馆员-回顾与展望2013

年底要到了,又是总结图书馆相关技术的趋势、并展望未来的时间了。图书馆技术领域正处于一个异常有趣的时期。与其仅仅定义及重建从图书馆自动化初期就已开始且已经恰到好处的产品的功能性模块,倒不如将更多的精力放在打破已经创建好的历史性活动并且创建让其能更好的在资源和服务方面在拥抱当前的技术架构时更好地与图书馆的多面现实保持一致新的产品上。其他的活动包括提升及重新开发现有的产品。图书馆技术环境已经成为历史性的变革之一,但是目前的周期包括一些非特征化的革命性的内容。

经济不景气时的战略性技术

图书馆的经济状况并没有从近期的滑坡中完全复苏。尽管如此我还是期望技术的投资在明年可以增加。当然总的来说我对图书馆的预算也尤其不乐观。在经济下滑的事实面前,有很多领域不会完全恢复。尽管经济环境并不理想,我期望在技术上的投入能够适当地增加。

继续阅读系统图书馆员-回顾与展望2013

图书馆电子书借阅的算术题:花20亿美元买10亿美元的书

原文地址:http://libraryrenewal.org/2012/03/05/2-billion-for-1-billion-of-books-the-arithmetic-of-library-e-book-lending/

原文作者:Library Renewal

译者:Nalsi

 Library Renewal想要帮助图书馆找到一条新的道路,来为其读者获得数字内容。我们设想了一个新的基础结构,这个基础结构需要有重要的改进、更加平等、而且价格公道。为了想出我们该怎么把它变成现实,并且创造出一个可行的方案,我们在多个领域内进行研究并且会见专家。我们和许多图书馆界的人士交流过,但是我们也积极咨询了其他领域的专家,比如法律、商业和出版领域。Jonathan Chambers完全符合我们对于专家的标准,并且在过去几年里一直和我们有着合作关系。在这篇文章里,你会看到Library Renewal的合作者正在思考的解决方法。我们(包括Library Renewal和Chambers先生)希望能听到你对这篇日志的看法。

注:我们下文讨论的因素里面并没有算上最近Random House的大幅涨价,但是这件事也并不影响我们的结论。图书馆和电子内容领域的剧烈变化是当前这个系统内的独特现象。我们相信,这种市场的变化让我们更有必要采取某些行动,而我们Library Renewal正是进行这个工作的绝佳的合作伙伴。大家一起来吧!

继续阅读图书馆电子书借阅的算术题:花20亿美元买10亿美元的书

图书馆关联数据孵化小组最终报告

(2011年10月25日W3C孵化小组起草)译者:娄秀明,同济大学图书馆

当前版本:http://www.w3.org/2005/Incubator/lld/XGR-lld-20111025/

最新版本:http://www.w3.org/2005/Incubator/lld/XGR-lld/

根据关联数据孵化小组2010年5月至2011年8月的章程(W3C Library Linked Data Incubator Group)规定,W3C 图书馆关联数据孵化小组的使命是通过带动更多的图书馆及相关领域的人参与语义网活动,关注关联数据技术,应用现有的技术成果,共同描述未来合作发展的轨迹,帮助图书馆实现图书馆数据在网络上的互操作。关联数据技术用统一标准描述数据(如用RDF三元组描述数据,能够清楚描述实体之间的关系),用统一资源标识符(URIs或者”Web addresses”))标识数据。图书馆关联数据孵化小组的最终报告描述了图书馆如何遵循语义网标准及关联数据原则,将图书馆的有价值的数据(如书目数据、规范文档、概念模型等)发布到互联网中,实现数据的可视化和重用。

继续阅读图书馆关联数据孵化小组最终报告

Meredith Farkas访谈 – 移动服务和移动图书馆的未来

原文:http://www.alatechsource.org/blog/2011/07/meredith-farkas-on-mobile-services-and-the-mobile-library-future.html

译者:zhxxmu

如果你试图保持你的图书馆处在行业前沿,你应该会知道Meredith Farkas,俄勒冈州的波特兰州立大学教育服务主管,同时是圣何塞州立大学图书信息科学兼职教授,撰写了社交网络,图书馆在网络技术和移动技术等文章。 这个月晚些时候,Meredith将在ALA技术研讨会上探讨促进图书馆移动创新服务的话题,届时她会给出如何建立/加强图书馆移动服务的实践准则。我曾 与她聊过移动技术能为图书馆带来什么、图书馆已经开始的有趣服务和项目、以及她对这些正在进行的项目的预期。不论你是否计划要参加这个研讨会,先来看看她 说了些什么。

Dan Freeman: OK,毫无疑问现在移动设备无处不在 – iPhones,平板设备等等。看起来这就有个大问题(并不特指在图书馆界),对于一般的非技术人员这些设备能做的太多了,可他们购买这些设备时对却对此 知之甚少,也很难知道该从何开始使用。对于这些智能手机的新用户,你建议他们该如何开始使用?

继续阅读Meredith Farkas访谈 – 移动服务和移动图书馆的未来

公共图书馆常见的电子书问题

作者:由信息技术政策办公室(Office for Information Technology Policy, OITP) 电子书工作组整理

译者:Nalsi

地址:http://www.ala.org/ala/aboutala/offices/oitp/e-book_faq.pdf

OITP电子书工作组正在回答公共图书馆发送给我们的常见问题。(下一份问答列表将关注中小学图书馆社区)。我们希望未来会有其他问题加入这个列表。

1、电子书是什么?

电子书是一种通过数字化的形式表达的叙事,它包含了文字和其他的媒体。许多电子书都是印刷图书的电子版,但是越来越多的作者和内容创造者正在创造没有对应印刷版的电子书。当前,绝大多数电子书都是整体的封装,只能在计算设备以浏览器为基础的应用中阅读,或者是在专门的电子书阅读器上阅读。一些电子书的功能得到了增强,包含索引、辞典、地图、视频以及地理定位或者互动的元素(比如说作为电子书一部分的模拟功能)。绝大多数电子书的销售平台允许使用书签和注释。但是在当前,公共图书馆所购买的绝大多数电子书都不具备这些功能。

继续阅读公共图书馆常见的电子书问题

Thinking about Open Source

Thinking about Open Source

作者:K.G. Schneider

这周一中午的1:30-3:30,我会在WCC-146B参加了另一次终极辩论:“开源软件——免费的啤酒还是免费的小狗?” Marshall BreedingStephen Abram会参加辩论, Roy Tennant会担任主持。它有一个标签#ultdebate,甚至于JohnBerry也会来参加

(Sidebar: Berry, how is it that four years is “enough” for our debate when you’ve been writing that column for hmmmm… how long? But no matter…)

这个辩论可能会极端无聊,也可能会特别有趣。当主办方邀请我参加这个活动的时候,我刚刚在我新的工作(大学图书馆员)上干了一年多,之前我在一家开源软件的开发和维护公司工作。那时候,Stephen Abram也正要离开他在Sirsi-Dynix风光无限的工作,接手Gale的一个新职位。

I suspect some people expect me to renounce open source (get thee away, open code!), and others expect me to doggedly embrace it no matter what, like those annoying Apple cultics who would devour arsenic if it arrived in a rounded white plastic container with that familiar fruit emblazoned on its bottlecap.

我怀疑有些人期待我谴责开源(开放代码,滚吧!),其他人则期待我固执的拥护它,不管发生什么,就像那些讨厌的苹果拥护者一样——他们也会吃掉砒霜,只要砒霜装在一个白色塑料的圆盒里送到他们这,盒子盖上画着他们熟悉的那个水果标志。

At MPOW, I’ve been very busy with urgent priorities, from repairing bathroom exhaust fans and tearing out unneeded shelving to rebuilding relations with campus departments and on to creating Team MPOW — a 100% tech-literate, forward-thinking, entrepreneurial squad of library miracle workers.

在我工作的地方,我一直忙于处理紧急事务,从修理洗手间不转的电扇,到剔除不用的书架,到修复和校方的关系,再到建立工作团队——这个团队要100%的懂技术、能够向前看,而且有进取心。

My library management system… well, it works, which means I can stay focused on other stuff, and its contract is really, really long. That doesn’t mean we have no other choices–there’s always a buy-out, or even a walk-away option–but I am frying all those other fish. (The issues with long ILS contracts I will save for another post someday.)

我们的图书馆馆系统……恩,它运转良好。这让我能够关注其他的事情,而且这个系统的合同真是非常非常的长。这并不意味着我们就没有其他的选择——我们总是可以买断甚至于直接放弃这个系统,但是我有太多的事情要做。(我改天会写写我们ILS这个长合同的事情)

To me it boils down to who we are as a profession–not just now, but historically. I think companies that produce proprietary library software assume that libraries such as mine wouldn’t benefit from open source software because we would never be able to use OSS without paying for support services and we’d be very unlikely to engage with the development community to any great extent. But I think that’s like assuming that people who don’t use libraries don’t benefit from library service. We, LibraryLand, benefit from our hive mind, particularly in such a sharing profession.

对我来说,这个问题归结于我们图书馆员作为专业人员的身份。我觉得生产专有图书馆软件的公司有这样一个假定,图书馆(比如我所在的图书馆)无法从开源软件中 受益,因为如果我们不购买支持服务便绝不能使用开源软件,而且我们非常不可能大规模的参与到开源软件的开发社区中。但是我觉得这就好比假设说,不使用图书 馆的人就不可能从图书馆服务中受益。我们LibraryLand便得益于我们的集体思维(hive mind),尤其是在这样一个乐于分享职业中。

The fundamental problem with the proprietary software model is not one of evil ownership or grasping vendors. I’ve seen both of those occur in the open source software community. The problem with proprietary library management software–from a high-level perspective, profession-wide–is that it makes us stupid. It deprofessionalizes who we are and disengages us from tool creation.

专有软件模型的基本问题不在于万恶的所有权或者贪婪的系统商。这两件事我在开源软件社区中也曾见过。专有的图书馆管理软件的问题在于(从一个专业的高度来说)它让我们变得愚蠢。它贬低我们的专业,让我们远离创造工具的过程。

相反,每一个不管以何种程度参与创造工具的图书馆员都为我们所有人提升了图书馆事业的状态。这件事情可以追溯到一些穿着长袍的古埃及人在墙上挖洞,储存纸莎草;还有在19世纪作为一个职业,我们就目录卡片的尺寸达成了一致(这产生了我们最早执行的标准,以及网络级的记录);在今天的开源社区中同样如此。

如果你觉得事情不是这样的,那么就比较一下专有产品和开源产品的讨论列表吧。我每天都比较二者。对于Evergreen来 说,我的观察是,图书馆员,不管在各自的机构中从事何种工作,都会大声的说出他们对正在构建的工具进行的思考。对于我们的产品主页来说,人们的咨询局限在 简单的“如何做某事”上。我知道人们有一种看法,认为图书馆员没有足够的能力,来参与创造他们的工具,但是我认为其实是我们创造了这样的图书馆员。比如一个人刚从图书馆学校毕业,然后你在他们的工具和服务之间垒了一道墙,几十年之后,你就会发现他已经失去了从创造工具的角度进行思考的能力。任何类型的发明 都是肌肉运动,需要我们持续的使用才能避免萎缩。

可是,有一个问题是,这些事情是否重要。关于开源的辩论可能会关注我们绝大多数人都在使用的集成图书馆系统。我无意对任何类型的图书馆开发公司不敬,但是本 地的“图书目录”是我们各种服务中一个越来越小的焦点(当前所有的图书馆管理系统,不管其代码的开放程度如何,都是围绕20世纪的工作流程设计的)。我们的电子服务才是关键。

Some of you may say that projects such as OLE will replace the ILS. But I question how we can truly design new workflows when we have no insight into (and very little role in) the evolution of digital content in the next decade.

你们一些人会说,像开放图书馆环境(Open LibraryEnvironment, OLE)这样的项目将要取代图书馆集成系统。但是我要问,如果我们对于未来十年间数字内容的演进缺乏深刻的见解,我们又该如何设计新的工作流程呢?