数字科学交流团队分享 http://blog.sciencenet.cn/u/dsc70 武大

博文

Trajectory:图书元数据的火箭助推器

已有 2733 次阅读 2015-5-4 23:03 |个人分类:STM出版|系统分类:科研笔记|关键词:学者

引用本文请注明出处:爱德华·纳沃卡 著;张廷凤、吴亚鑫译 刘遹菡校译.出版观察:http://publishingperspectives.com/2015/02/trajectory-like-rocket-booster-book-metadata/[EB/OL].[2015-02-13 ].


使用属性/实体来描述一本书


               


Trajectory使用高级语言处理,为图书元数据增加微妙的细节,并提供一本书的强度、情感等其他属性。

 

Trajectory是一家位于波士顿北部马萨诸塞州马布尔黑德镇的数字图书发行公司,其内容总监斯科特•比蒂(Scott Beatt)表示,“我们通过拆解图书里 将要讲述故事的基础”。

Trajectory提供了所谓的“自然语言处理引擎”,它以这种方式来索引图书以此提升图书在线可见性。因此,Trajectory面向北美、亚洲、澳大利亚和欧盟共计300多家电子书零售商以及学校图书馆发行了25000本电子图书。“在许多情况下,Trajectory填补了出版商在发行系统方面的空白。”

                               


Trajectory公司内容总监斯科特•比蒂(Scott Beatt

Trajectory目前业务主要集中在标题索引方面。索引的目录标题包含大约30000本英语书籍,其中包括哈珀柯林斯(Harper Collins)公司出版的许多书籍。Trajectory最大的客户是在中国,它与Joy Jung、Ennui以及人民教育出版社(该社60年来出版了600亿本书)相继展开了合作,索引了大约100000本书。

成立于两年半前的Trajectory在媒体上几乎看不见关于它的任何消息,直到15个月前,Trajectory并购了现已倒闭的图书发行网站公司Small Demons的资产。但比蒂强调说:“我们只是获得了他们与出版商的合同而不是技术,我们在技术方面远远领先于它们。”

自然语言处理过程:交叉关系



Trajectory公司主要做什么?

首先,“我们将一本书拆分”,比蒂说,“然后生成每个故事的关键词列表”。Trajectory像做共现分析一样分析诸如此类的故事——围绕一个字符或者位置——以及基于此绘制并告诉读者这些人物出现在图片中的位置。我们也可以根据相关性将人物进行归类。读者可以通过监控角色交换的方式,在某种程度上更好地理解故事内容,并可以用此方法对一本图书的其他实体进行分析。

Trajectory可以追踪小说里的情感等诸如此类的东西。为了做到这一点,它使用了一个评价系统,对表示兴奋的积极类词语与涉及“战争”、“死亡”的消极类词语进行文本分析。

“这无疑为你提供了一种有趣且新颖的方式来看一个熟悉的故事”,比蒂说,“就拿《金银岛》(Treasure Island)这部小说来讲,我可以明确地知道这部小说界限清晰的情感,且可以创造具有类似情感的故事。它作为作者一个良好的工具也是很棒的。如果你想创造一个与经典作品相竞争的故事,那么你可以通过一种新的方式来理解经典作家的写作风格了。”

情感:分析图书中的词语



 

关键词是重点

在很短的一段时间内,“可见性”(discoverability)一词成为了行业专业术语。同那时图书馆与零售商只拥有几十万图书的数量相比,今天这一数量已经超过了百万。更重要的是,如果加上自助出版的书籍,总数量又将是今天这一数量的数倍。比蒂表示,“自助出版是图书在线可见性的最大挑战”。

“我们目前的最好产品主要面向图书馆与零售商这一类客户”,比蒂指出,“我们可以与他们合作——通过关键词表明情绪、强度和使用的语言等因素——以及基于各种各样的因素做出图书推荐。”

“关键词对零售商而言是非常有用的,可以帮助读者识别一本书特定的主题”,比蒂表示,“如果你是一家图书馆,想让读者在一座特殊城市知道一本书,Trajectory可以在特定地方创建一个图书馆书架。”你会明白如何使用搜索术语来生成一个图书列表,如何使用图书里所包含的词语,以及如何匆忙地管理 “微类型”内容。

         

 

目前可获得的关键词列表有英文版和中文版两种,西班牙语、德语还有葡萄牙语三种语言版本正在翻译之中。使用时,通过ONYX电子书订阅和元数据向客户提供资料。

现在,Trajectory正集中精力扩展其客户出版商的登记数量(很多客户在NDAs技术下与公司进行合作)。“当然,我们希望对已经出版的每一本书进行处理”比蒂说,“我们阅读的书越多,我们的推荐就会变得越‘聪明’。”

比蒂还说,越过行业的层面,Trajectory的发展蓝图中将最终把STM和教育主题吸收进来,“我们认为很有可能把书按章节进行拆分有着良好的前景,一种通过章节索引图书的刺激性需求将会导致一种有趣而又有用的实例,而我们在本月将会由此展开进行试验。”

有些人可能还记得Booklamp,一家来自爱达荷州的公司,曾经与我们有着相似的理想,在他们对图书进行的的大卸八块式的处理中生产了大量的非均质材料叠层元数据。该公司正是被苹果公司收购的那家公司。“我们认为,苹果公司在对他们进行收购时便已经确认了我们如今的观念。但即便如此,依然有客户告诉我们‘Booklamp就像是一场烟花表演,而Trajectory则如一架土星5号火箭’——很可能会以一种你从未经历过的方式把你至于一本书中。






https://m.sciencenet.cn/blog-521339-887386.html

上一篇:像迎接文章旧经济一样,迎接文章新经济
下一篇:开放存取出版的权利与许可:美国版权结算中心之所见

2 郑学军 郭楠

该博文允许注册用户评论 请点击登录 评论 (1 个评论)

数据加载中...
扫一扫,分享此博文

Archiver|手机版|科学网 ( 京ICP备07017567号-12 )

GMT+8, 2024-5-24 21:32

Powered by ScienceNet.cn

Copyright © 2007- 中国科学报社

返回顶部