据不完全统计,目前科学文献数量大约每9年增加一倍,科学家读完研究领域内的最新文献变得越来越困难。面对浩如烟海的文献资料,研究人员有时候甚至难以检索到急需的文献资料。

如果有个“学术秘书”能免费替你做些文献方面“爬罗剔抉,刮垢磨光”的工作,你是不是想马上“来一打”?近日,位于美国西雅图的艾伦人工智能研究所在这方面做了些尝试。

从搜索引擎到“语义学者”

科研人员常借助学术搜索来寻找自己想要的资料。但有些学术搜索工具只为某一研究领域的专家服务,不同领域之间的关联不足,难以为跨界学者提供服务。还有一些专注科研领域的搜索引擎,偶尔也会检索出相当一部分非学术文档。更重要的是,从互联网上搜索到的资料容易出现令人啼笑皆非的差错,甚至数据也面临被篡改的风险。

针对学术搜索引擎的种种不足,2015年,艾伦人工智能研究所首次推出“语义学者”。“语义学者”本质上是一个旨在解决信息过载问题的学术搜索引擎,它能帮助用户筛选科学论文,并在一定程度上理解检索到的论文内容。该搜索引擎检索的文献库最初集中在计算机科学,此后逐步向其他领域扩展。

2016年,该研究所更新了“语义学者”的功能。比如,它可以从文本中挑选出最重要的关键词和短语,而不仅仅依赖作者或出版商所提供的论文关键词。它还能帮助科学家理解论文的内容,这一功能相比此前其他的学术搜索引擎令人耳目一新。与此同时,它还可以找出论文所引用的真正具有影响力的参考文献,并将论文中的数据呈现在搜索结果中,让搜索者一目了然。

期待“智慧的灵魂”

“简洁,是智慧的灵魂。”近日,艾伦人工智能研究所推出更新的“语义学者”系统时,引用莎士比亚剧作《哈姆雷特》中的一句话来“站台”。

新款“语义学者”搭载人工智能并用于科学研究,可以将冗长的计算机科学论文进行一系列汇总,以节省审查此类文献的时间。该系统新的摘要功能,可以对大量科学研究论文进行分析,并将其简化为一句高度概括的话。

目前,“语义学者”的数据库中有1000万篇计算机科学论文。据该数据库技术总监Dan Weld介绍,他们将逐步添加其他学科的论文。

研究人员经常依赖论文标题和阅读冗长的摘要来甄别信息。在更习惯用手机、Pad等移动设备来完成各项工作的今天,“语义学者”的功能似乎更具优势。

“经过早期测试,使用者的反馈是积极的。” 艾伦人工智能研究所研究员韦尔德说,“人们似乎很喜欢它。”

近年来,研究人员开发出各种自然语言处理程序来汇总文档,它通常有两种方式。抽取式着重于选择代表性文本,并在摘要中逐字使用。例如,2018年开发的Paper Digest是提取关键句子,而不是自己来再次书写。抽象式则使用自然语言生成算法来创建全新的内容摘要。近年来,人工智能自然语言技术的发展,使这种方法成为程序员的首选。

在所有具备汇总功能的搜索工具中,“语义学者”拥有最大的压缩率。对一篇约5000单词的科学论文来说,“语义学者”的摘要约为21个词。其平均压缩率为原文的1/238。目前最接近“语义学者”的竞争对手,只能将文档压缩到原文的1/36。

“这还不是完美的,但是朝正确方向迈出的一步。”华盛顿大学教授Jevin West对该新程序进行测试后说,“我预计,这种工具将在不久的将来成为学术搜索的标准工具。”

目前,该系统仅接受以英文撰写的论文,程序作者希望最终能包含其他语言的文档。艾伦研究所提供免费代码,还建立了一个向所有人开放的示范站点。

“学术秘书”有待“实习”

“‘语义学者’的核心是从长文中挖掘和压缩出关键语义,和搜索引擎的关键词不太一样。”北京理工大学自动化学院教授邓方告诉《中国科学报》,“即使有较大压缩率,该系统概括的准确性也可以通过大量的训练提高,所以准确率值得期待。系统对不同语言需要进行重新训练,所以对语言方面还有更大的改进空间。”

“(语义学者在)工作方法上并没有太多创新。”中国科学院自动化所研究员张家俊对《中国科学报》介绍说,抽取式高效便捷,但总结能力一般;抽象式更接近人类概括大意时,先理解再总结的思路,但输入文本长度受限。其绝大多数情况下适用于对单篇文档做摘要总结,并且限于目标函数,导致压缩率太高,质量无法保证。

张家俊认为,该系统一是构造了大规模的科技文本—短摘要数据集;二是利用科技论文—标题的自然标注数据作为额外的任务进行多任务学习;三是在预训练模型BART的基础上,针对短摘要生成任务进行微调。

“由于他们提出了自己的数据集,这个数据集对应一个新的任务,‘语义学者’在这个数据集上获得了很好的效果,有比较好的应用。”张家俊说,“不过,也有需要改进的地方。一方面,很多文献非常长,与之相对目前仅支持5000个词的输入有些捉襟见肘;另一方面,即使可以输入5000个甚至更多单词,在模型上进行语义编码也有难度,这个方法的有效性还有待进一步观察。”(本报记者 张双虎)

关键词: 语义学者 学术秘书 搜索引擎