我要投搞

标签云

收藏小站

爱尚经典语录、名言、句子、散文、日志、唯美图片

当前位置:刘伯温论坛 > 二元语法 >

Facebook开源问答系统DrQA:基于单一信源回答开放域提问

归档日期:04-25       文本归类:二元语法      文章编辑:爱尚语录

  Adam Fisch介绍说,DrQA的主要任务是大规模机器阅读(MRS)。在这种情况下,DrQA会在一个非常庞大的非结构化文档语料库中寻找问题的答案。因此,这个系统最大的挑战就是文档检索与文本的机器理解如何更好的结合。

  这篇论文提出使用维基百科作为唯一的知识来源,以解决开放域问答。任何事实性提问的答案,都是来自维基百科中的内容。

  我们的方法结合了基于二元语法哈希(bigram hashing)和TF-IDF匹配的搜索组件,以及一个训练用来在维基百科段落中寻找答案的RNN模型。

  我们在多个现有问答数据库上的实验表明:1、上述两个模块与现有方案相比优势很大 2、使用远监督的多任务学习,可以让上述组合更高效的完成任务。

  为了回答任何问题,DrQA必须首先检索超过500万个条目中的相关文章,然后仔细扫描以确定答案。我们把这个成为大规模机器阅读(MRS)。

  我们的工作将维基百科视为文章的集合,而不依赖于其内部图形结构。因此,这个通用方法可以切换到其他文件、书籍或是日报等领域。

  像IBM DeepQA这样的大规模问答系统,依赖于多个来源给出答案:除了维基百科,DeepQA还是用了知识库、词典、新闻、书籍等。因此这样的系统严重依赖信息冗余来获得正确答案。

  而只有单一知识来源,迫使模型在搜索答案时必须非常精确,因为相关证据可能只会出现一次。因此,这对机器阅读能力是一个挑战。

  获取论文,可以在量子位微信公众号(QbitAI)对话界面回复:“drqa”四个字母。

  在这个页面上,Facebook还展示了一下DrQA的问答界面,我们挑选几个给大家看看。首先是这个问题:“生命、宇宙和一切的答案是什么?”

  另外,Facebook还提供了预训练的模型,以及维基百科问答数据。这部分内容大小为7.5GB,解压之后约为25GB大小。

  8月9日(周三)晚,量子位邀请三角兽首席科学家王宝勋,分享基于对抗学习的生成式对话模型,欢迎报名~

本文链接:http://19721112.com/eryuanyufa/168.html