这个权威赛事上 AI阅读理解首超人类

2018-02-02 13:49 中关村管委会

打印 放大 缩小

2018年伊始,人工智能的发展又迎来一个里程碑时刻。1月3日和5日,两个研究团队连续刷新AI阅读理解得分记录,并且首次超过人类水平。

AI阅读理解得分首超人类

由斯坦福大学发起的 SQuAD(Stanford Question Answering Dataset)挑战赛,被认为是目前全球最高水平的AI阅读理解赛事。

SQuAD官网显示,阿里巴巴 iDST NLP 团队提交的 SLQA +模型,1月5日在精确匹配(Exact Match)项目上获得了82.440的分数,刷新了微软亚洲研究院R-NET模型刚刚于1月3日创造的纪录。而这两个模型的成绩都超过了人类在该项目上的得分——82.304。

SQuAD阅读理解赛事是以超过500篇维基百科文章为基础,包含了超过10万个问题-答案组合,是目前世界最大的AI阅读理解数据集。

而且跟CNN/DM,CBT等自然语言处理类数据集相比,过往的数据集往往只是“完形填空”的形式,即要求AI将一个词语填写到文章空白处。而SQuAD则是真正的阅读理解,需要AI先读完一段文章,然后回答一个根据文章提出的问题。

据微软方面介绍,得益于SQuAD所提供的庞大数据规模,参与该项挑战赛的选手不断地对成绩进行刷新,SQuAD挑战赛也逐步成为行业内公认的机器阅读理解标准水平测试。在今年的ACL大会(自然语言处理领域最顶尖的会议之一)的投稿里,有非常多的论文就是关于这项挑战赛的研究,其影响力可见一斑。从ACL 2017论文主题的可视分析中可以看到,“reading comprehension(阅读理解)”是今年ACL录取论文中最热门的关键词和任务,广受自然语言处理领域研究人员的关注。

SQuAD评分分为精确匹配(Exact Match)和模糊匹配(F1-score)两种,人类在这两项的得分分别是 82.3 和 91.2。上述两个模型目前只是在精确匹配项目上超过人类,而在模糊匹配上仍有大约2.5分的差距。

阿里已将技术用于客服

据阿里巴巴官方账号“阿里技术”介绍阿里巴巴自然语言处理首席科学家司罗表示,对于解决wiki类客观知识问答,机器已经取得非常好的结果,我们将继续向对通用内容的“能理解会思考”的终极目标迈进。今后,研发的重点在于把这项技术真正应用在广大实际场景,让机器智能普惠生活。

实事上,这项技术已经在阿里巴巴内部被广泛使用。比如,每年双11都会有大量的顾客对活动规则进行咨询。阿里小蜜团队通过使用司罗团队的技术,让机器直接对规则进行阅读,为用户提供规则解读服务,是最自然的交互方式。

再比如,顾客还会针对单个商品询问大量的基础问题,而这些问题其实在商品详情页都是有答案的。现在通过机器阅读理解技术,能够让机器对详情页中的商品描述文本进行更为智能地阅读和回答,降低服务成本的同时提高购买转化率。

由司罗领导的自然语言处理团队支撑了阿里巴巴整个生态的技术需求。由他们研发的AliNLP自然语言技术平台每日调用1200亿+次,Alitranx 翻译系统提供20个语种在线服务日调用量超过7亿+次。此前曾在2016年ACM CIKM 个性化电商搜索、2017年IJCNLP中文语法检测CGED评测、2017年年美国标准计量局TAC评比英文实体分类等大赛中取得全球第一的成绩。

中国多个团队排名前列

尽管阿里和微软是目前仅有的两个超过人类得分的团队,但是在自然语言处理领域,其实各方研究者的实力相当接近,竞争一直很激烈。

从SQuAD官网发布的榜单来看,去年11月和12月,得分纪录已经多次被刷新,其中来自中国和美国的团队占据了最前列的位置,包括腾讯、哈工大&科大讯飞等中国团队都取得了不错的成绩,一些欧洲、韩国和以色列的研究者同样榜上有名。

微软亚洲研究院副院长、自然语言计算组负责人周明博士表示:“祝贺中国的自然语言理解研究已经走在世界前列!整个领域的进步需要大家共同的努力和投入来推动。自然语言处理长路漫漫,让我们共勉。”

责任编辑:王路(QT0004)

猜你喜欢