最新消息:欢迎来到 艺宵网,有任何问题或建议请联系!在线留言

京东AI研究院获QuAC机器阅读理解竞赛冠军,EL-QA模型能力业界领先

Jacky 艺宵网

近日,在斯坦福大学、华盛顿大学、Allen AI 和 UMass 联合发起的机器阅读理解(QuAC[1] (Choi et al., 2018))比赛上,京东 AI 研究院语音语言实验室提出的 EL-QA 模型(Single Model)登顶 QuAC Leaderboard,全部三项指标均获得第一名。

其中,在 F1-Measure(又称为 F1-Score) 指标上达到 74.6,大幅拉近了机器与人类在该任务上的水平差距。这也意味着以零售、物流、金融、客服等优质场景为依托的京东 AI 研究院,在机器阅读理解能力上取得了突飞猛进的成果。

/uploadfile/202009/11/F017334616.png

图 1QuAC 挑战赛官方成绩榜单(https://quac.ai)

目前,QuAC 是人机多轮对话交互领域复杂度最高的数据集,要求模型具备强大的上下文语义理解、指代推理、省略语义恢复和知识推理等能力,这也吸引了全球顶级科研院所和企业研究机构参加。从结果来看,QuAC 具有较高的难度,在这个数据集上目前的最佳 AI 模型的性能距离人类表现仍有一定差距,表明在这个问题上技术还有进步的空间。

QuAC 新挑战:更复杂的数据集、更开放的问题、更贴近真实场景

机器阅读理解能力已成为判断机器是否具有自然语言理解(语义理解、阅读、问答等)能力的重要标准。SQuAD[2] (Rajpurkar et al., 2016) 数据集的提出极大地推动了机器阅读理解的研究与发展。随着模型在上述单轮问答场景超越人类,更有挑战的交互式阅读理解数据集,如 CoQA[3] (Reddy et al., 2018) 等,被相继提出。

相比于众多交互式阅读理解数据集,QuAC 具有更鲜明的特点,也更进一步反映了复杂人机对话交互应用场景的难度。比如(1)基于答案对提问者不可见的方式构造开放式问题,增大回答难度;(2)增加对话引导行为(Action)辅助提问者调整提问话题,以便高效获取信息;(3)模拟真实场景引入不可回答问题,增加对模型理解与判断能力的要求。

具体而言,该数据集是由提问者(Student)和回答者(Teacher)针对某一主题展开对话而构建的,提问者在只能看见给定主题而不可见主题具体信息的条件下进行开放式的提问,回答者针对问题不仅要给出具体回复(response),并且需反馈对话引导行为和问题是否可回答等信息。

/uploadfile/202009/11/0017335582.png

图 2:QuAC 数据集示例

例如,图 2 展示了提问者首先根据主题 Daffy Duck 进行提问。回答者会根据给定主题相关信息和交互历史来判断当前问题所讨论的话题是否可继续提问,继而反馈给提问者相应的对话引导行为,包括继续当前话题(Follow-Up),终止当前话题(Don’t Follow-Up)或无法判断是否继续(Maybe Follow-Up),并最后给出相应的答案。

该竞赛的数据构造过程更贴合人们通过对话进行信息获取(Conversational Information-Seeking)的真实场景。例如在零售领域,用户对某一商品进行开放式咨询,智能客服根据具体的商品信息对用户的提问进行可回复性判断,并给出用户是否继续或改变当前咨询话题的引导行为,最终给出自然语言回复。相对于传统的智能客服,这种新的交互方式可以极大地提升用户的对话体验和效率。

/uploadfile/202009/11/D117335762.png

图 3:QuAC 与其他机器阅读理解数据集的多维度对比

图 3 给出了 QuAC 与时下多个热门机器阅读理解数据集的详细对比,可看出 QuAC 具有最丰富的数据特性,要求模型具有更强的上下文语义理解和对话逻辑推理能力。

京东 AI 研究院 EL-QA 模型斩获新 SOTA

京东 AI 研究院语音语言实验室提出的 EL-QA 模型(Single Model)登顶 QuAC Leaderboard,全部三项指标均获得第一名,其中特别是 HEQD(对话 Session 层面对比人类平均水平的指标)显著领先之前最好表现。该结果的取得主要得益于我们在关键技术上的创新,包括大规模预训练语言模型、知识迁移、多任务学习、数据增强、Beam-Search 解码答案和 Deep Ranking 等。

拥有优质场景和广阔应用价值的企业或机构在本次竞赛中占据优势。本次竞赛从参赛队伍到榜单分布,大多是在智能人机交互服务领域有重要相关业务的企业的实验室。这也体现出,一方面,科技企业基于资源优势正在核心技术研发方面走到前沿,而大学则聚焦于新问题新思想新方向的提出和中立的技术评价,学术界和企业界形成了良性的紧密合作。另一方面,这也表明,智能人机对话交互技术不仅具有重要的研究价值,也有重大的产业价值。

企业的全力加入使得此领域的技术竞争日益激烈,是兵家必争之地。这次评测的对话式机器阅读理解相关技术可广泛应用于智能客服、营销导购、人机协同、AI + 教育等产品中,带来效率和体验的直接提升。

据悉,京东 AI 研究院语音语言实验室围绕自然语言处理、语音与声学、知识图谱、人机对话与交互、多模态信息处理等前沿领域开展人工智能技术研究,近两年已经在国际顶级学术会议和期刊上发表论文 50 多篇,获得 IEEE Signal Processing Society 等最佳论文奖,在多个有影响力的国际竞赛中获得冠军,同时也承担了多项国家重点研发计划。其研发的多项前沿技术也成功转化落地,支撑了京东智联云多个重要产品。此次研发的对话式机器阅读理解相关技术部分已落地到了京东智联云智能人机交互部的商城智能客服、商家智能客服、客户服务数据分析平台、智能写作以及商品知识图谱驱动的采购大脑等核心产品当中。

参考文献

[1] Choi E, He H, Iyyer M, et al. Quac: Question answering in context[J]. arXiv preprint arXiv:1808.07036, 2018.

[2] Rajpurkar P, Zhang J, Lopyrev K, et al. Squad: 100,000+ questions for machine comprehension of text[J]. arXiv preprint arXiv:1606.05250, 2016.

[3] Reddy S, Chen D, Manning C D. Coqa: A conversational question answering challenge[J]. Transactions of the Association for Computational Linguistics, 2019, 7: 249-266.

大家都在看

incaseformat病毒大面积爆发,请早做防范
科技资讯

incaseformat病毒大面积爆发,请早做防范

观威海 2021-01-14 536浏览 0评论

近期,部分单位政务网、互联网电脑感染“incaseformat病毒”,病毒可通过U盘、光盘等移动介质传播,导致删除大量文件且无法恢复,请各单位及时更新杀毒软件病毒库,专杀工具互联网下载地址:http://59.224.26.143。下班后关闭不使用的电脑,不要长期使电脑处于待机状态。...

2021年需要关注的10个IT趋势
科技资讯

2021年需要关注的10个IT趋势

Danny 2021-01-13 637浏览 0评论

当行业分析师和技术专家在2020年年初做出年度预测时,他们专注于云计算、人工智能、机器人等技术将如何改变市场。他们预测,对IT人才的需求将会供不应求,数据科学将继续发挥重要作用,数字化转型将决定组织业务的成败。但他们却没有预料到在全球爆发的新冠病毒疫情会从根本上改变人们工作和个人生活的各个方面。...

阿里百度等互联网平台上线“绿网计划”
科技资讯

阿里百度等互联网平台上线“绿网计划”

郑合惠子 2020-11-28 898浏览 0评论

每一年,涌入互联网平台的非正常搜索高达数百亿次。这些搜索背后,可能暗藏着试图自杀的人的挣扎与呼救。让每一次搜索背后的求助都能得到回应,而不是冰冷的报错与拦截,阿里百度等互联网平台上线“绿网计划” ,用暖心的宣导呼吁来取代“抱歉,这个页面找不到”。...

云麦科技出席CNBC全球科技大会,探讨智能健康未来
科技资讯

云麦科技出席CNBC全球科技大会,探讨智能健康未来

Jacky 2020-11-20 512浏览 0评论

以东西方科技对话为主题的2020CNBC全球科技大会,于2020年11月17日在广州召开。作为智能运动健康领域的头部企业,云麦科技受邀参加本次大会,云麦科技创始人CEO Wyatt出席,并与古德菲力CEO许捷一同参与《结构后疫情时代健康产业趋势》主题圆桌会谈。 疫情期间,大众对健康的关注度大幅提升,希望通过运动增强免疫,根据CBNDATA调...

奥克斯率先携手中国标准化研究院,联合共建首个符合GB/T33658热舒适实验室!
科技资讯

奥克斯率先携手中国标准化研究院,联合共建首个符合GB/T33658热舒适实验室!

Jacky 2020-11-20 476浏览 0评论

11月17日上午,奥克斯与中国标准化研究院在人类工效学领域达成共识,进行了合作签约,并在奥克斯创研中心举行了热舒适联合共建实验室揭牌仪式。中国标准化研究院作为国家级科研机构,拥有国内唯一经CNAS认可的人类工效学实验室。这是家电企业首次联合中国标准化研究院共建热舒适实验室,对奥克斯乃至整个家电行业来说意义非...

2020电子政务与智慧城市解决方案提供商100强
科技资讯

2020电子政务与智慧城市解决方案提供商100强

Danny 2020-11-18 1328浏览 0评论

智慧城市是电子政务的延伸与拓展,赋予了电子政务新的内涵。某种意义而言,电子政务与智慧城市就是同气连枝的共生关系,电子政务与智慧城市解决方案提供商正是将二者的发展做到“曲尽其妙”之境的重要推手。...

K歌人的狂欢,电商赛拉开2020全民K歌年度盛典大幕
科技资讯

K歌人的狂欢,电商赛拉开2020全民K歌年度盛典大幕

Jacky 2020-11-16 923浏览 0评论

日前,2020全民K歌年度盛典线上大赛电商赛场正式开赛,比赛将从主播、商家和品牌三个维度进行比拼,最终决出年度电商带货主播和商家的优胜者,跨界音乐人们将在这里实现自我价值的又一次飞跃。 除电商赛场之外,今年的年度盛典还设置了其余6大赛道公会、个人、粉丝团、歌房、家族和星计划,平台上的每位主播都将开足火力全...

新技术驱动新商业 网易创新企业大会看点前瞻
科技资讯

新技术驱动新商业 网易创新企业大会看点前瞻

Jacky 2020-11-16 912浏览 0评论

突如其来的疫情对传统商业模式的冲击,让各大企业看到了数字化技术和能力对于商业模式创新和商业生态系统重构的助力。AI、5G、云计算、超高清、VR/AR新技术层见迭出,线上零售、在线会议、互联网医疗、AI 营销新商业模式不断显现,正在重塑全行业。那么企业该如何利用新技术驱动新商业,获得创新发展呢? 11月28日,网易旗...

奢护四季 吾衣例外,COLMO洗衣机 X 例外打造奢品护理季,掀全国奢护美学风暴
科技资讯

奢护四季 吾衣例外,COLMO洗衣机 X 例外打造奢品护理季,掀全国奢护美学风暴

Jacky 2020-11-16 183浏览 0评论

高端衣物的背后,究竟有何奢护美学?自10月17日开始,从北京到重庆、上海、成都等全国十几座城市,高端AI科技家电品牌COLMO携手国内一线时装品牌例外,打造奢品护理季,让1%菁英群体零距离尊享空气洗体验,与数千位对品质生活有着无限追求的消费者一道,共同完成了一场奢护四季吾衣例外高端衣物奢护美学之旅。 尊享奢洗五 步...

网易数帆入选2020年电子信息行业自主创新成果
科技资讯

网易数帆入选2020年电子信息行业自主创新成果

Jacky 2020-11-16 515浏览 0评论

11月12日,2020第二十四届中国国际软件博览会(以下简称软博会),在杭州白马湖国际会展中心开幕。大会以软件铸魂,数智转型为主题,展现软件产业发展新特点、新模式、新业态。会上,中国电子信息行业联合会正式发布《2020年电子信息行业自主创新成果推广目录》。网易数帆基础软件平台成功入编该目录,荣膺自主创新应用称号...

发表我的评论
取消评论
昵称 (必填) 手机号 (必填)

网友最新评论【查看所有评论

阅读原文 阅读 100000+