2019年底,Facebook、纽约大学、华盛顿大学和DeepMind的研究人员联合提出了SuperGLUE,这是人工智能的一个新基准,旨在总结多种语言任务的研究进展。

基于一年前推出的GLUE基准,SuperGLUE包含了一系列更难理解的语言挑战、改进的资源和公开的排行榜。

当SuperGLUE刚被推出时,排行榜上表现最佳的模式和人类表现之间有近20个百分点的差距。但截至1月初,有两个模型:微软的DeBERTa和谷歌的T5 + Meena——已经成为第一个超越人类基线的模型。

纽约大学数据科学中心(center for data science)助理教授Sam Bowman表示,这一成就反映了机器学习领域的创新,其中包括自我监督学习,也就是让模型从未标记的数据集中学习,并将其应用于目标任务。“这些数据集反映了一些两年前就免费提供的最难监督的语言理解任务,”他说。

“我们没有理由相信SuperGLUE能够检测到自然语言处理的进一步进展,至少不能完全相信。”

但SuperGLUE测试并不是完美的,也不是一种完整的人类语言能力测试。

在一篇博客文章中,DeBERTa背后的微软团队自己指出,他们的模型“绝不可能”达到人类的自然语言理解智能水平。他们说,这都需要继续研究突破,以及用新的基准来衡量它们及其影响。

SuperGLUE

正如研究人员在介绍SuperGLUE的论文中写的那样,他们的基准是一种简单的、难以博弈的衡量标准,用来衡量通用英语理解技术的进步。它包括八个语言理解任务,这些任务来自于现有的数据,并附有一个性能指标和一个分析工具包。

这些任务是:

布尔问题(BoolQ)要求模型对一篇包含问题答案的维基百科短文作出回应。这些问题来自谷歌用户,他们通过谷歌搜索提交问题。

承诺银行(CommitmentBank,CB)任务,是识别来自《华尔街日报》等文本摘录中包含的假设,并确定该假设是否成立。

似是而非的选择(COPA),提供了一个关于博客和摄影相关百科全书主题的前提语句,模型必须从两个可能的选择中确定因果关系。

多句阅读理解(MultiRC)是一个问答任务,每个例子由一个上下文段落、一个关于该段落的问题和一系列可能的答案组成。模型必须预测哪些答案是正确的,哪些是错误的。

利用常识进行阅读理解推理(ReCoRD),模型可以从CNN和每日邮报的文章选择列表中预测出隐藏的单词和短语。在那些选项中,相同的单词或短语可能会以多种不同的形式表达出来,所有这些都被认为是正确的。

识别文本(RTE)对自然语言模型提出了一个挑战,即鉴定一个文本摘录来自于另一个文本摘录的真实性。

上下文中的词 (WiC)为模型提供了两个文本片段和一个多义词(具有多种含义的词),并要求模型确定在两个句子中该词是否具有相同的意思。

Winograd Schema Challenge (WSC),在这个任务中,会给定一些小说中的段落,模型必须回答关于歧义代词的先行词的多项选择题,它是为了改进图灵测试而设计的。

SuperGLUE还试图用带有Winogender的模型来衡量性别偏见。Winogender是指仅因句子中一个代词的性别而内容不同的句子对。然而,研究人员注意到这种方法有局限性,因为它只提供了积极的预测价值:虽然偏差分数低是模型表现出性别偏见的明显证据,但好的分数并不意味着模型没有偏见。此外,它并不包括所有形式的性别或社会偏见,这导致它只是一个粗糙的偏见衡量标准。

为了建立人类表现基线,研究人员借鉴了WiC、MultiRC、RTE和ReCoRD的现有文献,并通过亚马逊的Mechanical Turk平台聘请了crowdwork注释员。每个工人的平均工资是每小时23.75美元,他们先进行了一个简短的培训,然后用说明书和FAQ(常见问题)页面对选定的测试集注释了多达30个样本。

实施改进

谷歌团队没有详细说明是什么改进导致了他们的模型在SuperGLUE上创纪录的表现,但DeBERTa的微软研究人员在今天早上发表的一篇博客文章中详细说明了他们的工作。DeBERTa并不是全新的——它去年开源过——但是研究人员说他们训练了一个包含15亿个参数(模型用来做预测的内部变量)的更大版本。它将以开源的形式发布,并集成到下一个版本的微软图灵自然语言表示模型中,该模型支持Bing、Office、Dynamics和Azure认知服务等产品。

DeBERTa通过蒙面语言建模(MLM)进行预训练,这是一项填空任务,在这项任务中,会教导模型使用蒙面“标记”周围的单词来预测蒙面单词应该是什么。DeBERTa同时使用了上下文词的内容和位置信息,因此它能够识别句子中的“商店”和“商场”。例如“在新商场旁边开了一家新商店”,它能够识别出“商场”和“商店”这两个扮演的不同句法角色。

与其他一些模型不同,DeBERTa解释了单词在语言建模过程中的绝对位置。此外,它还计算模型中转换输入数据的参数,并根据单词的相对位置来度量单词依赖性的强度。例如,DeBERTa会理解“deep”和“learning”两个词相邻出现时的依赖性要比出现在不同的句子中时强得多。

DeBERTa还受益于对抗性训练,这是一种利用对抗性例子的技术,这些例子来源于训练数据的微小变化。在训练过程中,将具有对抗性的例子输入到模型中,提高了模型的可推广性。

微软的研究人员希望下一步继续探索如何使DeBERTa能够概括出新的子任务或基本的解决问题技能,这一概念被称为组合泛化。其中一种方法可能是更明确地结合所谓的组合结构,这就可能需要将人工智能与符号推理结合起来——换句话说,根据数学和逻辑规则来操纵符号和表达式。

微软研究人员写道:“DeBERTa在SuperGLUE上超越人类的表现,标志着通用人工智能的一个重要里程碑。但与DeBERTa不同的是,人类非常善于利用从不同任务中学到的知识来解决一项新任务,而不需要或很少需要特定任务的演示。”

新基准

Bowman说,目前还没有能接替SuperGLUE的新基准。但人工智能研究领域的共识是,未来的基准,特别是语言领域的基准,如果要有用,就必须考虑更广泛的道德、技术和社会挑战。

例如,许多研究表明,流行的基准在评估现实世界的AI性能方面表现不佳。最近一份报告发现,自然语言处理模型给出的答案中有60%-70%嵌入到基准训练集中,这表明模型通常只是简单地记忆答案。另一项对3000多篇人工智能论文的元分析研究发现,用于衡量人工智能和机器学习模型的指标往往不一致,跟踪不规则,信息量也不是特别大。

问题的部分原因在于,OpenAI的GPT-3、谷歌的T5 + Meena和微软的DeBERTa等语言模型,都通过内化公共网络上的例子来学习编写类似人类的文本。而借助电子书、维基百科(Wikipedia)和Reddit等社交媒体平台,他们可以推断出完整的句子,甚至整个段落。

因此,语言模型往往会放大这些公共数据中的偏见;部分培训数据通常来自普遍存在性别、种族和宗教偏见的社区。人工智能研究公司OpenAI指出,这可能导致一些露骨下流的词被放在女性代词附近,“伊斯兰教”被放在“恐怖主义”的附近。其他研究,如英特尔、麻省理工学院和加拿大人工智能倡议CIFAR研究人员在今年4月发表的一项研究,已经发现来自一些最流行模型的高度刻板偏见,包括谷歌的BERT和XLNet、OpenAI的GPT-2,还有Facebook的RoBERTa。米德尔伯里国际问题研究所(Middlebury Institute of International Studies)认为,这种偏见可能会被恶意行为者利用,通过传播错误信息和彻头彻尾的谎言来煽动不和谐,从而使个人变得激进,形成暴力的极右极端主义意识形态和行为。

大多数现有的语言基准测试都无法捕捉到这一点。在SuperGLUE问世两年来的研究结果的推动下,也许未来的研究会更进一步。