神经网络实际上就是在学习一种表示,在CV领域,良好的视觉和视觉语言(vision and vision-language)表征对于解决计算机视觉问题(图像检索、图像分类、视频理解)至关重要,并且可以帮助人们解决日常生活中的难题。

例如,一个好的视觉语言匹配模型可以帮助用户通过文本描述或图像输入找到最相关的图像,还可以帮助像 Google Lens 这样的设备找到更细粒度的图像信息。

为了学习这样的表示,当前最先进的视觉和视觉语言模型严重依赖于需要专家知识和广泛标签的训练数据集。

对于视觉相关的应用场景来说,视觉表示主要是在具有显式类标签的大规模数据集上学习的,如 ImageNet、 OpenImages 和 JFT-300M等。

对于视觉语言的应用来说,常用的预训练数据集,如Conceptual Captions和Visual Genome Dense Captions,都需要大量的数据收集和清理工作,这限制了数据集的大小,从而阻碍了训练模型的规模。

相比之下,自然语言处理的模型在 GLUE 和 SuperGLUE 基准测试中,他们达到sota性能是通过对原始文本进行大规模的预训练而不使用人工标签。

在 ICML 2021会议上,Google Research发表了Scaling up visual and vision-language representation learning with noisy text supervision一文,建议利用公开的图像替代文本数据(如果图像未能在用户屏幕上显示,则在网页上显示替代图像的书面文本)来弥补这一差距,以训练更大、最先进的视觉和视觉-语言模型。

过半作者是华人!Google Research图像表征模型ALIGN霸榜ImageNet

为了达到这个目的,我们利用了一个超过10亿个图像和文本对的噪声数据集,在概念标题数据集中没有昂贵的过滤或后处理步骤就获得了这个数据集。实验结果表明,我们的语料库规模可以弥补噪声数据的不足,从而实现了 SotA 表示,并且在转换到 ImageNet 和 VTAB 等分类任务时表现出了很好的性能。对齐的视觉和语言表示还在 Flickr30K 和 MS-COCO 基准上设置新的 SotA 结果,即使与更复杂的交叉关注模型相比也是如此,并支持零镜头图像分类和复杂文本和文本 + 图像查询的交叉模式搜索。

图文数据集中的 alt-text 通常是关于图像的描述,但数据集可能包括噪音,例如一些描述文本可能部分或全部与其配对图像无关。