在即将举行的2020年国际机器学习国际会议(ICML)会议上接受的论文中,OpenAI的研究人员证明,在像素序列上训练的某些AI语言模型可以生成连贯的图像。他们说,这是朝着理解和弥合计算机视觉与语言理解技术之间的鸿沟迈出的一小步,但意义重大。

自我监督学习或没有人工标记数据的学习是机器学习中的长期挑战。最近,诸如Google的BERT,Facebook的RoBERTa以及OpenAI的GPT-3之类的模型在一系列语言任务上均取得了领先的性能,但是当应用于图像生成或分类时,这种新兴的类并没有成功。

幸运的是,基于GTP-3的基于Transformer的模型是领域无关的,这意味着它们可以应用于任何形式的序列。OpenAI利用它来在图像数据上训练其语言模型GPT-2的较小版本。结果表明,即使没有手工编码的知识,该模型也能理解物体的外观和类别等特征。该模型的特征可在许多分类语料库上实现最新性能,并具有近乎最新的无监督准确性。

OpenAI在流行的基准语料库ImageNet上训练了三种版本的图像生成GPT-2模型-iGPT-S(包含7600万个参数),iGPT-M(4.55亿个参数)和iGPT-L(14亿个参数),还有一个更大的型号,名为iGPT-XL(68亿个参数),结合了ImageNet和来自网络的图像。然后,他们降低了图像的分辨率,并创建了自己的9位调色板来表示像素,从而在不牺牲精度的情况下产生了比标准RGB光谱短3倍的输入序列长度。

根据OpenAI,结果表明,图像特征质量随深度而急剧增加,而后略有下降。研究人员认为,这可能是由于基于Transformer的模型分两个阶段运行而发生的。在第一阶段,模型从其周围的上下文中收集信息以构建上下文化的图像特征,而在第二阶段中,上下文化的特征用于预测图像中的下一个像素。

但是,OpenAI指出他们的方法有局限性。它的iGPT模型仅显示低分辨率图像,并表现出偏差,这些偏差是由他们接受过数据训练后得出的,例如,可能在性别和角色之间建立了关联(即“男性科学家”)。此外,他们花费大量时间进行计算训练-在Nvidia V100图形卡上使用iGPT-L大约需要2500天。

由于这个原因,研究人员认为,这项工作主要是作为概念证明的演示。“训练这些模型的大量资源成本以及[现有]方法的更高准确性,使得这些表示无法在视觉领域的实际应用中使用……[并且]期望开发人员将需要更加关注他们提供的数据他们写道。“ [但是,我们的]结果表明,由于其简单性和通用性,具有足够计算能力的序列转换器最终可能是学习许多领域优秀功能的有效方法。”

OpenAI很久以来就断言,功能强大的计算机与强化学习和其他技术结合可以实现范式转移的AI进步。正如《麻省理工科技评论》今年早些时候报道的那样,OpenAI内的一个名为Foresight的团队进行了实验,以通过训练越来越多的数据和计算算法来测试他们可以将AI功能推向多远。根据同一份报告,OpenAI正在开发一种使用大量计算资源对图像,文本和其他数据进行训练的系统,该公司的领导层认为这是通向人工智能(AGI)的最有希望的途径,即可以学习任何任务的AI人类可以。

OpenAI还发现,增加其模型的规模和进行更多迭代的训练都可以带来更好的图像质量。当在基准CIFAR-10,CIFAR-100和STL-10上对功能进行评估时,它们的性能要优于所有有监督和无监督的传输算法。

郑重声明:本文版权归原作者所有,转载文章仅为传播更多信息之目的,如有侵权行为,请第一时间联系我们修改或删除,多谢。