首页 云计算 > 内容

推出了高效的文本到图像生成器RQ-Transformer

时间:2022-10-15 16:33:44 来源:
导读 Kakao Brain表示,已于3月底在开放源码社区GitHub[1]上发布了先进的文本到图像生成器残差量子化(RQ)变压器。RQ-Transformer是由39亿个参数...

Kakao Brain表示,已于3月底在开放源码社区GitHub[1]上发布了先进的文本到图像生成器残差量子化(RQ)变压器。RQ-Transformer是由39亿个参数和3000万个文本图像对组成的文本到图像AI技术,在降低计算成本的同时,显著提高了生成的图像的质量,并实现了超过世界上其他任何文本到图像发生器的采样速度。

RQ-Transformer成功地解决了现有模型计算成本高和图像生成速度慢的问题。RQ-Transformer主要利用残差量化技术,使用固定大小的码本,以由粗到细的方式递归量化特征映射,而不是简单地增加码本大小,RQ-Transformer能够在更短的时间内学习到更多的信息。

RQ-Transformer是Kakao Brain开发的文本-图像AI模型中参数数最多(39亿个)、采样速度最快的模型,其采样速度是Kakao Brain开发的另一种开源文本-图像模型minDALL-E的两倍。

RQ-Transformer可以理解它第一次看到的文本组合,并创建相应的图像。在“沙漠中的埃菲尔铁塔”文本条件下生成的样本图像如下所示:

“RQ-Transformer”是Kakao Brain技术的开端,它提出了在保持尖端性能的同时,快速生成图像的基础技术。Kakao Brain计划以这项技术为基石,加强这一模型,提高通过计算机程序生成的图像的质量,以更大的成本效益学习更多的数据,并建立超越简单地根据输入信息生成图像的技术,帮助人类将大脑中的想法可视化在屏幕上。

由于其全面的优越方法,文本到图像的技术被选为将在今年6月举行的年度全球计算机视觉会议CVPR 2022上展示。为了保持其技术的高标准,Kakao Brain的生成模型(GM)团队,负责图像生成模型的研究和开发(R&D),将继续微调该模型,以追求更复杂的图像和更快的采样速度。

Kakao Brain代表金日都(音)表示:“计算机根据人类的指令生成图像,这意味着能够分辨和理解需求背后的意图。”“我们非常兴奋地看到这项研究将我们引向何方,我们相信这种革命性的人工智能模型标志着人类和计算机可以自由交流的未来之旅的开始。”

标签: