人工智能作为当今最前沿的科技之一,正在以令人惊叹的速度改变着我们的生活。从智能语音助手到无人驾驶汽车,从 AI 绘画到机器学习,它为我们打开了一个充满无限可能的未来。除了生成人类照片,AI 还可以根据我们的需求画出各种各样风格的照片。今天我们就来说一说 AI 是怎么样画出图片的。
AI 生成图像的背后,有一项非常重要的技术——GAN。GAN 是 Generative Adversarial Networks 的首字母缩写,意思是生成式对抗网络。它是 2014 年,伊恩·古德菲洛和他的同事一起提出的。GAN 听起来很高大上,但它的原理其实非常好理解。
随着成千上万次的学习训练,生成器生成的图片会越来越接近真实的人类照片。在这个过程中,鉴别器为了得分,也需要提升自己的鉴别能力。而为了骗过越来越聪明的鉴别器,生成器又要继续提升自己的能力,就这样,经过几千万次的训练,AI就能画出极其逼真的人像了。
除了 GAN,还有一种图像生成技术——Stable Diffusion。最近比较火的 MidJourney 就是通过这种模型生成的。简单地说,Stable Diffusion 能够将一堆杂乱无序的噪声图像一步步去噪声,最终生成预期图片的过程。
如今的图像生成软件还有一个很重要的功能,根据自然语言描述的内容生成图像。这个过程离不开两项技术,首先是图像识别技术。在以前,无论是自动驾驶、还是搜索图片中的物品,它们都依赖于 AI 对图像上内容的识别。在这个过程中,人类已经对大量图片上的内容进行了标注,并且用它们训练 AI,让 AI 能够识别出各种各样的东西。
另一项重要技术,就是自然语言识别了。在过去几十年时间里,人们也一直在想办法让 AI 看得懂我们写的字,了解我们在说什么。这让 AI 能够更好地理解我们给定的文本的含义。当你说“树上有只猫头鹰”的时候,计算机能够知道你说的是一种鸟,而不是树上有一只“猫”一个“头”,外加一只“鹰”。
在图像识别和自然语言处理技术日趋成熟之后,一种叫做跨模态检索的技术出现了。模态说的是数据的存在形式,比如文本、图像、视频等形式。跨模态检索能够将不同模态的数据进行关联对应,比如将文本中的“杯子”和图片中杯子的图像建立关联。在跨模态检索技术的帮助下,AI 就可以把我们输入的文本信息转化成图像信息了。
在今天,基于 GAN、stable diffusion 的 AI 图像生成技术已经有了非常多的应用。除了在图像生成上,在生成音乐、视频、文字生成上面都有极其广泛的应用。甚至从 2022 年末开始,很多公司就放出风声,要用 AI 画师代替人类画师。而在各种各样的社交媒体上,我们也可能看到 AI 生成的图片和视频了。