我们尝试让绘画AI成为负责插图的新同事-木庄网络博客

本文摘自触乐网，侵删。

随着讨论热度逐渐褪去，“AI绘画”的话题在这段时间似乎已经渐渐不再掀起波澜，却已有不少游戏公司悄无声息地将AI绘画加入了自己的工作流程中。在探索AI绘画工具化的浪潮中，作为一群绘画方面的外行人，触乐也踏出了自己的第一步——在祝佳音老师的指示下，我们正在尝试使用AI绘画工具生成文章所需的插图。

文章插图的版权问题对大部分使用者而言都是个不小的隐患，要想在开源或有版权的图片网站上为文章找到切合主题的插图也不是件容易的事。AI绘画似乎成了一个不错的选择——在我们的想象中，只要为AI提供几段描述或是关键词，AI就能“读懂并画出”我们想要的图片。事实真的如此简单吗？为了实现“让AI帮我们画插图”的目标，最大程度上解放劳动力，我们做出了一些尝试。

画风、付费、本地化？

要想生成对应风格的插图，第一步当然是挑选一个合适的模型。AI绘画的模型演化进度在最近短短半年间可谓突飞猛进，光是国内外主流模型便已有五六个，各类风格化模型更是百花齐放。不过，要找到一个适合生成文章插图的模型并不容易。有些模型是开源的，有些需要付费才能使用，有些游走于法律的灰色地带，被人破解后偷偷下载……

无论是哪种，总要上手试试才行。我们在最后选择了4种模型作为备选方案：开源后支持本地部署，曾经一度号称“最强绘画AI”的Stable Diffusion；老牌AI研究团队OpenAI旗下最早的几个图像生成AI之一DALL·E；架设在Discord频道中，持续更新模型的Midjourney；以及最后，支持日式画风的NovelAI本地部署版本。

首先必须声明的是，尽管目前的AI绘画版权问题仍不明朗，但“本地部署版NovelAI”一定是其中最不靠谱的一个——不提图片库的版权问题，模型的来源本身便游走在法律的灰色地带。相比起来，本地部署的Stable Diffusion则“名正言顺”得多。自Stable Diffusion宣布开源之后，在GitHub上即可下载Stable Diffusion的新旧版本，在本地架设后，借助WebUI工具便可以直观地调整生成图片的各项参数与图片预览。

不过，天下没有免费的午餐——虽然开源的行为接近于“将午餐送到你的嘴里”，但运行程序同样需要有足够的算力。几年前还算得上配置不错的GeForce RTX 2060显卡如今多少有些力不从心。有人曾统计过不同的显卡利用Stable Diffusion模型生成512×512大小图像时所耗费的时间，2060显卡需要17秒，3080只需要7秒——不一定足够精准，但也有参考价值。

3080的用时还不到2060的二分之一

当然，实际使用过程中，你会意识到17秒只是一种理想状况。随着迭代步数的增加、画幅的调整与生成数量的增多，生成图片所需的时间几乎呈指数式上涨。最合理的方式，还是先生成512大小的图片，再通过图片扩大算法将其放大。即便如此，当你把迭代步数不断调高，也可能面临内存溢出的风险。更直观的感受是，在图片生成过程中，电脑的风扇声几乎没有停过。

相比起来，另外两家付费的绘画AI——DALL·E与Midjourney就对电脑显卡友善得多。它们的图片生成并不需要你紧张地监控显卡温度，防止烧坏，只需要向它们的服务器发送对应描述词，服务器便会吐出一组图片以供用户选择。只是与此相应，每次占用服务器资源生成图片需要消耗用户一定量的积分，开始你可以免费试用，试用完每个账号的免费额度之后，必须得为账号充值积分才能继续生成。

一般而言，用一组关键字生成4张512×512的例图大约需要1积分。每个绘画AI的积分定价略有差别——DALL·E的付费积分相对更贵一些，大约是15美元115积分，折合人民币大约1元生成一次；Midjourney提供了每月10美元约200张图的包月套餐，算下来便宜不少。

不管是DALL·E、Midjourney还是Stable Diffusion，最关键的，当然还是图片生成的质量。我们使用了几组不同的关键词，测试AI们的表现。

描述与关键词

在插图这方面，相比起精美的3D建模图片或是贴近照片的现实风格图片，祝佳音老师更加青睐的是手绘杂志插图风格。但在风格的描述上却遇见了不少麻烦：该怎样告诉AI我们需要什么？

一开始，我们尝试用某一本杂志的刊名笼统地描述它的插图风格：例如，在关键词里加上《纽约客》（New Yorker）。问题随之而来：即使在同一本杂志里，插图风格并非单一不变。在这一点上，免费的Stable Diffusion为我们提供了不少试错的案例——即便你加入了“手绘”“无模糊”“清晰线稿”与艺术家的名字等关键词，绘画AI还是不太明白你究竟想要什么，只能一次给你端上来几张不同风格的图片任你挑选，你可以看得出来，这些风格确实都曾出现在杂志中。至于是否能够找到你想要的，就得指望运气了。