自 ChatGPT 以来,AI 的飞跃式进步有目共睹。AI 生成文本已经让人感受到科技的强大,AI 生成图片的能力则更加让人叹为观止,毕竟视觉冲击比文字更直接。
市面上已经出现许多在线 AI 作图的服务,不过基本上都只赠送少量的初始积分,画几张图就用完了,想要继续使用的话就只能充值。而且在线服务往往受条款限制,无法完全自由地创作(你懂的)。
如果手头有电脑,那为什么不在本地部署 AI 生图模型,充分利用已有的算力资源呢?
今天耕读君给大家介绍一款经过优化后,4GB 显存 就能跑起来,还可以 一键运行 的 AI 生图工具。
认识 Fooocus
目前最流行的文生图大模型是 Stable Diffusion,只不过它的配置要求相对较高且需要更多的手动配置。所幸 Lvmin Zhang 在 Github 上发布了集 Midjourney 「免配置」和 Stable Diffusion 「开源且本地免费使用」的优势,并且配置要求更低、生图效果却非常出彩的 Fooocus。
这是作者在 Github 中展示的生图结果,而它的 prompt 仅仅是 “forest elf” 而已,可见效果之惊艳:
然而耕读君并不打算照着 Github 埋头部署,而是使用大神制作的懒人包。
懒人包不仅搞定了繁杂的部署,解决不同硬件环境的兼容性、提高性能,而且还预置大量模型,可以“开箱即用”。以下是 Fooocus 在 4GB 显存 GTX1650 上跑出来的图:
还有:
启动 Fooocus
下载后解压文件,注意解压的路径不要包含中文,避免运行时出错。
作者很用心地添加了使用教程、文件夹作用说明、高宽比示例、出错案例以及不同硬件的启动器,真的是担心小白不会用啊!
耕读君的习惯是进到 Fooocus 2.1.862 这个文件夹,再双击下图中标记的脚本来启动。
脚本运行结果见下图(点击图片放大)。
有 4 点需要说明:
- 程序运行时需要加载大体积模型,因此务必解压到固态硬盘中,否则加载过程将耗时巨大;
- 程序会自动检测显卡显存,如果是小显存显卡则会自动启用低显存模式;
- 出现启动成功的提示,一般会自动打开默认浏览器访问 WebUI,如果没有打开,可以手动开浏览器访问;
- 关闭浏览器不会导致程序退出,但是关闭命令提示符/终端,程序就会被关闭。
使用 Fooocus WebUI
Fooocus WebUI 启动后界面及功能区如下(点击图片放大):
左侧为预览区域和提示词文本框,预览区域可以看到图片生成的过程。
“图像输入”功能不仅可以扩图、重绘,还可以输入图片反推出提示词,如果在网上看到别人用 AI 画的图,就可以利用这个功能来学习优化自己的提示词。
“高级设置”默认开启,设置区域位于屏幕右侧,在这里可以更精细地控制图片生成。
懒人包集成了大量(几乎不可能全用上)的预置样式,可以快速生成对应风格的图片。将鼠标放在每个样式名称上可以看到对应的预览图。
还可以微调模型,设置不同模型的权重:
只要提示词准确,那么在默认设置下已经可以生成高质量的图片。更高分辨率、更多出图数量、更多样式和模型意味着将消耗更多算力,在显卡性能较弱、显存比较小的情况下,图片生成时间会成倍增加。
需要注意的是,样式和模型并非越多越好,否则很可能导致绘图失败,或者程序无法正确理解真实意图,从而生成不符要求的图片。
提示词插件推荐
同样的软件、同样的模型,为什么有些人可以画出大作,而我们的作品普普通通?区别就在于 Prompt 提示词质量。
如果不懂如何准确描述,那么所有天马行空的想法都只能停留在大脑中,无法呈现出来。
高质量提示词有 3 个关键点:简洁、准确、细节。
初学者很难同时做到这 3 点,但是可以借助提示词插件——AIPrompter。
这款插件支持多种 Chrome 内核浏览器,安装后它会自动检测 Fooocus 的 WebUI,在提示词输入框中显示按钮。
AIPrompter 不仅可以通过鼠标点击插入丰富的提示词,还内置翻译功能(AI 对英文的理解更优秀),可以将中文描述快速翻译成英文提示词。
工具在手,剩下就要靠你的想象力了。最后耕读君画一张孙大圣来收尾吧——
关注耕读君,获取更多有趣有用的科技资讯。