界面元素
# Stable Diffusion 模型
Stable Diffusion 模型又简称sd模型,通常格式是ckpt
和safetensors
, 现在提倡使用后者,因为前者会有潜在的系统安全风险,但是一般不用太担心,下到哪个用哪个。
模型下载:
- Civitai:最流行的AI模型网站,每个模型都有预览图可以预览,还有评论区用来返图
https://civitai.com/ (opens new window) - 抱脸:以原始大模型为主,因为不是每个模型都有预览图,使用起来不是很方便
https://huggingface.co/models?other=stable-diffusion (opens new window) - SD金矿:SD界的维基,大部分模型都是4chan流出,可以找到一些比较古早的模型
https://rentry.org/sdmodels (opens new window) - AI绘画模型博物馆:二次元模型最集中的地方
https://aimodel.subrecovery.top/ (opens new window) - SD-WebUI 资源站:也是以二次元为主,更新没有上面的及时
https://www.123114514.xyz/ (opens new window)
# 提示词
分正向提示词和反向提示词
提示词内输入的东西就是你想要画的东西,反向提示词内输入的就是你不想要画的东西。
- 几乎所有模型都只能理解英文词汇
- 所有符号都要使用英文半角,短语之间使用半角逗号隔开
- 回车和词语之间的空格基本不影响输出结果
一般来说越靠前的词汇权重就会越高,所以起手式不应太长。
简单的正面和反面起手式
masterpiece, best quality, 1boy
nsfw, (worst quality, bad quality:1.3)
稍长的正面和反面起手式
masterpiece, best quality, highres, highly detailed, 1girl,
nsfw, bad anatomy, long neck, (worst quality, bad quality, normal quality:1.3), lowres
# 采样方法-Sampling method
采样方法有很多种,但只是采样算法上有差别,没有好坏之分,选用适合的即可。常用的有:
Euler a
速度最快的采样方式,对采样步数要求很低,同时随着采样步数增加并不会增加细节,会在采样步数增加到一定步数时构图突变,所以不要在高步数情景下使用DPM++2S a Karras
和DPM++ SDE Karras
这两个差不太多,似乎SDE的更好,总之主要特点是相对于Euler a来说,同等分辨率下细节会更多,比如可以在小图下塞进全身,代价是采样速度更慢DDIM
如果使用的模型和lora出现了过拟合的现象,也就是图片有一种碎片化的撕裂感,使用DDIM并开高采样步数可以部分缓解,除此之外很少会用到,据说在Inpaint中会有比其他采样器更好的效果
# 提示词相关性-CFG scaleAI
对描述参数(Prompt)的倾向程度。值越小生成的图片越偏离你的描述,但越符合逻辑;值越大则生成的图片越符合你的描述,但可能不符合逻辑(因为你很大概率不可能把图片所有细节描述到位)。
- 二次元风格CFG可以调的高一些以获得更丰富的色彩和质感表达,一般在
7~12
,也可以尝试12~20
- 写实风格CFG大都很低,一般在
4~7
,写实模型对CFG很敏感,稍微调多一点可能就会古神降临,可以以0.5
为步进来细微调节
# 采样步长-Sampling steps
采样步长。只需要保持在20~30
之间即可。太小的话可能会导致图片没有计算完全,而太高的采样步数的细节收益也并不高。
只有非常微弱的证据表明高步数可以小概率修复肢体错误,所以只有想要出一张穷尽细节可能的图的时候才会使用更高的步数
# 随机种子-Seed
随机种子可以锁定这张图的初始潜在空间状态,意思就是如果其他参数不变,同一个随机种子生成的图应该是完全相同的,可以通过锁定随机种子来观察各种参数对画面的影响,也可以用来复现自己和他人的画面结果
- 点击筛子按钮可以将随机种子设为-1,也就是随机
- 点击回收按钮可以将随机种子设为右边图片栏里正在看的那张图片的随机种子
需要注意的是,即使包括随机种子在内的所有参数相同,也不能保证你生成的而图片和他人完全一致,随着显卡驱动,显卡型号,webui版本等其他因素的变动,同参数输出的图片结果都会可能会发生变动,这种变动可能是细微的细节区别,可能是彻底的构图变化
# 面部修复
面部修复在早期模型生成的的写实图片分辨率不高的时候有一定价值,可以在低分辨率下纠正错误的写实人脸,但是现在的模型的脸部精度已经远超早期模型了,一般情况下保持关闭即可。
# 生成次数/Batch count
指定次数,一张张生成
# 输出大小
输出大小决定了画面内容的信息量,很多细节例如全身构图中的脸部,饰品,复杂纹样等只有在大图上才能有足够的空间表现,如果图片过小,像是脸部则只会缩成一团,是没有办法充分表现的 但是图片越大ai就越倾向于往里面塞入更多的东西,绝大多数模型都是在512512分辨率下训练的,少数在768768下训练,所以当输出尺寸比较大比如说1024*1024的时候,ai就会尝试在图中塞入两到三张图片的内容量,于是会出现各种肢体拼接,不受词条控制的多人,多角度等情况,增加词条可以部分缓解,但是更关键的还是控制好画幅,先算中小图,再放大为大图
大致的输出大小和内容关系参考:
- 约30w像素,如512*512,大头照和半身为主
- 约60w像素,如768*768,单人全身为主,站立或躺坐都有
- 越100w像素,如1024*1024,单人和两三人全身,站立为主
- 更高像素,群像,或者直接画面崩坏
# 宽高比例
宽高比例会直接决定画面内容,同样是1girl的例子:
- 方图512*512,会倾向于出脸和半身像
- 高图512*768,会倾向于出站着和坐着的全身像
- 宽图768*512,会倾向于出斜构图的半躺像
所以要根据想要的内容来调整输出比例
# 每次数量/Batch size
此操作吃配置。可以理解为并发操作。
# 输出分辨率(宽度和高度)
输出分辨率非常重要,直接决定了你的图片内容的构成和细节的质量