关于这篇文章
我总结了运行 Stable Diffusion 的流程,最近在 Google Colaboratory 上作为开源发布并且是一个热门话题。稳定扩散是一种文本到图像的模型,可以为任意文本输入输出逼真的图像。它基于扩散模型(一种受非平衡热力学启发的生成模型),并使用名为 LAION-5B 的大型数据库进行训练。这一次,我们将从 Hugging Face 下载一个预训练模型,这是一个主要专注于自然语言处理的大型开源社区。
注册拥抱脸
第一的https://huggingface.co/您需要登录 Hugging Face。
完成注册后,从“设置 > 访问令牌”发出您自己的访问令牌并记录下来。
再次,https://huggingface.co/CompVis/stable-diffusion-v1-4通过单击里面的“访问存储库”来获得许可。另请注意,您的电子邮件地址和用户名将与模型的作者共享。
此外,在使用模型时,您必须遵守 CreativeML OpenRAIL License,并且您必须同意禁止故意创建和共享非法或有害的输出或内容,以及重新分发的规则。
在 Google Colaboratory 中运行
GPU 设置
谷歌实验室使用 新建笔记本后,从“运行时 > 更改运行时类型”中选择“GPU”作为硬件加速器。
下载包
使用以下命令下载必要的包,包括 Stable Diffusion。
!pip install --upgrade diffusers transformers scipy
重量下载
将以下内容替换为从 Hugging Face 获得的访问令牌以下载模型权重。
from diffusers import StableDiffusionPipeline
YOUR_TOKEN = "<User Access Tokens>"
model_id = "CompVis/stable-diffusion-v1-4"
pipe = StableDiffusionPipeline.from_pretrained(model_id, use_auth_token=YOUR_TOKEN)
pipe.to("cuda")
图像生成
将以下内容替换为将作为图像生成和执行的输入的句子和短语。与输入同名的 png 图像将保存在 Google Colaboratory 上。此外,虽然输入文本似乎只对应英语,但我们也看到了类似的日语输出。
text = "<your original sentence>"
image = pipe(text)["sample"][0]
image.save("{}.png".format(text))
生成示例
从同一个句子生成三个图像(导出“雪国”)。
text = "The train came out of the long tunnel into the snow country"
num = 3
for i in range(num):
image = pipe(text)["sample"][0]
image.save("{}_{}.png".format(text,i))
它似乎质量上乘,种类繁多。有趣的是,随着技术的普及,人们的创造性活动将如何改变,使任何人都可以轻松地塑造他们脑海中的图像。
原创声明:本文系作者授权爱码网发表,未经许可,不得转载;
原文地址:https://www.likecs.com/show-308624168.html