在 Google Colaboratory 中通过 Stable Diffusion 执行图像生成

关于这篇文章

我总结了运行 Stable Diffusion 的流程，最近在 Google Colaboratory 上作为开源发布并且是一个热门话题。稳定扩散是一种文本到图像的模型，可以为任意文本输入输出逼真的图像。它基于扩散模型（一种受非平衡热力学启发的生成模型），并使用名为 LAION-5B 的大型数据库进行训练。这一次，我们将从 Hugging Face 下载一个预训练模型，这是一个主要专注于自然语言处理的大型开源社区。

注册拥抱脸

第一的https://huggingface.co/您需要登录 Hugging Face。

完成注册后，从“设置 > 访问令牌”发出您自己的访问令牌并记录下来。

再次，https://huggingface.co/CompVis/stable-diffusion-v1-4通过单击里面的“访问存储库”来获得许可。另请注意，您的电子邮件地址和用户名将与模型的作者共享。

此外，在使用模型时，您必须遵守 CreativeML OpenRAIL License，并且您必须同意禁止故意创建和共享非法或有害的输出或内容，以及重新分发的规则。

在 Google Colaboratory 中运行

GPU 设置

谷歌实验室使用新建笔记本后，从“运行时 > 更改运行时类型”中选择“GPU”作为硬件加速器。

下载包

使用以下命令下载必要的包，包括 Stable Diffusion。

!pip install --upgrade diffusers transformers scipy

重量下载

将以下内容替换为从 Hugging Face 获得的访问令牌以下载模型权重。

Dowwww d_way ghts。 py

from diffusers import StableDiffusionPipeline

YOUR_TOKEN = "<User Access Tokens>"
model_id = "CompVis/stable-diffusion-v1-4"
pipe = StableDiffusionPipeline.from_pretrained(model_id, use_auth_token=YOUR_TOKEN)
pipe.to("cuda")

图像生成

将以下内容替换为将作为图像生成和执行的输入的句子和短语。与输入同名的 png 图像将保存在 Google Colaboratory 上。此外，虽然输入文本似乎只对应英语，但我们也看到了类似的日语输出。

产生。 py

text = "<your original sentence>"
image = pipe(text)["sample"][0]
image.save("{}.png".format(text))

生成示例

从同一个句子生成三个图像（导出“雪国”）。

Generate_Eh mpE。 py

text = "The train came out of the long tunnel into the snow country"
num = 3
for i in range(num):
  image = pipe(text)["sample"][0]
  image.save("{}_{}.png".format(text,i))

Stable Diffusionによる画像生成をGoogle Colaboratoryで実行する

它似乎质量上乘，种类繁多。有趣的是，随着技术的普及，人们的创造性活动将如何改变，使任何人都可以轻松地塑造他们脑海中的图像。

原创声明：本文系作者授权爱码网发表，未经许可，不得转载;

原文地址：https://www.likecs.com/show-308624168.html