添加图片注释,不超过 140 字(可选)

更多AI前沿科技资讯,请关注我们:

添加图片注释,不超过 140 字(可选)

产品经理逛世界一只在互联网PM浪迹多年的吉米猫,希望与大家一起分享,一起成长,一起用发现的眼光看世界,用一颗产品心分析世间万物。个人资源分享网站:www.douyoubuy.cn 公众号

在人工智能的浪潮中,图像生成技术不断进步,最近快手开源的文生图模型——Kolors模型以其卓越的性能和创新性,成为该领域的一颗新星。本文将深入探讨Kolors模型的技术特点、评估性能、以及它在艺术和创意产业中的潜在应用。

Kolors模型概述

Kolors是由快手团队开发的大规模文本到图像生成模型,它基于潜在扩散机制,经过数十亿文本-图像对的训练,展现出在视觉质量和语义准确性方面的优势。Kolors不仅支持中英文输入,还特别擅长理解和生成中文特定内容,这使得它在多语言环境下具有独特的竞争力。

技术亮点

  • 多语言支持:Kolors能够处理中文和英文文本,为不同语言用户提供了强大的图像生成能力。
  • 高质量图像生成:经过大规模数据训练,Kolors在生成高质量、逼真的图像方面表现出色。
  • 复杂语义理解:Kolors能够准确理解复杂的文本提示,并将其转化为图像,即使是包含多个元素和场景的描述。

评估性能

Kolors在评估中展现出了卓越的性能。通过KolorsPrompts数据集,Kolors与当前最先进的开源和专有模型进行了比较。在人类评估中,Kolors在视觉吸引力、文本忠实度和总体满意度方面均获得了高分。机器评估方面,Kolors的多维人类偏好评分(MPS)也是最高的,这进一步证明了其在图像生成领域的领先地位。

应用场景

Kolors的应用潜力巨大,无论是在艺术创作、游戏设计、广告制作还是虚拟现实领域,Kolors都能够提供强大的支持。设计师和艺术家可以利用Kolors快速将创意转化为视觉图像,而企业和开发者则可以将其集成到产品中,为用户提供更加丰富的视觉体验。

下面我们在comfyUI中进行测试。

下面是kolors在comfyUI实现的项目地址:

https://github.com/kijai/ComfyUI-KwaiKolorsWrapper
添加图片注释,不超过 140 字(可选)
添加图片注释,不超过 140 字(可选)

按照上面方法安装。大概模型要20G。如果网络不好的朋友,我们把模型资料放度盘了,大家可点击文末“阅读原文”跳转找到。

下面是kolors工作流:

添加图片注释,不超过 140 字(可选)

因为模型对中文理解很好,所以我们直接中文提示词。

提示词:一只卡通波斯猫推倒装着向日葵的花瓶,而花瓶倾斜正在倒下,猫正在偷笑,背景有天空,天空是星月夜风格,且有一面墙,墙上有一块黑板写着“closerAI”的字样,

添加图片注释,不超过 140 字(可选)
添加图片注释,不超过 140 字(可选)

提示词:梵高老头抱着一瓶向日葵,走到星月夜的天空下,背景被街灯拉长,很落寞的感觉,整体画风为梵高油画的风格

添加图片注释,不超过 140 字(可选)
添加图片注释,不超过 140 字(可选)

提示词:梵高老头坐在星空下,在画架前画星月,很落寞的感觉,整体画风为梵高油画的风格

添加图片注释,不超过 140 字(可选)
添加图片注释,不超过 140 字(可选)
添加图片注释,不超过 140 字(可选)

提示词:梵高老头,Q版可爱的人物,坐在丰收的麦田中,在画架前,正在画星月夜的画,很落寞的感觉,插画风格,整体画风为梵高油画的插画风格,

添加图片注释,不超过 140 字(可选)
添加图片注释,不超过 140 字(可选)
添加图片注释,不超过 140 字(可选)

提示词:一名中国宇航员,身穿中国宇航服,手拿羽毛球拍,在月球上打羽毛球,

添加图片注释,不超过 140 字(可选)

提示词:一名中国宇航员,漂浮在宇宙中,离地球越来远

添加图片注释,不超过 140 字(可选)

提示词:一名中国宇航员,在月球上开汽车

添加图片注释,不超过 140 字(可选)

提示词:多名宇航员,在月球上开法拉利跑车,

添加图片注释,不超过 140 字(可选)

下面测试它的文字能力:

沙滩写着“世界和平”的汉字,从上往下俯瞰

添加图片注释,不超过 140 字(可选)
添加图片注释,不超过 140 字(可选)
添加图片注释,不超过 140 字(可选)

霓虹灯招牌,写着“酒吧”

添加图片注释,不超过 140 字(可选)
添加图片注释,不超过 140 字(可选)

下面测试下其它效果

提示词:一个中国女孩子在喝酒,霓虹灯招牌,写着“酒吧”

添加图片注释,不超过 140 字(可选)
添加图片注释,不超过 140 字(可选)
添加图片注释,不超过 140 字(可选)

提示词:孙悟空手拿金箍棒,全身火焰,火眼金睛,

添加图片注释,不超过 140 字(可选)

看到他生成的这一张孙悟空的图,真的稳如老狗。

我们再测试一下他的图生图。

添加图片注释,不超过 140 字(可选)

用上面这一只猫的图来测试一下。

提示词:一只猫身穿赛博朋克铠甲,

添加图片注释,不超过 140 字(可选)
添加图片注释,不超过 140 字(可选)
添加图片注释,不超过 140 字(可选)

生成的图片,跟原图的构图不一样。这里的话将那个重绘幅度调小一点。我们这里再试一下。

添加图片注释,不超过 140 字(可选)

还行。

下面测试写真

添加图片注释,不超过 140 字(可选)
添加图片注释,不超过 140 字(可选)
添加图片注释,不超过 140 字(可选)
添加图片注释,不超过 140 字(可选)
添加图片注释,不超过 140 字(可选)
添加图片注释,不超过 140 字(可选)
添加图片注释,不超过 140 字(可选)

招财猫像佛一样的姿势在睡觉

添加图片注释,不超过 140 字(可选)
添加图片注释,不超过 140 字(可选)

整体来说,能理解中文来生图,且生图质量很好,​能够快速生成满意的图片和设计,然后再进行其它图片的处理。但对于生成中文还得再优化,但整体是一个​很优秀的模型。​

更多AI前沿科技资讯,请关注我们:

添加图片注释,不超过 140 字(可选)

产品经理逛世界一只在互联网PM浪迹多年的吉米猫,希望与大家一起分享,一起成长,一起用发现的眼光看世界,用一颗产品心分析世间万物。个人资源分享网站:www.douyoubuy.cn 公众号

已获得查看权限
链接: https://pan.baidu.com/s/1C0wjLvxogzq_RyQMWiYoMQ 提取码: k9xw
--来自百度网盘超级会员v6的分享

主题授权提示:请在后台主题设置-主题授权-激活主题的正版授权,授权购买:RiTheme官网

声明:本站所有文章,如无特殊说明或标注,均为本站原创发布。任何个人或组织,在未征得本站同意时,禁止复制、盗用、采集、发布本站内容到任何网站、书籍等各类媒体平台。如若本站内容侵犯了原著者的合法权益,可联系我们进行处理。