添加图片注释,不超过 140 字(可选)

更多AI前沿科技资讯,请关注我们:

http://aigc.douyoubuy.cn/

【closerAI ComfyUI】flux kontext dev提示词指南,同时探索controlnet控制一起生成的可行性

大家好,我是Jimmy。Ai图像编辑开源界的王,flux kontext dev昨天开源:

【closerAI ComfyUI】重磅来袭!flux kontext dev开源!图像编辑全民普及化!GGUF版本4G可玩!冲

很多人进行体验,反映模型不能很好理解文本,不遵循文本内容自由发挥。生成的结果跟我们想要的有很大偏差。其实,黑森林官方早给就出答案。建议大家在玩之前,先看看官方文档的提示词指南:

https://docs.bfl.ai/kontext/kontext_image_editing

我通过AI编程,给大家整理出一个表格,直观地看每个任务的提示词应该怎么写:

添加图片注释,不超过 140 字(可选)
添加图片注释,不超过 140 字(可选)

网页版的展示我形成了,大家可以上去看,电脑浏览器打开:http://aigc.douyoubuy.cn/2025/06/28/2037/

大家根据指令模板,照抄就是。

但是~

模板是死的,我的理解就是描述得越详细,它就越遵循你的指令。也就是要把话讲清楚

单图指令控制生图,这里不多说了,按上面提示词模板套用就是。重点是想分享一些多图参考的内容。

拿这两张图为例:

添加图片注释,不超过 140 字(可选)

首先,我提示词这样写:

两个女人一起在赛博朋克的城市中,两个人在打架,镜头应该为远景视角且能看到两个角色全身,保持人物外貌、装饰特征不变

添加图片注释,不超过 140 字(可选)

我这里为什么能生成两个女人在打架且全身?首先,我做了两件事。

1、将合并后的图像的尺寸形成潜空间尺寸加入采样

添加图片注释,不超过 140 字(可选)

尺寸要控制吧。你想生成怎么的尺寸,模型就在这个尺寸内发挥。

2、描述清楚:

两个女人一起在赛博朋克的城市中,两个人在打架,镜头应该为远景视角且能看到两个角色全身,保持人物外貌、装饰特征不变

我是双图参考嘛,两个女人模型就知道了是哪两个女人了。“在赛博朋克的城市”画风也描述清楚了,两个人在干嘛?在“打架”,如何全身展示?“镜头应该为远景视角且能看到两个角色全身”,最后要加上:”保持人物外貌、装饰特征不变“,如果不加,模型将自由发挥,在一定概率上会改变人物及其特征。

如果你不写清楚,描述不足,其它内容kontext模型将自由发挥

添加图片注释,不超过 140 字(可选)

就好比全身照的效果,你如果不描述到提示词,是很难抽卡到全身的!

我这次换了背景。

两个女人一起在银色短裙女人的几何背景中出现,两个人正在打架,镜头应该为远景视角且能看到两个角色全身包括脚。保持人物外貌、装饰特征不变。

添加图片注释,不超过 140 字(可选)

生图是同样遵循我们指令,因为我描述清楚在哪个美女的背景下。

两个女人一起在银色短裙女人的几何背景中出现,两个人正在打架,镜头应该为远景视角且能看到两个角色全身包括脚。顶部有射灯,明显的光影效果,明暗分明,保持人物外貌、装饰特征不变

添加图片注释,不超过 140 字(可选)

从上图你会看到,人物打架的动作好搞笑,随机生成的动作。因为我们没有指令去控制模型告诉它,两个角色是如何打架的嘛,所以它会自由发挥。

这个时候,为了能描述清楚,我借助LLM来尝试。

找一张打架的图像,让多模态能力的LLM来理解并描述:

添加图片注释,不超过 140 字(可选)

尝试修改提示词生图:将上面得到的提示词修改成两个女人的特征描述。

两个女人一起在银色短裙女人的几何背景中出现,

两个人正在打架,

黑裙美女左腿用力蹬地,肌肉紧绷,呈现出蓄势待发的状态,右腿向后弯曲抬起,膝盖微屈,显示出他正快速向前突进。他的身体大幅度前倾,将重心置于前方,展现出勇往直前的气势。

而银裙美女则呈现出攻击姿态,右腿稳稳支撑在地面,承受着身体的力量,左腿弯曲抬起,呈现出一种灵活且随时可移动的状态。他的上半身大幅度扭转,展现出强大的力量感和灵活性,右臂向前伸出。

镜头应该为远景视角且能看到两个角色全身包括脚。

保持人物外貌、装饰特征不变

以下生成效果:

添加图片注释,不超过 140 字(可选)
添加图片注释,不超过 140 字(可选)

我们能看到,通过提示词的中动作的描述,它能呈现出稍微合理的打架动作。但,这对于我们讲是不够的,正如当时stablediffusion的文生图SD1.5刚出的时候,文生图是很难满足我们的生图需求,我们要精准控制,那个时候,controlnet出现。姿势参考来控制。

所以,我们索性,形成姿势参考来控制生成。我们观察提示词它是通过条件加入采样器的,所以,我们可以使用controlnet来尝试形成合并条件,一起加入采样器,用姿势控制+提示词描述来尝试精准控图

我们这样接入姿势控制:

添加图片注释,不超过 140 字(可选)

尝试后的生图结果。

添加图片注释,不超过 140 字(可选)
添加图片注释,不超过 140 字(可选)
添加图片注释,不超过 140 字(可选)

当然,第一次生图,我没有控制参考图尺寸,但我们从结果来看,我们的想法验证是成功的,它能通过加入姿势控制条件与kontext一起生图。

只不过我这张参考图,姿势不够明了,但我们能看出它是遵循姿势控制来生图,但在人物控制中差了点,我猜应该是控制强度的问题,强度和开始结束时间调小一点,如下图示,

添加图片注释,不超过 140 字(可选)

我同时再优化下传入的图像姿势尺寸跟我们生图尺寸一样,再试下。

添加图片注释,不超过 140 字(可选)
添加图片注释,不超过 140 字(可选)

有点那个意思了吧。

这里主要是姿势参考图不够好,我觉得能更好的还原,我再尝试下。

找一张姿势明显的图:

添加图片注释,不超过 140 字(可选)

同样LLM描述详细动作:

左侧身着黑裙美女,呈现出战斗准备姿态。她左腿稳稳站立于地面,支撑身体重心,右腿屈膝上抬,脚悬于半空,膝盖朝向身体侧前方,蓄势待发。她右手握拳置于腰间,左手握拳高举至肩部侧上方,拳心向内,目光专注地看向对手,透着一股坚定与警觉 。

右侧银裙美女,正施展一个高踢动作。他左腿直立于地,脚尖朝前,稳稳支撑身体;右腿用力上抬,伸直且与地面平行,脚尖绷直,力量感十足。他的右手握拳收于腰间,左手握拳抬起,小臂与大臂呈一定角度,置于胸前,上半身微微侧倾,展现出动作的协调性与攻击性,阳光洒在他身上,勾勒出清晰的轮廓。

以下是尝试了不同条件强度参数跑。

添加图片注释,不超过 140 字(可选)
添加图片注释,不超过 140 字(可选)
添加图片注释,不超过 140 字(可选)
添加图片注释,不超过 140 字(可选)
添加图片注释,不超过 140 字(可选)
添加图片注释,不超过 140 字(可选)
添加图片注释,不超过 140 字(可选)

哈哈。我笑死了。

重新优化了一下工作流中条件的链接。

添加图片注释,不超过 140 字(可选)

这个是目前感觉最优的,既能提示词控制,也能姿势控制,条件平均强度,同时保持出图质量。

添加图片注释,不超过 140 字(可选)
添加图片注释,不超过 140 字(可选)
添加图片注释,不超过 140 字(可选)

要完全一致的姿势,目前是有点难了。

添加图片注释,不超过 140 字(可选)

难度主要是这两个值了。变化多端。

本地算力不够怎么办?

如果本地设备算力不好的小伙伴,推荐使用线上comfyUI来运行体验:runninghub.cn

添加图片注释,不超过 140 字(可选)

Flux Kontext Dev动嘴P图流体验地址:

https://www.runninghub.cn/ai-detail/1938445554957639681

注册地址:https://www.runninghub.cn/?utm_source=kol01-RH151

通过这个链接第一次注册送1000点,每日登录送100点


最后几句:

提示词详细描述就能很好的应用kontext,还有很多能探索,但我希望nuncahku快点支持!

以上是closerAI团队制作的stable diffusion comfyUI closerAI开发的closerAI flux kontext+controlnet工作流介绍,大家可以根据工作流思路进行尝试搭建。

当然,也可以在我们closerAI会员站上获取对应的工作流(查看原文)

以上,既然看到这里了,如果觉得不错,随手点个赞、在看、转发三连吧,如果想第一时间收到推送,也可以给我个星标⭐~谢谢你看我的文章,我们,下次再见。

>/ 作者:JimmyMo

更多AI前沿科技资讯,请关注我们:

http://aigc.douyoubuy.cn/

添加图片注释,不超过 140 字(可选)
隐藏内容
本内容需权限查看
  • 普通用户: 99.9金币
  • VIP会员: 免费
  • 永久会员: 免费

主题授权提示:请在后台主题设置-主题授权-激活主题的正版授权,授权购买:RiTheme官网

声明:本站所有文章,如无特殊说明或标注,均为本站原创发布。任何个人或组织,在未征得本站同意时,禁止复制、盗用、采集、发布本站内容到任何网站、书籍等各类媒体平台。如若本站内容侵犯了原著者的合法权益,可联系我们进行处理。