
更多AI前沿科技资讯,请关注我们:
closerAI-一个深入探索前沿人工智能与AIGC领域的资讯平台
精准!快速!图像反推神器Llama JoyCaption Beta One:开源自由的视觉语言模型,可反推提示词也可打标!好用!
大家好,我是Jimmy。开源界提示词反推之神joycaption迎来新版本更新。
Llama JoyCaption Beta One:开源自由的视觉语言模型
Llama JoyCaption Beta One(简称JoyCaption)是一款由fancyfeast团队开发的视觉语言模型(VLM),专为图像描述生成而设计。作为一个完全开源且无审查限制的模型,JoyCaption旨在为社区提供高质量的图像描述工具,特别适合用于训练扩散模型。
镜像链接:https://hf-mirror.com/fancyfeast/llama-joycaption-beta-one-hf-llava

它有以下几个特点:
- 完全开源自由:JoyCaption提供开放的权重,没有任何使用限制,并附带详细的训练脚本和构建方法。
- 无内容审查:模型平等处理SFW(工作安全内容)和NSFW(非工作安全内容)概念,避免了常见的内容过滤问题。
- 广泛多样性:支持多种艺术风格,包括数字艺术、照片级真实感、动漫、兽人艺术等,确保对各种图像类型、内容、种族、性别和性取向的广泛覆盖。
- 最小过滤原则:虽然训练数据包含广泛的世界图像,但明确排除了非法内容。
技术优势
JoyCaption基于Llama 3.1架构构建,性能接近或达到GPT4o水平,特别在图像描述任务上表现出色。模型采用bfloat16精度,支持vLLM高性能推理,并提供了OpenAI兼容的API接口。
应用场景
- 扩散模型训练:为缺乏文本描述的图像自动生成高质量标注
- 内容创作辅助:为艺术家和设计师提供详细的图像描述
- 多模态研究:作为视觉语言理解的基准模型
Llama JoyCaption Beta One在comfyUI中的实现与体验
安装节点:
可以先使用comfyUI节点助手,搜索出joycaption的节点。查阅它们的AI文档,注意,一般收录的项目有一定评分才能AI文档。

提示AI:joycaption有什么用?以下是它的回复。

节点助手提供了聚合,翻阅仓库,AI文档和回复的能力,让我们自己就能学习了解节点的相关内容。
实现的项目有很多,选择星标多的安装:

同时,layerstyle项目一直有实现joycaption,我们可以直接使用它,因为layerstyle是一个必备的节点,功能强大,它既然有实现就直接使用它即可。少装一个节点是一个节点。
https://github.com/chflame163/ComfyUI_LayerStyle
https://github.com/chflame163/ComfyUI_LayerStyle_Advance?tab=readme-ov-file

它上面已在对应模型的下载链接,大家打开项目节查找到这段说明,点击下载即可。会员伙伴直接在我们模型库下载,下载后下载llama-joycaption-beta-one-hf-llava文件夹并复制到ComfyUI/models/LLavacheckpoints
然后重启comfyUI
搭建一个图像反推提示词工作流:
方法很简单,双击工作区,搜索出joycaption beta one节点,拉出对应的加载模型节点如下图示:

加载一张图像:
This is a photograph of a young woman standing against a solid, deep red background. She has long, wavy black hair that cascades over her shoulders and wears a sparkling, ornate gold and gemstone tiara on her head. Her skin is smooth and fair, and she has a delicate, symmetrical face with minimal makeup, featuring red lipstick that matches her attire. She wears large, dangling silver earrings.
The woman is dressed in an elaborate, strapless red ball gown adorned with countless small, glittering rhinestones that cover the bodice and the upper part of the skirt. The skirt is voluminous and layered, with multiple tiers of red tulle fabric that add a sense of grandeur and elegance. She holds a bouquet of six vivid red roses with green stems and leaves, positioned in front of her chest with both hands.
The texture of the gown is rich and luxurious, with the rhinestones providing a sparkling, textured contrast to the smooth tulle. The overall style is regal and fairy-tale-like, evoking a sense of royalty and elegance. The photograph is highly stylized and professionally shot, focusing on the subject's beauty and the opulence of her attire.
中文如下:
这是一张站在坚实的深红色背景上的年轻女子的照片。她有着长长的波浪般的黑发,瀑布般披在肩上,头上戴着闪闪发光的华丽的黄金和宝石头饰。她的皮肤光滑而白皙,她有一张精致、对称的脸,化妆很少,涂着红色的口红,与她的服装很相配。她戴着一对大的、晃来晃去的银耳环。 这位女士穿着一件精心制作的无肩带红色舞会礼服,上面装饰着无数闪闪发光的小披肩,覆盖着紧身胸衣和裙子的上部。这条裙子体积很大,有层次感,多层红色薄纱面料增加了一种宏伟和优雅的感觉。她双手捧着一束由六朵鲜艳的红玫瑰组成的花束,玫瑰的茎和叶都是绿色的。 礼服的质地是丰富和豪华的,与薄纱提供了一个闪闪发光的,纹理的对比光滑。整体风格是富豪和童话般的,唤起了皇室和优雅的感觉。这张照片是高度程式化和专业拍摄,重点是主题的美丽和她的服装富裕。
工作流中我给出了中文翻译,一目了然。

并接入文生图,生成一张,看看与原图差异:



正是利用它的反推能力,可将它利用在训练模型时批量打标。
将我们整理好的训练的图像批量描述形成TXT文档。

操作如下:

填入保存路径和格式。

执行即可。
这是批量打标的工作流。
本地算力不够怎么办?
如果本地设备算力不好的小伙伴,推荐使用线上comfyUI来运行体验:runninghub.cn

runninghub.cn 图像反推提示词神器洗图专用体验地址:
https://www.runninghub.cn/ai-detail/1926964838474371074
注册地址:https://www.runninghub.cn/?utm_source=kol01-RH151
通过这个链接第一次注册送1000点,每日登录送100点
最后几句:
以上是图像反推神器Llama JoyCaption Beta One的介绍和使用方法以及测试体验,以及closerAI团队制作的stable diffusion comfyUI closerAI开发的closerAIcloserAI 反推神器joycation beta 1+批量打标工作流介绍,大家可以根据工作流思路进行尝试搭建。
当然,也可以在我们closerAI会员站上获取对应的工作流(查看原文)。
以上,既然看到这里了,如果觉得不错,随手点个赞、在看、转发三连吧,如果想第一时间收到推送,也可以给我个星标⭐~谢谢你看我的文章,我们,下次再见。
>/ 作者:JimmyMo
更多AI前沿科技资讯,请关注我们:
closerAI-一个深入探索前沿人工智能与AIGC领域的资讯平台

主题授权提示:请在后台主题设置-主题授权-激活主题的正版授权,授权购买:RiTheme官网
评论(0)