腾讯把8B轻量大模型NanoBanana开源不到72小时,GitHub热榜就被中国开发者的“邪修”玩法刷爆。有人让它5分钟写出一部10万字修仙小说,有人拿它做“赛博算命”日入3000,还有人把提示词改成“克苏鲁版HR”,专帮公司“优化”掉老板。
作为NanoBanana邪修,
哪里有好用的图像模型,哪里就有我的身影,
这次发动了面子果实,提前拿到了腾讯混元图像3.0的内测!
hunyuan.tencent.com/image
长话短说,
混元图像3.0是首个工业级原生多模态生图模型,参数规模80B(又是值得我更新硬件的一天),是开源界又一个闪耀的星星啊星星。
现在混元官网已经可以用,后续也会在元宝中逐步上线!
懂得都懂啊,这年头,光生图已经不够用了,
混元图像3.0自带世界知识,能推理后生成图片,可以理解千字级别的复杂提示语,长文本文字和小文字都可以生成。
这听起来不就是像是把NanoBanana开源了吗?
我必须马上来个对比,
真的没有比这个更合适的了,能同时看到NanoBanana、GPT-4o和混元图像3.0的效果对比,好不好一眼就知道,有没有水分一秒就能看出来。
老规矩啊,这次的高清图和提示语都整理好放文档了,公众号回复“混元3”就可以啦
热知识,混元图像3.0刚上线就可以限制尺寸,1:1、3:4、4:3、9:16、16:9,都是很实用的尺寸。
第一类我先考考混元图像3.0的世界知识,首先我们需要知道什么是世界知识,
简单来说,生图模型的世界知识就是模型在大规模图文训练中学到的关于“这个世界怎样运作”的常识与事实,用来在看不见或没被严格描述的细节上做出合理补全与推理。
也就是说,当我没把所有细节都说清楚时,模型仍然能给我“像真的一样”的合理细节与布局,这部分能力就是它的世界知识。
而这一方面,我可以说混元图像3.0目前做的是数一数二的好。
首先来个最简单的,生成一个古代剑客的三视图,这里混元需要了解两个知识“什么是古代剑客”和“什么是三视图”。很明显,混元非常轻松的做到了,不仅正确的输出了人物形象、做出了三个角度的展示、也保持了形象一致。而且我还能直接用混元3D做一个模型出来。
你可能以为这很简单啊,现在生图模型一般都能做得到吧,但当我把同样的提示语丢给nanobanana时,我得到的效果是这样的,嗯,也算是三视图吧,但有几个正常人画人物三视图会画一个俯视图呢,这是反一般常识的,而且人物佩剑的方向也不一致。
难度再再上升一级!我直接开始来到学术领域,以往我在写论文的时候,经常会因为想要图解某些概念或者流程而苦恼到头秃,这东西自己做真的太太太耗时了,不做呢文章又太单调不清晰,但现在混元图像3.0可以帮我做了。
生成一张期刊风学术插图:白底、黑灰主色,彩色仅用于层级(嵌入/多头注意力/FFN/残差/LayerNorm)。要求在图中准确渲染以下中文标签与箭头:
「输入序列」→「词嵌入/位置编码」→「编码器层(多头自注意力→加残差→层归一化→前馈网络→加残差→层归一化)」→「解码器层(掩码自注意力→交叉注意力→前馈)」→「线性层/Softmax」。角注:超参数示例d_model=768,heads=12;图例清晰,字体无衬线
而且如此多的文字,混元依然能保持95%以上的文字稳定,同时让所有的元素都在该在的位置上。这我甚至不需要和nanobanana对比,毕竟它做不了中文。
为了验证这张图片的正确性,我特意让Gemini评价了一下,可见混元图像3.0的能力真的可以。
在这个基础上,我甚至能完成一系列比如温室效应解释、植物光合作用演示、海洋水循环、火山内部构造和喷发原理以及条形磁铁的磁场展示的科普图片制作。
这个画面的精细程度和文字的准确对应,将大大提高图片的实用性,以后不管是给小朋友的科普或者是我们想要学习巩固某些原理都可以用混元制作相关的图片辅助我们学习和记忆。
那在如此强大的世界知识的支持下,混元图像3.0对于提示语的理解和遵循能力自然也是强上又强,我直接来几组和nanobanana的对比。
(以下均为左图混元图像3.0,右图nanobanana)
同一盆花从早晨到夜晚的三连景:含苞→盛开→萎蔫;只有正午时有蝴蝶停驻。
这个主要测试的模型对于时态和状态对应的理解和执行能力哦。一目了然,banana的花在早上没有含苞而是直接开放了。
两位登山者,前者在焦点上、后者虚化;前者穿黄夹克,后者红帽子但不戴墨镜
对于焦点和人物特征的展示,依然是混元图像3.0展示得比较准确,banana对于否定词的识别还需要增强。
水墨与现代极简融合,留白大,远山淡墨,中景亭台小人点景,题跋落款。
提示语提到了“水墨和现代的融合”,很明显混元的画面中更具备“现代亭子”的极简线条风格,甚至还能配出书法字体的题字,而banana就只是水墨而已。
画五只鸟:有三只停在左侧同一树枝上,另外两只在右侧天空飞行,左侧三只中恰有一只是红色,其余灰色;天空透明渐变。
这张图两个模型都执行到位了,但在这个基础上,我觉得混元图像3.0的画面精细度更高,不管是鸟还是树枝都更漂亮。
那提到这,其实也能感受到目前混元图像3.0的美学表现也还不错,支持多种美学风格的呈现,能准确的传达出不同风格的特点。
所以最后,我准备玩一个终终终极挑战,将我们前面讲到的世界知识和混元图像3.0的长长长文本能力结合一起来,玩一组高难度的海报。
城市公共安全提示(多级标题+列表+地铁图例)画幅:1080×1920;明黄底+黑字高可读;图标统一。主标题:「台风蓝色预警|今夜至明晨」重点提示(大字粗体):「请减少外出,远离海边与低洼地带」分项清单(带序号与图标):「1.取消一切沿海户外活动2.检查门窗与阳台固定物3.电动车停止户外充电4.地铁2/5号线末班车提前至22:30」应急电话横条:「市应急:12345|供电:95598|排水:12319」小字提示:「*如遇道路积水,请勿涉水行车;切勿在树下、电线旁避雨。」元素:警示三角徽章、地铁图例小卡、二维码链接“实时路况”。
可以看到图标和标识语精准对应,大小标题和文字内容都完美呈现出来了。
黑客松(赛题+时间轴+评审标准)画幅:1080×1920;霓虹赛博;矩阵网格。标题:「HACK•48小时」赛题方向:「Agent工具链|多模态搜索|隐私计算|小型端侧模型」时间轴:「Day0讲解&组队|Day1开发|Day2路演与颁奖」评审标准(比例):「技术难度30%|产品价值30%|体验20%|演示20%」奖励:「冠军¥50,000+云资源|优秀奖若干」元素:像素徽章、倒计时角标、二维码报名。
赛博风格展现的很完美,同时连48小时倒计时的角标都呈现出来了,这个理解能力真的不一般。
[世界遗产名录·经典案例拼贴]世界知识:UNESCO世界遗产示例(长城、马丘比丘、吉萨金字塔、雅典卫城等等9个世界遗产),注明国家与列入年份。版式:A1横式,等大小影像格网3×3。文案:标题:人类的共同记忆注:本页为示例拼贴,版权归原作者/机构所有字体:思源黑体(标题),思源宋体(说明)。配色:象牙白底,金色分隔线。主视觉:高质量剪影/贴图(风格统一)。印刷与导出:CMYK;出血3mm;图像分辨率≥300dpi。细节约束:国家名中英并列;年份紧靠项目名右侧小号标注。
这是终终极case!我在提示语中只给举出四个例子,需要混元图像3.0自行补充全部9个世界遗产的名称、所属国家、列入年份等等关键信息,混元图像3.0都一一做到了,这我能说啥,我只剩震惊了。
所以,我现在就在蹲蹲腾讯会不会连夜加班,
把图生图的功能做出来,
我假期想用啊啊啊啊啊,
挺急的。
上阳网-杠杆配资公司-股票配资知识网推荐-在线股票配资网提示:文章来自网络,不代表本站观点。