Seedance 2.0 正式上线!
还记得从只能用文字和首/尾帧「讲故事」的那天起,我们就想做出一个真正听得懂你表达的视频模型。今天,它真的来了!
即梦 Seedance 2.0 现在支持图像、视频、音频、文本四种模态输入,表达方式更丰富,生成也更可控。
你可以用一张图定下画面风格,用一个视频指定角色的动作和镜头的变化,再用几秒音频带起节奏氛围……搭配提示词,让创作过程变得更自然、更高效,也更像真正的"导演"。
参考图像精准还原
画面构图、角色细节精准还原
参考视频复刻
支持镜头语言、复杂动作节奏、创意特效的复刻
平滑延长与衔接
按提示生成连续镜头,不止生成,还能"接着拍"
编辑能力增强
支持对已有视频进行角色更替、删减、增加
视频创作从来不仅是"生成",更是对表达的控制。2.0 不只是多模态,更是一种真正可控的创作方式。
Seedance 2.0,多模态创作,从这里启程。请你们大胆想象,其余的交给它。
1. 参数预览
| 核心维度 | Seedance 2.0 |
|---|---|
| 图片输入 | ≤ 9 张 |
| 视频输入 | ≤ 3 个,总时长不超过 15s (有参考视频会贵一点哦) |
| 音频输入 | 支持 MP3 上传,数量 ≤ 3 个,总时长不超过 15s |
| 文本输入 | 自然语言 |
| 生成时长 | ≤ 15s,可自由选择 4-15s |
| 声音输出 | 自带音效/配乐 |
<strong>交互限制:</strong>目前支持的混合输入总上限是 <strong>12 个文件</strong>。建议优先上传对画面或节奏影响最大的素材,合理分配不同模态的文件数量。
2. 交互形式
注意:即梦 Seedance 2.0 支持「首尾帧」和「全能参考」入口,智能多帧和主体参考无法选中。若你只上传首帧图 + prompt,可走首尾帧入口;如需多模态(图、视频、音频、文本)组合输入,则需进入全能参考入口。
当前支持的交互方式是通过 <code>@素材名</code> 来指定每个图片、视频、音频的用途,例如:
- @图片1 作为首帧
- @视频1 参考镜头语言
- @音频1 用于配乐
主界面

入口:Seedance 2.0 - 全能参考/首尾帧

唤起本地文件弹窗

选定文件,添加至输入框
全能参考模式 — 方法1:输入"@"唤起参考调用

输入"@"

选择参考,落入输入框

输入 prompt
全能参考模式 — 方法2:点击参数工具"@"唤起参考调用

点击"@"

选择参考,落入输入框

输入 prompt
上传素材后,图片、视频、音频都支持悬停预览:



下面是一些不同场景下的用法和玩法,帮助你更好地理解 Seedance 2.0 在生成质量、控制能力和创意表现上的升级。如果你还不知道从哪开始,不如先看看这些例子,激发灵感~
即梦 Seedance 2.0 能力 / 提升预览
1. 基础能力显著增强:更稳、更顺、更像真的!
不只是多模态,Seedance 2.0 在基础层面显著增强,<strong>物理规律更合理</strong>、<strong>动作表现更自然流畅</strong>、<strong>指令理解更精准</strong>、<strong>风格保持更稳定</strong>,不仅能稳定完成复杂动作、连续运动等高难度生成任务,也让整体视频效果更真实、更顺滑,是一次底层能力的全面进化!
女孩在优雅的晒衣服,晒完接着在桶里拿出另一件,用力抖一抖衣服。
首帧画里面的人物心虚的表情,眼睛左右看了看探出画框,快速的将手伸出画框拿起可乐喝了一口,然后露出一脸满足的表情,这时传来脚步声,画中的人物赶紧将可乐放回原位,此时一位西部牛仔拿起杯子里的可乐走了,最后镜头前推画面慢慢变得纯黑背景只有顶光照耀的罐装可乐,画面最下方出现艺术感字幕和旁白:"宜口可乐,不可不尝!"
首帧镜头小幅度拉远(露出街头全景)并跟随女主移动,风吹拂着女主的裙摆,女主走在19世纪的伦敦大街上;女主走着走着右边街道驶来一辆蒸汽机车,快速驶过女主身旁,风将女主的裙摆吹起,女主一脸震惊的赶忙用双手向下捂住裙摆;背景音效为走路声,人群声,汽车声等等
首帧镜头跟随黑衣男子快速逃亡,后面一群人在追,镜头转为侧面跟拍,人物惊慌撞倒路边的水果摊爬起来继续逃,人群慌乱的声音。
首帧2. 多模态全面升级:视频创作进入"自由组合"时代!
2.1 多模态介绍
支持上传文本、图片、视频、音频,这些素材都可以被用作使用对象或参考对象。你可以参考任何内容的动作、特效、形式、运镜、人物、场景、声音,只要提示词写得清楚,模型都能理解。
Seedance 2.0 = 多模态参考能力(可参考万物) + 强创意生成 + 指令响应精准(理解力很棒)
用自然语言描述你想要的画面和动作就可以啦,明确是参考还是编辑~素材多的时候,建议多检查一下各个 @对象有没有标清楚,别把图、视频、角色搞混了哦。
2.2 特殊使用方式(不设限,仅供参考)
有首帧/尾帧图?还想参考视频动作?
提示词中写清楚,如:"@图1为首帧,参考@视频1的打斗动作"
想延长一个已有的视频?
说明延长时间,如"将@视频1延长 5s"。注意:此时选择的生成时长应为"新增部分"的时长(例如延长 5s,生成长度也选 5s)
想融合多个视频?
提示词中说明合成逻辑,如:"我要在@视频1和@视频2之间加一个场景,内容为xxx"
没音频素材?
可以直接参考视频里的声音
想生成连续动作?
可以在提示词中加入连续性描述,如:"角色从跳跃直接过渡到翻滚,保持动作连贯流畅"@图1@图2@图3…
2.3 那些一直很难做的视频问题,现在真的能搞定了!
做视频总会碰到一些让人头疼的地方:比如人脸换了、动作不像、视频延长不自然、改着改着整个节奏都变了……这次多模态能把这些"老大难"问题一口气解决了,下面就是具体的使用案例。
2.3.1 一致性全面提升
你可能遇到过这些烦恼:画面里人物前后长得不一样、商品细节丢了、小字模糊、场景跳变、镜头风格无法统一……这些在创作中常见的一致性问题,现在在 2.0 中都能被解决。从人脸到服装,再到字体细节,整体一致性更稳、更准。
男人@图片1下班后疲惫的走在走廊,脚步变缓,最后停在家门口,脸部特写镜头,男人深呼吸,调整情绪,收起了负面情绪,变得轻松,然后特写翻找出钥匙,插入门锁,进入家里后,他的小女儿和一只宠物狗,欢快的跑过来迎接拥抱,室内非常的温馨,全程自然对话
人物参考将@视频1中的女生换成戏曲花旦,场景在一个精美的舞台上,参考@视频1的运镜和转场效果,利用镜头匹配人物的动作,极致的舞台美感,增强视觉冲击力
使用参考图片人物的形象生成一段古装穿越剧的预告短片。0-3秒画面:参考图片1人物形象的男主手里举起一个篮球,抬头望向镜头。说话"我只是想喝杯酒,该不会要穿越了吧......" ...
人物参考参考@视频1的所有转场和运镜,一镜到底,画面以棋局为起始,镜头左移,展示地板的黄色沙砾,镜头上移来到一个沙滩...
0-2秒画面:快速四格闪切,红、粉、紫、豹纹四款蝴蝶结依次定格,特写缎面光泽与 "chéri" 品牌字样...(韩语配音广告)
产品图对@图片2的包包进行商业化的摄像展示,包包的侧面参考@图片1,包包的表面材质参考@图片3,要求将包包的细节均有所展示,背景音恢宏大气
侧面参考
包包主体
材质参考把@图片1作为画面的首帧图,第一人称视角,参考@视频1的运镜效果,上方场景参考@图片2,左边场景参考@图片3,右边场景参考@图片4。
首帧
上方场景
左边场景
右边场景2.3.2 高难度/可控的运镜和动作精准复刻
以前想让模型模仿电影里的走位、运镜或者复杂动作,要么写一堆细节提示词,要么干脆做不到。而现在,只需要上传一段参考视频,就可以了。
参考@图1的男人形象,他在@图2的电梯中,完全参考@视频1的所有运镜效果还有主角的面部表情,主角在惊恐时希区柯克变焦,然后几个环绕镜头展示电梯内视角...
人物
电梯场景
场景参考参考@图1的男人形象,他在@图2的走廊中,完全参考@视频1的所有运镜效果,还有主角的面部表情,镜头跟随主角在@图2拐角奔跑...
人物
走廊
长廊
分叉路口
场景@图片1的平板电脑作为主体,运镜参考@视频1,推近到屏幕的特写,镜头旋转后平板反转展示全貌,屏幕中的数据流一直在变化,周围的环境逐渐变成科幻风格的数据空间
平板电脑@图片1的女星作为主体,参考@视频1的运镜方式进行有节奏的推拉摇移,女星的动作也参考@视频1中女子的舞蹈动作,在舞台上活力十足地表演
女星参考@图1@图2长枪角色,@图3@图4双刀角色,模仿@视频1的动作,在@图5的枫叶林中打斗
长枪角色1
长枪角色2
双刀角色1
双刀角色2
枫叶林参考视频1的人物动作,参考视频2的环绕运镜镜头语言,生成角色1和角色2的打斗场面,打斗发生在星夜中,打斗的过程中有白色灰尘扬起,打斗场面非常华丽,气氛十分紧张。
角色1
角色2参考视频1的运镜、画面切换节奏,拿图片1的红色超跑进行复刻。
红色超跑2.3.3 创意模版 / 复杂特效精准复刻
不止能生图写故事,Seedance 2.0 还支持"照着模仿"——创意转场、广告成片、电影片段、复杂剪辑,只要你有参考图或视频,模型就能识别动作节奏、镜头语言、视觉结构,并精准复刻出来。不懂专业术语也没关系,写清楚你想参考的部分,模型就能高质量生成属于你的版本。大胆试!它真的能做到。
将@视频1的人物换成@图片1,@图片1为首帧,人物带上虚拟科幻眼镜,参考@视频1的运镜,及近的环绕镜头,从第三人称视角变成人物的主观视角,在AI虚拟眼镜中穿梭...




参考第一张图片里模特的五官长相。模特分别穿着第2-6张参考图里的服装凑近镜头,做出调皮、冷酷、可爱、惊讶、耍帅的造型...
模特
服装1
服装2
服装3
服装4
服装5参考视频的广告创意,用提供的羽绒服图片,搭配以下广告词"这是根鹅绒,这是暖天鹅,这是能穿的极地天鹅绒羽绒服,新年穿得暖,生活过得暖",生成新的羽绒服广告视频。
羽绒服
鹅绒
天鹅黑白水墨风格,@图片1的人物参考@视频1的特效和动作,上演一段水墨太极功夫
人物将@视频1的首帧人物替换成@图片1,完全参考视频1的特效和动作,手里的花蕊长出玫瑰花瓣,裂纹在脸部向上延伸...
人物1
人物2由@图片1的天花板开始,参考@视频1的拼图破碎效果进行转场,"BELIEVE"字体替换成"Seedance",参考@图2的字体
天花板
字体参考以黑幕开场,参考视频1的粒子特效和材质,金色鎏金材质的沙砾从画面左边飘出并向右覆盖,参考@视频1的粒子吹散效果,@图片1的字体逐渐出现在画面中心
字体@图片1的人物参考@视频1中的动作和表情变化,展示吃泡面的抽象行为
人物2.3.4 模型的创意性、剧情补全能力
将@图1以从左到右从上到下的顺序进行漫画演绎,保持人物说的台词与图片上的一致,分镜切换以及重点的情节演绎加入特殊音效,整体风格诙谐幽默;演绎方式参考@视频1
漫画图参考@图片1的专题片的分镜头脚本,参考@图片1的分镜、景别、运镜、画面和文案,创作一段15s的关于"童年的四季"的治愈系片头
分镜脚本参考视频1的音频,根据图1、图2、图3、图4、图5为灵感,发散出一条情绪向的视频。背景音乐参考@视频1





2.3.5 视频延长
延长15s视频,参考@图片1、@图片2的驴骑摩托车的形象,补充一段脑洞广告:画面1:侧面固定镜头,驴骑着摩托车冲出棚栏...画面3:...广告语"Inspire Creativity, Enrich Life"
驴形象1
驴形象2将视频延长6s,出现电吉他的激昂音乐,视频中间出现"JUST DO IT"的广告字体后逐渐淡化,镜头上移到天花板...
健身服
Logo将@视频1延长15秒。1-5秒:光影透过百叶窗在木桌、杯身上缓缓滑过...11-15秒:英文渐显"Lucky Coffee"、"Breakfast"、"AM 7:00-10:00"。
向前延长10s,温暖的午后光线里,镜头先从街角那排被微风掀动的遮阳篷开始,慢慢下移到墙根处几株探出头的小雏菊...
2.3.6 音色更准,声音更真
固定镜头,中央鱼眼镜头透过圆形孔洞向下窥视,参考视频1的鱼眼镜头,让@视频2中的马看向鱼眼镜头,参考@视频1中的说话动作,背景BGM参考@视频3中的音效。
根据提供的写字楼宣传照,生成一段15秒电影级写实风格的地产纪录片,采用2.35:1宽银幕,24fps,其中旁白的音色参考@视频1...



在"猫狗吐槽间"里的一段吐槽对话,要求情感丰沛,符合脱口秀表演:喵酱(猫主持):"家人们谁懂啊...",旺仔(狗主持):"你还好意思说我?..."
场景参考豫剧经前桥段《铡美案》的伴奏响起,左侧的黑衣包拯指着右侧的红衣陈世美,咬牙切齿地唱着豫剧...
场景参考生成一个15秒的MV视频。关键词:稳重构图 / 轻推拉 / 低角度英雄感 / 纪实但高级...夕阳侧逆光体积光穿过尘粒,电影级构图,真实胶片颗粒,微风吹动衣角。
场景参考画面中间戴帽子的女孩温柔地唱着说"I'm so proud of my family!"...背景拉美音乐响起...整个家族围成圈,伴着欢快的音乐,裙摆飞扬。
场景参考固定镜头。站着的壮汉(队长)握拳挥臂用西班牙语说着:"三分钟后突袭!"...全员肃然,装备碰撞声中完成战术手势。
场景参考0-3秒:开头闹钟响起来... 3-10秒:快速摇镜头,转向对面特写男人面部,男人无奈的叫女生起床,语气和音色参考@视频1... 12-15秒:切换到男主全身,他叹着气说:"真拿你没办法!"
女生
男人@图片1的猴子走向奶茶店柜台...猴子向服务员用四川口音点单:"幺妹儿,霸王别姬有得没得?"
猴子
比熊服务员
奶茶店用科普风格和音色,将图片1中的内容演绎出来,内容包括悟空为过火焰山向铁扇公主借芭蕉扇的故事...
西游记插图2.3.7 镜头连贯性(一镜到底)更强
@图片1@图片2@图片3@图片4@图片5,一镜到底的追踪镜头,从街头跟随跑步者上楼梯、穿过走廊、进入屋顶,最终俯瞰城市。





以@图片1为首帧,画面放大至飞机舷窗外,一团团云朵缓缓飘至画面中,其中一朵为彩色糖豆点缀的云朵...缓缓变形为@图片2的冰淇淋...
舷窗
冰淇淋
人物谍战片风格,@图片1作为首帧画面,镜头正面跟拍穿着红风衣的女特工向前走...全程不要切镜头,一镜到底。
首帧
拐角建筑
面具女孩
豪宅根据@图片1外景的镜头,第一人称主观视角快推镜头到木屋内的环境场景近景,一只小鹿@图片2和一只羊@图片3在围炉旁喝茶聊天,镜头推进特写茶杯的样式参考@图片4
外景
小鹿
羊
茶杯@图片1@图片2@图片3@图片4@图片5,主观视角一镜到底的惊险过山车的镜头,过山车的速度越来越快。





2.3.8 视频编辑可用度高
有时候你已经有了一段视频,不想从头再找图或重做一遍,只是希望调整其中一小段动作、延长几秒钟,或让角色表现更贴近你的想法。现在你可以直接用已有视频作为输入,在不改变其它内容的前提下,指定片段、动作或节奏进行定向修改。
颠覆@视频1里的剧情,男人眼神从温柔瞬间转为冰冷狠厉,在露丝毫无防备的瞬间,猛地将女主从桥上往外推...
颠覆@视频1的整个剧情,0-3秒画面:西装男坐在酒吧...6-9秒画面:突然西装男从桌下掏出——一大包体积夸张的零食礼包...
视频1中的女主唱换成图片1的男主唱,动作完全模仿原视频,不要出现切镜,乐队演唱音乐。
男主唱将视频1女人发型变成红色长发,图片1中的大白鲨缓缓浮出半个脑袋,在她身后。
大白鲨视频1镜头右摇,炸鸡老板忙碌地将炸鸡递给排队的客户...特写展示老板拿印有图1的纸袋子...
纸袋Logo2.3.9 可进行音乐卡点
海报中的女生在不停的换装,服装参考@图片1@图片2的样式,手中提着@图片3的包,视频节奏参考@视频




@图片1-7中的图片根据@视频中的画面关键帧的位置和整体节奏进行卡点,画面中的人物更有动感...






@图片1-6的风光场景图,参考@视频中的画面节奏,转场间画面风格及音乐节奏进行卡点






2.3.10 情绪演绎更好
@图片1的女子走到镜子前,看着镜子里面的自己,姿势参考@图片2,沉思了一会突然开始崩溃大叫,抓镜子的动作崩溃大叫的情绪和表情完全参考@视频1。
女子
姿势参考这是一个油烟机广告,@图片1作为首帧画面,女人在优雅的做饭,没有烟雾,镜头快速向右边摇动,拍摄@图片2男人满头大汗面红耳赤在做饭...
女人做饭
男人做饭
油烟机@图片1作为画面的首帧图,镜头旋转推近,人物突然抬头,人物面部长相参考@图片2,开始大声咆哮,激动带有一些喜剧色彩,参考@图片3的表情神态。然后人物身体变身成为一只熊,参考@图片4。
首帧
面部参考
表情参考
熊参考最后说两句
Seedance 2.0 的多模态能力正处于不断进化中,我们会持续更新能力、支持更多种输入组合方式。希望这份使用手册能帮你更自由地发挥创意!
如果你遇到了 Bug,或者有用法建议、需求场景,欢迎留言、私信告诉我们!我们会持续优化,一起把即梦变成真正让你们开心、方便的生产力工具。
常见问题 (FAQ)
Seedance 2.0 支持哪些输入模态?
Seedance 2.0 支持图像(最多9张)、视频(最多3个,总时长≤15s)、音频(MP3,最多3个,总时长≤15s)和文本(自然语言)四种模态输入。混合输入总上限为12个文件。
Seedance 2.0 可以生成多长的视频?
可生成最长15秒的视频,支持4-15秒自由选择。还支持视频延长功能,可以在已有视频基础上继续生成。
如何使用多模态参考功能?
在全能参考模式下,通过"@素材名"来指定每个图片、视频、音频的用途。例如:@图片1 作为首帧,@视频1 参考镜头语言,@音频1 用于配乐。支持在输入框中直接输入"@"或点击工具栏"@"按钮来唤起参考调用。
Seedance 2.0 有哪些核心能力提升?
核心能力包括:多模态参考(可参考万物)、运镜和动作精准复刻、创意特效复刻、视频延长与衔接、视频编辑(角色替换/删减/增加)、音乐卡点、一镜到底连贯性、情绪演绎、音色生成等。物理规律更合理、动作表现更自然流畅、指令理解更精准、风格保持更稳定。
如何延长一个已有的视频?
上传视频后,在提示词中说明延长时间,如"将@视频1延长5s"。注意:生成时长应选择"新增部分"的时长,例如延长5s则生成长度也选5s。支持向前延长和向后延长。
首尾帧和全能参考有什么区别?
如果你只上传首帧图 + prompt,可以走首尾帧入口,操作更简单。如需多模态(图、视频、音频、文本)组合输入,则需要进入全能参考入口。全能参考模式功能更强大,支持更复杂的创作需求。