腾讯版Sora发布即开源!130亿参数,模子权重、推理代码全敞开

南昌敬友容网
栏目分类
你的位置:南昌敬友容网 > 新闻 > 腾讯版Sora发布即开源!130亿参数,模子权重、推理代码全敞开
腾讯版Sora发布即开源!130亿参数,模子权重、推理代码全敞开
发布日期:2024-12-07 12:14    点击次数:74

腾讯版Sora发布即开源!130亿参数,模子权重、推理代码全敞开

梦晨 西风 发自 凹非寺

量子位 | 公众号 QbitAI

腾讯版Sora,发布即开源!

130亿参数,成为当前参数目最大的开源视频生成模子。模子权重、推理代码、模子算法等沿路上传GitHub与Hugging Face,小数没藏着。

本色成果如何呢?

不瞒你们说,我确实看见一只大熊猫,在跳广场舞、吃暖锅、打麻将,请看VCR:

到底是来自四川的猫!

当前该模子已上线腾讯元宝APP,用户可在AI愚弄中的“AI视频”板块肯求试用。

API同步敞开测试,缔造者可通过腾讯云接入。

腾讯混元视频生成主打四大特质:

超写实画质,模子生成的视频内容具备高清质感、确凿感,可用于工业级买卖场景举例告白宣传、创意视频生成等买卖愚弄。高语义一致,用户可以进行细密的描摹,举例生成主体的细节,东谈主物成见的组合等。模子可以准确的抒发出文本的内容。畅通画面通达,可生成大幅度的合理畅通,畅通镜头通达、恰当物理限定,不易变形。原生镜头调遣,模子原生具备自动生成多视角同主体的镜头切换画面,增强画面叙事感。

那么本色发扬能否恰当状貌?底下辘集实例逐一拆解。

实测腾讯首个文生视频模子

最初是冲浪题材,触及到画面大幅度畅通,水的物理模拟等难点。

教导词中还异常指定了录像头的畅通,腾讯混元发扬出通达运镜的能力,仅仅在“临了定格在…”这个条件上稍显不及。

教导词:超大海潮,冲浪者在浪花上起跳,完成空中转体。影相机从海潮里面穿越而出,捕捉阳光透过海水的蓦地。水花在空中酿成齐全曲线,冲浪板划过水面留住轨迹。临了定格在冲浪者穿越水帘的齐全蓦地。

镜子题材,教训模子对光影的相识,以及镜子表里主体畅通是否能保执一致。

教导词中的白床单位素又加大了难度,触及到的布料模拟,也恰当物理限定。

不外东谈主们设想中的鬼魂一般莫得脚,AI似乎没学到,又或者是舞蹈触及大齐腿部作为,产生了冲破。

衣服白床单的鬼魂濒临着镜子。镜子中可以看到鬼魂的倒影。鬼魂位于布满灰尘的阁楼中,阁楼里有老旧的横梁和被布料装潢的产品。阁楼的场景照耀在镜子中。鬼魂在镜子前舞蹈。电影氛围,电影打光。

再来一个轮廓型的复杂教导词,对主角外貌、作为、环境齐有细密状貌,画面中还出现其他东谈主物,腾讯混元发扬也可以。

特写镜头拍摄的是一位60多岁、留着髯毛的灰发须眉,他坐在巴黎的一家咖啡馆里,千里念念着天地的历史,他的眼睛聚焦在画外来往的东谈主们身上,而他我方则基本一动不动地坐着,他身穿羊毛大衣西装外衣,内衬系扣衬衫,戴着棕色贝雷帽和眼镜,看上去很有教悔风韵,片尾他露馅一点好意思妙的闭嘴含笑,仿佛找到了生命之谜的谜底,灯光特殊具有电影感,金色的灯光,布景是巴黎的街谈和城市,景深,35毫米电影胶片。

临了附上来自官方的写prompt小tips:

用法1:教导词=主体+场景+畅通用法2:教导词=主体(主体状貌)+场景(场景状貌)+畅通(畅通状貌)+(镜头谈话)+(氛围状貌)+(作风抒发)用法3:教导词=主体+场景+畅通+(作风抒发)+(氛围状貌)+(运镜神色)+(晴朗)+(景别)多镜头生成:教导词=[场景1]+镜头切换到[场景2]两个作为生成:教导词=[主体状貌]+[作为状貌]+[然后、过了一会等贯穿词]+[作为状貌2]

若何样,你学会了吗?

更多腾讯混元生成的视频,以及与Sora同教导词PK,还可以望望量子位在内测阶段的尝试。

最大的开源视频生成模子。

看完成果,再望望时刻层面有哪些亮点。

最初从官方评估范围看,混元视频生成模子在文本视频一致性、畅通质料和画面质料多个维度成果特殊。

然后从当前公开贵府看,腾讯混元视频生成模子还有三个亮点。

1、文本编码器部分,还是适配多模态大模子

当下行业中多数视觉生成模子的文本编码器,适配的主如果上一代谈话模子,如OpenAI的CLIP和谷歌T5及各式变种。

腾讯在开源图像生成模子Hunyuan-DiT中适配的是T5和CLIP的辘集,此次更进一步,径直升级到了新一代多模态大谈话模子(Multimodal Large Language Model)。

由此粗略取得更巨大的语义奴才能力,体当今粗略更好地支吾画面中存在的多个主体,以及完成指示中更多的细节。

2、视觉编码器部分,补助夹杂图片/视频覆按,擢升压缩重建性能

视频生成模子中的视觉编码器,在压缩图片/视频数据,保留细节信息方面起着枢纽作用。

混元团队自研了3D视觉编码器补助夹杂图片/视频覆按,同期优化了编码器覆按算法,显赫擢升了编码器在快速运转、纹理细节上的压缩重建性能,使得视频生成模子在细节发扬上,异常是小人脸、高速镜头等场景有彰着擢升。

3、从新到尾用full attention(全看重力)的机制,没灵验时空模块,擢升画面通达度。

混元视频生成模子罗致合股的全看重力机制,使得每帧视频的衔尾更为通达,并能完了主体一致的多视角镜头切换。

与“分离的时空看重力机制”分歧怜惜视频中的空间特征和时分特征,比拟之下,全看重力机制则更像一个纯视频模子,发扬出更优厚的成果。

更多细节,可以参见完整时刻讲明~

官网:https://aivideo.hunyuan.tencent.com

代码:https://github.com/Tencent/HunyuanVideo

模子:https://huggingface.co/tencent/HunyuanVideo

时刻讲明:https://github.com/Tencent/HunyuanVideo/blob/main/assets/hunyuanvideo.pdf

— 完 —

量子位 QbitAI · 头条号签约

怜惜咱们,第一时分获知前沿科技动态



上一篇:成齐超等智算科技公司登记建造 注册本钱50亿
下一篇:芯片制造业务永久弃世 英特尔文牍其首席延迟官退休

Powered by 南昌敬友容网 @2013-2022 RSS地图 HTML地图

Copyright Powered by365站群 © 2013-2024

ICP备案号:赣ICP备2024045215号-3