不日,著名 AI 逛戏创作家社区 LitGate 对腾讯音乐文娱旗下的天琴实行室,正式颁布了开源虚拟人视频模子 MuseV 举行了评测
不日,著名 AI 逛戏创作家社区 LitGate 对腾讯音乐文娱旗下的天琴实行室,正式颁布了开源虚拟人视频模子 MuseV 举行了评测。作品将 MuseV 模子评为本年 AI 视频界限「王炸级」的产物,并从类似性、时长、自界说举措、口型驱动、通用场景视频天生、天生速率等众维度映现了 MuseV 的亮点和上风。LitGate 呈现,测试中 MuseV 图生视频的安靖度发挥超过了 LitGate 刚发轫的预期。越发是虚拟人微动长视频和口型天生局限有很大的上风,能够说是目前开源模子中最好用的一批。
腾讯音乐文娱的天琴实行室正式颁布了开源模子 MuseV,现阶段赞成图生视频和口型天生,能够丝滑天生虚拟人视频,目前能够正在 Hugging Face 和 github 上直接拉代替码模子跑起来。
从 GitHub 描画来看,MuseV 是 2023 年 3 月份基于 Diffusion 全邦模仿器的构念(听着有点熟练?)启动的,客岁年中模子到达里程碑成绩,现正在由于 Sora 的颁布决心开源。
说个题外话,客岁他们还静静颁布了 AI 虚拟人奉陪产物「未伴」做落地实验,LitGate 正在抱着好奇心去试用后觉察,和同类产物星野、筑梦岛等比拟,它最大的上风实在是恋与深空的付费功用之一:免费上线了虚拟人及时语音对话和视频通话。
(并非抓取特定症结词答复,是电话形状的可靠时对话,重溺感拉满)
这回开源的 MuseV 对准了视频天生这一界限,官方颁发的制品正在类似性和口型天生方面都有相当不错的发挥,天生的虚拟人视频非凡丝滑:
当然,完全发挥依旧要尝尝才了解,LitGate 立即全速对 MuseV 举行了测评,看看它是否真的像散布上说的那样靠谱杰出。
因为颁布时候比力顿然,LitGate 先采用了 Gen2 和 Pika 这两款线上产物举动比拟,后续会补上正在职责流内与 SVD、AnimateDiff 等其他开源模子的测试。
依据官方的描画,MuseV 正在微动的虚拟人视频筑制方面有非常的上风,那就用一张图看看它天生视频的成绩:
能够看得出,正在人物举措惯例+后台不太丰富的状况下,MuseV 的画面类似性完胜,神气也很自然;Pika 画面类似性尚可,但画面细节丧失良众,显露度感动,神气相对来说也没有那么自然;至于 Gen-2为什么脸都变了呢(含混)
MuseV 画面维持不错,微小举措没有硬伤(手部举措光鲜优于其他两个),Gen2 助人整了容,Pika 朦胧题目重要,还平昔执着于蜜汁运镜
不外 LitGate 也觉察,MuseV 正在画面主体有大肆措的状况下发挥稍差少许,但有些图片的后台也能竣工比力自然的运动,况且和主体交融的成绩也没有大题目,官方的示例视频中也有显示。
正在过去的 AI 天生视频模子中,大众天生的视频长度都集体不长,稍微长少许的或许延迟到 3-5 秒控制。
不过依据官方讲明,天琴实行室安排了一种叫 Parallel Denoising 的新算法,所天生的微动虚拟人视频时长外面上能够到达无穷长!
让图片舞蹈这个事儿,通义千问之前曾经小火了一把了,MuseV 也赞成放入古代职责通畅过 Openpose 来担任举措天生,LitGate 先来看一下官方成绩:
正在可靠品格上 MuseV 的发挥依旧可圈可点的,举措比力通畅况且没有硬伤。因为 MuseV 是直接开源的,因而能够融入职责流内进动作作调试,比只可用现有模板的通义千问自正在良众。
时候干系 LitGate 只选了个几个简便的举措举行测试,来看看天生结果:
目前来看,MuseV 是基于 pose 天生图片首帧的,成绩不错。但对待肆意输入图片的状况,尚有待 posealign 模块进一步开源。
口型天生平素是虚拟人视频的中心之一,开源页面有提到口型天生本领 MuseTalk 将于不久后开源,且自先看下官方制品的成绩吧:
目前看起来成绩依旧相当自然确凿的,比拟 HeyGen 和 Pika 有肯定上风,等开源了 LitGate 再来周到测评。(从 MuseV 开源的实诚品格来看,该当不会像近邻某厂)
必要预防的是,固然 MuseV 的首要数据集来自于人像,但它正在场景上的发挥也不错(还记得刚才视频中的后台也会动吗?)
MuseV 的类似性最高,波浪的运动细节也没有硬伤,独一的题目即是前景的花根本没如何动;Pika 显现了朦胧题目,运动有点怪怪的而且照样执着运镜;Gen2 运动非凡自然,不过显现了熟练的画风题目,能够说看视频知 Gen2,味儿很冲
当然,倘使用户有越发特性化的需求也能够通过拓展数据集来竣工,反正都开源了,正在职责流内举行拓展以及后续的数据集添加熬炼也不是题目。
趁机一提,正在计划到当地境遇测试后 LitGate 觉察,MuseV 的视频天生速率比拟其他模子是有速率上风的,天生 10s 视频的速率,比拟其他模子天生 4s 控制的视频速率要速。
完全看了一下,步数仅必要 10 步,而此外视频天生大局限都必要 30 步,50 步,这一点有待天琴实行室放出论文后智力完全清晰有没有针对性的优化。
其余 LitGate 在意到,天琴实行室的 HuggingFace 上有多量的大模子加快开源职责,后续也能够期望天琴实行室正在 MuseV 上的加快。
MuseV 这回的开源确实给 LitGate 带来了不小的波动,测试中图生视频的安靖度发挥超过了 LitGate 刚发轫的预期。
越发是虚拟人微动长视频和口型天生局限有很大的上风,能够说是目前开源模子中最好用的一批。
AI 图生视频的成绩方面,往往会受到数据集等众种身分的影响,天琴实行室也声明开源只是一个发轫,后续他们会朝着 Sora 的途径不断追逐,也盼望更众团队或许列入到社区的开源共筑中,给 AI 更众进修和前进的空间。
还记得正在 23 年岁晚 LitGate 推出的 AI 产物总结中,视频板块的进展尚不尽如人意,但本年从 Sora 到 SVD,再到目前 MuseV 对虚拟人细分界限长视频的冲破,扫数都宛如处正在空前绝后的飞速进展中。
2024 年还未过三分之一曾经全是王炸,期望本年的视频天生界限能给 LitGate 更众的惊喜。
公司地方:北京市朝阳区酒仙桥途4号751 D·Park正东集团院内 C8座105室 极客公园腾讯音乐开源模子 MuseV 全网首测LitGate 称其呈现令人惊艳