OmniShow:字节跳动开源全模态视频生成模型,支持人-物交互场景
最近字节跳动、香港中文大学等联合开源的 OmniShow,直接把视频生成的玩法提升到了新高度(开源领域)。
这个模型最厉害的地方在于,它是一个全模态的统一框架,一个模型就能同时搞定图像、音频、姿势、文本这四种输入。效率直接翻倍。而且它专门针对人-物交互场景优化,这对于电商广告或AI短剧漫剧来说简直是量身定制。
项目介绍
OmniShow 是由字节跳动、香港中文大学、莫纳什大学和香港大学联合开源的专用于人-物交互视频生成(HOIVG)的端到端模型。
核心目标:统一多种模态条件,让一个模型就能处理文本、参考图像、音频和姿势这四种输入,生成高质量的人-物交互视频。
开发团队阵容豪华,产学研结合,既有学术界的理论深度,又有工业界的实践经验。
核心亮点
1. 全模态统一
OmniShow 是一个真正的全模态模型。它不是分别处理不同模态的输入,而是通过统一的通道级条件注入机制,把四种输入无缝整合到一起。
2. 四种生成模式通吃
一个模型支持四种生成模式:
- R2V:参考图像转视频
- RA2V:参考图像+音频转视频
- RP2V:参考图像+姿势转视频
- RAP2V:参考图像+音频+姿势+文本混合输入
RAP2V 模式在开源视频模型领域是唯一支持图像+音频+姿势+文本混合输入的模型。
3. 专门针对人-物交互优化
特别考虑了人手与物体的接触、抓取等物理交互的合理性,生成的视频中物体穿透、接触不稳定等问题明显减少。
4. 原生支持长镜头生成
最长可以生成10秒的连续视频,动态效果流畅自然。
功能特性
- 高保真参考保持:保持参考图像中的人物和物体外观
- 自然的运动动态:运动效果流畅,动态丰富且连贯
- 精确的音视频同步:音频输入场景下实现精确同步
- 稳定的身份保持:人物身份高度一致性
- 多样化应用场景:音频驱动数字人、物体交换、视频remix等
性能表现
从官方 benchmark 评估结果来看,OmniShow 在各种多模态生成任务上都取得了整体最先进的性能,而且是唯一一个支持完整 RAP2V 设置的模型。
在 R2V、RA2V、RP2V 任务上,OmniShow 的核心指标都优于现有开源模型。特别是在音视频同步指标上,优势非常明显。
写在最后
OmniShow 的出现,为人-物交互视频生成领域带来了一个全新的解决方案。它的全模态统一框架、四种生成模式的支持、专门针对人-物交互的优化,都让它在众多视频生成模型中脱颖而出。
我们有理由相信,OmniShow 将会在开源视频生成领域,掀起一波新的浪潮。
- 项目页:https://correr-zhou.github.io/OmniShow/
- GitHub:https://github.com/Correr-Zhou/OmniShow