2026-04-15 00:35

OmniShow:字节跳动开源全模态视频生成模型,支持人-物交互场景

最近字节跳动、香港中文大学等联合开源的 OmniShow,直接把视频生成的玩法提升到了新高度(开源领域)。

这个模型最厉害的地方在于,它是一个全模态的统一框架,一个模型就能同时搞定图像、音频、姿势、文本这四种输入。效率直接翻倍。而且它专门针对人-物交互场景优化,这对于电商广告或AI短剧漫剧来说简直是量身定制。

项目介绍

OmniShow 是由字节跳动、香港中文大学、莫纳什大学和香港大学联合开源的专用于人-物交互视频生成(HOIVG)的端到端模型。

核心目标:统一多种模态条件,让一个模型就能处理文本、参考图像、音频和姿势这四种输入,生成高质量的人-物交互视频。

开发团队阵容豪华,产学研结合,既有学术界的理论深度,又有工业界的实践经验。

核心亮点

1. 全模态统一

OmniShow 是一个真正的全模态模型。它不是分别处理不同模态的输入,而是通过统一的通道级条件注入机制,把四种输入无缝整合到一起。

2. 四种生成模式通吃

一个模型支持四种生成模式:

  • R2V:参考图像转视频
  • RA2V:参考图像+音频转视频
  • RP2V:参考图像+姿势转视频
  • RAP2V:参考图像+音频+姿势+文本混合输入

RAP2V 模式在开源视频模型领域是唯一支持图像+音频+姿势+文本混合输入的模型。

3. 专门针对人-物交互优化

特别考虑了人手与物体的接触、抓取等物理交互的合理性,生成的视频中物体穿透、接触不稳定等问题明显减少。

4. 原生支持长镜头生成

最长可以生成10秒的连续视频,动态效果流畅自然。

功能特性

  • 高保真参考保持:保持参考图像中的人物和物体外观
  • 自然的运动动态:运动效果流畅,动态丰富且连贯
  • 精确的音视频同步:音频输入场景下实现精确同步
  • 稳定的身份保持:人物身份高度一致性
  • 多样化应用场景:音频驱动数字人、物体交换、视频remix等

性能表现

从官方 benchmark 评估结果来看,OmniShow 在各种多模态生成任务上都取得了整体最先进的性能,而且是唯一一个支持完整 RAP2V 设置的模型。

在 R2V、RA2V、RP2V 任务上,OmniShow 的核心指标都优于现有开源模型。特别是在音视频同步指标上,优势非常明显。

写在最后

OmniShow 的出现,为人-物交互视频生成领域带来了一个全新的解决方案。它的全模态统一框架、四种生成模式的支持、专门针对人-物交互的优化,都让它在众多视频生成模型中脱颖而出。

我们有理由相信,OmniShow 将会在开源视频生成领域,掀起一波新的浪潮。

  • 项目页:https://correr-zhou.github.io/OmniShow/
  • GitHub:https://github.com/Correr-Zhou/OmniShow