2026-04-15 00:35

OmniShow：字节跳动开源全模态视频生成模型，支持人-物交互场景

最近字节跳动、香港中文大学等联合开源的 OmniShow，直接把视频生成的玩法提升到了新高度（开源领域）。

这个模型最厉害的地方在于，它是一个全模态的统一框架，一个模型就能同时搞定图像、音频、姿势、文本这四种输入。效率直接翻倍。而且它专门针对人-物交互场景优化，这对于电商广告或AI短剧漫剧来说简直是量身定制。

项目介绍

OmniShow 是由字节跳动、香港中文大学、莫纳什大学和香港大学联合开源的专用于人-物交互视频生成（HOIVG）的端到端模型。

核心目标：统一多种模态条件，让一个模型就能处理文本、参考图像、音频和姿势这四种输入，生成高质量的人-物交互视频。

开发团队阵容豪华，产学研结合，既有学术界的理论深度，又有工业界的实践经验。

OmniShow 是一个真正的全模态模型。它不是分别处理不同模态的输入，而是通过统一的通道级条件注入机制，把四种输入无缝整合到一起。

一个模型支持四种生成模式：

RAP2V 模式在开源视频模型领域是唯一支持图像+音频+姿势+文本混合输入的模型。

特别考虑了人手与物体的接触、抓取等物理交互的合理性，生成的视频中物体穿透、接触不稳定等问题明显减少。

最长可以生成10秒的连续视频，动态效果流畅自然。

从官方 benchmark 评估结果来看，OmniShow 在各种多模态生成任务上都取得了整体最先进的性能，而且是唯一一个支持完整 RAP2V 设置的模型。

在 R2V、RA2V、RP2V 任务上，OmniShow 的核心指标都优于现有开源模型。特别是在音视频同步指标上，优势非常明显。

OmniShow 的出现，为人-物交互视频生成领域带来了一个全新的解决方案。它的全模态统一框架、四种生成模式的支持、专门针对人-物交互的优化，都让它在众多视频生成模型中脱颖而出。

我们有理由相信，OmniShow 将会在开源视频生成领域，掀起一波新的浪潮。