科技财经观察2025年10月27日 13:30消息,美团开源LongCat-Video,支持5分钟超长视频生成,突破行业时长限制。
10 月 27 日,美团 LongCat 团队正式发布并开源其最新视频生成模型 LongCat-Video,引发人工智能领域广泛关注。该模型基于 Diffusion Transformer(DiT)架构构建,宣称在文生视频、图生视频和视频续写三大任务上实现统一建模,并在开源模型中达到SOTA(最先进水平)。尤为引人注目的是,LongCat-Video 原生支持分钟级长视频的连贯生成,解决了当前视频生成领域普遍存在的跨帧不一致与运动逻辑断裂等难题。
近年来,“世界模型”(World Model)被视为通往通用人工智能的重要路径之一。这一类模型旨在模拟真实世界的物理规律、时空演化与场景逻辑,使AI具备对现实世界的理解与预测能力。而视频生成作为“世界模型”的关键实现路径,正逐步从短片段生成迈向更复杂、更长时序的动态建模。LongCat-Video 的推出,正是在这一趋势下的重要技术突破,标志着国内企业在基础模型研发上的持续深耕与创新实力。
LongCat-Video 的核心技术亮点在于通过“条件帧数量”灵活区分不同生成任务:无条件帧用于文本到视频生成,单帧输入支持图像到视频生成,多帧输入则启用视频续写功能。这种设计无需额外训练多个专用模型,实现了文生、图生与续写的统一架构闭环,极大提升了模型的泛化能力与部署效率。这种“一模型多任务”的思路,不仅降低了开发与维护成本,也为未来构建更复杂的智能系统提供了可扩展的技术范式。
在文生视频方面,LongCat-Video 可生成分辨率为 720p、30fps 的高清视频内容,能够精准解析文本中关于物体、人物、场景乃至艺术风格的描述,在语义理解与视觉还原之间建立了高度对齐的能力。相比现有开源模型,其在细节刻画与叙事连贯性上的表现更为出色,已达到当前开源领域的领先水平。
图生视频功能则强调内容一致性与动态自然度。模型能够在保留原始图像主体结构、背景关系和整体美学风格的基础上,合理推演后续动作与环境变化,确保生成过程符合物理常识。无论是用户提供详细指令、简短提示,甚至不提供额外描述,模型均能稳定输出高质量结果。这对于影视预演、广告创意等需要高保真延续性的应用场景具有重要意义。
真正让 LongCat-Video 脱颖而出的是其原生支持的视频续写能力。该功能允许模型基于一段已有的多帧视频内容进行自然延展,为长视频生成提供了坚实的技术基础。结合 Block-Causual Attention 机制与 GRPO 后训练策略,模型可在长达5分钟的连续生成过程中保持画面质量与运动逻辑的一致性,避免了传统方法中常见的“退化”或“漂移”现象。这不仅是技术层面的进步,更是向“可推理、可持续”的智能系统迈出的关键一步。
从行业角度看,LongCat-Video 的开源无疑将加速国内视频生成生态的发展。相较于部分闭源商业模型,其开放姿态有助于学术界与中小企业开展二次开发与垂直应用探索。尤其在教育、动画、虚拟现实等领域,长时连贯生成能力可能催生全新的交互形式与内容形态。同时,这也反映出中国科技企业正从“应用创新”向“底层技术创新”转型,逐步在全球AI竞争格局中占据更有利位置。
尽管 LongCat-Video 展现了强大的潜力,但仍需理性看待其实际应用边界。目前生成分辨率仍限于 720p,距离影视级 4K 输出尚有差距;且长视频生成对算力要求较高,普通设备难以实时运行。此外,如何防止滥用、保障生成内容的安全可控,也是所有生成式AI必须面对的社会责任问题。
无论如何,LongCat-Video 的发布是国产自研视频大模型的一次重要突破。它不仅展示了美团在AI前沿领域的布局野心,也为中国在“世界模型”这一战略方向上的探索增添了新的可能性。随着更多开发者加入生态共建,我们有理由期待一个更加智能、连贯、可交互的数字世界正在加速到来。
GitHub:https://github.com/meituan-longcat/LongCat-Video
Hugging Face:https://huggingface.co/meituan-longcat/LongCat-Video
Project Page:https://meituan-longcat.github.io/LongCat-Video/