AI工具大全 | 一键直达全球AI资源 - 探索AI世界，从精准导航开始

OpenAI 再次震惊了世界。北京时间 2024 年 2 月 16 日凌晨，OpenAI 发布了首个文生视频模型——Sora。它不仅能够生成长达 60 秒的视频，还能实现镜头的平滑切换、保持角色和背景的一致性，甚至理解物理世界的规律。

Sora 的出现，意味着 AI 视频生成技术从"玩具"迈向了"工具"的新阶段。它不再是生成几秒钟模糊不清的动图，而是能够讲述完整故事的电影级画面。

一、 Sora 的核心突破

相比于之前的视频生成模型（如 Runway、Pika），Sora 展现出了几个显著的优势：

Sora 的强大能力源于其独特的技术架构。它结合了 Transformer 架构和扩散模型（Diffusion Model）的优势。

Sora 将视频数据切分为一个个小的时空 Patch，类似于大语言模型中的 Token。这使得模型能够处理不同分辨率、不同比例和不同时长的视频数据。

Sora 使用 Transformer 作为骨干网络，通过预测噪声来逐步生成清晰的视频帧。这种架构使得模型具有极强的扩展性（Scaling Law），随着算力的增加，生成效果会越来越好。

Sora 的发布对影视、广告、游戏等行业造成了巨大的冲击。未来，我们可能会看到更多由 AI 生成的电影片段、广告短片甚至是完整的游戏场景。

然而，Sora 目前也存在一些局限性，例如在处理复杂的物理交互（如玻璃破碎）时偶尔会出错。但毫无疑问，我们正处于 AI 视频生成爆发的前夜。

复制本文链接文章为作者独立观点不代表AI通123立场，未经允许不得转载。

继续阅读本文相关话题

Sora OpenAI AIGC 视频生成