OpenAI发布的Sora,再次把生成式人工智能推向了新高度。这个名为Sora的革命性文生视频模型,标志着人工智能技术在视频生成领域的重大突破。更重要的,它把世界模型和虚实融合的数字世界未来,更逼真的呈现在你的面前。
那么,在热烈的Sora讨论背后,我们应该怎样理性认知,冷思考是什么?《通信产业报》全媒体记者特别遴选了业界关注的十个问题,通过的采访,和你一起理解Sora以及由此应该认知的机会。
01 Sora本质是什么? 作为OpenAI公司开发的一款文生视频模型,Sora能够将用户输入的文本描述转化为相应的视频内容,不仅可以生成长达一分钟的视频,且能完全遵照用户的Prompt并保持视觉质量。自然语言处理、高清视频生成、遵循指令三大能力是其核心优势。作为文生视频模型,在模型方面,Sora模型基于扩散型变换器(diffusion transformer)架构,这是一种深度学习模型,能够将随机噪声逐渐转化为有意义的图像或视频内容。Sora通过训练,学会了理解和处理文本提示,将用户的描述转化为视频内容,它不仅能够生成具有连贯性的场景和运动的镜头,还能够模拟复杂的场景和角色表情,为视频增添更多细节和想象力。
02 Sora的技术核心是什么? Sora这一技术的核心在于结合了自然语言处理技术和视频生成技术,其采用了先进的深度学习算法和大规模视频数据集进行训练,使得模型能够学习到视频生成所需的各种特征和规律,Sora模型通过深度学习和语义分析来理解并解析输入的文本描述,捕捉其中的关键信息和意图。然后,基于这些信息,模型能够自动生成符合描述要求的视频内容,在这之中,Sora模型因其具备强大的语义理解能力,能够准确捕捉用户输入文本中的细节和要点,从而生成更加精准、生动的视频内容,来满足不同领域、不同需求的创作者。
03 Sora的首批真实场景是什么? 目前,Sora模型的发布为以影视制作、广告创意、教育培训、社交媒体为代表的视频创作领域带来了无限的可能性和机遇。其中,在广告领域,广告商可以利用Sora快速生成符合品牌调性的宣传视频;在媒体行业,新闻机构可以利用Sora制作生动形象的新闻报道;在教育领域,教育机构可以借助Sora制作有趣的教学视频,提升学生的学习兴趣和效果。此外,Sora还可以应用于游戏、娱乐等多个领域。也正因此,Sora的发布对全球AI行业产生深远的影响,它将极大地降低视频制作的门槛和成本,使得更多的人和企业能够利用视频进行表达和传播,为更多行业带来全新的商业模式和服务形态。
04 Sora的版权和安全隐私问题怎么办? 事实上,Sora等文本到视频的人工智能项目在创作过程中涉及大量内容,自然引发版权问题。一方面,Sora在训练过程中可能使用了受版权保护的内容,这引发了关于如何合法使用这些内容的问题。另一方面,由于Sora能够生成高度逼真的视频内容,如果不加以限制和监管,可能会被滥用于制作虚假信息或侵犯他人隐私。在安全隐私上,由于Sora文生视频模型需要大量的数据作为训练样本,这些数据可能包含用户的隐私信息,如果这些数据被不当使用或泄露,就可能对用户的隐私造成威胁。
05 Sora将如何影响通信行业? 作为一款文生视频模型,随着Sora等类似应用的普及,视频流量将大幅增加,对固定及移动通信网络的带宽需求也将随之不断提升,同时,Sora等大型AI模型需要强大的计算能力和高效的数据中心网络来支持其运行,这意味着数据中心需要更高的带宽和更低的延迟来确保模型的训练和推理效率,则是为了减少数据传输延迟和提高用户体验,越来越多的计算任务将在网络边缘完成,这也将加速通信业对于边缘计算的建设。
06 Sora背后团队与应用限制如何? Sora炸场,其背后技术团队也正在持续引爆关注。出乎意料的是,这支团队很年轻,两位负责人都是在2023年刚刚博士毕业,团队里甚至有00后选手,还专门招了艺术生,人才持续星聚,惊得众人开始重新考量OpenAI的技术领先性。然而,尽管Sora的技术能力非常强大,但它目前还无法完全替代复杂的影视制作,例如,对于叙事复杂、多视角的《三体》这样的作品,Sora尚不能实现从概念到成品的完整制作。此外,就目前的展示内容来看,并不意味着它已经“读懂”了物理规律,Sora对真实世界的模拟还有很多提升空间。
07 Sora模型对算力需求有多大? OpenAI发布的全新AI生成视频模型Sora,一方面,采用扩散模型+Transformer架构,需要通过超大量数据集来扩大模型规模并提高模型表现,对训练和推理端算力的需求提升非常明显;另一方面,视频模型的训练和推理需求预计比文本、图像又增加了一个维度,从而有望带来AI芯片持续增长的需求。此外,多模态大模型应用后,视频内容的传输预计带来网络带宽的升级。Sora模型从文本、图像迈入视频大模型,使用了大规模训练和超大数据集,是通向通用AI的里程碑,AI服务器、GPU等算力设备的需求预期被再次抬升到新的高度。据推测,整个Sora模型可能有30亿个参数,为此,OpenAI启动了“造芯”计划,以应对其庞大的计算需求。
08 Sora的“试炼场”或将在元宇宙? Sora横空出世,特别适合制作那些在现实中难以拍摄、对想象力要求特别高的内容,之前拍摄特效视频需要用到特殊技巧,现在只需要输入一段充满想象力的文字即可生成,Sora的贡献是作为革命性平台,极大降低了视频输出成本,这被一度看作是元宇宙发展的核心桎梏。随着时间的推移,Sora会推动AI生成视频快速规模化,AI生成视频、AI生成虚拟世界前景非常乐观,AI数字人、AI视频是元宇宙的重要支撑基础,大模型和元宇宙的结合,将推动元宇宙走近用户。
09 Sora有望成为“世界模型”? OpenAI深夜放大招,Sora展现出的视频生成能力让网友惊呼“逆天”,“世界模型”“世界模拟器”成为Sora的重要标签。以前的AI视频,都单镜头生成的,Sora能在同一视频中设计出多个镜头,同时保持角色和视觉风格的一致性,这种级别的多镜头一致性,是Gen 2和Pika都完全无法企及的,Sora在训练过程中表现出了与其他模型不同的涌现能力,不得不说是个奇迹。另外,从投资角度来看,Sora背后的涌现能力为自动驾驶、设计等需要现实世界建模的行业也提供了明确方向。从技术角度出发,Sora带给业界的启发是DIT模型,即以Transformer为主干的扩散模型,尽管它们已经是非常成熟的技术,但之前很少有人将两者放在一起。可以说,Sora的效果已经完全跳出了用冷兵器短兵相接的时代,已经有了世界模型的雏形。
10 一批创新公司要“消失了”? OpenAI的Sora文生视频模型自发布以来,引起了广泛关注和讨论。Sora模型能够根据文本描述生成长达60秒的视频,这一技术突破不仅展示了AI在视频内容创作领域的潜力,也预示着未来视频制作和消费方式的重大变革,Sora模型的推出,可能会加剧视频生成领域的竞争,无疑将对内容创作、媒体制作、娱乐产业等多个领域产生深远影响。值得关注的是,Sora是一个伟大的工程进步,距离商业化还有一段路要走,除了确保在关键领域占领导地位、突破技术、建立平台外,也会做垂类应用,创新公司仍有很大发展空间。此外,从OpenAI的论文不难看出,Sora帮助很多创业公司节约了数以千万计的探索成本,但同时也给创业者提供了很大的想象空间。
来源:通信产业网