AI生成视频技术：重塑影视产业的新浪潮与潜在挑战

不久前，美国的OpenAI公司凭借一款新产品Sora刷爆了朋友圈，该模型通过接收文本指令，即可生成1分钟的短视频。就在Sora发布不到一周的时间里，国内也有AI团队火速上线相关“文字生成视频”大模型。

随着人工智能时代的脚步越来越近，这场技术变革犹如一场风暴，席卷着各个领域。可以预见的是，在某些领域里，AI会带来颠覆式的技术变革。其中，影视行业必将是其绕不开的一个爆发点。

作为不断求新求变的影视行业，在积极迎接AI人工智能时代的同时，又会面对怎样的机遇与挑战？

AI视频生成赛道持续升温

已经过去的2023，可以被称为生成式AI的爆发元年；而刚刚打开新篇章的2024，因为Sora的发布更是一石激起千层浪，同类产品竞相涌入，AI视频生成赛道持续火热。

2月16日，OpenAI公司发布了其首个AI视频生成模型Sora，只需输入内容、提示词或图片，Sora就能在一秒内生成长达60秒的高保真视频。这项技术展示了人工智能从文生视频、图生视频，再到多机位视频生成的强大功能。

在Sora案例视频中，一位通过AI技术生成的戴墨镜的日本街头女主角，不仅能开口说话，还能唱出好听的歌曲。

此消息一出瞬间引发社会各界对AI生成视频技术的广泛关注和讨论，不少网友发出感叹，“影视产业将面对来自生成式人工智能技术的一次巨大挑战”，更多的人则表示期待，“以后是不是可以直接把小说喂给AI，就能制作一部百分百遵循原作的电影啊！”

不过，想要达到像真人电影一样人物和声音的完美同步，需要捕获说话人像微妙和多样化的面部动作，这对AI生成技术是一个很大的挑战。

2月28日，PIKA上线唇形同步功能Lip sync，可以为视频中的人物说话匹配口型，就在同一天，阿里推出了比前者更高级的视频生成框架EMO，不仅可以生成任意时长的说话视频，还能使生成人像的五官表情、动作姿势都更加自然，富有表现力。

比如，让《狂飙》中的“高启强”畅谈罗翔普法，让画中的蒙娜丽莎一展歌喉，只需要提供一张人物的图片，就能通过其他音频配合让图中人来上一段RAP，连口型都可以完全贴合。

有了阿里的EMO，AI生成视频想要让目标对象动起来说话或唱歌变得更容易了。这种功能未来可以广泛应用于视频剪辑和特效制作等影视产业流程中，为影视行业带来进一步变革。

就在今年2月，阿里领投了一轮高达10亿美元的融资，将国内AI大模型团队月之暗面的估值飙升至约25亿美元。在更早之前，阿里还投资了百川智能、智谱AI等多个人工智能产业链公司。

腾讯也在马不停蹄地布局AI，在过去一年投资了MiniMax、深言科技、光年之外等公司，这些AI公司虽然年轻，但研发实力不容小觑。

除了科技大厂的持续押注，国内的官媒和科研机构也在积极入局。

你能想象AI技术可以文生视频呈现小学课本里的古诗词吗？放在以前是不敢想，但现在真的实现了。

2月26日，中国首部文生视频AI系列动画片《千秋诗颂》在央视一套播出，总共26集，每集约7分钟，首次上线推出了《咏鹅》《春夜喜雨》等六集动画，聚焦国家统编语文教材200多首诗词。