即时新闻

Sora,是“世界模拟器”还是“工位替代者”？

来源：羊城晚报 2024年03月08日版次：A10 栏目：作者：陈晓楠

测试者用sora生成一只会喷气的小龙 (视频截图)

sora生成飞驰的汽车（左）与真实中（右）灰尘扬起的效果还是大有不同 (视频截图)

　　□羊城晚报记者陈晓楠

　　半个月前，美国人工智能研究公司Open AI发布了一个文生视频模型Sora，虽然仍只是在内测阶段，却像之前的自动驾驶、ChatGPT一样，再次引起一片哗然。

　　对于一些“吃瓜群众”来说，这也许只是一个类似那种输入口令便会给出一个结果的小游戏，但对于业内人士来说，他们却表现出了明显的“震惊”——据说一位好莱坞制片人本已选好地址，准备投资几千万搭建摄影棚拍摄一部新的动画片，一看到Sora的生成效果后，便立刻撤资，决定静待Sora的下一步发展——既然只需要在一台电脑上输入几句关键词就能生成如此逼真、灵动的动态画面，还要花那么多钱搭摄影棚干什么？

　　接受本报独家采访的国内一家独立创意机构F5的首席创意官、戛纳国际创意节评委范耀威也表示：好莱坞的编剧们去年才因为ChatGPT的出现而闹“大罢工”，反对用AI代替人类编剧的工作，现在或许又该轮到拍摄制作的团队集体闹“罢工”了。他认为，Sora的出现，肯定会给国内外的科技界、广告界、影视界、新闻界等文化产业与资本市场带来巨大冲击，尤其是对创意产业，带来的将是一场“科学革命”。

　　文生视频的突破进展——更高保真且画面流畅

　　Sora其实只是OpenAI公司的第一款文生视频工具，在此之前，文生视频这件事已经有很多公司推出过初始模型。比如去年11月份，旗下运营着社交网站脸书的美国Meta公司便发布了视频生成模型Emu Video；接着，美国人工智能初创公司Stability.ai也发布了开源视频生成模型Stable Video Diffusion(SVD)。但这些模型均只是通过简单的文字输入生成动态图片。很快，去年11月18日，旗下有“抖音”“今日头条”等知名品牌产品的字节跳动公司推出了文生视频模型PixelDance；阿里公司紧随其后也上线了Animate Anyone模型；这些模型已开始有了生成更丰富动态性的视频的能力。百度发布的文生视频工具“度加剪辑”，据称还可以一键获取最新热点，交由AI生成文案，再一键生成视频。

　　可以说，去年年底至今年年初是文生视频AI模型的一个爆发期。

　　而Sora内测的消息之所以如此震惊各行各业，主要还是它的效果太令人惊艳。它不仅能创作出长达1分钟的高保真视频，效果还十分逼真且画面流畅。难怪Open AI官网公开的Sora研究论文中，甚至自称Sora是“世界模拟器”。

　　如果把之前那些模型生成的视频看成是多个真实图片的一种“流动性组合”，那么Sora最惊艳的突破就是它的一致性和连贯性，它真正实现了AI理解和模拟现实世界的双重能力。

　　创作更自由——听得懂“人话”，还能发挥“想象”

　　仔细看看Sora生成视频的过程，不难发现，它其实不仅仅是一个视频制作工具，更像是一个全能的创意伙伴——似乎只要你有想法，它就能将其变为现实。基于它理解现实和模拟现实世界的双重能力，意味着它不仅听得懂“人话”，还能发挥“想象”去创作。

　　你可以给它一段具体的文字去形容一个现实场景让它来生成，也可以给它一张图片，让它根据图片去创造相应场景再生成一段视频。它能够根据所掌握的大数据为你提供一些视频瞬间的细节变化，也能够向前或向后去类推相应的场景，将你提供的这段想象空间进行延伸、扩展——这大大扩展了你创作的可能性，同时也极大地提高了工作效率。

　　由此可见，Sora应该已经有能力重塑我们对“智能助手”的认知，并不仅仅是回答“明天天气怎样”这种简单的问题。

　　我们不妨想象一下Sora会带来哪些科学变革或行业变革。无论你想用Sora做些什么，它都注定要为我们的生活掀起一场“革命”。至少，短视频的制作会变得更加简单，有了更多的可能。据说目前在国内，已经有电商服务机构向带货主播推出“AI根据热梗自动撰写视频脚本”的服务。还有一些微短剧的制作，不仅细节逼真，而且自带特效，在内容方面都能有不错的创意提供，甚至是科幻题材也不在话下。而且，无需支付演员片酬，也省下了拍摄场景搭建支出等，这些优点在提高成品效率的同时也大大降低了成本。

　　警惕用Sora兜售焦虑——它仍需“右脑人”提供创意

　　不论如何，Sora何时结束内测，面向大众公开，仍然是科技行业内关注的焦点。其他公司的视频生成模型也都在突飞猛进。像AI绘画、自动驾驶的出现一样，Sora也不可避免地带来“工位被替代”的焦虑。

　　事实上，Sora已经让国内创意产业圈产生了不小的动荡。圈内人之前还在热烈讨论：AI绘画大行其道后，创意产业到底是“科学”还是“艺术”？现在则已升级为“创意从业者何去何从”。

　　还有一些人则是纯粹在利用Sora“兜售焦虑”。比如他们会把这些新潮的科技产品放在你面前不停地秀，然后说：“看看，这些高科技产品你再不会用就是落伍了！”然后开始兜售各种学习课程，或者直接拿出一些可能并不成熟的所谓“AIGC（文生内容）顶级产品”，让你觉得可以用这些简单的方式以逸待劳地跟上科技的脚步。

　　对此，站在创意产业前沿的范耀威接受采访时说，真正需要用到这些模型去生成视频的，主要还是从事电影行业和生产视频内容的专业人士，普通人似乎并没有必要去为此而焦虑。大众可以去了解一下基本信息，用部分公开使用的简单的文生视频、图生视频工具体验一下，但并不一定要立刻去掌握这些技术。

　　至于AI如此高速度发展，最后是否会取代了人类的工作能力，范耀威则说，美国的未来学家丹尼尔·平克曾认为未来社会看重六种能力：故事力、设计感、整合力、共情力、娱乐感、意义感。纵观这六样，其实都是人类右脑的擅长项，拥有这些能力的我们称之为“右脑人”。目前来看，Sora模型可以通过人类提供的一段文本去生成长达一分钟的视频，视频甚至可以呈现出多角色、特定类型的运动、精确的主题和复杂的背景细节等，但它显然仍需要右脑发达（即创意十足、想象力爆棚、能讲好故事、写好文本）的“右脑人”来提供创意文本。

　　他提到，真正好的技术或产品是用来解决问题的，而不是制造问题。所以，在Sora正式开放之前，我们完全可以保持一份从容和理性——功利主义哲学家彼得·辛格认为，行动的正确性取决于它们是否有助于最大化幸福或快乐、最小化痛苦。他强调，科技开发者们在考虑行动后果时，也应该考虑所有受影响个体的利益。

　　其实，Sora与目前很多尚不完善的高新科技产品一样，仍存在很多问题有待人类去解决。比如视频中常常会出现违背常理的画面，像蝴蝶在海水里飞、男主角的衬衫与皮肤一般“贴身”、女主角多出了一只手或手和身体不在同一个空间维度，还有飞驰在沙土地上的汽车只有后轮会出现沙尘，前轮却没有一点沙尘扬起，诸如此类的问题仍没有得到适当的解决。因此还有人提出，如果让AI继续“打造世界”，我们最需要的能力或许不是学习，而是分辨真伪。

　　在等待Sora真正亮相的前夜，我们其实更应该保持批判性思维方式，也要保持好奇心与包容心。迟早你会发现，Sora不过是科技发展中的一小步，科技的发展，每一次都像是一段冒险旅程。

　　（部分资料参考：OpenAI官网、果壳网、澎湃新闻、文案与美术公众号）

scroll