测试者用sora生成一只会喷气的小龙 (视频截图) |
sora生成飞驰的汽车(左)与真实中(右)灰尘扬起的效果还是大有不同 (视频截图) |
□羊城晚报记者 陈晓楠 半个月前,美国人工智能研究公司Open AI发布了一个文生视频模型Sora,虽然仍只是在内测阶段,却像之前的自动驾驶、ChatGPT一样,再次引起一片哗然。 对于一些“吃瓜群众”来说,这也许只是一个类似那种输入口令便会给出一个结果的小游戏,但对于业内人士来说,他们却表现出了明显的“震惊”——据说一位好莱坞制片人本已选好地址,准备投资几千万搭建摄影棚拍摄一部新的动画片,一看到Sora的生成效果后,便立刻撤资,决定静待Sora的下一步发展——既然只需要在一台电脑上输入几句关键词就能生成如此逼真、灵动的动态画面,还要花那么多钱搭摄影棚干什么? 接受本报独家采访的国内一家独立创意机构F5的首席创意官、戛纳国际创意节评委范耀威也表示:好莱坞的编剧们去年才因为ChatGPT的出现而闹“大罢工”,反对用AI代替人类编剧的工作,现在或许又该轮到拍摄制作的团队集体闹“罢工”了。他认为,Sora的出现,肯定会给国内外的科技界、广告界、影视界、新闻界等文化产业与资本市场带来巨大冲击,尤其是对创意产业,带来的将是一场“科学革命”。 文生视频的突破进展——更高保真且画面流畅 Sora其实只是OpenAI公司的第一款文生视频工具,在此之前,文生视频这件事已经有很多公司推出过初始模型。比如去年11月份,旗下运营着社交网站脸书的美国Meta公司便发布了视频生成模型Emu Video;接着,美国人工智能初创公司Stability.ai也发布了开源视频生成模型Stable Video Diffusion(SVD)。但这些模型均只是通过简单的文字输入生成动态图片。很快,去年11月18日,旗下有“抖音”“今日头条”等知名品牌产品的字节跳动公司推出了文生视频模型PixelDance;阿里公司紧随其后也上线了Animate Anyone模型;这些模型已开始有了生成更丰富动态性的视频的能力。百度发布的文生视频工具“度加剪辑”,据称还可以一键获取最新热点,交由AI生成文案,再一键生成视频。 可以说,去年年底至今年年初是文生视频AI模型的一个爆发期。 而Sora内测的消息之所以如此震惊各行各业,主要还是它的效果太令人惊艳。它不仅能创作出长达1分钟的高保真视频,效果还十分逼真且画面流畅。难怪Open AI官网公开的Sora研究论文中,甚至自称Sora是“世界模拟器”。 如果把之前那些模型生成的视频看成是多个真实图片的一种“流动性组合”,那么Sora最惊艳的突破就是它的一致性和连贯性,它真正实现了AI理解和模拟现实世界的双重能力。 创作更自由——听得懂“人话”,还能发挥“想象” 仔细看看Sora生成视频的过程,不难发现,它其实不仅仅是一个视频制作工具,更像是一个全能的创意伙伴——似乎只要你有想法,它就能将其变为现实。基于它理解现实和模拟现实世界的双重能力,意味着它不仅听得懂“人话”,还能发挥“想象”去创作。 你可以给它一段具体的文字去形容一个现实场景让它来生成,也可以给它一张图片,让它根据图片去创造相应场景再生成一段视频。它能够根据所掌握的大数据为你提供一些视频瞬间的细节变化,也能够向前或向后去类推相应的场景,将你提供的这段想象空间进行延伸、扩展——这大大扩展了你创作的可能性,同时也极大地提高了工作效率。 由此可见,Sora应该已经有能力重塑我们对“智能助手”的认知,并不仅仅是回答“明天天气怎样”这种简单的问题。 我们不妨想象一下Sora会带来哪些科学变革或行业变革。无论你想用Sora做些什么,它都注定要为我们的生活掀起一场“革命”。至少,短视频的制作会变得更加简单,有了更多的可能。据说目前在国内,已经有电商服务机构向带货主播推出“AI根据热梗自动撰写视频脚本”的服务。还有一些微短剧的制作,不仅细节逼真,而且自带特效,在内容方面都能有不错的创意提供,甚至是科幻题材也不在话下。而且,无需支付演员片酬,也省下了拍摄场景搭建支出等,这些优点在提高成品效率的同时也大大降低了成本。 警惕用Sora兜售焦虑——它仍需“右脑人”提供创意 不论如何,Sora何时结束内测,面向大众公开,仍然是科技行业内关注的焦点。其他公司的视频生成模型也都在突飞猛进。像AI绘画、自动驾驶的出现一样,Sora也不可避免地带来“工位被替代”的焦虑。 事实上,Sora已经让国内创意产业圈产生了不小的动荡。圈内人之前还在热烈讨论:AI绘画大行其道后,创意产业到底是“科学”还是“艺术”?现在则已升级为“创意从业者何去何从”。 还有一些人则是纯粹在利用Sora“兜售焦虑”。比如他们会把这些新潮的科技产品放在你面前不停地秀,然后说:“看看,这些高科技产品你再不会用就是落伍了!”然后开始兜售各种学习课程,或者直接拿出一些可能并不成熟的所谓“AIGC(文生内容)顶级产品”,让你觉得可以用这些简单的方式以逸待劳地跟上科技的脚步。 对此,站在创意产业前沿的范耀威接受采访时说,真正需要用到这些模型去生成视频的,主要还是从事电影行业和生产视频内容的专业人士,普通人似乎并没有必要去为此而焦虑。大众可以去了解一下基本信息,用部分公开使用的简单的文生视频、图生视频工具体验一下,但并不一定要立刻去掌握这些技术。 至于AI如此高速度发展,最后是否会取代了人类的工作能力,范耀威则说,美国的未来学家丹尼尔·平克曾认为未来社会看重六种能力:故事力、设计感、整合力、共情力、娱乐感、意义感。纵观这六样,其实都是人类右脑的擅长项,拥有这些能力的我们称之为“右脑人”。目前来看,Sora模型可以通过人类提供的一段文本去生成长达一分钟的视频,视频甚至可以呈现出多角色、特定类型的运动、精确的主题和复杂的背景细节等,但它显然仍需要右脑发达(即创意十足、想象力爆棚、能讲好故事、写好文本)的“右脑人”来提供创意文本。 他提到,真正好的技术或产品是用来解决问题的,而不是制造问题。所以,在Sora正式开放之前,我们完全可以保持一份从容和理性——功利主义哲学家彼得·辛格认为,行动的正确性取决于它们是否有助于最大化幸福或快乐、最小化痛苦。他强调,科技开发者们在考虑行动后果时,也应该考虑所有受影响个体的利益。 其实,Sora与目前很多尚不完善的高新科技产品一样,仍存在很多问题有待人类去解决。比如视频中常常会出现违背常理的画面,像蝴蝶在海水里飞、男主角的衬衫与皮肤一般“贴身”、女主角多出了一只手或手和身体不在同一个空间维度,还有飞驰在沙土地上的汽车只有后轮会出现沙尘,前轮却没有一点沙尘扬起,诸如此类的问题仍没有得到适当的解决。因此还有人提出,如果让AI继续“打造世界”,我们最需要的能力或许不是学习,而是分辨真伪。 在等待Sora真正亮相的前夜,我们其实更应该保持批判性思维方式,也要保持好奇心与包容心。迟早你会发现,Sora不过是科技发展中的一小步,科技的发展,每一次都像是一段冒险旅程。 (部分资料参考:OpenAI官网、果壳网、澎湃新闻、文案与美术公众号)