首页 > 生活分享 > 免费教学 > 快手可灵比肩Sora,能否成为快手新引擎

快手可灵比肩Sora,能否成为快手新引擎

发布时间:2024-07-10 17:43:27来源: 15210273549

去年生成式AI大语言模型引发了一波前所未有的科技狂潮,无论是科技巨头还是新兴独角兽都在争前恐后研发规模更大、性能更强的模型,言必称“GPT4”对标程度超越曾经的苹果。

不过国内大模型这么多哪家是第一,各种榜单给了我们不同的答案,或许“文无第一”吧。但在生成式视频领域,快手的可灵模型可以说是暂时领先没有对手。

主笔 / 谢九;文章架构师 / 毛自聪;出品 / 巨头财经

01 国内视频大模型可灵暂时领先

就在六月初, 猎豹移动董事长傅盛在体验过后甚至表示,“甚至我觉得也吊打了Sora,我认为这个产品今天,在我能使用的范畴内就是全世界第一的。”而他口中,能吊打国内外各个文生视频模型的产品,就是快手可灵视频生成大模型。

有业内人士指出,Sora是今年2月公布的,其训练有可能在去年年底就完成了,可灵多出几个月的训练时间。更进一步来说,能调用更多的训练算力,是可灵的优势。但论算力的话,快手只能算国内第二梯队,只有大约数千张大卡,根据多方信源估计,文生视频大模型生成一分钟1080P视频至少要消耗100万Token,推理算力需求远大于文生文。所以这并非大力出奇迹的故事,那么快手是如何做到的呢?

在架构选择上,快手大模型团队采用的方案,是类似Sora模型的DiT结构,使用Transformer替代了传统的卷积U-Net。这一转变增强了处理和生成能力,解决了U-Net在处理复杂任务时冗余、感受野和定位精度的问题。

三个问题的优化,使得模型效率和性能提高、能够捕捉到更宽广的特征范围,模型对细节的识别能力也随之增强。

而快手自研推出的3D VAE网络,实现了时空同步压缩,相较于Stable Diffusion所用、存在明显的信息冗余的2D VAE空间压缩方案,获得了较高的重建质量的同时在训练性能和效果也取得了最佳平衡。

简单来说“可灵”大模型采用了类Sora的技术路线,并结合了多项自研创新技术。这些技术使得生成的视频不仅展现出电影级别的画质与动态效果,还能模拟大幅度的物理运动。

那么该如何评估快手可灵的技术水平?还是用傅盛的话来评价,用猎豹傅盛的话来说,“可灵的成功,更加证明了,Sora并不是一项技术性突破,而是产品型图片”。这并不是说快手的技术不行,而是目前在视频生成领域并不存在断层式的技术领先,也就意味着可灵的成功是算法、算力、产品之间最优的商业产品,是足够快手人骄傲的产品。

但也正因为如此,因为不存在绝对领先接下来还是要卷算力、卷数据、卷同行,一场没有终点的消耗综合实力的长期马拉松。

02 商业化落地是最难的路

科技媒体The Information报道称,包括微软、亚马逊和Google在内的云厂商和其他销售该技术(指生成式AI)的公司,正在降低自己的预期。一些人已经在担忧生成式AI吹出来的泡泡会不会已经太大了,它是未来,但可能不是现在,就像互联网如今已经是一门万亿美元级别的生意,但并不妨碍千禧年时吹出的互联网泡泡的爆炸结局。

一大批在2023年晋升为独角兽的美国AI公司,已经落入理想难以兑现的窘境。曾经在AI独角兽上排名前3的Inflection两位联合创始人跳槽,微软以6.5亿美元价格获得其模型授权。

排名仅次于Inflection的另一家AI独角兽Cohere也被传出融资困境。这家公司自去年12月就开始寻求以60亿美元估值融资5亿美元,迄今没有确定交易,而它上一轮融资还停留在去年6月。

AI现实主义投资人朱啸虎指出,大模型是很差的商业模式。问题是技术没有差异点,而且每一代技术比如3.5可能就要几千万美金,4.0可能要几亿美金,5.0可能要几十亿美金,每一代模型你都要重新去砸钱,而且你变现周期可能就两三年,这比发电厂还要差。

对于快手来说,融资问题可能并不紧张,但目前可灵并没有展现很强的业务能力实现商业闭环。单点工具的价值目前认可度并不高,国内有妙鸭相机,国外有Suno、midjourney。往往这类产品盈利模式单一,主要就是充会员和买积分购买服务。更何况目前还是免费的可灵。

好用也不等于付费高。

典型的就是GPTs应用商店多数应用需要付费使用, The Information 的报道提到,一位开发人员分析了 3.6 万多个 GPTs,其中约有 5% 每天有 150 至 500 名活跃用户,但绝大多数每天只有 1 到 2 个用户。

就连GPT本身地表最强AI付费用户比例也不能算高,2023 年 11 月,ChatGPT 的每周活跃用户数已达 1 亿。热闹归热闹,付费率没有想象得高。有人估计,ChatGPT 付费用户大概在 500 万到 800 万之间。

而快手可灵的数据相比就更一般了,可灵唯一的使用渠道就是快手创作工具快影 App,但快影 App 的下载数据并没有太大的波动。根据七麦数据,App Store 近七日日均下载量仍旧维持在 2 万左右,在应用(免费)和摄影与录像(免费)榜单上的排名依然保持稳定,并没有太大的变化曲线。

未到终局“群狼环伺”。

事实上,腾讯和字节等互联网公司,同样拥有视频生成大模型,只是尚未完全公测或者效果不尽人意。字节跳动剪映旗下的产品「即梦」就具备短视频生成功能,可以选择运镜类型、视频比例和运动速度,生成 3-6 秒的视频,但在视频呈现效果和时间长度上,并没有展示出比肩 Sora 的优势。不过字节已经计划重新发布类Sora产品。

来自生数科技的Vidu 发布时,一度宣称自己是「中国版Sora」,官方演示的确不错,但后续乏力,还需要更多观察。另一个被认为可与 Sora 对垒的是 PixVerse,来自爱诗科技,五月时发布了最新的「魔术笔刷」功能,能够更精准地控制画面局部动态。

更不要说老牌生成式 AI 平台 Runway 近期在官网宣布,其文生视频模型 Gen-3 Alpha 向所有用户开放使用。Gen-3 在转场设计和镜头运动方面提升明显效果惊艳,意味着有一定创作能力的用户,可以这样关键的创意节点上,借助文生视频工具生成影像方案预览。这样的应用才意味更多创作可能,离商业会更进一些。

可灵大模型很强但还不够强。

可灵在技术上还和Sora有一定差距,除了语义理解问题、生成画面有时不符合物理世界规律、真实性差等“硬伤”外,“画风质感一言难尽”“美观性欠佳”“快手味过浓”也是被频繁提及的关键词。

根据接近快手人士透露,当下,可灵暂无商业化计划,也不对外提供API。这就意味着,从投资层面来看,可灵对于快手近几个季度的业绩并无太大贡献。而从快手近期在二级市场的表现来看,也可以印证,可灵似乎对于快手的帮助不大。。

在快手视觉生成与互动中心负责人万鹏飞演讲中,在谈到可灵的未来时曾提到,“视频创作的门槛和效果的ROI大幅度提升,视频创作者和消费者界限逐渐模糊。 越来越多消费者变成创作者,对于视频创作生态的繁荣是非常有价值的。 ”

 

不过目前惊艳的AI作品还比较少,更多是关于影视的一些梗图创作,低质量的AI作品充斥平台。快手显然也明白这一点,今年6月,快手电商发布了使用AIGC能力直播的倡议公告,称“我们更希望看到真实的直播内容,鼓励商家/达人和老铁们进行实时良好的互动,建立更加深厚的情感,同时,有意利用AIGC的低成本优势生产出的低质量内容更是平台不愿意看到的内容生产行为”。因此,“使用AIGC能力辅助创作的内容相较于其他实时直播内容,平台不会给予特殊的流量扶持。”

免费教学更多>>

“林肯和凯迪拉克”哪个更耐用?修车师傅:开几年就知道差在哪里 始于颜值,陷于才华,选择揽巡的理由就这么简单 开了6年SUV,最后还是换回轿车!SUV的四个缺点,买车前要知道 下半年12款将上市新车续航信息公示 欧盟加征顶格关税?上汽MG用“超级安芯承诺”来应战 全新电动MINI COOPER来了,在内卷时代换种生活 二手轩逸 2024款经典 1.6L XE CVT舒适版,7.38万值得买吗? 新帕萨特曝光!近比亚迪汉定位,不看绝对后悔 东风风神奕炫 GS 一款紧凑型 SUV 有劲、好开、省油,第9代凯美瑞变化有点大 一汽丰田新亚洲龙新增双擎动力 提升配置 能否对未来销量有提振? 新一代亚洲龙亮相,网友:确实有雷克萨斯的感觉! 盘点十款二十万左右的高性价比轿车,家用车的首选! “神车厂”又放大招,五菱星光S空间百变,家用贴心! 提高年销量目标至200万辆,吉利为何敢这么做?高管给出了答案 国产轿跑也很美!到店实拍体验2024款红旗H6 全新长城哈弗 H6 Hi4 申报图公布:1.5 升插混 SUV 整车姿态宛如骏马,细节设计美观实用,宝骏云海的颜值你满意吗? 传祺M8销量爆表!别克GL8意外跌落,威然为何仅排第15? 28.8万降到14.6万!捷豹这款SUV要刺穿豪华SUV的底价! 当年轻人不再爱上野马 实拍2024款奔驰AMG,外观升级,售400多万,难道不比宾利香? 目前比亚迪的真实质量到底怎么样?来看看网友们真实评价和体验! 东边不亮西边亮!日产奇骏发布Rock Creek版,越野新皮肤上线 一汽丰田新亚洲龙新增双擎动力 提升配置 能否对未来销量有提振? 2024款长安启源A07真香版新车商品性评价 奔驰比宝马奥迪靠谱?2024年上半年豪华品牌投诉指数排行 宝马中国“退出价格战”?大V:B BA还想回到高高在上的价格 做梦呢 吉利实现“电池自由” 神盾短刀电池对行业影响几何? 黑科技全量上车?“双800”傍身续航无忧,华为智界R7申报图曝光