
Sora2一上线,谷歌马上就跟进,推出Veo3.1,Runway也不甘落后,出了Gen-4.5,大家都在拼谁的画面更逼真,特效更炫酷。
不过有个事没人说:这些新玩意儿虽然看着牛逼,要是真用起来,普通团队根本扛不住高昂的成本。
出个10秒的视频得等好久,算力费简直像往火堆里扔钞票一样。
就在这会儿,12月15日,商汤科技放出个大新闻:Seko2.0上线了,依靠一个叫LightX2V的开源架构,能让普通的显卡实现11实时生成视频。
真的假的?看起来挺靠谱的,毕竟有他们官方亲自发布,技术上也有新架构撑腰,普通显卡能跑出11实时视频,这可不是随便说说的。
AI视频生成这玩意儿,越弄越炫,倒也容易卡在技术瓶颈上,让人眼花缭乱却难以突破。
技术再牛逼,真用到手上的时候,问题也就跟着冒出来。
一位短剧团队的负责人跟我聊起这事,他说用某个大厂的AI工具搭出一集十分钟的短剧,光是做分镜头就搞了整整三天,算力花费破三万。
这都不是创作,分明就是在给显卡当苦力。
人们都忙着拼参数、比画面,倒没人在意中小团队到底能不能承担得起。
商汤其实早就撞过这个招呼。
去年Seko1.0一亮相,主要是推创作结合的模式,帮了百来家短剧工作室搞内容方向,其中《婉心计》还夺得了抖音AI短剧榜的第一名。
不过,用户的反应挺直接的:分镜生成速度太慢,配音和画面总是对不上节奏。
这些反馈可说是真金白银的需求,迫使商汤不再只专注于优化单一功能,而是开始着手整个生成流程的效率变革,才有了Seko2.0。
为何AI视频制作总是陷入“好看又好用却难搞”的尴尬局面?其实根源在于那个不可能三角:效率、成本和质量,想同时兼顾三个,真的是挺难的。
传统的模型一般得靠多步推理,比如说某个主流模型得跑个40步才能出来答案,显存也得超10GB,普通电脑根本扛不住。
技术团队一心想着追求电影级别的画质,可却忽略了短剧和广告这类场景,实际上它们更讲究的是快准狠,没必要每一帧都像壁纸一样精致。
技术的突破,从实验室直达消费者手中
商汤这回的LightX2V框架,选择了不同路线,公开了源码。
今年年初一开放,ComfyUI圈子里立刻火起来,Reddit上讨论突破5000条,下载数冲到350万次。
这招开源下得真机灵,哪里像关着门自己琢磨,弄得慢吞吞的,让全球的开发者一起来挑错、调优,效率蹭蹭往上涨。
有个独立动画师跟我聊起,米兰app官网用这框架搞3D短片,制作周期从整整7天直接缩短到4个小时,这效率提升可真不是吹牛。
关键的突破点在于算法上,他们研发了个叫PhasedDMD的技术。
说白了就是把视频制作分成好几段,每一段都交给专门的高手来掌管。
运动轨迹归运动模块管,画面细节归细节模块管,这样分工清楚了,效率自然蹭蹭往上涨。
以前生成5秒视频得跑40步推理,现在4步就能搞定,而且质量都快赶上200亿参数那种大模型了。
你说的HuggingFace上的Wan2.1-T2V模型,就是靠这波技术直接冲进了趋势榜前十。
光靠算法不顶用,工程优化才是真正把事儿做成的关键。
传统VAE模型解码一个5秒的视频得花上5秒多,还要占用大约10GB的显存,这点拖后腿挺明显的。
LightX2V推出的LightVAE系列,把参数大幅度剪掉了75%,显存用量压缩到4到5GB,速度提升了两三倍左右,画质损失也控制在差不多5%以内。
要是开发测试赶紧的,还能用个更轻便的LightTAE,显存只要0.4GB,解码时间也就0.25秒左右,搞定得挺快的。
经过一番逐步优化,RTX5090显卡处理5秒的视频,生成的时间确实可以压缩到五秒以内。
真的是一个人就能搞定整个剧组吗?
最让人惊讶的还是国产芯片的兼容性。
LightX2V现已经能在多款国产AI芯片上顺利运行,生成的效果跟英伟达显卡相比差不了大概3%,速度只慢了15%,不过硬件成本一下子就压低了60%。
{jz:field.toptypename/}商汤业务操作也是挺在行的,Seko2.0推出双方案,还未选择国产芯片的用户提供算力补贴,这么一折腾下来,单集短剧的成本一下子就能降到原来三分之一左右。
对中小团队来说,这可不是个小数目呀。
一人搞个剧组,这事过去听着就像天方夜谭,现在居然真的能成了。
创作者小铭AI百宝箱最近上传了个视频,说用Seko2.0制作了个1.5分钟的3D动画短片,从写剧本到成片,这整个过程采用了28分钟。
输入关键词,自动产出大纲、分镜和视频片段,整个过程一点参数都不用手动调。
除了短剧之外,AI现在还能批量搞定数字人音乐MV、教育科普视频啥的,效率一下子提升了十倍还多。
行业的变革正在悄无声息地展开。
以前拍视频的组个编剧、导演、剪辑师啥的团队,现在一个人拎着个电脑就能搞定。
不过也有烦恼,那就是内容是不是会变得越来越雷同呢?商汤倒是留了一手,搞了个风格迁移保护机制和原创性检测工具,想办法在提高效率的同时,也保证版权不被侵害。
科技发展往往会冒出新麻烦,可能让大伙儿都能用得起、玩得转AI创作,真心是件好事。
LightX2V框架的意义,可不仅仅是技术上的突破那么简单。
它把AI视频制作从少数人的玩意儿变成了大众都能用的工具,这才是真正推动生产力的大变革。
接下来就看那些中小型创作者怎么玩转它,搞出新花样了。毕竟,技术就像一支画笔,能画出啥,还得看用笔的人怎么发挥。
#追星日常小记录#