隨著AI生成視頻日漸走紅,如何準確將用戶心中的想法轉化成AI視頻,成為難題。用戶常常發現,僅僅依靠文字很難描述自己的需求。
4月15日,快手旗下可靈AI宣布,面向全球發布可靈2.0視頻生成模型及可圖2.0圖像生成模型,快手高級副總裁、快手社區科學線負責人蓋坤向澎湃新聞記者表示,“AI在輔助創意表達上擁有巨大潛力,但當前的行業發展現狀還遠遠無法滿足用戶需求,在AI生成內容的穩定性、以及用戶復雜創意的精確傳達上仍有很多挑戰。”
此次2.0版本的迭代中,最受關注的便是多模態視頻編輯的新功能:可靈AI使用全新交互理念Multi-modal Visual Language(MVL),讓用戶能夠結合圖像參考、視頻片段等多模態信息,將腦海中包含身份、外觀、風格、場景、動作、表情、運鏡在內的多維度創意,高效傳達給AI。同時,用戶可以直接把自己的想法用圖像等方式表作為輸入,生成符合自己想法的創意視頻。
蓋坤介紹,MVL由TXT(Pure Text,語義骨架)和MMW(Multi-modal-document as a Word,多模態描述子)組成,能從視頻生成設定的基礎方向以及精細控制這兩個層面,精準實現AI創作者們的創意表達。他表示,MMW(多模態描述子)將不只局限于圖片和視頻,也可以引入其它模態的信息,例如聲音、運動軌跡等,讓用戶實現更加豐富的表達。
數據顯示,自去年6月發布以來,可靈AI已累計完成超20次迭代。來自世界各地的超1.5萬開發者和企業客戶,將可靈的API應用于不同的行業場景中。自去年6月上線至今的10個月時間里,可靈AI的月活用戶數量增長25倍,截至目前,全球用戶規模突破2200萬。
據蓋坤介紹,可靈和可圖兩款模型在團隊內部的多項勝負率評測中,均穩居業內第一。例如在文生視頻領域,可靈2.0對比谷歌Veo2的勝負比為205%,對比Sora的勝負比達367%。
值得注意的是,當前圖生視頻約占到可靈AI視頻創作量的85%,圖片質量也對視頻的生成效果產生重要作用。
據快手副總裁、可靈AI負責人張迪介紹,可圖2.0文生圖能力也迎來全面升級,在風格化響應上,可圖2.0可支持60多種風格化的效果轉繪,模型出圖創意和想象力實現大幅躍升。
同時,可圖2.0也上線圖像可控編輯功能:局部重繪和擴圖,支持圖片的增加、修改和修復。在圖像的多模態可控生成中,可圖2.0還上線風格轉繪功能,只需要上傳一張圖片加上風格描述,就能一鍵切換圖片的藝術風格,同時精準保留原圖的語義內容。
除C端訂閱用戶,可靈AI也面向B端商家提供API接入等服務。目前,可靈AI已與包括小米、亞馬遜云科技、阿里云、Freepik、藍色光標等在內的數千家國內外企業客戶建立合作關系。
在營收數據方面,快手2024年三季度財報數據顯示,可靈AI在2024年9月實現月活超150萬;商業化單月流水也超過千萬人民幣。另據2024年快手四季度及全年財報,自可靈AI開始商業化變現至2025年2月,可靈AI的累計營業收入已經超過1億元。
AI視頻是互聯網公司集體發力的賽道,去年12月,騰訊混元大模型發布AI視頻生成大模型,同時宣布開源,參數量達到130億,為當時最大的視頻開源模型,字節跳動、MiniMax、智譜AI等國內大廠和頭部初創公司也推出了相應產品。