您當(dāng)前位置> 主頁(yè) > 私域講堂 > 行業(yè)熱點(diǎn)
發(fā)表時(shí)間:2024-10-07 09:26:27
文章作者:小編
瀏覽次數(shù):
事情大家都知道了:字節(jié)跳動(dòng)終于發(fā)布了自家的“Sora”。
9月24日的深圳AI創(chuàng)新巡展上,火山引擎發(fā)布兩款視頻生成大模型PixelDance(像素舞動(dòng))和Seaweed(海草),并且面向企業(yè)市場(chǎng)開(kāi)啟邀測(cè)。
這是一次毫無(wú)預(yù)警的發(fā)布。除了少數(shù)進(jìn)入到內(nèi)測(cè)環(huán)節(jié)的創(chuàng)作者,字節(jié)沒(méi)有發(fā)布任何有關(guān)新產(chǎn)品的消息。
盡管低調(diào),但市場(chǎng)對(duì)字節(jié)系Sora仍有著巨大期待。年初,OpenAI的Sora幾乎是一腳踢開(kāi)了多模態(tài)、視頻生成的大門(mén)。之后,6月快手可靈的爆火出圈,徹底點(diǎn)燃了這個(gè)賽道。
作為短視頻巨頭的字節(jié),從去年ChatGPT發(fā)布后,就備受市場(chǎng)關(guān)注。從已有條件上看,字節(jié)幾乎是大廠中,做大模型和AI產(chǎn)品先天優(yōu)勢(shì)最足的一家:有錢(qián)、有芯片、人才密度也足夠大。
類(lèi)Sora賽道,也早已被市場(chǎng)公認(rèn)為是字節(jié)、快手的“天選場(chǎng)景”——短視頻巨頭不僅有巨量數(shù)據(jù),也有足夠豐富的應(yīng)用場(chǎng)景。
但現(xiàn)實(shí)是,快手可靈自6月上線(xiàn)以來(lái),已有超260萬(wàn)人使用過(guò)可靈,累計(jì)生成了2700萬(wàn)個(gè)視頻、5300萬(wàn)張圖片。此前的字節(jié)卻仍未有動(dòng)靜,不免要面對(duì)市場(chǎng)上的諸多猜測(cè)——等到此時(shí)發(fā)布AI視頻生成模型,還有多大勝算?
字節(jié)版“Sora”,可以摘掉Sora的帽子嗎?
從效果上看,兩款模型初步可以實(shí)現(xiàn)的的效果,無(wú)疑令人驚艷。
字節(jié)官方給出的實(shí)例中,無(wú)論是統(tǒng)一性、角色豐富度,都上了一個(gè)臺(tái)階。
由文字或圖像生成的AI視頻,不僅能夠遵循復(fù)雜指令,讓不同人物完成多個(gè)動(dòng)作指令的互動(dòng),人物樣貌、服裝細(xì)節(jié)甚至頭飾在不同運(yùn)鏡下也保持一致,接近實(shí)拍效果。
△來(lái)源:豆包AI視頻生成模型
值得關(guān)注的,一是多幀視頻的連續(xù)性。
此前,視頻生成模型大多只能完成簡(jiǎn)單指令,比如某個(gè)人/某個(gè)物體,完成單個(gè)動(dòng)作。一旦有比較復(fù)雜的動(dòng)線(xiàn),視頻就容易失真、變形。
現(xiàn)在的豆包AI視頻生成模型,則可以實(shí)現(xiàn)自然連貫的動(dòng)作,在奔跑、走路、抬頭等等上面,連貫性和效果都好了不少。簡(jiǎn)單來(lái)說(shuō),不會(huì)看著看著,就突然從史密斯吃面,變成特朗普吃面。
△來(lái)源:豆包AI視頻生成模型
二是角色的豐富度。豆包這次發(fā)布的AI模型,優(yōu)勢(shì)尤為突出的是多主體間的互動(dòng)。
在不少實(shí)例中,都可以看到多個(gè)角色之間的互動(dòng),動(dòng)作連貫合理,鏡頭類(lèi)型也十分豐富,包含了多種類(lèi)型的鏡頭調(diào)度方式——遠(yuǎn)景和近景的切換。鏡頭也能實(shí)現(xiàn)變焦、環(huán)繞、平搖、縮放、目標(biāo)跟隨等多種形式的變化。
在切換前后,人物樣貌、服裝細(xì)節(jié)甚至頭飾也都可以保持一致。
下面這則視頻,就從前面戴潛水墨鏡的人,切換到后方另一位潛水員,兩者的形象也都保持了一致。
△來(lái)源:豆包AI視頻生成模型
目前,PixelDance(像素舞動(dòng))和Seaweed(海草)模型都正在內(nèi)測(cè)版小范圍測(cè)試,還未完全開(kāi)放公測(cè)。但《智能涌現(xiàn)》通過(guò)內(nèi)測(cè)風(fēng)景、人物等等場(chǎng)景,即夢(mèng)AI在實(shí)時(shí)生成風(fēng)景視頻上,鏡頭的調(diào)度、畫(huà)面質(zhì)量上,都可圈可點(diǎn)。
不過(guò),在人物生成場(chǎng)景里,輸入原圖+指定的動(dòng)作Prompt后,隨著動(dòng)作改變,一致性還是相當(dāng)可以,但會(huì)有部分手指變形的Bug,豆包本次的AI模型基于自研的DiT架構(gòu)打造,這也被認(rèn)為是OpenAI Sora的同款架構(gòu),是目前AI視頻賽道上的主流技術(shù)路線(xiàn)。
不過(guò),AI視頻生成賽道的發(fā)展階段比文字、圖像都還要更早。如今的底層算法以閉源為主,數(shù)據(jù)極其稀缺——意味著各家都只能閉門(mén)造車(chē),拼的就是工程優(yōu)化能力。
火山引擎總裁譚待也表示,即夢(mèng)AI等業(yè)務(wù)場(chǎng)景,已經(jīng)對(duì)Transformer結(jié)構(gòu)進(jìn)行深度優(yōu)化,而在DiT架構(gòu)的研究上也有多款創(chuàng)新,才能大幅解決AI視頻應(yīng)用成本昂貴的問(wèn)題,讓?xiě)?yīng)用成本降到最低。
但也有AI視頻領(lǐng)域的從業(yè)者保持冷靜,認(rèn)為不用抱有太高期待?!艾F(xiàn)在底層的大模型沒(méi)有代差,拉不開(kāi)太大差距?!?/span>
AI博主歸藏,就把豆包和AI視頻老大哥Runway,以及明星初創(chuàng)Luma AI的生成效果,做了直觀對(duì)比——
△來(lái)源:歸藏
從功能上看,此次字節(jié)發(fā)布的Seaweed模型產(chǎn)品功能和體驗(yàn)更多元,不僅支持各種風(fēng)格提示詞響應(yīng),還有橫豎多種比例的輸出。
“綜合結(jié)果比Luma要好很多,跟Runway各有優(yōu)劣?!睔w藏在即刻上表示。
無(wú)論如何,字節(jié)的雄心壯志已經(jīng)擺在了桌上。除了兩款A(yù)I視頻新模型,本次字節(jié)還發(fā)布了新的豆包音樂(lè)模型和同聲傳譯模型,以及音樂(lè)模型。對(duì)創(chuàng)作者而言,豆包的大模型家族真正成為了“全家桶”:覆蓋語(yǔ)言、語(yǔ)音、圖像、視頻等模態(tài)。
更值得關(guān)注的,是業(yè)務(wù)層面的迅猛增長(zhǎng)。
自豆包大模型家族正式發(fā)布以來(lái),日均調(diào)用量經(jīng)歷了爆發(fā)式增長(zhǎng)。截至9月,豆包語(yǔ)言模型的日均tokens使用量超過(guò)1.3萬(wàn)億,相比5月首次發(fā)布時(shí)增加十倍。其中,多模態(tài)數(shù)據(jù)處理量也分別達(dá)到每天5000萬(wàn)張圖片和85萬(wàn)小時(shí)語(yǔ)音。
近期的一張AI產(chǎn)品增長(zhǎng)表現(xiàn)統(tǒng)計(jì)圖,就頗令人玩味:?jiǎn)螁问嵌拱麬pp的MAU增長(zhǎng),就已經(jīng)遠(yuǎn)遠(yuǎn)拉開(kāi)了與其他產(chǎn)品的距離。
△來(lái)源:AI產(chǎn)品榜
豆包爆發(fā)式的增長(zhǎng),更多來(lái)自此前的激進(jìn)價(jià)格戰(zhàn)。自5月以來(lái),包括字節(jié)、阿里、騰訊等巨頭,以及Deepseek等創(chuàng)業(yè)公司,展開(kāi)了一場(chǎng)轟轟烈烈的降價(jià)。字節(jié)甚至把每千Token價(jià)格卷到了以”厘“為單位,迅速拉到了地板價(jià)。
現(xiàn)在,底層模型已經(jīng)到了拼性能的階段?;鹕揭婵偛米T待,這次就又提出了一個(gè)新指標(biāo):峰值TPM(每分鐘Token數(shù))?!皹I(yè)內(nèi)多家大模型目前最高僅支持300K甚至100K的TPM,難以承載企業(yè)生產(chǎn)環(huán)境流量。”他說(shuō)。
TPM,可以看作是在在單位時(shí)間內(nèi),模型的數(shù)據(jù)吞吐量。豆包Pro支持800K的TPM——據(jù)譚待表示,比如某科研機(jī)構(gòu)的文獻(xiàn)翻譯場(chǎng)景,TPM峰值為360K,某汽車(chē)智能座艙的TPM峰值為420K,某AI教育公司的TPM峰值會(huì)達(dá)到630K。這些場(chǎng)景,豆包Pro如今都可以滿(mǎn)足。
隨著豆包AI生成視頻的發(fā)布,字節(jié)最后補(bǔ)上了AI視頻的一塊拼圖。這和昨夜OpenAI突然發(fā)布的高級(jí)語(yǔ)音功能一起,一起形成了一種明喻:在模型層,大廠們已經(jīng)武裝到牙齒,大的細(xì)分賽道都有相應(yīng)的模型——留給創(chuàng)業(yè)者的空間,又要再一次打個(gè)問(wèn)號(hào)。
字節(jié)和快手的漫長(zhǎng)對(duì)壘
在AI賽場(chǎng)上,字節(jié)對(duì)于勝利的渴望已經(jīng)溢于言表。
剪映及其旗下的AI視頻產(chǎn)品“即夢(mèng)”,就由前抖音集團(tuán)CEO、現(xiàn)剪映業(yè)務(wù)負(fù)責(zé)人張楠親自帶隊(duì)。而為了盡快讓此次的兩款新AI視頻生成模型上線(xiàn),字節(jié)也抽調(diào)了不少人做工程。
字節(jié)跳動(dòng)的焦慮,來(lái)自短視頻戰(zhàn)場(chǎng)上的老對(duì)手:快手。
2024年6月,文生視頻模型“可靈”,就突然空降快手剪輯產(chǎn)品“快影”。
在行業(yè)苦等“中國(guó)版Sora”出現(xiàn)的當(dāng)下,可靈的表現(xiàn)是亮眼的。
“現(xiàn)在視頻生成很難做長(zhǎng)的原因,一是成本高,二是前后一致性太難保證?!币幻鸄I從業(yè)者告訴36氪,“但是可靈能生成2分鐘視頻,比Sora(60秒)的天花板還高?!?/span>
更進(jìn)一步,從鏡頭的連貫性和元素關(guān)系的邏輯性來(lái)看,不少業(yè)內(nèi)人士都表示,可靈在中國(guó)類(lèi)Sora產(chǎn)品中,效果是Top級(jí)別。
與彼時(shí)仍未開(kāi)放的Sora,和小出圈的生數(shù)科技視頻生成模型Vidu相比,快手對(duì)“老鐵們”也可謂是慷慨和坦誠(chéng):立馬開(kāi)放公測(cè),且免費(fèi)。
與“眾多工程師參與”的PixelDance和Seaweed不同,可靈團(tuán)隊(duì)的項(xiàng)目執(zhí)行方式可謂是相當(dāng)粗放和激進(jìn)。
有媒體曾報(bào)道,可靈團(tuán)隊(duì)只有20余人,從立項(xiàng)到上線(xiàn)只花了3個(gè)月??伸`啟動(dòng)一個(gè)月后,就被上升為快手的戰(zhàn)略級(jí)項(xiàng)目??焓指呒?jí)副總裁、主站業(yè)務(wù)與社區(qū)科學(xué)線(xiàn)負(fù)責(zé)人蓋坤常說(shuō)的一句話(huà)是:公司的卡都給你們用,公司全力支持。
在豆包發(fā)布之前,可靈也提供截至9月19日,可靈已經(jīng)迭代了9次,最新的1.5版本上線(xiàn)了Web端,有了更高清的畫(huà)質(zhì)、更符合物理規(guī)律的運(yùn)動(dòng)軌跡,支持更為復(fù)雜的鏡頭控制和可自定義的運(yùn)動(dòng)軌跡。
不少?gòu)臉I(yè)者對(duì)36氪判斷,可靈的出圈,與快手豐富的視頻數(shù)據(jù)積累密不可分。而能與之一戰(zhàn)的,大概率只有擁有抖音的字節(jié)跳動(dòng)。
然而在視頻生成領(lǐng)域,字節(jié)對(duì)陣快手以來(lái),碰到了罕見(jiàn)的敗北。其實(shí)早在可靈發(fā)布前1個(gè)月,剪映就在AIGC產(chǎn)品“即夢(mèng)”上線(xiàn)了AI視頻生成功能。
但無(wú)論是關(guān)注度,還是用戶(hù)口碑,即夢(mèng)都不算一款成績(jī)漂亮的產(chǎn)品。一名使用者評(píng)價(jià):在效果一般的情況下,非會(huì)員生成視頻超3秒竟然還要收費(fèi)。
壓力已經(jīng)給到了字節(jié)。一位AI 3D領(lǐng)域生成的從業(yè)者就表示,AI視頻生成公司給出的樣例,一般都是嘗試過(guò)輸入多次Prompt,才得出來(lái)的Good Case(好樣本)。等之后全量上線(xiàn),才能真正看到豆包在實(shí)用場(chǎng)景下的表現(xiàn)。
“一些明顯可以感知的指標(biāo)在于,長(zhǎng)鏡頭時(shí)長(zhǎng)什么時(shí)候可以超過(guò)1分鐘,多分鏡切換后時(shí)空一致性能不能保持,以及隨著分辨率加大時(shí),生成時(shí)間會(huì)不會(huì)跟隨分辨率指數(shù)增長(zhǎng)?!彼硎?。
對(duì)于當(dāng)下的抖音和剪映業(yè)務(wù)體量而言,AI視頻的應(yīng)用成本依舊是高昂的。
一個(gè)最直觀的問(wèn)題在于,對(duì)于剪映這樣一個(gè)月活已經(jīng)超過(guò)3億,專(zhuān)注在視頻剪輯場(chǎng)景的應(yīng)用,如何要在降低AI應(yīng)用成本的同時(shí),維持產(chǎn)品和效果的高水平,將是更難的挑戰(zhàn)。
先發(fā)優(yōu)勢(shì)在AI模型層依然重要。目前,可靈、Vidu已經(jīng)先行占據(jù)了視頻生成領(lǐng)域的用戶(hù)心智,作為后入者的字節(jié),不得不加快步伐。
漫長(zhǎng)的戰(zhàn)役才剛剛開(kāi)始。
關(guān)注多享有數(shù),持續(xù)為您分享行業(yè)熱點(diǎn)要聞!
四川多享信息技術(shù)有限公司是一家專(zhuān)注于數(shù)字化服務(wù)、系統(tǒng)開(kāi)發(fā)、新媒體營(yíng)銷(xiāo)、農(nóng)村電商的專(zhuān)業(yè)互聯(lián)網(wǎng)公司,公司位于成都高新區(qū)天府二街,成立16年,擁有豐富開(kāi)發(fā)經(jīng)驗(yàn),至今已助力5000+中小企業(yè)實(shí)現(xiàn)數(shù)字化轉(zhuǎn)型升級(jí)。
研發(fā)了B2C商城系統(tǒng)、私域電商系統(tǒng)、分銷(xiāo)商城系統(tǒng)、S2B2b2C供應(yīng)鏈電商系統(tǒng)、小程序商城系統(tǒng)等,支持中臺(tái)云倉(cāng)、供應(yīng)商、自營(yíng)商城、直播、短視頻、分銷(xiāo)、零售商管理、運(yùn)營(yíng)商管理、營(yíng)銷(xiāo)工具、數(shù)據(jù)分析、會(huì)員儲(chǔ)值、積分商城等功能,幫助企業(yè)實(shí)現(xiàn)數(shù)字化轉(zhuǎn)型,助力降本增效,獲取更多收益!
- 01-09淘寶推出「送禮物」功能:領(lǐng)取時(shí)限24小時(shí),春節(jié)「送禮大戰(zhàn)」愈演愈烈
- 01-06如何構(gòu)建數(shù)據(jù)產(chǎn)品:2025年數(shù)據(jù)行業(yè)開(kāi)啟的新技能
- 01-02工信部:推動(dòng)“5G+工業(yè)互聯(lián)網(wǎng)”創(chuàng)新發(fā)展
- 12-31豆包定價(jià)一元的野心:字節(jié)跳動(dòng)打響AI突圍戰(zhàn)
- 12-27直播內(nèi)容卷出新高度,行業(yè)還有紅利嗎?
- 12-26十年一輪回,微信“送禮物”能否復(fù)制紅包奇跡?
- 12-26《2025全球消費(fèi)者趨勢(shì)》,消費(fèi)者更深思熟慮了
- 12-252024 AI大模型年度十大關(guān)鍵詞發(fā)布
- 12-25政企辦公應(yīng)用「鴻蒙化」勢(shì)頭正勁
- 12-242025年7個(gè)令人關(guān)注的數(shù)據(jù)治理趨勢(shì)
- 12-24從 OpenAI 12 天發(fā)布會(huì)里,我們看到了行業(yè)的四個(gè)關(guān)鍵問(wèn)題
- 12-23互聯(lián)網(wǎng)入口不再屬于瀏覽器,未來(lái)是對(duì)話(huà)式AI的
- 12-23人工智能時(shí)代的數(shù)據(jù)戰(zhàn)略
- 12-20第三季度我國(guó)上市互聯(lián)網(wǎng)企業(yè)市值大漲 環(huán)比上升25.4%
- 12-20政策春風(fēng)助力零售業(yè),AI+SaaS引領(lǐng)數(shù)字化轉(zhuǎn)型與增長(zhǎng)新機(jī)遇
- 12-19微信小店灰測(cè)“送禮物”功能
- 12-192024年十大科技進(jìn)步,除了AI還有這九個(gè)
- 12-18私域運(yùn)營(yíng)深度解析:6大策略提升客戶(hù)生命周期價(jià)值
- 12-18為什么說(shuō)AI落地營(yíng)銷(xiāo),才是真正的科技平權(quán)?