AI 視頻生成技術(shù)剛剛迎來重大升級。快手的 Kling 2.1 現(xiàn)在可以制作出真正具有電影質(zhì)感的視頻——幾個月前,這種素材還需要專業(yè)的團隊和昂貴的設(shè)備才能制作出來。人物動作自然流暢,情感真實,復(fù)雜的動作序列流暢展開,不再出現(xiàn)那些通常會讓人覺得“這是 AI 做的”的瑕疵。
Kling 是知名的先進視頻生成平臺之一,由快手于一年前推出。快手是一家以社交媒體創(chuàng)新而聞名的中國科技公司。它尤其以能夠制作長達兩分鐘的高清視頻而聞名,并成為許多人的首選。模因制作者激發(fā)他們的政治諷刺特朗普、埃隆·馬斯克等有影響力的人物。
新的技術(shù)改進包括更快的生成速度、更好的即時一致性、更逼真的效果以及更少的偽影。Master 層利用先進的 3D 時空注意力機制和專有的 3D VAE 技術(shù),實現(xiàn)了該公司所稱的影院級輸出。
時機再合適不過了。快手在谷歌發(fā)布 2.1 版本幾天后就發(fā)布了推出 Veo 3,鞏固了AI視頻排行榜上看似壟斷的地位。競爭如此激烈,以至于人們對“AI視頻”的興趣達到了歷史最高根據(jù) Google Trends 的數(shù)據(jù),本月的排名上升了 10 位,其中大部分是由模型的優(yōu)秀程度推動的。
搶先體驗用戶一直在社交媒體平臺上分享演示視頻,稱贊大師版能夠制作“令人驚嘆”的電影效果。
基準 比較Kling 的前身 Kling 2.0 的表現(xiàn)超越了除谷歌 Veo 2 和 3 之外的所有競品模型。2.1 版本增強了現(xiàn)有功能,并解決了之前關(guān)于生成速度和一致性的擔(dān)憂。雖然發(fā)布時間尚短,尚未被納入當前的 AI 排行榜,但預(yù)計很快就會發(fā)布包含全面測試數(shù)據(jù)的更新。2.1 Master 模型預(yù)計將擴大谷歌和 Kling 與其競爭對手之間的性能差距。
Veo 與 Kling:它們有何不同?
我們測試了這兩款機型,看看它們的表現(xiàn)如何。AI 視頻中的佼佼者并不便宜——Kling 2.1 Master 的價格幾乎10秒視頻3美元——而且它距離真正視頻編輯所需的精細度還很遠。然而,Veo 和 Kling 都比上一代型號有了明顯的升級,任何愛好者都會對它們的性能感到非常滿意。
快手的策略之所以引人注目,是因為與競爭對手不同,Kling 2.1 提供三種版本:720p 標準模式,每 5 秒視頻 20 個積分;1080p 專業(yè)模式,每 5 秒視頻 35 個積分;以及 1080p 大師模式,每 100 個積分。模型越好,渲染成本就越高,耗時也越長——但即使是最基礎(chǔ)的版本,效果也比之前的 Kling 1.6 Pro 更好。
等待時間很長:Veo3 通常讓我每個視頻耗時 5 分鐘左右,有時甚至超過 15 分鐘。同樣,系統(tǒng)堵塞導(dǎo)致我遇到很多錯誤,不得不重新生成。
定價結(jié)構(gòu)體現(xiàn)了非線性遞進,專業(yè)模式的視覺質(zhì)量非常接近大師級,但價格不到大師級的一半。在我們的主觀評估中,對于需要高清清晰度但又不想追求極致影院級畫質(zhì)的專業(yè)創(chuàng)作者來說,中端模式是最經(jīng)濟實惠的選擇。
文本生成
迅速的: 一個肚子上寫著“EMERGE”字樣的可愛機器人走近鏡頭,用它的數(shù)字臉微笑,然后飛走。
Kling 2.1,尤其是 Master 版本,相比之前的 1.6 版本有了顯著的改進。文本渲染更加清晰,并且在各個幀之間更加均勻。
然而,單從這一特定特征來看,Veo 3 略占優(yōu)勢。兩種模型都能生成文本,但 Veo 3 的表現(xiàn)更為穩(wěn)定。
例如,兩種模型都成功生成了一個帶有單詞“EMERGE”的小型機器人。然而,當我們生成的場景中該機器人不是主要焦點時,Veo 3 仍然提供了準確的文本,而 Kling 則產(chǎn)生了亂碼。
現(xiàn)實主義與人類情感
迅速的: 一位女子懷著深深的悲傷走向河邊。她一邊哭泣,一邊哀悼著自己的離去,撿起了一個刻有“出現(xiàn)”字樣的無生命機器人。
如果說 Kling 1.6 Pro 專注于動態(tài)場景和流暢的動作,那么 Kling 2.1 似乎將重點轉(zhuǎn)向了真實感。該模型在復(fù)雜的運動序列中表現(xiàn)出色,能夠精準渲染關(guān)節(jié)對齊等細節(jié),并呈現(xiàn)車輛特技中逼真的物理效果。該模型增強的即時貼合性使其能夠精確控制攝像機運動和情緒表達。
與 Kling 1.6 Pro 甚至 Veo 2 相比,其反應(yīng)更加真實。
然而,與 Veo 3 相比,Veo 3 可以生成音頻這一事實成為增強場景情感沖擊力的主要因素。
當被要求生成相同提示的場景時,Veo 3 采用了更具電影感的方式。攝像機角度和色彩分級有助于刻畫場景中的情感。
而Kling 2.1則注重情感本身的描繪。
由于缺乏音頻,加上不同的處理方式,很難說哪款更勝一籌。這取決于每個用戶的喜好,以及對不同版本的運氣,以及你更看重什么——場景的整體氛圍還是演員的表演。
在這個場景中,Kling 2.1 Master 未能正確渲染“Emerge”一詞。需要注意的是,死去的機器人并非場景中的主角,因此模型將更多精力放在了提示中常見的其他元素上。
圖像轉(zhuǎn)視頻
迅速的: 場景一開始與畫面一模一樣,然后加速進入一段催眠般的延時攝影,數(shù)十年的光陰在數(shù)秒間流逝。這輛復(fù)古出租車定格在時間的長河中,而周圍的城市則在不斷變化——霓虹燈從繁體中文演變?yōu)槿@示屏,建筑形態(tài)各異,層層疊疊,層層疊疊,人們的衣著隨著時代的變遷而變化,飛行器開始在建筑物之間穿梭。鏡頭緩緩環(huán)繞著靜止的出租車,它逐漸成為城市演變漩渦中一個時間錨點,最終,這輛出租車出現(xiàn)在充滿未來感的城市景觀中。
圖像轉(zhuǎn)視頻是一種技術(shù),用戶提供場景的起始幀,AI 模型會以該圖像為起點構(gòu)建生成過程。它提供了最佳的控制水平,并讓用戶了解每次生成的結(jié)果。
Kling 2.1 的標準模式和專業(yè)模式目前僅支持圖像轉(zhuǎn)視頻,需要用戶提供源圖像。該公司宣布,文本轉(zhuǎn)視頻功能將很快添加到這些版本中,而大師模式已包含此功能以及增強的動態(tài)效果和快速遵循功能。
Kling 2.1 Master 和 Veo 3 均支持圖像轉(zhuǎn)視頻,但 Veo 3 需要使用 Flow 而非普通的 Gemini UI。使用 Flow 時,生成的視頻缺少音頻。
在我們的測試中,Kling 2.1 的表現(xiàn)優(yōu)于 Veo 3,但遠非完美。它能夠理解相機的運動、元素以及場景的意圖。然而,它未能將焦點集中在主要拍攝對象上,而是將注意力集中在周圍環(huán)境(隨著時間推移的城市)上,因為它成為了場景中的關(guān)鍵元素。
另一方面,Veo 3 仍然專注于拍攝主體(汽車),但未能渲染提示中的任何其他元素。結(jié)果,它生成的是一輛靜態(tài)汽車,帶有靜態(tài)鏡頭,城市也一樣,只是有一些飛行汽車在周圍飛馳。它未能提供準確的結(jié)果。
總的來說,這是意料之中的。Kling 2.1 將在更少的生成周期內(nèi)提供更好的結(jié)果,從而減少對提示符工程的需求。它還提供了輸入負面提示符的選項,這對于獲得預(yù)期結(jié)果大有幫助。
動漫/卡通和 2D 藝術(shù)
我嘗試了三次生成動漫風(fēng)格的視頻,但都失敗了。用這些模型生成 2D 藝術(shù)作品似乎是不可能的,可能是因為它們專注于寫實主義。
最好的替代方法似乎是使用圖像生成器生成初始 2D 幀,然后利用圖像到視頻功能來獲取所需的場景。
多主題場景
迅速的: 五只灰狼幼崽在一條僻靜的碎石路上嬉戲追逐,路邊長滿了青草。它們奔跑跳躍,互相追逐,互相啃咬,嬉戲玩耍。
對于 AI 模型來說,處理多主體場景仍然頗具挑戰(zhàn)性。當主角超過三個且場景動態(tài)時,模型會失去一致性,出現(xiàn)角色合并、新角色生成,并出現(xiàn)大量的偽影。
Kling 2.1 依然如此。該模型相比前幾代有了顯著的改進,但仍然無法準確處理復(fù)雜場景。在我們的測試中,它生成的狼不是五只,而是三只。
不過,Veo 3 嘗試生成完整的狼群。起初效果不佳,但在場景接近尾聲時,模型將所有狼分開,重新獲得了連貫性,最終成功生成了全部五只狼。
然而,Kling 2.1 犧牲了一些及時性,以換取連貫性的大幅提升 —— 這似乎是更好的結(jié)果。
動態(tài)鏡頭
迅速的: 動態(tài)跟蹤鏡頭跟隨一位身著鮮艷深紅色連衣裙的女子,她拼命地穿過紐約市中心霓虹閃爍的摩天大樓。她飄逸的長發(fā)在高聳的數(shù)字廣告牌上閃爍著電藍色的光芒,塵土和碎片在她周圍亂飛。在她身后,一只巨大的機械蜘蛛,有著閃亮的鍍鉻腿和閃爍的LED傳感器,在城市景觀中飛馳,金屬肢體在混凝土上迸發(fā)出火花,它無情地追逐著……(完整提示在 YouTube 描述中)
動態(tài)鏡頭的評估非常棘手,因為細節(jié)決定成敗。通常情況下,當場景快速發(fā)生,且焦點集中在主角身上時,其他元素就會被忽略。這就是為什么生成視頻模型往往會生成一些有趣的鏡頭,但仔細觀察后,就會發(fā)現(xiàn)它們并不出色。
令人欣喜的是,在我們的測試中,Kling 2.1 的動態(tài)效果遠超 2.0 和 1.6。它能夠生成快節(jié)奏的場景、戲劇性的鏡頭和引人入勝的動作序列。之前幾代 Kling 機型通常會在進入動作之前出現(xiàn)一些靜止或緩慢的幀。這個問題已經(jīng)得到解決。
Veo 3 通過優(yōu)美的配樂增添了一些動感。該模型還生成了精彩動作序列所需的一切——運動、爆炸、動態(tài)鏡頭、塵埃和混亂——并且感覺更加真實,減少了 2.5D 或綠幕的元素。
然而,與 Veo 3 相比,Kling 2.1 在快速依從性方面更勝一籌。我們的一位女士遠離巨型蜘蛛,而 Veo 3 則生成了一個奔跑的女人朝向蜘蛛——一個很棒的場景,但最終卻毫無用處。
此外,Veo 3 代中的女性在該代的中間點附近開始不自然地奔跑,這代表了人工智能公司在處理長篇內(nèi)容時必須應(yīng)對的挑戰(zhàn)之一——在持續(xù)時間足夠長以至于破壞模型連貫性的連續(xù)鏡頭中保持一致性。
結(jié)論
我不想這么說,但實際上并沒有明顯的贏家,而且在生成 AI 視頻領(lǐng)域,最好的選擇第一次取決于你的期望以及你愿意支付多少錢。
Veo 3 憑借其音頻生成技術(shù)擁有顯著優(yōu)勢。其聲音連貫清晰,以至于任何無聲視頻現(xiàn)在都感覺像是倒退了一步。在后期制作中添加連貫的音頻仍然是一項眾所周知的難題,因此這對許多人來說可能是成敗的關(guān)鍵。
另一方面,Kling 2.1 在圖像轉(zhuǎn)視頻方面表現(xiàn)優(yōu)異,它允許用戶拍攝真實照片或使用 Flux 或 Ideogram 等專業(yè)模型創(chuàng)建的圖像,并將其轉(zhuǎn)換為引人入勝的動畫。Gemini 不支持圖像轉(zhuǎn)視頻,你需要 Flow,但它仍處于測試階段,并且僅支持 Veo 3,訂閱費為每月 250 美元,且僅支持寬屏模式。即便如此,它的質(zhì)量也比 Kling 略低。
除了這兩個關(guān)鍵區(qū)別之外,其余的則取決于具體情況或個人偏好。它們都非常逼真、連貫(以今天的標準來看)、富有創(chuàng)意,并且能夠提供您所需的最佳 AI 生成視頻。如果差異是基于偏好的,那么您需要根據(jù)每個模型調(diào)整提示,結(jié)果的差異將會顯而易見。
如果您不想花太多錢,即使是 Kling 2.1 標準也能提供比業(yè)內(nèi)任何其他型號更好的驚人效果,并且足夠接近最先進的水平。
總體而言,根據(jù)我們的測試,生成視頻排名中,Veo 3 和 Kling 2.1 Master 基本持平。對于開源愛好者來說,第三名是前往 Wan 2.1——而且很可能還會持續(xù)一段時間。它的 VACE、LoRA 和工作流程已經(jīng)將這種免費、不受審查的模式變成了一頭獨樹一幟的巨獸。
鄭重聲明:本文版權(quán)歸原作者所有,轉(zhuǎn)載文章僅為傳播更多信息之目的,如作者信息標記有誤,請第一時間聯(lián)系我們修改或刪除,多謝。