“企業(yè)做宣傳時,講得天花亂墜,說是端到端、數(shù)據(jù)驅(qū)動,有各種各樣的新詞,但對普通消費(fèi)者來說,很簡單,上車以后 5 分鐘能不能感覺產(chǎn)品是完全與眾不同的,是可以信賴的,這樣的產(chǎn)品才能去賣。”今年年初,地平線蘇箐在媒體交流會中有感而發(fā)的這段話,仍舊警示車圈智駕生態(tài)。
去年一整年,車企都在做端到端。華為、理想、小鵬和海外的特斯拉已經(jīng)證明,端到端模型訓(xùn)練出的自動駕駛軟件可以上路——至少在大部分時候如此。
端到端是一個黑盒系統(tǒng),其邏輯是通過神經(jīng)網(wǎng)絡(luò)模擬人類行為,通過概率模型總結(jié)出來的駕駛策略,存在出現(xiàn)問題的概率,且一旦出現(xiàn)問題可能造成嚴(yán)重的后果。
端到端思路來源于人工智能領(lǐng)域的深度學(xué)習(xí),本質(zhì)是把智駕算法簡單化,再通過大量的數(shù)據(jù)訓(xùn)練來補(bǔ)足軟件能力。
但一些車企已經(jīng)發(fā)現(xiàn),端到端無法完全解決問題。當(dāng)智能駕駛要往更安全、人類干預(yù)更少的 L3 方向進(jìn)階,就要想辦法補(bǔ)上端到端的漏洞。
于是車企們甩出一堆新的名詞——世界模型、VLA、基座模型......這些詞匯意味著什么,真的能解決智能駕駛問題嗎?
智駕路線出現(xiàn)分野
進(jìn)入端到端2.0階段,技術(shù)路線沒有了標(biāo)準(zhǔn)答案。
理想在 AI TALK 上公布下一代自動駕駛架構(gòu) VLA(視覺-語言-行為大模型);小鵬最新技術(shù)架構(gòu)則是打造一個云端世界基座模型,通過蒸餾方法,生產(chǎn)出小尺寸的車端模型XVLA;華為乾崑ADS4 引入了 WEWA 架構(gòu)——WE代表云端世界引擎(World Engine),WA代表了車端的世界行為模型(World Action Model)。
“各家廠商軟件架構(gòu)不一樣,其實是各家的硬件研發(fā)進(jìn)度和商業(yè)模式導(dǎo)向的結(jié)果。”一位業(yè)內(nèi)人士說道。
小鵬和理想都走了 VLA 的路徑,上述人士告訴筆者:“這是傳統(tǒng)車企轉(zhuǎn)向一個機(jī)器人企業(yè),或者說 AI 企業(yè)必須要去走的,早走晚走都得走。”
小鵬目前是汽車和機(jī)器人兩手抓,而理想的機(jī)器人業(yè)務(wù)還只是規(guī)劃階段,這種業(yè)務(wù)布局的差異性讓這兩家在同一技術(shù)路線上又衍生了另一條支線。
小鵬在云端訓(xùn)練了一個 72B 參數(shù)量的世界基座模型,是主流車端模型的 35 倍以上。小鵬希望世界基座大模型能夠真正理解、認(rèn)知,甚至改造物理世界,能夠用在自動駕駛領(lǐng)域,也能逐步延展到機(jī)器人和飛行汽車。
一位業(yè)內(nèi)人士告訴筆者,小鵬最新一代技術(shù)架構(gòu)大概率布局在小鵬自研的圖靈芯片上,而不是基于雙OrinX 的硬件配置打造。
據(jù)悉,小鵬圖靈芯片已于去年8月流片成功,或?qū)⒂诮衲甓径攘慨a(chǎn)上市,計劃用于汽車、機(jī)器人和飛行汽車上。圖靈芯片對AI需求、端到端大模型進(jìn)行特定設(shè)計,集成了2個小鵬自研的神經(jīng)網(wǎng)絡(luò)處理大腦,并面向神經(jīng)網(wǎng)絡(luò)做了特定架構(gòu)處理,最高能處理 30B 參數(shù)的大模型,讓世界基座模型蒸餾后部署車端具備了可能性。
理想目前還無暇顧及八字還沒一撇的機(jī)器人業(yè)務(wù),更注重于車端能力的提升,打造了一個司機(jī) Agent 的角色。
理想全新架構(gòu)的特別之處在于花大力氣前訓(xùn)了一個 LLM 基座模型(Large Language Model,大語言模型,簡稱LLM),沒有采用業(yè)內(nèi)通用的第三方的大語言模型作為基座。
之所以這樣,是因為理想在端到端 VLM 階段發(fā)現(xiàn),VLM 基于千問,使用互聯(lián)網(wǎng) 2D 圖文數(shù)據(jù),但對于 3D 世界的理解和駕駛知識存在不足之處,會導(dǎo)致產(chǎn)生大量幻覺;而通過前訓(xùn)專門針對自動駕駛的 LLM 基座模型能夠消除部分幻覺的同時,還能夠主干網(wǎng)絡(luò)的參數(shù)量壓低,減少車端算力的承載。
這背后包含的一個背景因素是,理想自研的芯片項目“舒馬赫”進(jìn)展相對緩慢,現(xiàn)階段無法給予自研芯片去做定制化開發(fā),只能繼續(xù)選擇英偉達(dá)的 Thor 芯片。
華為同樣打造了一個原生多模態(tài)的基座模型,即“世界行為模型”。華為的做法是,通過獲取包括“視覺、聽覺、觸覺”的多傳感器全模態(tài)感知信息輸入,經(jīng)過token化后生成智駕原生基模型,采用MoE多專家能力架構(gòu),不同場景調(diào)用不同能力,最后輸出兩類信息——給車用的軌跡生成和給人看的場景意圖,從而實現(xiàn)人機(jī)共駕。
結(jié)合其引入世界引擎模型,華為當(dāng)下要解決的是往L3方向面臨的難例場景問題,降低時延、提升預(yù)見能力,保障十秒預(yù)警能力。華為要達(dá)成的,是成為最早一批進(jìn)入L3梯隊的玩家。
無論是小鵬“大力出奇跡”的世界基座模型,還是理想的VLA,或是華為ADS4,這些路線是否是一個效率最高的方式,是否有效率更高的架構(gòu)出現(xiàn),目前還是打問號的階段。沒有人真正證明過這些路線可以提升自動駕駛技術(shù)的進(jìn)步速度,所有廠商都還處在探索階段。
優(yōu)質(zhì)數(shù)據(jù)成關(guān)鍵
不管是VLA 還是蔚來采用NWM世界模型,車企做自動駕駛的邏輯都是用更多、更好的數(shù)據(jù)訓(xùn)練模型,用Scaling law 繼續(xù)加速技術(shù)進(jìn)步。
在端到端 2.0 階段,大模型需要更多的優(yōu)質(zhì)數(shù)據(jù),擴(kuò)大的需求放大了廠商們的數(shù)據(jù)困境,主要是兩方面:對實車采集的數(shù)據(jù)進(jìn)行人工標(biāo)注,太貴了;找到剛好可以用的難例數(shù)據(jù),太難了。
“用于智駕訓(xùn)練的數(shù)據(jù),不缺普通數(shù)據(jù),缺的是長尾的各種Corner case數(shù)據(jù)。”華為引望靳玉志在ADS4發(fā)布會上感嘆道。
盡管大部分廠商都聲稱擁有大量用戶數(shù)據(jù)/行車數(shù)據(jù),但如何從中找出優(yōu)質(zhì)數(shù)據(jù)則是一大門檻,依賴人工標(biāo)注去真實場景中挖掘優(yōu)質(zhì)數(shù)據(jù),背后的成本支出非常大。
在數(shù)據(jù)難題面前,廠商們想到的辦法是,通過世界模型仿真模擬解決數(shù)據(jù)問題。簡言之,如果在現(xiàn)實世界中收集不到足夠的數(shù)據(jù),就在虛擬世界里生產(chǎn)數(shù)據(jù)。
據(jù)一位做強(qiáng)化學(xué)習(xí)的工程師透露,目前訓(xùn)練中的真數(shù)據(jù)跟假數(shù)據(jù)(人工合成/生成數(shù)據(jù))達(dá)到 1:2 的程度。
世界模型在自動駕駛領(lǐng)域的作用是,通過大模型生成足夠精確甚至擬真的數(shù)據(jù),模擬更多更復(fù)雜的駕駛場景以訓(xùn)練模型。這種做法的優(yōu)點是,數(shù)據(jù)獲取成本低,車企不再需要車一遍遍在路上開以采集數(shù)據(jù),只需要讓AI 按照要求生成即可;獲取的數(shù)據(jù)種類也會更多。
地平線余凱對仿真的態(tài)度更為激進(jìn),其認(rèn)為“在人工智能時代,用戶行為數(shù)據(jù)不重要,99% 的司機(jī)行為不值得學(xué)習(xí),剎車、拐彎、換道等體驗并不好。自動駕駛頂級玩家已不靠司機(jī)數(shù)據(jù)學(xué)習(xí),未來仿真可能是最重要的。”
地平線對仿真的重視與其供應(yīng)商身份離不開關(guān)系,相較于車企而言,地平線難以在車端獲取大量用戶數(shù)據(jù),仿真是解決數(shù)據(jù)瓶頸的一大優(yōu)解。
余凱把這一思路的終極形態(tài)描述為“ AI 教 AI ”,就像 Alpha Zero 在仿真平臺左右互搏,棋藝遠(yuǎn)超人類,下棋方法也是人類歷史上沒有的。這意味著,這一終極形態(tài)這不僅把開車的人類解放了,也把做自動駕駛軟件的人類解放了。
不過,在現(xiàn)有技術(shù)條件下,仿真模擬和AI生成數(shù)據(jù)的質(zhì)量都遠(yuǎn)不如實車行駛收集的數(shù)據(jù)。數(shù)據(jù)差別的關(guān)鍵 gap 是,人類還無法教機(jī)器充分認(rèn)識世界,也無法在虛擬世界完整復(fù)刻現(xiàn)實。
目前各家廠商在世界模型都停留在探索階段。這也是技術(shù)差距最容易拉大的階段,其門檻之高,決定了不是所有廠商都有能力邁進(jìn)。
端到端的“遮羞布”將被掀開
今年以來,多家車企動不動以“高階智駕”能力標(biāo)榜自身,在“端到端”等技術(shù)名詞的包裝下,各家廠商似乎被拉到同一水平線,智駕能力的分化變得混沌。隨著新的技術(shù)架構(gòu)產(chǎn)生,被統(tǒng)一技術(shù)路線拉近的技術(shù)差距將因為技術(shù)分歧再次拉開。
一位業(yè)內(nèi)人士向筆者表示,智駕已經(jīng)開始出現(xiàn)分化。“最高階的是往L3方向邁進(jìn),包括華為 ADS4、千里浩瀚 H9 等方案都已經(jīng)明確指向 L3,提供雙冗余的硬件配置;中階版本則是以單Thor、雙OrinX的方案為主,采用純視覺或單激光雷達(dá),基本是往城區(qū)輔助駕駛的L2方向去做再往下就是高速加部分城市領(lǐng)航功能的方案。”
隨之而來的,智駕的商業(yè)模式也將發(fā)生改變。
L3 將是涉及“重技術(shù) 強(qiáng)運(yùn)營”的一個體系。“L3的責(zé)任歸屬從用戶轉(zhuǎn)移到車企,這要求車企一定要做好更新和維護(hù),那么這就不是一個純技術(shù)問題,而是一個重運(yùn)營的形態(tài)。”一位業(yè)內(nèi)從業(yè)者說道。
L2 時期的車企和方案廠商可以在隨意切換技術(shù)路線后,不對原來的方案進(jìn)行維護(hù),但進(jìn)入 L3,無論是技術(shù)方案的選擇還是雙倍硬件配置冗余,以及軟件后期維護(hù)等都應(yīng)該具備確定性。
有能力自研的車企已經(jīng)朝著更難更重要的技術(shù)變化前進(jìn),能力一般的車企,只能寄希望于供應(yīng)商解決問題。進(jìn)入城區(qū)自動駕駛這種更難的技術(shù)領(lǐng)域后,供應(yīng)商也需要升級自己的技術(shù)。供應(yīng)商技術(shù)能力的好壞在更高門檻的領(lǐng)域,也會更容易被區(qū)分。
“從技術(shù)層面來看,做到高速NOA其實并不困難,但城區(qū)的場景比高速難至少10到100倍。想要把城區(qū)輔助駕駛產(chǎn)品做好,我認(rèn)為是滾雪球一樣的過程。雪球不僅會越滾越大,而且越滾越快。”智駕大陸首席執(zhí)行官厲飚說道。
訂單會集中到更少數(shù)供應(yīng)商手中。“量產(chǎn)是非常關(guān)鍵的維度,實際上這個門檻已經(jīng)非常明顯了,沒有經(jīng)過量產(chǎn)的廠商,主機(jī)廠基本不會去選。現(xiàn)在量這么大,對安全要求這么高,在這些點上我覺得幾乎沒有做過量產(chǎn)的,已經(jīng)基本上是進(jìn)不去了。”于騫說道。
于騫還指出,量產(chǎn)之外,產(chǎn)品的交付周期、交付成本、交付后的體驗等方面都是主機(jī)廠在篩選供應(yīng)商時的考量。層層篩選下來,能被選擇的廠商已經(jīng)不多。
智駕全行業(yè)都在往上層能力邁進(jìn),高階的路線仍在探索,但已被驗證過的場景和階段的發(fā)展路徑已經(jīng)十分明確,靠“PPT”刷無圖NOA、端到端等技術(shù)名詞的方式將不再奏效,智駕市場將進(jìn)入強(qiáng)者更強(qiáng),弱者淘汰的局面。
鄭重聲明:本文版權(quán)歸原作者所有,轉(zhuǎn)載文章僅為傳播更多信息之目的,如作者信息標(biāo)記有誤,請第一時間聯(lián)系我們修改或刪除,多謝。