谷歌最近發了篇論文,重申了一個來自信息論的觀點——“壓縮即智能”。當然,論文的新意,在于通過對“壓縮率”的定義并提出相關計算方法,從而可以嘗試對“壓縮即智能”給出一個定量的解釋,并將其與人工智能大模型聯系起來。
所謂“壓縮”,全稱當然是“數據壓縮”。正如一本寫得相當生動有趣的普及讀物《數據壓縮入門》所指出的:
“我們需要知道這樣一件事:我們當下生活在其中的這個計算世界,完全建立在數據壓縮算法之上。
是的,每個部分都是如此。
每個網頁、每個圖像、每首歌、每個關于貓的視頻、每部流媒體網絡電影、每張自拍照、每次電子游戲下載、每個微型交易,甚至是操作系統的每次更新,所有這一切都得益于壓縮算法。事實上,哪怕只是想通過互聯網傳輸一個二進制位的數據,也離不開壓縮的內容。
數據壓縮技術最讓人驚異之處在于,它與過去40年里個人計算的很多重大改變有關,但很少有人知道這一點?!?/em>
信息論創始人克勞德·香農在為傳輸信息進行壓縮編碼的過程中,意識到這種壓縮是有一個極限閾值的,超過這個閾值,被壓縮編碼的信息就無法通過解碼,復原為原始信息了,而是有相當一部分信息就此被損失掉,比如作為“有損壓縮”的MP3音樂格式,聽上去效果就要比CD差不少。這個閾值被命名為“香農熵”。相應地,“無損壓縮”就是壓縮率控制在“香農熵”以下,比如解碼后可以比較好地恢復到CD音質的APE、FLAC等格式。所有的現代壓縮算法,可以說都是在頑強地與“香農熵”作斗爭,希望開發出以盡可能高的壓縮率來“高保真”地保存、傳輸和復制信息的技術。
但其實數據壓縮遠不只是算法問題,而是涉及人類對世界根本的認知方式。
我們且撇開數據壓縮算法中的數學原理,單就“壓縮即智能”這一觀點,其實和我在某篇機器學筆記里所說的“模型即智能”,完全是等價的,因為所謂模型,就是給無限變量的復雜世界建一個有限變量的模,通過被大大壓縮的變量數量,及其相互作用的結構,來有效模擬復雜世界在某一特定時空中的運作模式(用本屆諾獎得主杰弗里·辛頓的術語來說,就叫做“泛化”,即通過少量已知數據準確預知大量未知數據),從而讓我們可以作出預測和決策。
事實上,所有的科學公式都不外乎是一種模型,因此也不外乎是一種數據壓縮方式。模型總是只能在一定時空中起作用,哪怕它是牛頓定律,因為模型對數據的壓縮根本來說總是為了擬合眼前的“事實”——這正是“實驗科學”的本質。更高的壓縮率一般意味著更好的模型,也就意味著更高的智能,就好比萬有引力定律對近代的觀測宇宙有最高的壓縮率(也就是用最精煉的公式定義了這一宇宙的運作方式),因此牛頓不僅比絕大多數人,而且比絕大多數科學家有更高的智能。
為什么我們可以說“壓縮即智能”或“模型即智能”?因為壓縮變量數據或者建模,就意味著“主動”地挑選出一部分被認為是關鍵的變量,而舍棄絕大多數被認為是冗余的信息,來為這個看上去無比復雜的世界建模,這種認知的“主動性”、這種應對世界的“主動性”——而不是像(我們所以為的)石頭那樣被動接受一切——不正是當我們談及“智能”的時候,真正讓我們感覺make sense的東西嗎?
并且智能和學習能力高度相關。什么是學習?無論人的學習還是機器學習,本質不都是學習用建立在有限數據集基礎上的模型去應對這個無限世界,并在應對的過程中根據反饋不斷調整以至迭代模型嗎?所以“學習即智能”很大程度上也與“壓縮即智能”等價,人工智能大語言模型,正如“GPT之父”伊爾亞·蘇茨克維多次強調的,本質上就是個效率極高的數據壓縮機。
《數據壓縮入門》
[美]柯爾特·麥克安利斯 亞歷克斯·海奇 著
人民郵電出版社2020年3月版
幫企客致力于為您提供最新最全的財經資訊,想了解更多行業動態,歡迎關注本站。鄭重聲明:本文版權歸原作者所有,轉載文章僅為傳播更多信息之目的,如作者信息標記有誤,請第一時間聯系我們修改或刪除,多謝。