導(dǎo)語(yǔ):小羊駝的邏輯叫“知識(shí)蒸餾”,即通過(guò)將大型模型的知識(shí)轉(zhuǎn)移到小型模型中,從而快速達(dá)到想要的模型質(zhì)量,同時(shí)減少計(jì)算成本。
不久前,斯坦福公開了一個(gè)名為 Alpaca 的新模型。(俗稱“羊駝”)它使用了 GPT3.5 生成的 52k 個(gè)指令訓(xùn)練,訓(xùn)練費(fèi)用只花了 500 美元,但是性能可以與 GPT-3.5 相媲美。
然而由于使用了 GPT3.5 的指令數(shù)據(jù),使用條款禁止開發(fā)與 OpenAI 競(jìng)爭(zhēng)的模型,因此 AIpaca 禁止了商用。
【資料圖】
而近日,斯坦福學(xué)者與 CMU、UC 伯克利等人合作推出了一個(gè)全新的模型——Vicuna,它有 130 億個(gè)參數(shù),俗稱“小羊駝”。 初步評(píng)估小羊駝其實(shí) Vicuna 說(shuō)白了就是一款新的“ChatGPT”,它和 Google Bard、ChatGPT 還有 New Bing 都一樣,都是聊天機(jī)器人(Chatbots)。
初步評(píng)估上,Vicuna-13B 達(dá)到了 ChatGPT 能力的 92%;幾乎要比 Google Bard 更強(qiáng);同時(shí)遠(yuǎn)遠(yuǎn)甩開其他模型,如 LLaMA 和它的前輩——斯坦福的 Alpaca。
而訓(xùn)練 Vicuna-13B 的成本是僅僅 300 美元。可能還沒(méi)有屏幕前的你游戲顯卡的價(jià)格高。
Vicuna 在推出后面臨的一個(gè)問(wèn)題是,自己的模型質(zhì)量究竟如何。顯然作為學(xué)術(shù)機(jī)構(gòu)沒(méi)辦法像大公司養(yǎng)著幾百上千的測(cè)試團(tuán)隊(duì)進(jìn)行大量測(cè)試,于是他們另辟蹊徑——既然人力太貴,那就用剛剛推出的 GPT-4 來(lái)評(píng)測(cè)嘛。
具體操作上,他們提出了一個(gè)評(píng)估框架。設(shè)計(jì)了九大主題下共計(jì)八十條測(cè)試問(wèn)題,然后把由其他模型和自家 Vicuna 的回答交給 GPT-4 進(jìn)行評(píng)估(“哪個(gè)虛擬助理的回答更好”)。
驚人的是在這八十個(gè)問(wèn)題的評(píng)估上,Vicuna 已經(jīng)能微微贏下 Google 重注的 Bard,更是把自己的“祖父模型”LLaMA-13B、AIpaca-13B 殺得片甲不留。
盡管問(wèn)題的勝出數(shù)量上比不過(guò) ChatGPT,但以 10 分制的角度切入,Vicuna 也已經(jīng)實(shí)現(xiàn)了 ChatGPT 超過(guò) 90%的質(zhì)量。
不得不說(shuō),“羊駝”AIpaca用 GPT-3.5 生成的指令訓(xùn)練模型,而“小羊駝”Vicuna在此基礎(chǔ)上又用 GPT-4 評(píng)估模型,斯坦福他們是懂人工智能的。
進(jìn)入Vicuna主頁(yè),不必注冊(cè)登錄;直接輸入想要的內(nèi)容,然后等待Vicuna為你生成。全程一分鐘,行云流水絲毫不卡頓。
作為大語(yǔ)言模型,中英文自然是通吃。
“知識(shí)蒸餾”ChatGPT 訓(xùn)練費(fèi)用高企甚至一次訓(xùn)練就要接近上億美金,然而 Vicuna 只花了 300 美元。從效果上看就達(dá)到了 GPT3.5 質(zhì)量的 90%。這是怎么做到的?
其實(shí)Vicuna的邏輯在人工智能領(lǐng)域叫做“知識(shí)蒸餾”(knowledge distillation),即通過(guò)將大型模型的知識(shí)轉(zhuǎn)移到小型模型中,從而快速達(dá)到想要的模型質(zhì)量,同時(shí)減少計(jì)算成本。
通常,大型模型(即“Teacher”)會(huì)生成訓(xùn)練數(shù)據(jù),小型模型(即“Student”)則使用這些數(shù)據(jù)來(lái)學(xué)習(xí)大型模型的知識(shí)和能力。
通過(guò)這種方式,小型模型可以在自己的場(chǎng)景下獲得大型模型90%甚至99%的能力,這意味著,可用于生成模型的領(lǐng)域?qū)⒊手笖?shù)級(jí)增長(zhǎng)。
在Vicuna公布的訓(xùn)練過(guò)程里,一開始,開發(fā)團(tuán)隊(duì)是從 ShareGPT (與 ChatGPT 對(duì)話內(nèi)容的UGC網(wǎng)站)上收集了七萬(wàn)條對(duì)話。這恰恰是“知識(shí)蒸餾”里最重要的“訓(xùn)練數(shù)據(jù)”。
而訓(xùn)練方法上則是選擇了在“羊駝”AIpaca(成本已降低至500美元)上優(yōu)化。
這兩個(gè)最重要的環(huán)節(jié)就使得Vicuna同時(shí)在訓(xùn)練成本和訓(xùn)練質(zhì)量上均有突出優(yōu)勢(shì)。
而理論上你也可以花300美元租云計(jì)算資源然后訓(xùn)練出你的“小羊駝”。 全華人團(tuán)隊(duì)一個(gè)小插曲是,作者在撰寫稿件搜集資料時(shí),看到小羊駝的開發(fā)團(tuán)隊(duì)不禁虎軀一震。
包括 Wei-Lin Chiang、Zhuohan Li、Zi Lin、Ying Sheng、Zhanghao Wu、Hao Zhang、Lianmin Zheng、Siyuan Zhuang 和 Yonghao Zhuang,這學(xué)生團(tuán)隊(duì)是清一色的全員華人,不免讓人感慨。
總結(jié):遍地AI的世界就在眼前從本質(zhì)上來(lái)說(shuō),ChatGPT這種大語(yǔ)言模型就是通過(guò)燒錢燒算力燒數(shù)據(jù)達(dá)到"大力出奇跡"的效果。
而這也帶來(lái)了一個(gè)問(wèn)題,即這樣的大語(yǔ)言模型燒錢的程度會(huì)讓很多小公司望而卻步,只能加入霸權(quán)壟斷的圈子。
而對(duì)于像小紅書/B站這樣不上不下的公司,既承擔(dān)不起自己訓(xùn)練大模型的成本,也不愿意將自己內(nèi)容池的數(shù)據(jù)拱手讓人,其實(shí)是陷入蠻尷尬的境地。
Vicuna展現(xiàn)了另一種可能性,即通過(guò)“知識(shí)蒸餾”的方式,以極低的價(jià)格復(fù)刻大語(yǔ)言模型90%甚至99%的能力。
而這就意味著哪怕是剛剛創(chuàng)業(yè)的小公司也完全負(fù)擔(dān)得起一個(gè)獨(dú)屬于自己體系的AI的訓(xùn)練成本。
換句話說(shuō),ChatGPT拉開了AI落地的序幕,而Vicuna告訴我們,遍地AI的世界也許就在眼前。