文/宋利
(資料圖)
整理/LiveVideoStack
多模態(tài)媒體大模型
媒體行業(yè)增速放緩,而 AIGC 技術的商業(yè)落地備受矚目,文本到圖像的模態(tài)生生成技術有望改變我們的內(nèi)容生產(chǎn)和消費方式,帶給行業(yè)新的想象空間。同時,學術界和行業(yè)界正在積極研究多模態(tài)大模型,實現(xiàn)多種模態(tài)的對齊和生成。我們判斷,多模態(tài)媒體大模型將是行業(yè)的重要技術基礎設施,給內(nèi)容的生成、編碼、交互帶來全新的變革。
根據(jù)目前的研究態(tài)勢,我們給出如下的多模態(tài)媒體大模型體系框架,實現(xiàn)文本、圖像、視頻、音頻、3D、傳感器、驅(qū)動器等模態(tài)的輸入、推理和生成??蚣軐⒄Z言大模型作為邏輯推理的中心,將不同模態(tài)的數(shù)據(jù)變?yōu)橐粋€整體的張量作為輸入,經(jīng)過大模型推理后,輸出的張量再還原到目標模態(tài),從而使大模型成為一個具有推理和思考能力的高級操作系統(tǒng)。
這其中有一些要點:
表示(Representation):多模態(tài)媒體大模型需要能夠有效地表示和處理不同模態(tài)的媒體數(shù)據(jù),例如文本、圖像、視頻、音頻、3D 等。對于每種模態(tài),需要選擇適當?shù)谋硎痉椒?,以便在模型中進行進一步的處理和分析。例如,對于圖像,可以使用卷積神經(jīng)網(wǎng)絡(CNN)提取特征,對于文本,可以使用詞嵌入或者序列模型來表示。 對齊(Alignment):在多模態(tài)數(shù)據(jù)中,模態(tài)之間可能存在相關性和對應關系。對齊是指將不同模態(tài)的數(shù)據(jù)進行匹配和關聯(lián),以便模型可以理解它們之間的關系。例如,可以使用注意力機制(Attention)來對齊文本和圖像之間的語義對應關系。 推理(Inference):多模態(tài)媒體大模型需要具備推理能力,即能夠分析和理解輸入數(shù)據(jù),并從中提取有用的信息。推理可以利用語言邏輯,具備一定的泛化能力。通過將不同模態(tài)的數(shù)據(jù)結(jié)合起來進行推理,模型可以獲得更全面和豐富的理解。目前通用的方式是利用預訓練語言大模型進行推理任務。 生成(Generation):多模態(tài)媒體大模型也可以用于生成新的多模態(tài)數(shù)據(jù)。例如,可以通過給定一段文本描述來生成對應的圖像或視頻,或者通過給定一段音頻生成對應的文本。我們可以對推理輸出的中間表示進行解碼,輸出需要的模態(tài)。 評價(Evaluation):對于多模態(tài)媒體大模型,評價是一個重要的環(huán)節(jié),用于度量模型輸出的質(zhì)量和性能。評價可以包括主觀評估和客觀評估。主觀評估可以通過人工評價來衡量生成結(jié)果的質(zhì)量,客觀評估可以使用各種指標和度量來評估模型的性能,例如生成的多樣性,音視頻的質(zhì)量等。 編碼(Encoding):不同于數(shù)據(jù)表示中的嵌入概念,這里特指數(shù)據(jù)的壓縮編碼。在多模態(tài)媒體大模型中,數(shù)據(jù)的編碼是指對于任何模態(tài)的信息或者中間嵌入轉(zhuǎn)換為空間緊湊的數(shù)據(jù)流。對于文本、音視頻等傳統(tǒng)模態(tài),已有成熟的編碼標準,對于 3D 模態(tài),各種技術路徑還未收斂。同時,業(yè)界也在積極探索跨模態(tài)編碼、嵌入信息編碼和神經(jīng)網(wǎng)絡編碼。 交互(Interaction):多模態(tài)媒體大模型可以支持人與模型的交互、模型與模型的交互,甚至人與人之間的交互由模型的交互來代理,這將形成一個模型的生態(tài)圈。這包括接收用戶輸入的多模態(tài)數(shù)據(jù),并根據(jù)用戶的需求進行推理和生成。交互也可以涉及模型與其他系統(tǒng)的協(xié)作,例如與傳感器和驅(qū)動器交互,甚至實現(xiàn)廣義人工智能 AGI。接下來,我們將從其中的生成、編碼、交互三個維度來展開介紹。
-01-
多模態(tài)媒體生成
圖3 元宇宙與大模型
對于內(nèi)容生成的討論上,去年元宇宙的話題備受關注,今年則是大模型搶了風頭。但實際上,AIGC 將大模型與元宇宙之間建立了一個很好的橋梁。當我們強調(diào)元宇宙時,更注重的是用戶體驗和帶入人類的因素。而大模型則更注重于工具和賦能。這兩個方面應該是相互補充的,形成一個整體,既包括生產(chǎn)力也包括用戶體驗。
AIGC基礎模型和應用發(fā)展預測
紅杉資本的這張圖展示了 AIGC 基礎模型的發(fā)展態(tài)勢,目前普遍認為我們處于發(fā)展的中間階段,后面的預期都打著問號,表示未來的發(fā)展路徑可能存在不確定性,時間上可能會更快或更慢。有些事情可能比我們想象的簡單,有些則可能更復雜。然而,我個人認為,各大頭部公司和創(chuàng)業(yè)企業(yè)已經(jīng)涌入這個領域,投入了大量的智力和資源,這將加速發(fā)展進程。
AIGC大模型一覽,單模態(tài)&多模態(tài)
從 AIGC 和模態(tài)的角度來看,我們可以觀察到模型的發(fā)展呈現(xiàn)出三個階段。最初階段是單模態(tài)模型,像 GPT 這樣的模型在這個階段起到了代表性的作用。
隨后,在 2021 年和 2022 年,雙模態(tài)模型開始大量涌現(xiàn)。其中一個代表性的應用是文生圖、文生視頻,它結(jié)合了文本和視頻等多種模態(tài)。這里面有一個關鍵的部分,就是對齊(alignment),也就是將不同模態(tài)的數(shù)據(jù)以最自然的語言表達進行對齊。這種對齊是基于語言的,也是維特根斯坦所說的語言是思維的邊界。因此,從文本到其他模態(tài)的轉(zhuǎn)換都是非常自然的。
在去年年底到今年初,我們已經(jīng)看到多模態(tài)模型開始爆發(fā)。在這個階段,有兩個主要趨勢,一個是自然擴展,另一個是深度擴展。目前,我們已經(jīng)看到模型中有六種模態(tài),甚至有一些模型擁有十二種模態(tài)。然而,核心仍然是以文本為基礎的,從文本轉(zhuǎn)換到各種模態(tài),再進行對齊。我們可以預期未來的發(fā)展將更加多樣化,并且更多地涉及多模態(tài)的應用。
多模態(tài)AIGC大模型的必然性
目前,雙模態(tài)應用的落地較多,而多模態(tài)應用仍處于早期階段。為什么多模態(tài)會是一種必然呢?
首先,多模態(tài)提供了對維度的自然擴展,使得模型可以更全面地理解和處理不同模態(tài)的數(shù)據(jù)。
其次,我們注意到數(shù)據(jù)收集的跨模態(tài)特性。在構(gòu)建大型模型時,高質(zhì)量的數(shù)據(jù)是一個重要的瓶頸。多模態(tài)數(shù)據(jù)在跨模態(tài)的收集方面已經(jīng)取得了一些進展。盡管在幾年前這樣的數(shù)據(jù)集非常有限,只有少數(shù)幾家公司在進行相關工作,而且最自然的跨模態(tài)數(shù)據(jù)集是文本和圖像之間的轉(zhuǎn)換。例如,聲音和 3D 或傳感器數(shù)據(jù)之間的轉(zhuǎn)換,這些數(shù)據(jù)量非常有限,缺乏相應的數(shù)據(jù)集。然而,現(xiàn)在我們已經(jīng)開始構(gòu)建這樣的數(shù)據(jù)集,包括一些大公司也在進行相關研究,它們也在開始進行模態(tài)融合。
最后,從研究和學術角度來看。人類認知本身就是天然的多模態(tài)過程。如果我們?nèi)斯ぶ悄艿拇竽P鸵ケ平祟愔悄艿脑挘绕涫菑母兄秸J知的角度,走向多模態(tài)是符合自然規(guī)律的。代表性的例子之一是 Meta 的 "image-bind",它融合了六種模態(tài),并且是開源的,取得了一定的效果。雖然跳出給定的數(shù)據(jù)集進行評估時可能并不理想,但至少他們?yōu)檫@個領域開辟了一條道路。
多模態(tài)AIGC大模型的關鍵要素
那么如何實現(xiàn)多模態(tài) AIGC 大模型?
首先,數(shù)據(jù)是最關鍵的因素。當前,所有大型模型之間的共識是,數(shù)據(jù)對于多模態(tài)模型的成功至關重要。最近的一次采訪中,包括 OpenAI 的領導人和創(chuàng)始人在內(nèi),被問及中國是否能夠超越其他國家的技術實力。他們的基本觀點是,首先你需要擁有大規(guī)模且高質(zhì)量的數(shù)據(jù)才有意義。僅僅擁有大規(guī)模的數(shù)據(jù)是不夠的,數(shù)據(jù)質(zhì)量同樣至關重要。在多模態(tài)領域,這一點更加顯著,因為如果維度增加,數(shù)據(jù)很容易變得非常稀疏。因此,對于擬合模型而言,這帶來了更大的挑戰(zhàn)。目前,有多種方法可以處理數(shù)據(jù)。例如,在無人駕駛領域,將仿真數(shù)據(jù)與真實數(shù)據(jù)結(jié)合使用可以在一定程度上彌補多模態(tài)數(shù)據(jù)的缺失問題。
其次,關于模型本身,人們普遍認為多模態(tài)模型的參數(shù)應該更多、規(guī)模更大。然而,目前的研究結(jié)果表明,視覺模型和其他模態(tài)模型,并沒有像語言模型那樣,在參數(shù)量上展示出更高的維度。這里面可能有一個語義對齊的問題,即語義空間和信號空間可能不同。多模態(tài)的數(shù)據(jù)在信號空間上可能具有更大的維度;然而在語義空間中,語言模態(tài)可能具有更高的有效維度或內(nèi)在維度。因此,模型設計仍然是一個巨大的挑戰(zhàn)。除了當前以語言為核心的大型模型,現(xiàn)在還有一些人在探索模擬人腦智能,當然都還處于初級階段。
最后,關于功能方面,學術界和工業(yè)界開始提出一個新概念,即具身智能。這意味著模型需要與環(huán)境進行感知,并在決策和學習之間形成一個與環(huán)境和數(shù)據(jù)進行循環(huán)交互的大循環(huán)。因此,多模態(tài)的具身智能模型可能是一個有潛力的應用方向。
多模態(tài)生成之圖像創(chuàng)作
目前在圖像領域主要采用的是擴散(diffusion)技術,但實際上在擴散之前也有生成網(wǎng)絡 GAN 等其他成功的技術。如果我們仔細觀察,生成對抗網(wǎng)絡(GAN)并沒有消失,最近還出現(xiàn)了一個很有潛力的工具,叫做 DragGAN。實際上,GAN 在操控性方面至少在當前階段比擴散方法更好。然而,GAN 的可控性仍有挑戰(zhàn),尤其是在生成高質(zhì)量圖像和語音時與 diffusion 有不少差距。所以大多數(shù)人都在擴散方法的賽道上,但仍有一部分人繼續(xù)深入研究 GAN,包括在生成三維圖像方面,GAN 仍然具有一定的優(yōu)勢。
自由式圖像生成:文本+布局
圖像生成方面有很多工作正在進行。這里簡單介紹一下我們今年的一個工作,給定一個布局圖,和一段 prompt 提示詞來生成圖像??梢愿鼡Q其中的元素或詞語,這樣就可以實現(xiàn)一種可控性的表達方式。這種方法可以與直接生成圖像相比,提供更多的控制。在控制方面也有多種方法,比如布局圖,輪廓線或是參考圖。對此感興趣的同事可以參閱我們發(fā)表的論文。
多模態(tài)生成之視頻創(chuàng)作
在視頻創(chuàng)作方面,已經(jīng)有 Runway 等幾家公司在這個領域取得了突破,一些投資公司對這個領域比較看好,國內(nèi)也可以有類似的公司出現(xiàn)。與文生圖相比,文生視頻仍然存在一些擴展性和通用性的差距,我認為這個差距至少還需要一到兩年的時間來彌補。生成效果上,后者的水平大約相當于前者兩年前的水平,這包括生成圖像的質(zhì)量和抖動性等方面。目前主要以生成短視頻為主,生成長視頻時,一般是通過合成短視頻并添加滑動窗口等工程技術來實現(xiàn)。就原理性技術而言,并沒有突破 "stable diffusion" 框架,即以 CLIP 和 transform 為基礎加上擴散技術的框架。
多模態(tài)生成之3D創(chuàng)作
除了視頻,人們也自然而然地關注到了三維圖像生成。在某種程度上,文本到三維生成比文本到視頻生成更成熟。當然,生成復雜的建筑模型(如天安門廣場)比較困難,但是生成一只貓、一只狗等小物件的效果是可行的,至少可以幫助動畫師快速創(chuàng)建初始模型,進一步的編輯也變得更加容易。因此,目前對于三維圖像生成這個領域的關注度也相對較高。雖然今年的論文也有開始做 3D diffusion 的,但是現(xiàn)在可控性更強的還是以 GAN 為基礎的生成技術。
數(shù)字人技術是元宇宙的重要技術
目前,數(shù)字人是最近最受關注和應用最廣泛的領域之一。去年元宇宙的興起使得數(shù)字人成為了熱門話題,因為數(shù)字人被稱為進入元宇宙的入口。因此,各個公司都高度關注數(shù)字人,市場上已經(jīng)有數(shù)百家數(shù)字人公司或團隊,學校也在進行相關研究。
數(shù)字人:語音驅(qū)動真實化身
我們早在一年前就開始研究數(shù)字人,并取得了一定的領先。其中嘴型對齊是一個最具挑戰(zhàn)性的問題,今年大家基本上都解決了這個問題。所以說,領域的進展程度是可見的,只要你敢于展示你的成果,很快就會被接受和認可。我們的工作早期就已經(jīng)在學術論壇上進行了討論,所以引起了一些關注,包括一些創(chuàng)業(yè)公司聯(lián)系我們,希望我們參加他們的創(chuàng)業(yè)賽道,這可能對其他人也有一些啟發(fā)。
數(shù)字人:語音驅(qū)動虛擬化身
去年,參加世界人工智能大會的時候,有一個對嘴型的競賽,重點是給定一個平均模型,大家使用各自的模型進行對齊。因此,一些項目更注重驅(qū)動模型而不是仿真人。我們?nèi)ツ暌矃⒓恿诉@個競賽,在這方面取得了一些進展。
2D數(shù)智人:全流程交互式問答助理
交互是最困難的部分。如 DEMO 所示,我們也初步嘗試了與 GPT 模型的交互,不過這里的視頻處理了一下延遲。實時交互的核心問題是延遲。從問題到 GPT 的回答之間會有接近兩秒的延遲,然后 TTS 合成也需要大約一秒的延遲,再將文字轉(zhuǎn)化為視頻,一般會緩沖 30-50 個字,所以延遲也會有幾秒鐘。總體來說,現(xiàn)在的延遲已經(jīng)接近六七秒了。我們預計通過工程的方法可以將延遲減少到 3 秒左右,但要進一步減少目前串行交互是不行的,我們還沒有找到解決這個問題的方法。
直播的延遲可以消隱,但是實時交互則比較困難。我認為下一步或者近期的重點是將實時通信(RTC)與這個技術結(jié)合起來,即進行具有可見參與者的強交互對話,這是一個比較大的挑戰(zhàn)。
多模態(tài)生成模型的思考
在這方面,我們有幾個小的思考。
首先,關于多模態(tài),目前我們主要以 GPT 為中心,但這是否是最佳方式?是否還有其他路徑或方法?這個問題還沒有清晰的答案。
其次,很多人在問,當GPT作家讀完了所有的書該怎么辦呢?意思是說模型是否已經(jīng)達到了信息飽和的狀態(tài)。對于多模態(tài)的大型模型,是否會出現(xiàn)卷到天花板的情況?它的增長速度會很快嗎?大家都在探索這個問題。當然,我要提醒的是,我們這里默認的假設都是基于多模態(tài),每個公司都有自己的多模態(tài)模型,或者是一個超大規(guī)模的多模態(tài)模型。如果將多模態(tài)模型視為人一樣的話,個體的能力是有限的。而所有人的能力加起來可能不僅僅是模型本身的能力,還可能涉及到其他社會智能的涌現(xiàn)。這方面可能還比較早,所以從這個意義上來說,目前的智能還是以單個人為中心。當然,這個人學習了很多知識,但實際上還有很多其他智能,比如社交智能,在這種大型模型中還沒有得到充分展現(xiàn)。
最后,目前初步看來說多模態(tài)的能力其實不如這個用單一模型在做,這個模型在做所有東西的對齊,這個路徑其實也是值得探索的。
-02-
多模態(tài)媒體編碼
沉浸式編碼標準
從媒體表達形式的角度來看,過去幾年主要關注的是從 360 度視頻到點云,特別是在最近兩年的元宇宙浪潮中,以視頻為中心的體積視頻成為了熱門話題。
MPEG 在 2021 年底啟動了 MIV(Moving Immersive Video)項目,并在去年底發(fā)布,主要關注的是對體積視頻的編碼。MPEG 下一步開始關注類似 AIGC 或NeRF(Neural Radiance Fields)這種神經(jīng)表達技術,這個領域正處于一個新舊轉(zhuǎn)換的時期。內(nèi)容的未來發(fā)展將肯定是朝向真正的 3D 表達,而如何進行 3D 表達的壓縮是一個重要的課題。
新趨勢:基于隱式表達的沉浸式編碼
隱式表達可以作為一種緊湊的多視圖表達方式,它并不一定源自圖形學,但它本身對于多視圖具有緊湊的表示能力。自然地,這種表達方式也可以用于呈現(xiàn)和壓縮。
我們的這篇工作中使用常規(guī)編碼方法對主視角進行編碼,而使用隱式表達方法對其他系數(shù)視角進行壓縮。這種方法與使用神經(jīng)網(wǎng)絡進行圖像壓縮的本質(zhì)相同,但我們在此過程中壓縮的是坐標、坐標轉(zhuǎn)換以及視角之間的預測,通過這種方式實現(xiàn)了模型參數(shù)之間的映射。通過將所有這些內(nèi)容放入一個隱式表達函數(shù)中,我們可以在進行解壓縮時重新投影出選定的連續(xù)視角。因此,在某種程度上,我們將稀疏的數(shù)據(jù)轉(zhuǎn)化為連續(xù)函數(shù),并在其上進行采樣。
基于隱式表達的人臉編碼
我們還探索了 3D 人臉編碼,將其轉(zhuǎn)化為隱式表達后,實現(xiàn)超低碼率壓縮。
試驗結(jié)果表明,在碼率接近時,NeRF 表達相比傳統(tǒng)的 MIV 在質(zhì)量上有明顯的提升。MIV 項目中的編碼器采用了 或 兩種版本,當前工作比 表現(xiàn)更好,尚未超越 。
基于隱式表達的編碼效果
隱式表達還具有一個優(yōu)點,就是生成的圖像合成是自然的。與傳統(tǒng)的貼圖不同,隱式表達能夠自帶光照屬性和視角變化,其渲染效果更加自然。從渲染的角度來看,NeRF方法比 MIV 的效果更好,甚至比 VVC 的效果更好一些。至于隱式表達在人臉合成上的應用,NeRF 也有更好的效果。
最近,MPEG 已經(jīng)開展了一個工作組,專門探索使用 NeRF 進行 6 自由度壓縮的方法及其可行性。這項工作可能需要大約一年的時間,如果證實這個方法具有潛力,將會啟動新一代標準的制定過程。
新趨勢:跨模態(tài)編碼
此外,在跨編碼和跨模態(tài)的應用方面,近年來已經(jīng)有多種方法在進行研究,一個熱門的研究課題是語義壓縮,不過這里需要與無線通信領域的語義編碼稍作區(qū)分。語義編碼的工作大多使用神經(jīng)網(wǎng)絡來處理信源部分,而信道部分的處理相對較少。因為語義編碼主要指的是信源,而信道并不涉及語義問題。
圖上這個工作是由北大馬思偉老師團隊去年完成的。這項工作的主要目標是在對一幅圖像進行壓縮時,能夠直接提取出其中的文字。當然,將描述傳輸過去并重新生成圖像時,可能會有一些細節(jié)的損失,導致生成的圖像與原圖不完全一樣。因此,為了保持圖像的結(jié)構(gòu)性,這項工作引入了 Sketch 和 Semantic map 的概念,用于引導圖像的生成。此外,生成圖像的能力本身也是一個重要的工程問題,因為在生成過程中需要盡可能地恢復原圖的特征。從跨模態(tài)的角度來看,這個工作是有意義的。但是也許可以更直接一些,將這些信息從統(tǒng)一的大模型中提取出來,而不需要進行手工設計特征。
未來:基于大模型的智能跨模態(tài)編碼?
我們有一個大膽的設想:未來的編碼器可能只需要一個統(tǒng)一的編碼器,不再需要單獨的音頻編碼器和視頻編碼器。目前的多媒體處理流程通常是先處理音頻,再處理視頻,然后將它們合并到一個容器中,最后進行 MUX。對于跨模態(tài)的數(shù)據(jù),它們本身具有天然的對齊性,因此不再需要額外的同步處理。這意味著我們可以構(gòu)建一個統(tǒng)一的編碼器。
這個編碼器中的許多描述信息需要以描述符的形式進行編輯。這些描述信息可能包含人類可理解或不可理解的內(nèi)容,但更像是元數(shù)據(jù)。在此基礎上,大模型也可以是一個增強模型,可以進行預處理和后處理。統(tǒng)一編碼器 Codec GPT,再加上 Diffusion 的后處理,可以作為一個完整的數(shù)據(jù)表示。
在解碼時,只需要根據(jù)需求提取所需要的模態(tài),不再需要每個模態(tài)單獨的容器。如果只需要視頻,那么可以僅提取視頻部分,或者可以提取其投影版本。如果想看 3D 內(nèi)容,那么可以提取 3D 投影。此外,結(jié)合之前提到的云邊端結(jié)合,這種模型可以部署在邊緣設備上,用戶可以與之交互并獲得所需內(nèi)容。這有可能變成一種新的數(shù)據(jù)交互形態(tài)。
大模型下的碼率和失真
從壓縮的角度來看,大模型還需要研究失真率的問題。
關于圖像描述的信息量,在大約 12 年前,李飛飛老師提到了一個有趣的例子。我們可以根據(jù)不同的確定性水平進行分類判斷,做出一個永遠不會出錯的識別系統(tǒng)。系統(tǒng)可以將一只鳥的照片時,識別為“Bird”,或者在更高的確定性下識別為 "Small Bird";但如果確定性較低,則可以將其歸類為“Animal”。總之,我們可以完全用這種方式來描述大模型的工作原理。我們可以不斷地進行追問,將其詳細化,而現(xiàn)在的穩(wěn)定擴散進化速度可能很快就能夠?qū)崿F(xiàn)準確的對應關系。因此,這仍然是一個值得思考的方向。
在壓縮方面,我們不一定只限于視頻,我們可以將大模型作為壓縮對象。以前的 CNN 等模型可以通過減少參數(shù)量、量化和低秩分解等方法來進行輕量化部署。然而,壓縮大模型也存在一個問題,就是模型的組件或者參數(shù)必須是固定的才能進行壓縮。如果前面的組件仍在不斷變化中,那么進行壓縮可能會變得多余。因此,對于大模型的壓縮,目前可能還存在觀望的態(tài)度。但是,如果大模型相對穩(wěn)定下來一段時間,那么肯定還會有進行大模型壓縮的需求。關于大模型的壓縮方式,是事后進行壓縮,還是在設計大模型時就考慮壓縮,我們可以觀察到一些模型的體積已經(jīng)大幅減小。例如,它們的尺寸可能減小了 1/10,甚至更多,而性能并不一定下降。這意味著原始模型中可能存在很多冗余。因此,大模型的失真實際上是指其中可能存在的冗余部分。
另一個關于大模型失真的問題是,模型參數(shù)量與表達能力和生成能力之間的權(quán)衡。一般參數(shù)越多,能力越強。在許多場景中只需要識別出簡單的語義,而為了人類觀看則希望達到更高的準確性。因此,在這里可以找到大模型、失真和碼率之間的平衡點,這是一個非常值得從壓縮的角度研究的課題。
大模型在編碼中需要做什么?
有人認為大模型是對知識的粗略的有損壓縮,類似于 JPEG;如果要追求精確性,則模型會非常龐大。確實,模型可以被看作是對世界的一種壓縮表達,我們將全球的數(shù)據(jù)壓縮到一個知識點上。其他的東西實際上都可以看作是這個知識點的泛化,或者說是這個知識點的一種簡化投影,這才是事物的本質(zhì)。數(shù)據(jù)經(jīng)過訓練,生成了模型,如果模型的吸收能力很強,那么模型就完全理解了數(shù)據(jù),模型本身就是數(shù)據(jù),就是知識。
從這個意義上來看,傳統(tǒng)的編碼方法壓縮的是原始數(shù)據(jù),但原始數(shù)據(jù)從何而來呢?原始數(shù)據(jù)來自于世界,然后我們又用模型對其進行了重構(gòu),發(fā)現(xiàn)重構(gòu)后又得到了一個模型。因此,這可能是同一個過程。也就是說,傳統(tǒng)壓縮和大模型壓縮可能是等效的,所以通過構(gòu)建大模型,我們可能同時解決了壓縮的問題。這是一個邏輯上的推測,不一定成立。
編碼與生成
編碼和生成可以被看作是大模型的 encode 和 decode 過程。也就是說解碼過程可能對應推理,而編碼則對應深度訓練。它們有相似之處,也有不同之處。實際上,編碼可以用來預測新的源分布,因此在進行編碼時,本質(zhì)上是在預測最大可能性的自然輸出。在更高的視角,在高維空間中進行對齊時,數(shù)據(jù)的某個維度只是一種條件概率或者一個投影,這是一種降維。當然,編碼模型對嵌入也存在一定的約束,這時也可以將嵌入視為類似于超參數(shù),將其引入到 RD 中作為一種約束。
另一方面,如果編碼模型向多模態(tài)發(fā)展,可能并非線性增長的問題,即在一定性能下不再提升。實際上,使用單模態(tài)可能已經(jīng)達到了飽和點。因此,它會帶來很多啟發(fā),也有許多問題需要回答。
-03-
模態(tài)媒體交互
Real-Time Communication
過去幾年,特別是去年和前年,RTC(實時通信)是非常熱門的技術?,F(xiàn)在我們再回過頭看看 RTC 和 AIGC 之間的關系,會有一些有趣的發(fā)現(xiàn)。
目前我們更多地關注的是所謂的“”階段。這意味著中間的交互變得比以前更強大,無論是語音游戲、直播、視頻會議還是共同參與元宇宙。暢想一下,當 RTC 與 AIGC 結(jié)合起來,可能會涉及到人工智能的代理人出鏡。在會議中、在購物領域,在數(shù)字人的展示中,我們可能不再是真人在觀看,而是數(shù)字人在觀看,讓代理人參加會議。
這帶來了一個巨大的變革,交互性將變得更強大,交互的頻率和維度也會大大增加。以前的視頻會議中,即使有幾千人參與一個會話,大部分人都是聽眾,只有很少一部分人進行交互。但在與 AIGC 結(jié)合的情況下,如果所有交流都是與 AI 對象進行的,那么交互頻率將是雙向的,非常對等。
基于云端代理的多模態(tài)交互
在這種新形態(tài)下,傳遞信息的方式可能不再局限于音視頻傳輸,而音視頻傳輸可能不再是一個挑戰(zhàn)。傳遞信息的都是代理人,是模型與模型在進行對話。在用戶和代理人之間的對話中,代理人只需提供摘要,并不需要每秒 30 幀這樣高的數(shù)據(jù)量。
基于云端代理的多模態(tài)交互
如果將所有的交互變成代理之間的交互,這就給業(yè)務場景帶來顛覆,RTC 技術體系中也會有較大的變化。例如,控制信息會更多,可能只控制參數(shù),而不是數(shù)據(jù)的傳輸。我們現(xiàn)在使用的內(nèi)容中可能已經(jīng)有了很多前向糾錯編碼(FEC)的同步邏輯,但是算法會有大的變化。用戶需要與數(shù)字實體、數(shù)字人的代理進行綁定,而不是僅僅與音視頻傳輸?shù)漠嬞|(zhì)和音質(zhì)變化相綁定。因此,這里將涉及許多值得探討的新課題。
- RTC架構(gòu):AICU
我們可以將 RTC 和 AI 結(jié)合起來,成為 ,以新的“AICU”架構(gòu)代替 RTC 原有的 MCU 和 SF 模式。在 AIGC 時代,當 Agent 之間進行會議時,它們之間的傳輸機制,無論是 P2P、CDN 還是現(xiàn)在的 RTN,都可以有新的發(fā)展,煥發(fā)新的生機。
新一代多模態(tài)媒體容器
此外,容器也會有重大變化,多媒體數(shù)據(jù)的標識解析將起到更大的作用。我們現(xiàn)在使用的諸如 HLS 等技術,不同模態(tài)在不同的通道保存。在未來,容器中的數(shù)據(jù)可能只是一些源數(shù)據(jù)、控制指令和腳本。這種新的視頻內(nèi)容會與游戲領域的一些技術相結(jié)合,如果大家關注游戲的話,肯定知道 Meta 正在推動的開放 USD 格式。這個文件很可能為我們提供一個機會,將這種新型視頻內(nèi)容與文件容器進行融合。容器中可以包含腳本,這些腳本可以驅(qū)動、運行,也可以通過 prompt 生成或替換。這才能真正實現(xiàn)交互時代的內(nèi)容。以前這些東西都是流媒體思維的產(chǎn)物,流媒體的思路并沒有改變過。但如果要變成交互類型的內(nèi)容,所有這些東西都需要重構(gòu)。