欧美日韩国产一区_最新国产精品精品自_国产精品成人久久久_久无码专区国产精品_久久国产精品婹妓

當(dāng)前位置:首頁(yè) > 滾動(dòng) >

LVS2023 | 從 AIGC 到多模態(tài)媒體大模型2023-08-31 15:01:06 | 編輯:admin | 來(lái)源:技術(shù)聯(lián)盟

文/宋利


(資料圖)

整理/LiveVideoStack

多模態(tài)媒體大模型

媒體行業(yè)增速放緩,而 AIGC 技術(shù)的商業(yè)落地備受矚目,文本到圖像的模態(tài)生生成技術(shù)有望改變我們的內(nèi)容生產(chǎn)和消費(fèi)方式,帶給行業(yè)新的想象空間。同時(shí),學(xué)術(shù)界和行業(yè)界正在積極研究多模態(tài)大模型,實(shí)現(xiàn)多種模態(tài)的對(duì)齊和生成。我們判斷,多模態(tài)媒體大模型將是行業(yè)的重要技術(shù)基礎(chǔ)設(shè)施,給內(nèi)容的生成、編碼、交互帶來(lái)全新的變革。

根據(jù)目前的研究態(tài)勢(shì),我們給出如下的多模態(tài)媒體大模型體系框架,實(shí)現(xiàn)文本、圖像、視頻、音頻、3D、傳感器、驅(qū)動(dòng)器等模態(tài)的輸入、推理和生成??蚣軐⒄Z(yǔ)言大模型作為邏輯推理的中心,將不同模態(tài)的數(shù)據(jù)變?yōu)橐粋€(gè)整體的張量作為輸入,經(jīng)過(guò)大模型推理后,輸出的張量再還原到目標(biāo)模態(tài),從而使大模型成為一個(gè)具有推理和思考能力的高級(jí)操作系統(tǒng)。

這其中有一些要點(diǎn):

表示(Representation):多模態(tài)媒體大模型需要能夠有效地表示和處理不同模態(tài)的媒體數(shù)據(jù),例如文本、圖像、視頻、音頻、3D 等。對(duì)于每種模態(tài),需要選擇適當(dāng)?shù)谋硎痉椒?,以便在模型中進(jìn)行進(jìn)一步的處理和分析。例如,對(duì)于圖像,可以使用卷積神經(jīng)網(wǎng)絡(luò)(CNN)提取特征,對(duì)于文本,可以使用詞嵌入或者序列模型來(lái)表示。 對(duì)齊(Alignment):在多模態(tài)數(shù)據(jù)中,模態(tài)之間可能存在相關(guān)性和對(duì)應(yīng)關(guān)系。對(duì)齊是指將不同模態(tài)的數(shù)據(jù)進(jìn)行匹配和關(guān)聯(lián),以便模型可以理解它們之間的關(guān)系。例如,可以使用注意力機(jī)制(Attention)來(lái)對(duì)齊文本和圖像之間的語(yǔ)義對(duì)應(yīng)關(guān)系。 推理(Inference):多模態(tài)媒體大模型需要具備推理能力,即能夠分析和理解輸入數(shù)據(jù),并從中提取有用的信息。推理可以利用語(yǔ)言邏輯,具備一定的泛化能力。通過(guò)將不同模態(tài)的數(shù)據(jù)結(jié)合起來(lái)進(jìn)行推理,模型可以獲得更全面和豐富的理解。目前通用的方式是利用預(yù)訓(xùn)練語(yǔ)言大模型進(jìn)行推理任務(wù)。 生成(Generation):多模態(tài)媒體大模型也可以用于生成新的多模態(tài)數(shù)據(jù)。例如,可以通過(guò)給定一段文本描述來(lái)生成對(duì)應(yīng)的圖像或視頻,或者通過(guò)給定一段音頻生成對(duì)應(yīng)的文本。我們可以對(duì)推理輸出的中間表示進(jìn)行解碼,輸出需要的模態(tài)。 評(píng)價(jià)(Evaluation):對(duì)于多模態(tài)媒體大模型,評(píng)價(jià)是一個(gè)重要的環(huán)節(jié),用于度量模型輸出的質(zhì)量和性能。評(píng)價(jià)可以包括主觀評(píng)估和客觀評(píng)估。主觀評(píng)估可以通過(guò)人工評(píng)價(jià)來(lái)衡量生成結(jié)果的質(zhì)量,客觀評(píng)估可以使用各種指標(biāo)和度量來(lái)評(píng)估模型的性能,例如生成的多樣性,音視頻的質(zhì)量等。 編碼(Encoding):不同于數(shù)據(jù)表示中的嵌入概念,這里特指數(shù)據(jù)的壓縮編碼。在多模態(tài)媒體大模型中,數(shù)據(jù)的編碼是指對(duì)于任何模態(tài)的信息或者中間嵌入轉(zhuǎn)換為空間緊湊的數(shù)據(jù)流。對(duì)于文本、音視頻等傳統(tǒng)模態(tài),已有成熟的編碼標(biāo)準(zhǔn),對(duì)于 3D 模態(tài),各種技術(shù)路徑還未收斂。同時(shí),業(yè)界也在積極探索跨模態(tài)編碼、嵌入信息編碼和神經(jīng)網(wǎng)絡(luò)編碼。 交互(Interaction):多模態(tài)媒體大模型可以支持人與模型的交互、模型與模型的交互,甚至人與人之間的交互由模型的交互來(lái)代理,這將形成一個(gè)模型的生態(tài)圈。這包括接收用戶輸入的多模態(tài)數(shù)據(jù),并根據(jù)用戶的需求進(jìn)行推理和生成。交互也可以涉及模型與其他系統(tǒng)的協(xié)作,例如與傳感器和驅(qū)動(dòng)器交互,甚至實(shí)現(xiàn)廣義人工智能 AGI。

接下來(lái),我們將從其中的生成、編碼、交互三個(gè)維度來(lái)展開介紹。

-01-

多模態(tài)媒體生成

圖3 元宇宙與大模型

對(duì)于內(nèi)容生成的討論上,去年元宇宙的話題備受關(guān)注,今年則是大模型搶了風(fēng)頭。但實(shí)際上,AIGC 將大模型與元宇宙之間建立了一個(gè)很好的橋梁。當(dāng)我們強(qiáng)調(diào)元宇宙時(shí),更注重的是用戶體驗(yàn)和帶入人類的因素。而大模型則更注重于工具和賦能。這兩個(gè)方面應(yīng)該是相互補(bǔ)充的,形成一個(gè)整體,既包括生產(chǎn)力也包括用戶體驗(yàn)。

AIGC基礎(chǔ)模型和應(yīng)用發(fā)展預(yù)測(cè)

紅杉資本的這張圖展示了 AIGC 基礎(chǔ)模型的發(fā)展態(tài)勢(shì),目前普遍認(rèn)為我們處于發(fā)展的中間階段,后面的預(yù)期都打著問(wèn)號(hào),表示未來(lái)的發(fā)展路徑可能存在不確定性,時(shí)間上可能會(huì)更快或更慢。有些事情可能比我們想象的簡(jiǎn)單,有些則可能更復(fù)雜。然而,我個(gè)人認(rèn)為,各大頭部公司和創(chuàng)業(yè)企業(yè)已經(jīng)涌入這個(gè)領(lǐng)域,投入了大量的智力和資源,這將加速發(fā)展進(jìn)程。

AIGC大模型一覽,單模態(tài)&多模態(tài)

從 AIGC 和模態(tài)的角度來(lái)看,我們可以觀察到模型的發(fā)展呈現(xiàn)出三個(gè)階段。最初階段是單模態(tài)模型,像 GPT 這樣的模型在這個(gè)階段起到了代表性的作用。

隨后,在 2021 年和 2022 年,雙模態(tài)模型開始大量涌現(xiàn)。其中一個(gè)代表性的應(yīng)用是文生圖、文生視頻,它結(jié)合了文本和視頻等多種模態(tài)。這里面有一個(gè)關(guān)鍵的部分,就是對(duì)齊(alignment),也就是將不同模態(tài)的數(shù)據(jù)以最自然的語(yǔ)言表達(dá)進(jìn)行對(duì)齊。這種對(duì)齊是基于語(yǔ)言的,也是維特根斯坦所說(shuō)的語(yǔ)言是思維的邊界。因此,從文本到其他模態(tài)的轉(zhuǎn)換都是非常自然的。

在去年年底到今年初,我們已經(jīng)看到多模態(tài)模型開始爆發(fā)。在這個(gè)階段,有兩個(gè)主要趨勢(shì),一個(gè)是自然擴(kuò)展,另一個(gè)是深度擴(kuò)展。目前,我們已經(jīng)看到模型中有六種模態(tài),甚至有一些模型擁有十二種模態(tài)。然而,核心仍然是以文本為基礎(chǔ)的,從文本轉(zhuǎn)換到各種模態(tài),再進(jìn)行對(duì)齊。我們可以預(yù)期未來(lái)的發(fā)展將更加多樣化,并且更多地涉及多模態(tài)的應(yīng)用。

多模態(tài)AIGC大模型的必然性

目前,雙模態(tài)應(yīng)用的落地較多,而多模態(tài)應(yīng)用仍處于早期階段。為什么多模態(tài)會(huì)是一種必然呢?

首先,多模態(tài)提供了對(duì)維度的自然擴(kuò)展,使得模型可以更全面地理解和處理不同模態(tài)的數(shù)據(jù)。

其次,我們注意到數(shù)據(jù)收集的跨模態(tài)特性。在構(gòu)建大型模型時(shí),高質(zhì)量的數(shù)據(jù)是一個(gè)重要的瓶頸。多模態(tài)數(shù)據(jù)在跨模態(tài)的收集方面已經(jīng)取得了一些進(jìn)展。盡管在幾年前這樣的數(shù)據(jù)集非常有限,只有少數(shù)幾家公司在進(jìn)行相關(guān)工作,而且最自然的跨模態(tài)數(shù)據(jù)集是文本和圖像之間的轉(zhuǎn)換。例如,聲音和 3D 或傳感器數(shù)據(jù)之間的轉(zhuǎn)換,這些數(shù)據(jù)量非常有限,缺乏相應(yīng)的數(shù)據(jù)集。然而,現(xiàn)在我們已經(jīng)開始構(gòu)建這樣的數(shù)據(jù)集,包括一些大公司也在進(jìn)行相關(guān)研究,它們也在開始進(jìn)行模態(tài)融合。

最后,從研究和學(xué)術(shù)角度來(lái)看。人類認(rèn)知本身就是天然的多模態(tài)過(guò)程。如果我們?nèi)斯ぶ悄艿拇竽P鸵ケ平祟愔悄艿脑挘绕涫菑母兄秸J(rèn)知的角度,走向多模態(tài)是符合自然規(guī)律的。代表性的例子之一是 Meta 的 "image-bind",它融合了六種模態(tài),并且是開源的,取得了一定的效果。雖然跳出給定的數(shù)據(jù)集進(jìn)行評(píng)估時(shí)可能并不理想,但至少他們?yōu)檫@個(gè)領(lǐng)域開辟了一條道路。

多模態(tài)AIGC大模型的關(guān)鍵要素

那么如何實(shí)現(xiàn)多模態(tài) AIGC 大模型?

首先,數(shù)據(jù)是最關(guān)鍵的因素。當(dāng)前,所有大型模型之間的共識(shí)是,數(shù)據(jù)對(duì)于多模態(tài)模型的成功至關(guān)重要。最近的一次采訪中,包括 OpenAI 的領(lǐng)導(dǎo)人和創(chuàng)始人在內(nèi),被問(wèn)及中國(guó)是否能夠超越其他國(guó)家的技術(shù)實(shí)力。他們的基本觀點(diǎn)是,首先你需要擁有大規(guī)模且高質(zhì)量的數(shù)據(jù)才有意義。僅僅擁有大規(guī)模的數(shù)據(jù)是不夠的,數(shù)據(jù)質(zhì)量同樣至關(guān)重要。在多模態(tài)領(lǐng)域,這一點(diǎn)更加顯著,因?yàn)槿绻S度增加,數(shù)據(jù)很容易變得非常稀疏。因此,對(duì)于擬合模型而言,這帶來(lái)了更大的挑戰(zhàn)。目前,有多種方法可以處理數(shù)據(jù)。例如,在無(wú)人駕駛領(lǐng)域,將仿真數(shù)據(jù)與真實(shí)數(shù)據(jù)結(jié)合使用可以在一定程度上彌補(bǔ)多模態(tài)數(shù)據(jù)的缺失問(wèn)題。

其次,關(guān)于模型本身,人們普遍認(rèn)為多模態(tài)模型的參數(shù)應(yīng)該更多、規(guī)模更大。然而,目前的研究結(jié)果表明,視覺模型和其他模態(tài)模型,并沒有像語(yǔ)言模型那樣,在參數(shù)量上展示出更高的維度。這里面可能有一個(gè)語(yǔ)義對(duì)齊的問(wèn)題,即語(yǔ)義空間和信號(hào)空間可能不同。多模態(tài)的數(shù)據(jù)在信號(hào)空間上可能具有更大的維度;然而在語(yǔ)義空間中,語(yǔ)言模態(tài)可能具有更高的有效維度或內(nèi)在維度。因此,模型設(shè)計(jì)仍然是一個(gè)巨大的挑戰(zhàn)。除了當(dāng)前以語(yǔ)言為核心的大型模型,現(xiàn)在還有一些人在探索模擬人腦智能,當(dāng)然都還處于初級(jí)階段。

最后,關(guān)于功能方面,學(xué)術(shù)界和工業(yè)界開始提出一個(gè)新概念,即具身智能。這意味著模型需要與環(huán)境進(jìn)行感知,并在決策和學(xué)習(xí)之間形成一個(gè)與環(huán)境和數(shù)據(jù)進(jìn)行循環(huán)交互的大循環(huán)。因此,多模態(tài)的具身智能模型可能是一個(gè)有潛力的應(yīng)用方向。

多模態(tài)生成之圖像創(chuàng)作

目前在圖像領(lǐng)域主要采用的是擴(kuò)散(diffusion)技術(shù),但實(shí)際上在擴(kuò)散之前也有生成網(wǎng)絡(luò) GAN 等其他成功的技術(shù)。如果我們仔細(xì)觀察,生成對(duì)抗網(wǎng)絡(luò)(GAN)并沒有消失,最近還出現(xiàn)了一個(gè)很有潛力的工具,叫做 DragGAN。實(shí)際上,GAN 在操控性方面至少在當(dāng)前階段比擴(kuò)散方法更好。然而,GAN 的可控性仍有挑戰(zhàn),尤其是在生成高質(zhì)量圖像和語(yǔ)音時(shí)與 diffusion 有不少差距。所以大多數(shù)人都在擴(kuò)散方法的賽道上,但仍有一部分人繼續(xù)深入研究 GAN,包括在生成三維圖像方面,GAN 仍然具有一定的優(yōu)勢(shì)。

自由式圖像生成:文本+布局

圖像生成方面有很多工作正在進(jìn)行。這里簡(jiǎn)單介紹一下我們今年的一個(gè)工作,給定一個(gè)布局圖,和一段 prompt 提示詞來(lái)生成圖像??梢愿鼡Q其中的元素或詞語(yǔ),這樣就可以實(shí)現(xiàn)一種可控性的表達(dá)方式。這種方法可以與直接生成圖像相比,提供更多的控制。在控制方面也有多種方法,比如布局圖,輪廓線或是參考圖。對(duì)此感興趣的同事可以參閱我們發(fā)表的論文。

多模態(tài)生成之視頻創(chuàng)作

在視頻創(chuàng)作方面,已經(jīng)有 Runway 等幾家公司在這個(gè)領(lǐng)域取得了突破,一些投資公司對(duì)這個(gè)領(lǐng)域比較看好,國(guó)內(nèi)也可以有類似的公司出現(xiàn)。與文生圖相比,文生視頻仍然存在一些擴(kuò)展性和通用性的差距,我認(rèn)為這個(gè)差距至少還需要一到兩年的時(shí)間來(lái)彌補(bǔ)。生成效果上,后者的水平大約相當(dāng)于前者兩年前的水平,這包括生成圖像的質(zhì)量和抖動(dòng)性等方面。目前主要以生成短視頻為主,生成長(zhǎng)視頻時(shí),一般是通過(guò)合成短視頻并添加滑動(dòng)窗口等工程技術(shù)來(lái)實(shí)現(xiàn)。就原理性技術(shù)而言,并沒有突破 "stable diffusion" 框架,即以 CLIP 和 transform 為基礎(chǔ)加上擴(kuò)散技術(shù)的框架。

多模態(tài)生成之3D創(chuàng)作

除了視頻,人們也自然而然地關(guān)注到了三維圖像生成。在某種程度上,文本到三維生成比文本到視頻生成更成熟。當(dāng)然,生成復(fù)雜的建筑模型(如天安門廣場(chǎng))比較困難,但是生成一只貓、一只狗等小物件的效果是可行的,至少可以幫助動(dòng)畫師快速創(chuàng)建初始模型,進(jìn)一步的編輯也變得更加容易。因此,目前對(duì)于三維圖像生成這個(gè)領(lǐng)域的關(guān)注度也相對(duì)較高。雖然今年的論文也有開始做 3D diffusion 的,但是現(xiàn)在可控性更強(qiáng)的還是以 GAN 為基礎(chǔ)的生成技術(shù)。

數(shù)字人技術(shù)是元宇宙的重要技術(shù)

目前,數(shù)字人是最近最受關(guān)注和應(yīng)用最廣泛的領(lǐng)域之一。去年元宇宙的興起使得數(shù)字人成為了熱門話題,因?yàn)閿?shù)字人被稱為進(jìn)入元宇宙的入口。因此,各個(gè)公司都高度關(guān)注數(shù)字人,市場(chǎng)上已經(jīng)有數(shù)百家數(shù)字人公司或團(tuán)隊(duì),學(xué)校也在進(jìn)行相關(guān)研究。

數(shù)字人:語(yǔ)音驅(qū)動(dòng)真實(shí)化身

我們?cè)缭谝荒昵熬烷_始研究數(shù)字人,并取得了一定的領(lǐng)先。其中嘴型對(duì)齊是一個(gè)最具挑戰(zhàn)性的問(wèn)題,今年大家基本上都解決了這個(gè)問(wèn)題。所以說(shuō),領(lǐng)域的進(jìn)展程度是可見的,只要你敢于展示你的成果,很快就會(huì)被接受和認(rèn)可。我們的工作早期就已經(jīng)在學(xué)術(shù)論壇上進(jìn)行了討論,所以引起了一些關(guān)注,包括一些創(chuàng)業(yè)公司聯(lián)系我們,希望我們參加他們的創(chuàng)業(yè)賽道,這可能對(duì)其他人也有一些啟發(fā)。

數(shù)字人:語(yǔ)音驅(qū)動(dòng)虛擬化身

去年,參加世界人工智能大會(huì)的時(shí)候,有一個(gè)對(duì)嘴型的競(jìng)賽,重點(diǎn)是給定一個(gè)平均模型,大家使用各自的模型進(jìn)行對(duì)齊。因此,一些項(xiàng)目更注重驅(qū)動(dòng)模型而不是仿真人。我們?nèi)ツ暌矃⒓恿诉@個(gè)競(jìng)賽,在這方面取得了一些進(jìn)展。

2D數(shù)智人:全流程交互式問(wèn)答助理

交互是最困難的部分。如 DEMO 所示,我們也初步嘗試了與 GPT 模型的交互,不過(guò)這里的視頻處理了一下延遲。實(shí)時(shí)交互的核心問(wèn)題是延遲。從問(wèn)題到 GPT 的回答之間會(huì)有接近兩秒的延遲,然后 TTS 合成也需要大約一秒的延遲,再將文字轉(zhuǎn)化為視頻,一般會(huì)緩沖 30-50 個(gè)字,所以延遲也會(huì)有幾秒鐘??傮w來(lái)說(shuō),現(xiàn)在的延遲已經(jīng)接近六七秒了。我們預(yù)計(jì)通過(guò)工程的方法可以將延遲減少到 3 秒左右,但要進(jìn)一步減少目前串行交互是不行的,我們還沒有找到解決這個(gè)問(wèn)題的方法。

直播的延遲可以消隱,但是實(shí)時(shí)交互則比較困難。我認(rèn)為下一步或者近期的重點(diǎn)是將實(shí)時(shí)通信(RTC)與這個(gè)技術(shù)結(jié)合起來(lái),即進(jìn)行具有可見參與者的強(qiáng)交互對(duì)話,這是一個(gè)比較大的挑戰(zhàn)。

多模態(tài)生成模型的思考

在這方面,我們有幾個(gè)小的思考。

首先,關(guān)于多模態(tài),目前我們主要以 GPT 為中心,但這是否是最佳方式?是否還有其他路徑或方法?這個(gè)問(wèn)題還沒有清晰的答案。

其次,很多人在問(wèn),當(dāng)GPT作家讀完了所有的書該怎么辦呢?意思是說(shuō)模型是否已經(jīng)達(dá)到了信息飽和的狀態(tài)。對(duì)于多模態(tài)的大型模型,是否會(huì)出現(xiàn)卷到天花板的情況?它的增長(zhǎng)速度會(huì)很快嗎?大家都在探索這個(gè)問(wèn)題。當(dāng)然,我要提醒的是,我們這里默認(rèn)的假設(shè)都是基于多模態(tài),每個(gè)公司都有自己的多模態(tài)模型,或者是一個(gè)超大規(guī)模的多模態(tài)模型。如果將多模態(tài)模型視為人一樣的話,個(gè)體的能力是有限的。而所有人的能力加起來(lái)可能不僅僅是模型本身的能力,還可能涉及到其他社會(huì)智能的涌現(xiàn)。這方面可能還比較早,所以從這個(gè)意義上來(lái)說(shuō),目前的智能還是以單個(gè)人為中心。當(dāng)然,這個(gè)人學(xué)習(xí)了很多知識(shí),但實(shí)際上還有很多其他智能,比如社交智能,在這種大型模型中還沒有得到充分展現(xiàn)。

最后,目前初步看來(lái)說(shuō)多模態(tài)的能力其實(shí)不如這個(gè)用單一模型在做,這個(gè)模型在做所有東西的對(duì)齊,這個(gè)路徑其實(shí)也是值得探索的。

-02-

多模態(tài)媒體編碼

沉浸式編碼標(biāo)準(zhǔn)

從媒體表達(dá)形式的角度來(lái)看,過(guò)去幾年主要關(guān)注的是從 360 度視頻到點(diǎn)云,特別是在最近兩年的元宇宙浪潮中,以視頻為中心的體積視頻成為了熱門話題。

MPEG 在 2021 年底啟動(dòng)了 MIV(Moving Immersive Video)項(xiàng)目,并在去年底發(fā)布,主要關(guān)注的是對(duì)體積視頻的編碼。MPEG 下一步開始關(guān)注類似 AIGC 或NeRF(Neural Radiance Fields)這種神經(jīng)表達(dá)技術(shù),這個(gè)領(lǐng)域正處于一個(gè)新舊轉(zhuǎn)換的時(shí)期。內(nèi)容的未來(lái)發(fā)展將肯定是朝向真正的 3D 表達(dá),而如何進(jìn)行 3D 表達(dá)的壓縮是一個(gè)重要的課題。

新趨勢(shì):基于隱式表達(dá)的沉浸式編碼

隱式表達(dá)可以作為一種緊湊的多視圖表達(dá)方式,它并不一定源自圖形學(xué),但它本身對(duì)于多視圖具有緊湊的表示能力。自然地,這種表達(dá)方式也可以用于呈現(xiàn)和壓縮。

我們的這篇工作中使用常規(guī)編碼方法對(duì)主視角進(jìn)行編碼,而使用隱式表達(dá)方法對(duì)其他系數(shù)視角進(jìn)行壓縮。這種方法與使用神經(jīng)網(wǎng)絡(luò)進(jìn)行圖像壓縮的本質(zhì)相同,但我們?cè)诖诉^(guò)程中壓縮的是坐標(biāo)、坐標(biāo)轉(zhuǎn)換以及視角之間的預(yù)測(cè),通過(guò)這種方式實(shí)現(xiàn)了模型參數(shù)之間的映射。通過(guò)將所有這些內(nèi)容放入一個(gè)隱式表達(dá)函數(shù)中,我們可以在進(jìn)行解壓縮時(shí)重新投影出選定的連續(xù)視角。因此,在某種程度上,我們將稀疏的數(shù)據(jù)轉(zhuǎn)化為連續(xù)函數(shù),并在其上進(jìn)行采樣。

基于隱式表達(dá)的人臉編碼

我們還探索了 3D 人臉編碼,將其轉(zhuǎn)化為隱式表達(dá)后,實(shí)現(xiàn)超低碼率壓縮。

試驗(yàn)結(jié)果表明,在碼率接近時(shí),NeRF 表達(dá)相比傳統(tǒng)的 MIV 在質(zhì)量上有明顯的提升。MIV 項(xiàng)目中的編碼器采用了 或 兩種版本,當(dāng)前工作比 表現(xiàn)更好,尚未超越 。

基于隱式表達(dá)的編碼效果

隱式表達(dá)還具有一個(gè)優(yōu)點(diǎn),就是生成的圖像合成是自然的。與傳統(tǒng)的貼圖不同,隱式表達(dá)能夠自帶光照屬性和視角變化,其渲染效果更加自然。從渲染的角度來(lái)看,NeRF方法比 MIV 的效果更好,甚至比 VVC 的效果更好一些。至于隱式表達(dá)在人臉合成上的應(yīng)用,NeRF 也有更好的效果。

最近,MPEG 已經(jīng)開展了一個(gè)工作組,專門探索使用 NeRF 進(jìn)行 6 自由度壓縮的方法及其可行性。這項(xiàng)工作可能需要大約一年的時(shí)間,如果證實(shí)這個(gè)方法具有潛力,將會(huì)啟動(dòng)新一代標(biāo)準(zhǔn)的制定過(guò)程。

新趨勢(shì):跨模態(tài)編碼

此外,在跨編碼和跨模態(tài)的應(yīng)用方面,近年來(lái)已經(jīng)有多種方法在進(jìn)行研究,一個(gè)熱門的研究課題是語(yǔ)義壓縮,不過(guò)這里需要與無(wú)線通信領(lǐng)域的語(yǔ)義編碼稍作區(qū)分。語(yǔ)義編碼的工作大多使用神經(jīng)網(wǎng)絡(luò)來(lái)處理信源部分,而信道部分的處理相對(duì)較少。因?yàn)檎Z(yǔ)義編碼主要指的是信源,而信道并不涉及語(yǔ)義問(wèn)題。

圖上這個(gè)工作是由北大馬思偉老師團(tuán)隊(duì)去年完成的。這項(xiàng)工作的主要目標(biāo)是在對(duì)一幅圖像進(jìn)行壓縮時(shí),能夠直接提取出其中的文字。當(dāng)然,將描述傳輸過(guò)去并重新生成圖像時(shí),可能會(huì)有一些細(xì)節(jié)的損失,導(dǎo)致生成的圖像與原圖不完全一樣。因此,為了保持圖像的結(jié)構(gòu)性,這項(xiàng)工作引入了 Sketch 和 Semantic map 的概念,用于引導(dǎo)圖像的生成。此外,生成圖像的能力本身也是一個(gè)重要的工程問(wèn)題,因?yàn)樵谏蛇^(guò)程中需要盡可能地恢復(fù)原圖的特征。從跨模態(tài)的角度來(lái)看,這個(gè)工作是有意義的。但是也許可以更直接一些,將這些信息從統(tǒng)一的大模型中提取出來(lái),而不需要進(jìn)行手工設(shè)計(jì)特征。

未來(lái):基于大模型的智能跨模態(tài)編碼?

我們有一個(gè)大膽的設(shè)想:未來(lái)的編碼器可能只需要一個(gè)統(tǒng)一的編碼器,不再需要單獨(dú)的音頻編碼器和視頻編碼器。目前的多媒體處理流程通常是先處理音頻,再處理視頻,然后將它們合并到一個(gè)容器中,最后進(jìn)行 MUX。對(duì)于跨模態(tài)的數(shù)據(jù),它們本身具有天然的對(duì)齊性,因此不再需要額外的同步處理。這意味著我們可以構(gòu)建一個(gè)統(tǒng)一的編碼器。

這個(gè)編碼器中的許多描述信息需要以描述符的形式進(jìn)行編輯。這些描述信息可能包含人類可理解或不可理解的內(nèi)容,但更像是元數(shù)據(jù)。在此基礎(chǔ)上,大模型也可以是一個(gè)增強(qiáng)模型,可以進(jìn)行預(yù)處理和后處理。統(tǒng)一編碼器 Codec GPT,再加上 Diffusion 的后處理,可以作為一個(gè)完整的數(shù)據(jù)表示。

在解碼時(shí),只需要根據(jù)需求提取所需要的模態(tài),不再需要每個(gè)模態(tài)單獨(dú)的容器。如果只需要視頻,那么可以僅提取視頻部分,或者可以提取其投影版本。如果想看 3D 內(nèi)容,那么可以提取 3D 投影。此外,結(jié)合之前提到的云邊端結(jié)合,這種模型可以部署在邊緣設(shè)備上,用戶可以與之交互并獲得所需內(nèi)容。這有可能變成一種新的數(shù)據(jù)交互形態(tài)。

大模型下的碼率和失真

從壓縮的角度來(lái)看,大模型還需要研究失真率的問(wèn)題。

關(guān)于圖像描述的信息量,在大約 12 年前,李飛飛老師提到了一個(gè)有趣的例子。我們可以根據(jù)不同的確定性水平進(jìn)行分類判斷,做出一個(gè)永遠(yuǎn)不會(huì)出錯(cuò)的識(shí)別系統(tǒng)。系統(tǒng)可以將一只鳥的照片時(shí),識(shí)別為“Bird”,或者在更高的確定性下識(shí)別為 "Small Bird";但如果確定性較低,則可以將其歸類為“Animal”。總之,我們可以完全用這種方式來(lái)描述大模型的工作原理。我們可以不斷地進(jìn)行追問(wèn),將其詳細(xì)化,而現(xiàn)在的穩(wěn)定擴(kuò)散進(jìn)化速度可能很快就能夠?qū)崿F(xiàn)準(zhǔn)確的對(duì)應(yīng)關(guān)系。因此,這仍然是一個(gè)值得思考的方向。

在壓縮方面,我們不一定只限于視頻,我們可以將大模型作為壓縮對(duì)象。以前的 CNN 等模型可以通過(guò)減少參數(shù)量、量化和低秩分解等方法來(lái)進(jìn)行輕量化部署。然而,壓縮大模型也存在一個(gè)問(wèn)題,就是模型的組件或者參數(shù)必須是固定的才能進(jìn)行壓縮。如果前面的組件仍在不斷變化中,那么進(jìn)行壓縮可能會(huì)變得多余。因此,對(duì)于大模型的壓縮,目前可能還存在觀望的態(tài)度。但是,如果大模型相對(duì)穩(wěn)定下來(lái)一段時(shí)間,那么肯定還會(huì)有進(jìn)行大模型壓縮的需求。關(guān)于大模型的壓縮方式,是事后進(jìn)行壓縮,還是在設(shè)計(jì)大模型時(shí)就考慮壓縮,我們可以觀察到一些模型的體積已經(jīng)大幅減小。例如,它們的尺寸可能減小了 1/10,甚至更多,而性能并不一定下降。這意味著原始模型中可能存在很多冗余。因此,大模型的失真實(shí)際上是指其中可能存在的冗余部分。

另一個(gè)關(guān)于大模型失真的問(wèn)題是,模型參數(shù)量與表達(dá)能力和生成能力之間的權(quán)衡。一般參數(shù)越多,能力越強(qiáng)。在許多場(chǎng)景中只需要識(shí)別出簡(jiǎn)單的語(yǔ)義,而為了人類觀看則希望達(dá)到更高的準(zhǔn)確性。因此,在這里可以找到大模型、失真和碼率之間的平衡點(diǎn),這是一個(gè)非常值得從壓縮的角度研究的課題。

大模型在編碼中需要做什么?

有人認(rèn)為大模型是對(duì)知識(shí)的粗略的有損壓縮,類似于 JPEG;如果要追求精確性,則模型會(huì)非常龐大。確實(shí),模型可以被看作是對(duì)世界的一種壓縮表達(dá),我們將全球的數(shù)據(jù)壓縮到一個(gè)知識(shí)點(diǎn)上。其他的東西實(shí)際上都可以看作是這個(gè)知識(shí)點(diǎn)的泛化,或者說(shuō)是這個(gè)知識(shí)點(diǎn)的一種簡(jiǎn)化投影,這才是事物的本質(zhì)。數(shù)據(jù)經(jīng)過(guò)訓(xùn)練,生成了模型,如果模型的吸收能力很強(qiáng),那么模型就完全理解了數(shù)據(jù),模型本身就是數(shù)據(jù),就是知識(shí)。

從這個(gè)意義上來(lái)看,傳統(tǒng)的編碼方法壓縮的是原始數(shù)據(jù),但原始數(shù)據(jù)從何而來(lái)呢?原始數(shù)據(jù)來(lái)自于世界,然后我們又用模型對(duì)其進(jìn)行了重構(gòu),發(fā)現(xiàn)重構(gòu)后又得到了一個(gè)模型。因此,這可能是同一個(gè)過(guò)程。也就是說(shuō),傳統(tǒng)壓縮和大模型壓縮可能是等效的,所以通過(guò)構(gòu)建大模型,我們可能同時(shí)解決了壓縮的問(wèn)題。這是一個(gè)邏輯上的推測(cè),不一定成立。

編碼與生成

編碼和生成可以被看作是大模型的 encode 和 decode 過(guò)程。也就是說(shuō)解碼過(guò)程可能對(duì)應(yīng)推理,而編碼則對(duì)應(yīng)深度訓(xùn)練。它們有相似之處,也有不同之處。實(shí)際上,編碼可以用來(lái)預(yù)測(cè)新的源分布,因此在進(jìn)行編碼時(shí),本質(zhì)上是在預(yù)測(cè)最大可能性的自然輸出。在更高的視角,在高維空間中進(jìn)行對(duì)齊時(shí),數(shù)據(jù)的某個(gè)維度只是一種條件概率或者一個(gè)投影,這是一種降維。當(dāng)然,編碼模型對(duì)嵌入也存在一定的約束,這時(shí)也可以將嵌入視為類似于超參數(shù),將其引入到 RD 中作為一種約束。

另一方面,如果編碼模型向多模態(tài)發(fā)展,可能并非線性增長(zhǎng)的問(wèn)題,即在一定性能下不再提升。實(shí)際上,使用單模態(tài)可能已經(jīng)達(dá)到了飽和點(diǎn)。因此,它會(huì)帶來(lái)很多啟發(fā),也有許多問(wèn)題需要回答。

-03-

模態(tài)媒體交互

Real-Time Communication

過(guò)去幾年,特別是去年和前年,RTC(實(shí)時(shí)通信)是非常熱門的技術(shù)?,F(xiàn)在我們?cè)倩剡^(guò)頭看看 RTC 和 AIGC 之間的關(guān)系,會(huì)有一些有趣的發(fā)現(xiàn)。

目前我們更多地關(guān)注的是所謂的“”階段。這意味著中間的交互變得比以前更強(qiáng)大,無(wú)論是語(yǔ)音游戲、直播、視頻會(huì)議還是共同參與元宇宙。暢想一下,當(dāng) RTC 與 AIGC 結(jié)合起來(lái),可能會(huì)涉及到人工智能的代理人出鏡。在會(huì)議中、在購(gòu)物領(lǐng)域,在數(shù)字人的展示中,我們可能不再是真人在觀看,而是數(shù)字人在觀看,讓代理人參加會(huì)議。

這帶來(lái)了一個(gè)巨大的變革,交互性將變得更強(qiáng)大,交互的頻率和維度也會(huì)大大增加。以前的視頻會(huì)議中,即使有幾千人參與一個(gè)會(huì)話,大部分人都是聽眾,只有很少一部分人進(jìn)行交互。但在與 AIGC 結(jié)合的情況下,如果所有交流都是與 AI 對(duì)象進(jìn)行的,那么交互頻率將是雙向的,非常對(duì)等。

基于云端代理的多模態(tài)交互

在這種新形態(tài)下,傳遞信息的方式可能不再局限于音視頻傳輸,而音視頻傳輸可能不再是一個(gè)挑戰(zhàn)。傳遞信息的都是代理人,是模型與模型在進(jìn)行對(duì)話。在用戶和代理人之間的對(duì)話中,代理人只需提供摘要,并不需要每秒 30 幀這樣高的數(shù)據(jù)量。

基于云端代理的多模態(tài)交互

如果將所有的交互變成代理之間的交互,這就給業(yè)務(wù)場(chǎng)景帶來(lái)顛覆,RTC 技術(shù)體系中也會(huì)有較大的變化。例如,控制信息會(huì)更多,可能只控制參數(shù),而不是數(shù)據(jù)的傳輸。我們現(xiàn)在使用的內(nèi)容中可能已經(jīng)有了很多前向糾錯(cuò)編碼(FEC)的同步邏輯,但是算法會(huì)有大的變化。用戶需要與數(shù)字實(shí)體、數(shù)字人的代理進(jìn)行綁定,而不是僅僅與音視頻傳輸?shù)漠嬞|(zhì)和音質(zhì)變化相綁定。因此,這里將涉及許多值得探討的新課題。

- RTC架構(gòu):AICU

我們可以將 RTC 和 AI 結(jié)合起來(lái),成為 ,以新的“AICU”架構(gòu)代替 RTC 原有的 MCU 和 SF 模式。在 AIGC 時(shí)代,當(dāng) Agent 之間進(jìn)行會(huì)議時(shí),它們之間的傳輸機(jī)制,無(wú)論是 P2P、CDN 還是現(xiàn)在的 RTN,都可以有新的發(fā)展,煥發(fā)新的生機(jī)。

新一代多模態(tài)媒體容器

此外,容器也會(huì)有重大變化,多媒體數(shù)據(jù)的標(biāo)識(shí)解析將起到更大的作用。我們現(xiàn)在使用的諸如 HLS 等技術(shù),不同模態(tài)在不同的通道保存。在未來(lái),容器中的數(shù)據(jù)可能只是一些源數(shù)據(jù)、控制指令和腳本。這種新的視頻內(nèi)容會(huì)與游戲領(lǐng)域的一些技術(shù)相結(jié)合,如果大家關(guān)注游戲的話,肯定知道 Meta 正在推動(dòng)的開放 USD 格式。這個(gè)文件很可能為我們提供一個(gè)機(jī)會(huì),將這種新型視頻內(nèi)容與文件容器進(jìn)行融合。容器中可以包含腳本,這些腳本可以驅(qū)動(dòng)、運(yùn)行,也可以通過(guò) prompt 生成或替換。這才能真正實(shí)現(xiàn)交互時(shí)代的內(nèi)容。以前這些東西都是流媒體思維的產(chǎn)物,流媒體的思路并沒有改變過(guò)。但如果要變成交互類型的內(nèi)容,所有這些東西都需要重構(gòu)。

關(guān)鍵詞

上一篇:8月31日有色金屬早班車 最后一頁(yè)下一篇:

推薦內(nèi)容