導(dǎo)語:形機(jī)器將是下代終端。具智能機(jī)器的出現(xiàn)才會是真正的「iPhone」時刻。
時至8月,火熱了半年之久的AI賽道,已儼然顯示出了降溫之勢。
可就在這個關(guān)頭,由號稱華為天才少年——稚暉君打造的人形AI機(jī)器人——「遠(yuǎn)征A1」卻赫然登場,用一系列亮眼的特點,振奮了已顯冷淡的AI賽場。
【資料圖】
舞臺之上,這個邁著小碎步入場的機(jī)器人,引來了整個行業(yè)的關(guān)注。
而這個由智元機(jī)器人(Agibot)發(fā)布的具身智能機(jī)器人,之所以能在業(yè)內(nèi)引起如此大反響,則是因為其具備了最新的AI大模型能力。
根據(jù)稚暉君在發(fā)布會上展示的內(nèi)容,靈巧自如的遠(yuǎn)征A1,不但能做家務(wù)、制備實驗樣本,甚至還能勝任看護(hù)老人這類需要“體貼”的工作。
那么,這個看似“面面俱到”的AI機(jī)器人,究竟是如何在不同環(huán)境中,勝任各種復(fù)雜工作的?
其所代表的AI+具身機(jī)器人賽道,是否真的代表了未來AI的方向?抑或只是像元宇宙那樣,成為一個難以落地的“概念化”產(chǎn)品?
“人形”的必要性
在討論人形機(jī)器人的未來之前,有一個需要明確的問題是:為什么人類總是傾向于將機(jī)器人設(shè)計成人形?
對于這個問題,稚暉君表示,原因就在于“從第一性原理出發(fā),人形雙足機(jī)器人是人類環(huán)境中最為通用的終極形態(tài)!”
換句話說,機(jī)器人要想真正進(jìn)入人類的生活,就得適應(yīng)各種為人體形態(tài)量身打造的場景、設(shè)備、任務(wù)。
例如,具身機(jī)器人如果想幫人類操作儀器,抓握東西,那就必須具備人類那樣靈巧的手指;
如果它想在城市環(huán)境中,邁過各種樓梯、臺階,那就得具備和人類一樣能彎曲的膝蓋。
而要想實現(xiàn)這樣的靈活性、協(xié)調(diào)性,就必須在機(jī)器人的硬件構(gòu)成上,進(jìn)行一系列重要的設(shè)計。在這方面,智元機(jī)器人較為獨特的技術(shù)之一,就是諧波一體關(guān)節(jié)。
這是機(jī)器人的傳動裝置,用來降低轉(zhuǎn)速、增大扭矩等,相當(dāng)于人類的「關(guān)節(jié)」。
一般來說,機(jī)器人的結(jié)構(gòu)和關(guān)節(jié),決定了它的自由度,
而自由度是指機(jī)器人的運動能力,也就是機(jī)器人能夠獨立控制的運動變量的個數(shù)。
自由度越高,機(jī)器人的運動越靈活,越能適應(yīng)各種復(fù)雜的環(huán)境和任務(wù)。
目前,遠(yuǎn)征A1的自由度超過了49個,手部有12個主動自由度。
而相較之下,馬斯克的“擎天柱”人形雙足機(jī)器人全身有200多個自由度,手部27個自由度。
雖與世界頂尖機(jī)器人有著一定差距,但六個月的時間,能做到這個地步,也實屬可觀了。
而除了自由度之外,另一個衡量人形機(jī)器人的指標(biāo),就是其關(guān)節(jié)的“控制扭矩”,
控制扭矩主要決定了機(jī)器人的運動力量,也就是機(jī)器人能夠產(chǎn)生多大的轉(zhuǎn)動力來驅(qū)動關(guān)節(jié)和執(zhí)行器。
如果類比成人類的能力,相當(dāng)于人的肌肉力量,就是肌肉產(chǎn)生多大的推拉、舉起、扭轉(zhuǎn)等動作的能力。
在這方面,遠(yuǎn)征A1一體化自研的矢量控制驅(qū)動器,整體的控制扭矩可以容易地超過350Nm。
而這樣的控制扭矩,則是由智元機(jī)器人自研的PowerFlow關(guān)節(jié)電機(jī)造就的。
PowerFlow關(guān)節(jié)電機(jī)創(chuàng)新性的液冷循環(huán)散熱系統(tǒng),可以有效地將電機(jī)內(nèi)部產(chǎn)生的熱量通過液體傳導(dǎo)到外部的散熱器,從而降低電機(jī)的溫度和阻抗,提高電機(jī)的效率和穩(wěn)定性。
這樣,電機(jī)就可以在更高的功率密度和扭矩下運行,而不會過熱或損壞。
同時,PowerFlow關(guān)節(jié)電機(jī)還采用了徑向磁通的外轉(zhuǎn)子電機(jī)方案。
因為在這樣的方案中,轉(zhuǎn)子組件固定在內(nèi)部,并且磁場方向沿著半徑方向分布,磁場能量更集中,繞組和鐵芯的散熱效果更好。
除此之外,遠(yuǎn)征A1在核心部件上的創(chuàng)新,還包括了指尖傳感器末端的視覺閉環(huán),基于強(qiáng)化學(xué)習(xí)的運控算法等。
可以說,正是這一系列的創(chuàng)新,賦予了其自如、靈活的運動能力。
但如果想與傳統(tǒng)機(jī)器人拉開差距,僅僅有一幅靈巧的身軀是不夠的。
在AI技術(shù)日新月異的當(dāng)下,一個具備高度智能的“大腦”,就成了具身機(jī)器人必備的組成部分。
更智慧的大腦
如果要為傳統(tǒng)機(jī)器人,與當(dāng)下新出現(xiàn)的具身機(jī)器人劃一個明確的分水嶺,那這樣的分水嶺,則無疑是大模型技術(shù)的應(yīng)用。
傳統(tǒng)的機(jī)器人,指的是那些主要依靠預(yù)先編程和固定規(guī)則來工作的機(jī)器人,它們通常只適合于重復(fù)性、確定性和簡單性的任務(wù),例如工業(yè)生產(chǎn)線上的裝配、搬運、焊接等。
在大模型興起之前,傳統(tǒng)機(jī)器人在執(zhí)行各種復(fù)雜任務(wù)時,往往都存在著各種局限與短板。
例如:由于缺乏自適應(yīng)能力,傳統(tǒng)的機(jī)器人很難應(yīng)對環(huán)境和任務(wù)的變化,它們需要經(jīng)常重新編程和調(diào)整,才能適應(yīng)新的情況。
倘若要讓傳統(tǒng)的機(jī)器人從盒子里取出一個物體,就必須事先告訴它盒子和物體的位置、形狀、大小、重量等信息,否則它可能無法完成任務(wù)。
而大模型與機(jī)器人技術(shù)的結(jié)合,則打破了這以往的限制與弊端。
具備強(qiáng)大的語義理解、邏輯推理、圖像識別的超大參數(shù)大模型, 不僅可以讓機(jī)器人編排整個任務(wù),還能動態(tài)調(diào)整任務(wù)。
比如,讓機(jī)器人把桌上垃圾扔到垃圾桶里,不再需要告訴它垃圾是什么、垃圾桶是什么,所有的知識都來自預(yù)訓(xùn)練GPT的模型。
憑借著龐大的先驗知識庫和通識理解能力,機(jī)器人就能原有的能力泛化到更通用的場景中。
除此之外,在稚暉君看來, 大模型對于機(jī)器人最重要的價值,就是復(fù)雜語義多級推理能力,所謂的“思維鏈”。
例如,如果要讓一個機(jī)器人去廚房做一盤煎蛋,它就需要通過思維鏈來理解煎蛋的定義和制作方法,包括所需的原料、工具、步驟等。
同時,它還要分析當(dāng)前的環(huán)境和狀態(tài),包括廚房的布局、物品的位置,規(guī)劃出一條最優(yōu)路徑。
最后,則是按照預(yù)設(shè)的程序或者實時的反饋,完成打蛋、下鍋等操作。
這種“思維鏈”能力,可以讓機(jī)器人通過一句簡單的指令,在真實世界中執(zhí)行一系列復(fù)雜的任務(wù)。而這正是傳統(tǒng)機(jī)器人走向通用機(jī)器人的曙光。
也正因如此,遠(yuǎn)征A1除了可以在汽車產(chǎn)線中從事底盤裝配、外觀檢測等傳統(tǒng)工作外,一個最大的突破,就是具備了面向C端的陪護(hù)和照看功能。
在家庭場景中,遠(yuǎn)征A1,不但可以在烹飪場景中磕雞蛋,還能照顧老人、幫助老人吃藥,還能幫孩子輔導(dǎo)功課。
通過其強(qiáng)大的語義理解、邏輯推理、圖像識別等能力,大模型可以為機(jī)器人提供一個統(tǒng)一和高效的思維鏈框架,使其能夠在海量的數(shù)據(jù)上學(xué)習(xí)通用和特定的知識、技能,并在不同的任務(wù)上進(jìn)行遷移和泛化。
市場前景
那么,在具備了更靈活的運動能力、和更強(qiáng)的泛化性、通用性后,具身機(jī)器人的市場前景究竟如何?
或許,從各個科技巨頭對該領(lǐng)域的相關(guān)布局中,我們就可看到一些端倪。
2022年8月,特斯拉宣布將在該年特斯拉AI day上發(fā)布全尺寸仿生人形機(jī)器人Optimus 。
同月,小米全尺寸人形機(jī)器人CyberOne正式發(fā)布。宣傳片中,昵稱為「鐵大」的機(jī)器能夠獨立行走、彎腰,完成抓取等簡單動作。
而今年6月,騰訊發(fā)布了旗下機(jī)器人工作室Robotics X研發(fā)的四足機(jī)器人Max的最新視頻。
其自主研發(fā)的多模態(tài)四足機(jī)器人“機(jī)器狗Max”再度得到升級,動作、行為都更加接近真實動物。
同樣的,近期華為也成立了“極目機(jī)器”,布局機(jī)器人與智能制造,注冊資本8.7億,經(jīng)營范圍包含電子元器件制造、工程和技術(shù)研究和試驗發(fā)展等。
種種跡象表明,眾多巨頭科技公司紛紛看好仿生機(jī)器人,行業(yè)正火熱發(fā)展中。
實際上,人形AI機(jī)器人的興起,并非僅僅是由于大模型的“火熱”所致,而是科技發(fā)展的內(nèi)在規(guī)律。
正如個人終端從臺式電腦到個人電腦,再到手機(jī)的發(fā)展趨勢一樣,每一代終端的迭代,都意味著人類將更多的功能,集合到了統(tǒng)一的平臺中。
時至今日,手機(jī)幾乎成了這樣一個平臺的終極形態(tài),因為其在一塊小小的屏幕中,集合了人們?nèi)粘K璧馁徫?、視頻、社交、學(xué)習(xí)等各種功能。
然而,人形AI機(jī)器人的出現(xiàn),則填補了此前所有平臺都無法彌補的空缺:即與真實的物理世界互動的能力。
也正因如此,巨頭們相繼推出機(jī)器人產(chǎn)品,并非趕熱點,而更多是之前即有的布局。
既然如此,在這場新的產(chǎn)業(yè)競爭格局中,各個入場玩家們的潛力和競爭態(tài)勢究竟怎樣?
此前,科技媒體量子位,從量產(chǎn)和資本能力兩方面,對目前行業(yè)內(nèi)玩家及現(xiàn)狀進(jìn)行了分析,并繪制了一個頗為清晰的象限圖。
按照這樣的劃分,國內(nèi)機(jī)器人領(lǐng)域的各個玩家,大致可分為三個象限。
第一象限,主要是有強(qiáng)勁資本撐的明星企業(yè),如騰訊、小米和大疆等。這類企業(yè),往往擁有雄厚的資金、技術(shù),并且具備可觀的量產(chǎn)能力,可以在沒有量產(chǎn)壓力的情況下,不計成本研發(fā)原型機(jī),推動行業(yè)技術(shù)發(fā)展。
第二象限,則是有潛力有技術(shù)的小型公司,這樣的企業(yè)通常都具有校背景,并且產(chǎn)品專注于某一領(lǐng)域。如從機(jī)器寵物的角度切入的大象機(jī)器人,以及專注與航天、軍工等科研領(lǐng)域的鋼鐵俠科技。
而第三象限,則是產(chǎn)品未實現(xiàn)量產(chǎn),但卻因資本于對其技術(shù)力的高度信任,而獲得大量投資的企業(yè),如開篇提到的智元科技。
從這樣的產(chǎn)業(yè)格局來看,國內(nèi)的機(jī)器人企業(yè),已經(jīng)涵蓋了從高到低,從2B到2C的完整生態(tài)鏈。
而在大模型的賦能下,一個可預(yù)見的產(chǎn)業(yè)趨勢,則是機(jī)器人會在2C端的服務(wù)領(lǐng)域,向著更多元的方向發(fā)展。
此前,清華學(xué)交叉信息研究院教授陳建宇曾說:“人形機(jī)器將是下一代終端。 具身智能機(jī)器人的出現(xiàn)才會是真正的「iPhone」時刻?!?/p>
在國內(nèi)機(jī)器人百花齊放的生態(tài)下,具身機(jī)器人的發(fā)展,就像一場自然界充滿了未知與驚奇的進(jìn)化,當(dāng)參與進(jìn)化的個體數(shù)量足夠多時,神奇的突變也終將會在某一刻顯現(xiàn)。