自“深度學(xué)習(xí)革命”以來,人工智能(Artificial Intelligence,以下簡稱AI)就進(jìn)入了高速發(fā)展階段。尤其是在生成式人工智能ChatGPT橫空出世之后,AI技術(shù)的進(jìn)步更是日新月異,幾乎每一天都有新的AI模型涌現(xiàn)。
21世紀(jì)初,著名未來學(xué)家雷·庫茲韋爾曾預(yù)言,2045年前后人們將迎來“奇點”,屆時AI的智能將全方位超越人類。而隨著AI能力的突飛猛進(jìn),他已經(jīng)將“奇點”來臨的預(yù)計時間提前到了2029年。當(dāng)AI的能力接近或超越人類之后,其衍生的風(fēng)險也會陡然增加,而人類對其的限制又會變得十分困難。在這樣的背景下,“人工智能對齊”(以下簡稱AI對齊)就成為當(dāng)前AI界最為關(guān)注的問題之一。
AI對齊的挑戰(zhàn)
所謂AI對齊,簡而言之,就是確保AI能理解人類的規(guī)范和價值,懂得人類的意愿和意圖,按照人類的意志行事。表面上看,這似乎并非難事,畢竟AI的程序是由人設(shè)定的,人會設(shè)定一個違背自己利益的目標(biāo)嗎?但事實上答案并沒有那么簡單,原因有二。
一方面,人類在為AI設(shè)定行為目標(biāo)和規(guī)范時,通常難以全面、正確地表述自己的利益關(guān)切,這就給AI違背人類利益留下了空間??茖W(xué)哲學(xué)家尼克•波斯特羅姆曾提出一個名為“宇宙回形針”的思想實驗。假想人類制作了一個以回形針產(chǎn)量最大化為目標(biāo)的AI,那么它將用盡一切方法來達(dá)成這個目標(biāo),甚至為了將更多的資源用于生產(chǎn)回形針,不惜消滅人類。這個思想實驗中,生產(chǎn)回形針這件事本身是符合人類利益的,但最終的結(jié)果將可能嚴(yán)重?fù)p害人類利益。
另一方面,人類通常會賦予AI很大的自我學(xué)習(xí)和改進(jìn)空間,這就可能讓AI偏離原本設(shè)定的價值觀,受到各種不良價值觀的影響,導(dǎo)致其目標(biāo)與人類的根本利益相偏離。
因此,人們很難通過簡單地事先設(shè)定規(guī)則來保證AI行為可以持續(xù)符合人類利益。尤其是在AI能力不斷增進(jìn)、超級智能體即將誕生的背景下,AI對齊這一任務(wù)將會變得越來越艱巨。
儒家和法家的治國智慧
AI對齊應(yīng)該如何實現(xiàn)?在我看來,歷史的經(jīng)驗非常有啟發(fā)價值。人們曾創(chuàng)造過很多力量超越自己的實體,其中最重要的一個就是國家。國家設(shè)立的初衷應(yīng)當(dāng)是為人的利益服務(wù)的,但一旦國家建立后,它的力量就遠(yuǎn)超個人,要駕馭它會變得越來越困難。如何進(jìn)行國家治理才能使之符合社會主流群體的利益,成了自古以來的仁人志士競相思考的問題。作為一個擁有數(shù)千年歷史的國家,我國最有代表性的兩套方案分別來自儒家和法家。
總體上看,儒家的治國方案強(qiáng)調(diào)從價值觀入手,通過將道德規(guī)范內(nèi)化到國民、尤其是統(tǒng)治者的內(nèi)心,來保證他們行為的規(guī)范化,以此維持國家的健康運作。在這個過程中,“仁”與“禮”這兩個概念十分關(guān)鍵。
我們很難對“仁”給出精確的定義。但大致上,它可以被理解為儒家所主張的道德準(zhǔn)則,尤其是在處理與他人關(guān)系時所秉承的態(tài)度。在孔子關(guān)于“仁”的諸多論述中,有兩處最為重要:一是“仁者愛人”,二是“己所不欲,勿施于人”。從某種意義上看,這兩處論述其實可以作為檢驗一種行為是否能被稱為“仁”的動機(jī)標(biāo)準(zhǔn)和行為標(biāo)準(zhǔn)。只有當(dāng)一個做法在動機(jī)上是為了追求“愛人”,而行為上并沒有將自己厭惡的事物強(qiáng)加到其他人身上,才可以被稱為“仁”。
“禮”的概念相對清晰,它所關(guān)注的主要是社會的等級秩序。以孔子為代表的儒家學(xué)者認(rèn)為,一個良性運作的國家是等級清晰、分工明確的,只要所有國民都按照這套等級秩序各從其位、各司其職,國家和社會就可以正常地、有效率地運作。所以《禮記》中將“禮”稱為“君之大柄”。
在推行“仁”與“禮”的過程中,有兩樣工作十分重要:一是教化。通過教化,可以讓“仁”的觀念和“禮”的規(guī)范內(nèi)化到人們的心中,讓他們的行為與之相符合。二是示范。在儒家學(xué)者看來,統(tǒng)治階級尤其是君主,應(yīng)當(dāng)首先讓自己通過教化達(dá)到很高的道德水準(zhǔn),作為國家的核心,他們將對全國起到道德表率作用。
如果說儒家的治國之道強(qiáng)調(diào)的是內(nèi)在道德的柔性調(diào)節(jié),那么法家的治國之道強(qiáng)調(diào)的就是外在法規(guī)的剛性規(guī)制。
法家學(xué)者十分強(qiáng)調(diào)以法治國的重要性。在他們看來,僅依靠儒家的仁政和德治很難保證國家的順利運行,而法治的引入則可以大幅降低國家治理的成本和難度。在法律的制定上,法家強(qiáng)調(diào)剛性、透明、一視同仁,所謂“法不阿貴,繩不撓曲。法之所加,智者弗能辭,勇者弗敢爭。刑過不辟大臣,賞善不遺匹夫”。在法律的執(zhí)行上,法家主張采用強(qiáng)激勵、強(qiáng)刺激的獎罰來引導(dǎo)人的行為。韓非子曾將“刑”與“德”稱為“二柄”。在他看來,人的本性都是“畏誅罰而利慶賞”的,因而通過對過錯的懲罰和對功績的獎賞就可以有效地讓人們的行為符合法治的要求。
除了強(qiáng)調(diào)表面的法律和賞罰之外,法家還主張用權(quán)謀之術(shù)作為社會控制的輔助手段。與法需要明確示人不同,術(shù)被認(rèn)為需要“藏之于胸中,以偶眾端而潛御群臣者也”,就是要利用信息優(yōu)勢引導(dǎo)民眾的行為。
歷史上,儒法兩家的治國思想都長期被古代的統(tǒng)治者使用。我國的文明可以傳承千年,很大程度上就得益于這兩種治國理念的有機(jī)結(jié)合。
儒法之道對AI對齊的啟示
目前,AI領(lǐng)域習(xí)慣于將AI對齊等同于AI價值對齊,即通過讓AI智能體的價值觀與人類一致來保證它們的行為符合人類的根本利益。對于AI價值對齊的實現(xiàn),存在兩種主流思路:一種是“人類反饋的強(qiáng)化學(xué)習(xí)”(RLHF),另一種則是“憲法人工智能”(CAI)。在使用RLHF時,設(shè)計師會先用人工訓(xùn)練一個規(guī)模較小的AI模型,通過訓(xùn)練者對AI行為的持續(xù)反饋來實施強(qiáng)化學(xué)習(xí),引導(dǎo)它的價值觀與設(shè)計者預(yù)期相一致。然后,再用這個小模型充當(dāng)“教練”,用強(qiáng)化學(xué)習(xí)來對更大規(guī)模的AI模型進(jìn)行訓(xùn)練。而在使用CAI時,設(shè)計者則會先設(shè)定一個AI模型必須遵循的“憲法”,并根據(jù)“憲法”去生成各種場景下AI需要遵循的行為準(zhǔn)則,然后用這些準(zhǔn)則對AI模型生成的不同結(jié)果進(jìn)行評判,對符合“憲法”的結(jié)果給予相應(yīng)獎勵,而對違背“憲法”的結(jié)果則給予相應(yīng)處罰。
如果我們將AI價值對齊與儒家的治國之道進(jìn)行比較,就會發(fā)現(xiàn)兩者有明顯的相似之處。從理念上看,兩者都試圖從價值觀入手調(diào)節(jié)主體的行為——儒家治國理念是用價值觀去規(guī)范國民行為,進(jìn)而對國家的總體行為進(jìn)行引導(dǎo);AI價值對齊則是希望通過調(diào)節(jié)價值觀來規(guī)范AI智能體的行為。從具體做法上看,兩者也有很多類似之處。比如,RLHF先訓(xùn)練小模型,然后再用其訓(xùn)練大模型,就頗為類似儒家用教化規(guī)范君子行為,再讓君子來教導(dǎo)、示范更廣大國民的做法;而CAI的訓(xùn)練思路就十分類似于儒家用禮法和倫理綱常作為行為參照的做法。
既然AI價值對齊與儒家的治國之道有這么多相似之處,那么前者是否可以從后者那里獲得更多的啟示呢?答案當(dāng)然是肯定的。比如,現(xiàn)階段AI價值對齊工作中有個十分困難的問題,就是究竟應(yīng)該讓AI對齊哪種價值觀?,F(xiàn)實中,人的價值觀十分多元,并不存在一種可以被所有人公認(rèn)的價值觀。因而讓AI選擇對齊某一類人的價值觀,就可能傷害另一部分人的利益。這種情況下,儒家關(guān)于“仁”的定義似乎可以為訓(xùn)練者挑選對齊的準(zhǔn)則提供一些有益的見解。如前所述,一種“仁”的行為應(yīng)該滿足動機(jī)上的“愛人”,以及表現(xiàn)上的“己所不欲,勿施于人”。用這兩個標(biāo)準(zhǔn)去篩選,就可以有效地排除一些偏激狹隘的價值觀。
另外,正如我們看到的,在傳統(tǒng)的治國之道中,儒家的解決方案僅是其中的一種思路,法家的解決方案同樣有很高的價值。這啟示我們,除了從AI智能體本身的價值觀入手外,通過設(shè)定AI智能體之間的運行規(guī)則也可以有效引導(dǎo)它們的行為。舉例來說,如果希望兩個AI智能體公平地分一個蛋糕,我們并不需要讓這兩個AI智能體都從價值觀上接受公平,只要讓其中的一個AI智能體負(fù)責(zé)切蛋糕,而讓另一個AI智能體先選蛋糕就可以了。在文獻(xiàn)中,這種通過規(guī)則來實現(xiàn)AI對齊的思路被稱為“激勵相容對齊”。
“激勵相容對齊”的思路和法家的治國之策有很多相似之處。目前,研究人員已經(jīng)將經(jīng)濟(jì)學(xué)中的機(jī)制設(shè)計、契約理論、信息設(shè)計等理論引入AI對齊領(lǐng)域,以達(dá)到“激勵相容對齊”的效果。在這種情況下,法家的很多理念都可以被用來為AI對齊提供有益的參考。比如,在目前的無人駕駛系統(tǒng)規(guī)劃中,設(shè)計師就主要通過設(shè)定規(guī)則和違背規(guī)則的懲罰來調(diào)節(jié)其運作,而并不強(qiáng)調(diào)單個無人車的價值對齊;而一些利用“貝葉斯勸說”理論來調(diào)控AI智能體的努力,則幾乎與法家利用信息優(yōu)勢控制社會的做法不謀而合。
總而言之,雖然AI對齊是一個全新的領(lǐng)域,但儒家和法家關(guān)于治國的傳統(tǒng)智慧依然可能為其提供有益的啟示。