人工智能從1952年發(fā)展到現(xiàn)在,經(jīng)歷了概念人工智能、玩具人工智能、統(tǒng)計人工智能、真實人工智能、通用人工智能等階段。特別是阿爾法狗(AlphaGo)、阿爾法折疊(AlphaFold)、ChatGPT和Sora等人工智能產(chǎn)品的相繼發(fā)布,開啟了現(xiàn)代人工智能的新篇章。以多模態(tài)異構(gòu)數(shù)據(jù)生成式大模型為基座的通用人工智能技術(shù)已成為行業(yè)發(fā)展的趨勢?,F(xiàn)代人工智能技術(shù)大致可以分成兩個主要代表類型:一是以美國開放人工智能研究中心(OpenAI)大語言生成模型為代表的通用智能系統(tǒng);二是以谷歌旗下人工智能公司深度思考(DeepMind)為代表的科學(xué)研究的賦能范式,即科學(xué)研究的自動化方法。

人工智能的發(fā)展對學(xué)科建設(shè)和人才培養(yǎng)提出了新要求、帶來了新機遇,但是我們要抱有嚴(yán)謹(jǐn)和清醒的態(tài)度。

人工智能的發(fā)展現(xiàn)狀

人工智能發(fā)展需要有算法、算力、工程、數(shù)據(jù)、市場五個主要要素,但歸根結(jié)底取決于人才。我國在人工智能領(lǐng)域中等水平的人才儲備較為豐富,但頂級人才極其匱乏。高科技的發(fā)展不能采取田忌賽馬的方式,重大創(chuàng)新性成果往往取決于最優(yōu)秀的人才。我國發(fā)展通用人工智能面臨的主要問題是同時精通算法和工程實現(xiàn)的頂級人才稀缺。

現(xiàn)代人工智能技術(shù)是通過機器學(xué)習(xí)及由其驅(qū)動而發(fā)展起來的計算機視覺、自然語言處理和語音識別技術(shù)來實現(xiàn)多模態(tài)數(shù)據(jù)融合的現(xiàn)實交互。因此,算法層面目前主要牽涉機器學(xué)習(xí)、計算機視覺、自然語言處理、語音識別等。機器學(xué)習(xí)是核心,后三者則是應(yīng)用場景驅(qū)動。機器學(xué)習(xí)對人工智能起關(guān)鍵作用的領(lǐng)域主要包括深度學(xué)習(xí)、強化學(xué)習(xí)、統(tǒng)計學(xué)習(xí)。

我國人工智能力量主要集中于計算機視覺和深度學(xué)習(xí)領(lǐng)域,而在自然語言處理、強化學(xué)習(xí)和貝葉斯學(xué)習(xí)領(lǐng)域相對薄弱。這主要由于計算機視覺研究的對象不涉及語言、地域等問題,我國發(fā)展水平一直處于國際前列。而深度學(xué)習(xí)的突破源于計算機視覺,這也使得我國深度學(xué)習(xí)的發(fā)展水平和國際水平相差不大,相應(yīng)的視覺產(chǎn)業(yè)市場明晰,數(shù)據(jù)標(biāo)注布局也比較充足。

自然語言處理遠(yuǎn)比計算機視覺要復(fù)雜,而且,語言具有特異性,直接將基于英文開發(fā)的語言模型應(yīng)用到中文處理任務(wù)中不一定適宜。此外,由于自然語言處理市場潛力有限,使得中文語言數(shù)據(jù)標(biāo)注沒有得到足夠重視,現(xiàn)在數(shù)據(jù)反而成為制約其發(fā)展的一個主要障礙。我國在機器翻譯和信息檢索等應(yīng)用上的發(fā)展勢頭良好,但總體來看與我國在計算機視覺上的國際影響力還有一定差距。

好的算法需要好的工程實現(xiàn)才能發(fā)揮其最大的效果,特別是人工智能技術(shù)基于深度學(xué)習(xí)和強化學(xué)習(xí),且依賴大規(guī)模數(shù)據(jù),所以工程實現(xiàn)變得尤為關(guān)鍵。深度學(xué)習(xí)在計算機視覺中以及強化學(xué)習(xí)在大語言模型中取得的成功都是算法和工程完美結(jié)合之作。機器學(xué)習(xí)系統(tǒng)已成為一個重要的領(lǐng)域。我國大學(xué)培養(yǎng)了大量計算機人才,他們的工程能力提升極大依賴于開源社區(qū)。然而,現(xiàn)代人工智能對算力和數(shù)據(jù)要求較高,學(xué)術(shù)界難以有機會積累實踐經(jīng)驗。

強化學(xué)習(xí)的成功主要體現(xiàn)在棋類游戲這種具有明確規(guī)則的應(yīng)用場景中,在其他領(lǐng)域應(yīng)用落地一直難以推進(jìn)。強化學(xué)習(xí)對概率統(tǒng)計背景知識要求相對較高,我國大學(xué)目前基本沒有高水平的強化學(xué)習(xí)課程,所以該領(lǐng)域人才儲備無論是數(shù)量還是質(zhì)量都不夠。

統(tǒng)計學(xué)習(xí)是聯(lián)系機器學(xué)習(xí)和統(tǒng)計學(xué)的橋梁,是研究計算機視覺、自然語言處理和語音識別的主流方向。貝葉斯和頻率是統(tǒng)計學(xué)的兩個經(jīng)典流派,在我國貝葉斯派相對于頻率派發(fā)展較為滯后,受重視程度也不高。但是貝葉斯方法在人工智能的發(fā)展中一直起著非常關(guān)鍵的作用。當(dāng)前貝葉斯模型面臨大規(guī)模數(shù)據(jù)的可擴(kuò)展性問題,但前景仍值得期待,經(jīng)驗貝葉斯或?qū)⒁I(lǐng)大語言模型之后的下一輪人工智能技術(shù)。

人工智能是計算機科學(xué)應(yīng)用,但其數(shù)學(xué)基礎(chǔ)從傳統(tǒng)的離散、組合轉(zhuǎn)移到概率、統(tǒng)計,所以人工智能主要支柱學(xué)科是計算機科學(xué)和統(tǒng)計學(xué)。由于我國學(xué)科發(fā)展依賴資源分配,計算機科學(xué)和統(tǒng)計學(xué)之間存在學(xué)科壁壘,制約了兩個學(xué)科的發(fā)展和人才培養(yǎng)。此外,我國統(tǒng)計學(xué)的發(fā)展也極不平衡,統(tǒng)計學(xué)科主要在一些財經(jīng)類和師范類大學(xué)開設(shè),綜合性和理工類大學(xué)則對統(tǒng)計學(xué)科發(fā)展重視不夠,而多數(shù)學(xué)校統(tǒng)計學(xué)的發(fā)展也是由數(shù)學(xué)或管理學(xué)主導(dǎo)。這種不平衡導(dǎo)致統(tǒng)計學(xué)不能很好地支撐我國人工智能的發(fā)展。在計算機科學(xué)方面,由于理論和系統(tǒng)研究難度大、產(chǎn)出周期長,許多高校對這些領(lǐng)域的投入熱情不高。這些因素致使我國在算法和工程領(lǐng)域頂級人才的培養(yǎng)和儲備不足。

人工智能的學(xué)科建設(shè)與人才培養(yǎng)

高校發(fā)展人工智能應(yīng)該有所為、有所不為。學(xué)校的根本任務(wù)立足于基礎(chǔ)研究和人才培養(yǎng)兩方面,這是必須做好的。而科學(xué)智能科研平臺開發(fā)和應(yīng)用落地則可以交由市場驅(qū)動。高校的目標(biāo)包括以下幾方面。

機構(gòu)建設(shè)。目前許多學(xué)校同時建有人工智能學(xué)院和人工智能研究院兩個機構(gòu),可以賦予兩者不同的功能。學(xué)院主導(dǎo)學(xué)科建設(shè)和本科人才培養(yǎng)。研究院則整合學(xué)校的人工智能資源,在學(xué)校的統(tǒng)一領(lǐng)導(dǎo)下,由計算機科學(xué)、統(tǒng)計學(xué)和應(yīng)用數(shù)學(xué)等專業(yè)學(xué)者組織執(zhí)行委員會,一是方便不同學(xué)科交流,規(guī)劃人工智能學(xué)科發(fā)展;二是聯(lián)合培養(yǎng)人工智能方向的博士生,開設(shè)前沿高級課程。跨學(xué)科研究機構(gòu)應(yīng)該由相關(guān)院系共建,各院系共同制定機構(gòu)運行章程,推選機構(gòu)負(fù)責(zé)人,采取輪流方式,負(fù)責(zé)人的職責(zé)以服務(wù)和組織為主,教授或?qū)嶒炇疫M(jìn)行自主研究。

學(xué)科建設(shè)。發(fā)展人工智能包含三個層面:如何做,即開發(fā)新的模型、技術(shù)、算法和場景;如何用,即尋找人工智能在更廣泛領(lǐng)域的應(yīng)用,針對一些特定的應(yīng)用領(lǐng)域或場景制定方案;為什么,即分析和探究其運行機理與基礎(chǔ)理論。因此,學(xué)科發(fā)展和人才培養(yǎng)目標(biāo)應(yīng)該與這三個層面相對應(yīng)。算法是人工智能的核心,人工智能的突破源于此,是大國競爭的角力點。而基礎(chǔ)理論研究可以夯實學(xué)科底蘊,是學(xué)科持續(xù)發(fā)展的源泉和基石。目前我們的師資力量還不足以支撐人工智能人才特別是高級人才的培養(yǎng),基礎(chǔ)研究將為未來的優(yōu)質(zhì)師資做儲備。應(yīng)用層面牽涉學(xué)科交叉,剛好可以發(fā)揮研究院這個平臺的功能。但是如果對所涉及學(xué)科沒有深刻的理解,是不太可能解決本質(zhì)問題的。只有真正了解人工智能和領(lǐng)域?qū)W科的核心問題,才能有的放矢,對人工智能乃至相關(guān)學(xué)科起到實質(zhì)性的推動作用。

人才培養(yǎng)。通過人工智能研究院有效整合計算機科學(xué)、統(tǒng)計學(xué)和應(yīng)用數(shù)學(xué)師資力量,建設(shè)人工智能卓越博士生項目。本科階段,在數(shù)學(xué)、統(tǒng)計學(xué)、計算機科學(xué)、物理學(xué)中選取某一個專業(yè)進(jìn)行系統(tǒng)性的訓(xùn)練,對人工智能卓越人才的博士生培養(yǎng)很有必要??梢詮拇髮W(xué)四年級開始,進(jìn)行大約兩年的學(xué)科基礎(chǔ)訓(xùn)練,對于主動性不強的學(xué)生授予碩士學(xué)位,優(yōu)秀的學(xué)生則鼓勵繼續(xù)攻讀博士學(xué)位。課程體系要注重培養(yǎng)學(xué)生的算法思維和工程思維相融合,核心專業(yè)課程包含機器學(xué)習(xí)基礎(chǔ)、深度學(xué)習(xí)、強化學(xué)習(xí)、自然語言處理、計算機視覺等。本科非計算機專業(yè)的學(xué)生可再學(xué)一些計算機課程,如算法與數(shù)據(jù)結(jié)構(gòu)、計算機系統(tǒng)導(dǎo)論、CUDA并行編程等。而本科為計算機專業(yè)的學(xué)生可以多學(xué)些數(shù)學(xué)類課程,如統(tǒng)計學(xué)基礎(chǔ)、貝葉斯推斷、概率計算等。研究生課程一定是前沿且基礎(chǔ)的,要成體系且貼近最新的技術(shù)發(fā)展?,F(xiàn)在我們開設(shè)了不少前沿研究生課程,但大多是專題講座,不成知識體系,所以學(xué)生學(xué)到的知識往往是碎片化的,這類課作用不大,人才培養(yǎng)的關(guān)鍵是能夠開設(shè)一批前沿頂級的課程。

評價標(biāo)準(zhǔn)。我國博士生培養(yǎng)目前以發(fā)表論文為研究驅(qū)動力,由此培養(yǎng)出豐富的中等水平人才,而頂級人才的培養(yǎng)則需要以解決核心和重大問題為興趣驅(qū)動。我們要鼓勵學(xué)生進(jìn)行原創(chuàng)性探索,引導(dǎo)學(xué)生以解決某個具體的人工智能算法或場景問題為目標(biāo)撰寫博士論文,畢業(yè)考核不再“唯論文”。其實,阿爾法狗、阿爾法折疊、ChatGPT和Sora等知名人工智能產(chǎn)品的關(guān)鍵算法和核心技術(shù)是由工程師設(shè)計出來的,他們都在高校受到良好的基礎(chǔ)知識和科研訓(xùn)練。未來三至五年是我國人工智能發(fā)展的關(guān)鍵機遇期,博士生培養(yǎng)的水平真正體現(xiàn)高校的價值和擔(dān)當(dāng),是衡量世界一流大學(xué)的最重要標(biāo)準(zhǔn)。

發(fā)展人工智能需要高度的想象力、創(chuàng)造力和執(zhí)行力。人工智能是青年人的舞臺,我們需要創(chuàng)造良好的環(huán)境和機制,潛心培養(yǎng)一批有才華的年輕人,幫助他們構(gòu)建較為完整、先進(jìn)的學(xué)科知識體系,儲備豐富的研究工具和手段,樹立平等、獨立與合作的科學(xué)精神,激勵他們自由探索最有挑戰(zhàn)性的領(lǐng)域和課題,并創(chuàng)造機會讓青年人脫穎而出。

(作者單位:北京大學(xué)數(shù)學(xué)科學(xué)學(xué)院/計算機學(xué)院)