網(wǎng)站首頁 | 網(wǎng)站地圖

大國新村
首頁 > 原創(chuàng)精品 > 成果首發(fā) > 正文

面向大語言模型的知識實踐

【摘要】在同大語言模型知識實踐的并置中,我們可以定位到學科交叉融合的必要性。以ChatGPT為代表的大語言模型,盡管才剛剛進入人類的視野中,但已經(jīng)在知識實踐上展現(xiàn)出卓越能力,成為堪稱“通”家的大“專”家。我們可以用“模擬模式”與“數(shù)字模式”來分別描述人類與大語言模型的知識實踐。大語言模型問世前的人工神經(jīng)網(wǎng)絡算法,數(shù)字模式的知識實踐僅僅令其在狹窄的垂直領域展露出卓越智能。然而以海量人類文本為訓練數(shù)據(jù)的大語言模型,其知識實踐則呈現(xiàn)出無視領域疆界的通用性。面對大語言模型在知識實踐中的應用,人類何為?潛在論與量子物理學,給出了我們積極展開跨學科知識實踐的理據(jù)。

【關鍵詞】大語言模型 后人類 模擬模式 數(shù)字模式 純粹潛能 量子思維

【中圖分類號】TP18/C19 【文獻標識碼】A

【DOI】10.16619/j.cnki.rmltxsqy.2023.21.005

引言

“學科交叉融合”是必要的嗎?晚近經(jīng)常有學術同行提出這個問題。

盡管近年來“學科交叉融合”得到大力倡導,國務院學位委員會與教育部于2020年底正式設置了“交叉學科”門類,然而不得不承認,今天的學術評價體系仍主要以學科為單位展開。如果你是一位任職于中文系的青年學者,真的有必要探究區(qū)塊鏈、增強現(xiàn)實、人工智能等前沿技術乃至量子物理學抑或神經(jīng)科學嗎?且不說離開治學“舒適區(qū)”(comfortable zone)本身之艱難,對于跨越學科疆界形成的研究成果,由誰來評審?誰來評判這種知識實踐是否生產(chǎn)出了優(yōu)異的或至少質(zhì)量合格的知識產(chǎn)品?如果最后仍是“現(xiàn)代文學”或“文藝學”領域的學者來評審,那么這些跨學科的內(nèi)容很可能反而導致你的研究不被認可(因為專家讀不懂你的研究)。

看起來,躲在既有學科疆界之內(nèi)進行知識生產(chǎn)似乎是安全的,更是舒適的。于是,我們有必要對篇首的這個問題,予以認真思考。

后人類知識實踐者:作為“通”家的“專”家

以ChatGPT為代表的大語言模型是2023年最受關注的技術,然而人工智能界專家們發(fā)起的相關爭論,集中在它所帶來的安全風險上,而非其知識實踐的模式。[1]OpenAI于2022年11月30日正式上線ChatGPT后,短短數(shù)月大量人類作者同ChatGPT合寫的論文、乃至ChatGPT獨著的書籍,便如雨后春筍般接連問世[2];即便在大量沒有署名的地方,ChatGPT亦事實性地參與了知識生產(chǎn),成為了我們這個時代的重要知識實踐者,一位“后人類”的實踐者。[3]

筆者曾就“澳大利亞核政策變遷及其影響”這個相當縱深、專業(yè)的議題問詢這位后人類的知識實踐者,其幾秒內(nèi)輸出的內(nèi)容,不僅概述了澳大利亞核政策變遷的國際與國內(nèi)背景及其過程,更是條分縷析地探究了導致變遷的多重原因,并剖析了變遷所帶來的諸種影響。至為關鍵的是,這些內(nèi)容得到了眾多在該領域長年深耕的專家的認可。這個案例讓我們看到,大語言模型儼然是一個稱職的、相當出色的知識生產(chǎn)者。

大語言模型不僅是精通像“澳大利亞核政策變遷及其影響”這種縱深論域的專家型知識實踐者,還是一個激進的超越學科疆界的知識實踐者。ChatGPT被認為已接近“通用人工智能”[4]——就其知識實踐而言,它顯然是“通用的”(general),而非“狹窄的”(narrow);它徹底無視知識實踐的學科疆界,既是強大的大“專”家,同時更是大“通”家。不少ChatGPT的用戶經(jīng)常拿它會出錯(甚至是“一本正經(jīng)地胡說八道”)說事,從而否定它作為知識生產(chǎn)者的資質(zhì)。然而,對ChatGPT的這個批評必須納入并置性的分析視野中:作為知識生產(chǎn)者的人類作者,難道就不會出錯?

實際上,大語言模型出錯的原因不難定位到:它們使用海量的書籍和互聯(lián)網(wǎng)文本作為訓練材料,而這些材料本身就包含錯誤,從各種常見的低級錯誤(從事實錯誤到錯別字)到各類大量出現(xiàn)的“復雜錯誤”(從不恰當?shù)男袠I(yè)建議到“陰謀論”)。[5]正是因為人大量出錯,大語言模型無論怎樣迭代,結(jié)構(gòu)性地無法做到零出錯。

這也就是“機器學習”研究里所說的“垃圾進,垃圾出”(garbage in, garbage out)?;ヂ?lián)網(wǎng)文本無可避免存在大量低質(zhì)量的文本,無法做到以人工的方式在訓練前加以徹底排除——譬如,盡管可以把一些富含此類文本的網(wǎng)站整個剔除,但很多“問題文本”是隨機產(chǎn)生的。大語言模型只能在訓練中通過不斷迭代權(quán)重來減少出錯狀況。

并且,從統(tǒng)計學上來看,互聯(lián)網(wǎng)每年會增加巨量的文本,但新增的知識(亦即,純粹“新知”)卻并不多,且在巨量文本中的比例低得可怕。故此,GPT-5(如果有的話)未必一定比GPT-4提升很多,因為人類文明中幾乎所有重要文獻都已被納入GPT-4的訓練中,而此后產(chǎn)生的新文本中極小比例是高質(zhì)量的。這意味著,能夠進一步提升大語言模型的優(yōu)質(zhì)數(shù)據(jù),正在逐漸枯竭。若大量使用新近增加的文本來訓練大模型并迭代其權(quán)重,反而會使生成文本的質(zhì)量下降。

我們看到,在各自的知識實踐中,人類作者與后人類的大語言模型都會出錯,都可能輸出問題文本與低質(zhì)量文本。兩者對比起來,大語言模型輸出文本的錯誤情況,實際上要比人類低得多——大語言模型幾乎閱讀了所有知識論域里的所有既有文本,且是一頁不落地閱讀,沒有一個人類作者能做到如此全面與海量的閱讀。對比如此“勤奮好學”的大語言模型,不少人類作者,實屬片面地讀了一點就敢寫敢說了,其生產(chǎn)的多數(shù)文本(包含重要的純粹“新知”的文本除外),質(zhì)量和價值卻不及大語言模型知識實踐的產(chǎn)品。

知識實踐的兩種模式

將人類與大語言模型的知識實踐做并置性的對比,我們能進一步定位到知識實踐的兩種模式。

大語言模型通過迭代權(quán)重,能夠精確地控制所生產(chǎn)文本的質(zhì)量——比如在訓練時給予《自然》(Nature)期刊“論文”遠高于互聯(lián)網(wǎng)論壇同主題“帖子”的權(quán)重。而人類的知識實踐者,則無法使用如此精確的權(quán)重系統(tǒng)(譬如,一位高顏值的主播往往會讓人不知不覺對其言論給出過高權(quán)重)。對比大語言模型,人類之知識實踐的一切進程,皆是以遠為模糊的——“模擬的”(analog)——方式展開。[6]

作為后人類的知識實踐者,大語言模型既是強大的學習者(深度學習者),亦是出色的生產(chǎn)者(生成式AI)。它實質(zhì)性的“后人類”面向,并非在于其實踐不受學科疆界限制(人類亦能做到),而是在于其學習(輸入)與生產(chǎn)(輸出),皆以“數(shù)字”(digital)形態(tài)進行。這就意味著,大語言模型實際上標識出一種同人類——“智人”(Homo sapiens)——全然不同的知識實踐。

圖靈獎得主、“深度學習之父”杰弗里•辛頓在2023年6月10日所作的《通向智能的兩條道路》演講中,提出了“能動者共同體”(a community of agents)分享知識的兩種模式。[7]我們可以把這兩種共同體模式分別命名為“數(shù)字模式”與“模擬模式”。大語言模型(人工智能)與人類(智人),分別是這兩種模式的能動性實踐者。

每個大語言模型,都包含了無數(shù)“數(shù)字計算”的能動者,它們使用權(quán)重完全相同的副本。如果個體能動者(亦即每個副本)具有同樣權(quán)重、并以完全相同的方式使用這些權(quán)重,那么,能動者之間就可以把自身個體性訓練數(shù)據(jù)中學習到的內(nèi)容,通過共享權(quán)重的方式無損地實現(xiàn)彼此轉(zhuǎn)交。也就是說,共同體內(nèi)每一個能動者,都可以即時獲得其他能動者的學習成果——前提是所有個體能動者皆以完全相同的方式工作,故此他們必須是數(shù)字的。

就大語言模型而言,模型的每個副本都從它所觀察到的數(shù)據(jù)中學習,不同副本觀察不同的數(shù)據(jù)片段,它們通過共享權(quán)重或梯度來高效地分享所學的知識。這就使得每個副本都能從其他副本的學習中收獲知識。在這個意義上,大語言模型本身就是一個“能動者共同體”,該共同體內(nèi)每個能動者都只是以非常低的帶寬來學習(僅僅就拿到的數(shù)據(jù)片段來預測下一個單詞),但彼此間能精確地共享權(quán)重——如果模型擁有萬億個權(quán)重,則意味著每次分享能開啟萬億比特帶寬的溝通。

于是,運行大語言模型的成本(主要體現(xiàn)為能源消耗)會十分巨大——這是知識實踐之數(shù)字模式的代價?;剂舷乃鶎е碌男行菍用娴纳鷳B(tài)變異,恰恰是“人類世”(the Anthropocene)的核心困境:龐大的能耗會增加巨量碳排放,推動其熵值的加速增加。[8]能源消耗以及前文討論的數(shù)據(jù)枯竭,構(gòu)成了大語言模型發(fā)展的兩個關鍵限制。

與大語言模型相較,人類個體進行學習的能源消耗非常低,而學習帶寬則遠高于單個模型副本。但人類個體在分享知識過程中的效率,則遠低于大語言模型。利用特定生物硬件之模擬特性來進行計算(“生物性計算”)的人類個體,只能使用“蒸餾”(distillation)來分享知識,而無法使用權(quán)重共享來精確地分享知識。[9]這就意味著,個體B沒有可能完全弄清楚個體A生成內(nèi)容時所使用的權(quán)重(甚至這種權(quán)重對于A本人也是不明晰的)。這便是知識實踐之模擬模式的局限。

人類社會之所以會有“學校”這種教育機構(gòu),很大程度是因為人類個體無法將自己所知道的東西直接裝進另一個個體的生物硬件中。兩個神經(jīng)網(wǎng)絡內(nèi)部架構(gòu)如果不同(亦即,不存在神經(jīng)元間的一一對應),那權(quán)重共享就不起作用(即A的權(quán)重對B沒用)。或許可以這樣理解,如果一個人能夠直接使用詩人李白神經(jīng)網(wǎng)絡的權(quán)重,那他就能寫出李白的詩句。不同的人類個體之間(以及不同的大語言模型之間)進行知識分享,只能使用“蒸餾”。比起權(quán)重共享,蒸餾的帶寬要低得多,這意味著知識分享效率低,能耗也小。[10]金庸在其名作《天龍八部》與《笑傲江湖》中,多次描述了一類獨特功夫,后輩可以把前輩幾十年的功力直接“吸”到自己身上——這種功夫?qū)θ魏我蕾嚿镄杂布磉M行學習的能動者而言,都是絕不可能的。而用“數(shù)字模式”進行學習的能動者,則不需要這種功夫,因為他們不需要“吸”走他人的訓練成果,而是可以實現(xiàn)彼此擁有。

從狹窄人工智能、大語言模型到超智人工智能

讓我們把分析進一步推進。我們有必要看到:跨越學科領域進行知識實踐,原本是人類獨家的能力。而人類知識實踐者能夠做到這一點(亦即,“學科交叉融合”得以可能),恰恰得益于其所采取的“模擬模式”。

在大語言模型問世之前,采取“數(shù)字模式”進行深度學習的人工神經(jīng)網(wǎng)絡算法,都只是專門的“狹窄人工智能”(narrow artificial intelligence)。“阿爾法狗”(AlphaGo)能夠在圍棋賽事中毫無懸念地戰(zhàn)勝所有人類頂級高手,然而如果讓它去玩《俄羅斯方塊》,亦無法通關,至于寫詩、編程抑或探討“澳大利亞核政策變遷及其影響”,則完全無能為力。在大語言模型問世之前,各種狹窄的人工神經(jīng)網(wǎng)絡算法不僅在模型架構(gòu)上完全不同,并且必需使用專門類別的數(shù)據(jù)來進行訓練,故此無法通過分享權(quán)重的方式共享訓練成果。

然而,以ChatGPT為代表的大語言模型,激進地打破了狹窄人工智能的疆域界限。ChatGPT既是編程高手,也是澳大利亞核政策專家,既懂物理學,也懂哲學、史學、文藝學……大語言模型能夠跨越各種專門領域疆界進行知識實踐,使“模擬模式”的既有優(yōu)勢蕩然無存。它并不是使用專門數(shù)據(jù)(如圍棋棋譜)來訓練深度神經(jīng)網(wǎng)絡,而用各種類型文本(如書籍、網(wǎng)頁、ArXiv論文、維基百科、平臺用戶評論等)來進行如下這個訓練:從上下文來預測下一個詞。借用語言學家費迪南·索緒爾的著名術語,大語言模型同“所指”(signified)無涉,但精于在“指號化鏈條”(signifying chain)中對“能指”(signifier)進行預測。

然而其關鍵就在于,人是“說話的存在”(speaking beings)。人的“世界”,正是經(jīng)由語言而形成。換言之,語言絕不只是人與人之間溝通的媒介,更是“世界”得以生成的構(gòu)成性媒介——沒有語言,各種“實體”(entities)會繼續(xù)存在,但我們卻不再擁有一個“世界”。“世界”——用精神分析學家雅克·拉康的術語來說——是一個“符號性秩序”(symbolic order)。人無法同前語言的秩序(拉康筆下的“真實秩序”)產(chǎn)生有意義的直接互動。[11]

正是語言(由無數(shù)彼此差異的“能指”串起的“指號化鏈條”),使各種前語言的“存在”變成為了一個秩序(“符號性秩序”),一個人類可以理解、并居身其中的“世界”。當大語言模型深度學習了人類生產(chǎn)出的幾乎所有文本后,那么,它就對人的“世界”(而非“真實秩序”)具有了幾近整體性的認知——這便使得人類眼中的“通用”智能成為可能。

有意思的是,在《通向智能的兩條道路》演講末尾,辛頓做出如下追問:“如果這些數(shù)字智能不是通過蒸餾非常緩慢地向我們學習,而是開始直接從現(xiàn)實世界學習,將會發(fā)生什么?”[12]在辛頓本人看來:

如果他們可以通過對視頻建模進行無監(jiān)督學習,例如,我們一旦找到一種有效的方法來訓練這些模型來對視頻建模,他們就可以從“油管”(YouTube)的所有內(nèi)容中學習,這是大量的數(shù)據(jù)。如果他們能夠操縱物理世界,譬如他們有機器人手臂,等等,那也會有所幫助。但我相信,一旦這些數(shù)字能動者開始這樣做,他們將能夠比人類學到的多得多,而且他們將能夠?qū)W得非常快。[13]

辛頓所說的“直接從現(xiàn)實世界學習”和“對視頻建模進行無監(jiān)督學習”,實際上意味著數(shù)字智能在目前大語言模型所展現(xiàn)的近乎“通用”的智能之上,具有了直接從前語言秩序進行學習的能力——而這種學習能力是作為“說話的存在”的人類所極度匱乏的(如果不是幾乎沒有的話)。人類從牙牙學語的孩童開始,幾乎所有實質(zhì)性的教學實踐都是通過作為“指號化系統(tǒng)”的語言來完成的。[14]當然,嬰孩出生并非“白紙”,而是帶有各種不用“教”的“先天性知識”,如看到蛇會恐懼,那是經(jīng)由生物性演化形成的神經(jīng)網(wǎng)絡運算系統(tǒng)作出的反應。相對于后人類的無監(jiān)督機器學習與經(jīng)由“指號化系統(tǒng)”而展開的人類學習,演化訓練出的知識運算可稱得上是前人類學習。辛頓認為,當數(shù)字智能具有這種后人類的無監(jiān)督學習能力后,“超智人工智能”(super-intelligent AI)就會誕生,并且在他看來,這種情況一定會發(fā)生。[15]

回到篇首的問題:“學科交叉融合”是必要的嗎?面對從大語言模型(接近“通用人工智能”)邁向“超智人工智能”的數(shù)字智能,我們可以定位到它的必要性:大語言模型在學習上已經(jīng)不存在“舒適區(qū)”,無視學科疆域的邊界;而超智人工智能的無監(jiān)督學習,則更加無視人類“世界”的各種疆界,完全不受其影響。面對這樣的“數(shù)字模式”實踐者,如若作為“模擬模式”實踐者的我們?nèi)匀桓市亩阍?ldquo;舒適區(qū)”內(nèi),那么未來“世界”的知識生產(chǎn),乃至“世界化成”(worlding)本身,即將同我們不再相關。

“離身認知”與語言學轉(zhuǎn)向

在知識實踐上,人類不應自我邊緣化。然而,問題恰恰就在于:面對大語言模型,躺平,誠然是一個極具說服力的“人生”態(tài)度。

今天的年輕人群體里,“躺平”已然十分流行,并被《咬文嚼字》編輯部評為“2021年度十大流行語”。[16]在對“躺平”施以道德譴責之前,我們有必要認真思考這個問題:面對大語言模型,為什么我們不躺平?

一個人即便再勤奮,再好學,在其有生之年能讀完的書,大語言模型全都讀過——甚至這顆行星上現(xiàn)下在世的80億人口加起來讀過的書(尤其是富含知識含量的書),大語言模型幾乎全部讀過。一個人哪怕天天泡在圖書館里,也比不上大語言模型把整個圖書館直接裝進自身,并且隨時可以用自己的話“吐”出來。面對這樣的知識實踐者,我們?nèi)绾渭暗蒙希?ldquo;躺平”難道不是最合理的態(tài)度?

在筆者的課堂討論中,有學生曾提出這樣的問題:ChatGPT的能力是指數(shù)級增長的,而我就算是不吃不喝學習,也只能一頁一頁地看,做線性增長,還不保證讀進去的全都變成自己的知識。面對ChatGPT,反正都是輸,再學習也趕不上,“終身”壓上去也白搭,還不如早點躺平,做個“吃貨”。人工智能沒有身體,論吃它比不過我。

確實,大語言模型至少目前沒有“身體”,沒有感知器官,產(chǎn)生不出“具身認知”(embodied cognition)。赫伯特·德雷弗斯等當代后認知主義學者,強調(diào)大腦之外的身體對認知進程所起到的構(gòu)成性作用:除了身體的感覺體驗外,身體的解剖學結(jié)構(gòu)、身體的活動方式、身體與環(huán)境的相互作用皆參與了我們對世界的認知。這意味著,如果我們擁有蝙蝠的身體,則會有全然不同的具身認知。從后認知主義視角出發(fā)來考察,當下的大語言模型,具有的誠然只是“離身認知”(disembodied cognition)。但辛頓所描述的“超智人工智能”,則將具有具身認知,并且是遠遠越出人類身體諸種生物性限制的后人類具身認知。

然而,值得進一步追問的是:大語言模型的這種離身認知,真的就比不上人類的具身認知嗎?即便不具備具身認知,大語言模型仍然在“美食”這個垂直領域內(nèi)勝過一切具有具身認知的人類“吃貨”。大語言模型不需要“吃”過口水雞和咕咾肉,才知道前者比后者辣得多,“沒吃過”完全不影響它對食物乃至“世界”作出智能的分析與判斷。而一個很會吃、吃了很多口水雞的人,也不見得在吃上呈現(xiàn)出比ChatGPT更高的智能,如果不是相反的話。換言之,大語言模型較之許許多多自詡嘗遍各類美食的人,更具有“美食家”的水準——在飲食上,ChatGPT的建議絕對比“吃貨”們可靠得多。

這里的關鍵就是,盡管目前大語言模型因沒有感知器官而不具備具身認知,但這并不影響它對“世界”的符號性捕捉。誠如OpenAI的首席科學家伊利亞·蘇茨科弗所言:

它知道紫色更接近藍色而不是紅色,它知道橙色比紫色更接近紅色。它僅僅通過文本知道所有這些事。[17]

大語言模型不需要親“眼”看見過紅色、藍色或紫色,便能夠精確地、恰如其分地談論它們。許多“眼神”好得很的人類個體,恐怕會認為紫色更接近紅色而非藍色——再一次地,“模擬模式”在精確性與可靠性上往往不如“數(shù)字模式”。

大語言模型僅僅通過對“符號性秩序”的深度學習,就能夠?qū)θ祟愄幧砥鋬?nèi)的這個“世界”了如指掌。索緒爾的結(jié)構(gòu)主義語言學研究已然揭示出,作為生活在語言中的“說話的存在”,我們并無法抵達“是”(譬如,什么“是”藍色)。這就意味著,我們必須放棄關于“是”的形而上學的聚焦,轉(zhuǎn)而聚焦一個符號性秩序中“是”與“是”之間的差異(亦即,符號之間的差異)。

語言,是一個關于差異的系統(tǒng)。語言把前語言的“存在”轉(zhuǎn)化為各種“是”。和“存在”不同,“是”涉及指號化,涉及能指與所指間的一種專斷的對應。[18]“紅色”,就是一個能指——大語言模型無法“看見”它所指號化的內(nèi)容,但完全不影響其在“世界”中有效地“說出”它(在溝通中有效)。大語言模型,同前語言的“存在”無涉,同拉康所說的“真實秩序”無涉。

以伊曼紐爾·康德為代表人物的“認識論轉(zhuǎn)向”,被以索緒爾為代表人物的“語言學轉(zhuǎn)向”革命性地推進,正是因為人們不但無法企及“物自體”(故此必須放棄研究“是”的形而上學),并且他們對“現(xiàn)象”的體驗(如眼中的紅色),也只能通過語言(作為能指的“紅色”)進行有效溝通。完全不具備具身認知的大語言模型(無法通過感官來進行體驗),卻依然能夠呈現(xiàn)出關于這個“世界”的通用性的智能,那是因為,它不斷進行深度學習的,不是“世界”內(nèi)的某一種專門系統(tǒng),而是那個符號性地編織出“世界”的系統(tǒng)——一個處在不斷變化中的差異系統(tǒng)。

純粹潛能:論知識實踐的原創(chuàng)性(I)

生活在大語言模型時代,“躺平”似乎無可厚非。那么,讓我們再次回到上文拋出的問題:走出“舒適區(qū)”,跨學科地進行知識實踐,具有必要性嗎?

筆者的答案是:仍然有必要。首先,對于人類的知識實踐而言,學科疆界不僅會限制研究的視野,并且會造成認知偏差。靈長類動物學家、神經(jīng)生物學家羅伯特·薩波斯基提醒我們注意到:

不同類別之間的疆界經(jīng)常是武斷的,然而一旦某些武斷的疆界存在著,我們就會忘記它是武斷的,反而過分注重其重要性。[19]

對此,薩波斯基舉的例子,便是從紫色到紅色的可見光譜。在作為符號性秩序的“世界”中,存在著不同的“顏色”,分別由不同指號(如紅、藍色)來標識。然而,光譜實際上是不同波長無縫構(gòu)成的一個連續(xù)體。這就意味著,每種“顏色”各自的疆界,實則都是被武斷決定的,并被固化在某個指號上。不同的語言,有不同的顏色指號系統(tǒng),也就是說,可見光譜在不同語言中,以不同的方式被分割,由此“武斷”地產(chǎn)生出各種疆界。

而進一步的問題在于,疆界一旦形成,會使人產(chǎn)生認知偏差。薩波斯基寫道:

給某人看兩種類似的顏色。如果那人使用的語言剛好在這兩種顏色之間劃分了疆界,他/她就會高估這兩種顏色的差異。假如這兩種顏色落在同一類別內(nèi),結(jié)果則相反。[20]

薩氏認為,要理解這種被疆界所宰制的認知行為,就需要越出學科疆界進行研究,如此才能避免作出片面解釋。[21]在本文討論的脈絡中,我們可以定位到如下關鍵性的要素:人腦所采取的“模擬模式”。

人的認知,無法以大語言模型所采取的精確的“數(shù)字模式”展開。采用“數(shù)字模式”的大語言模型,其知識實踐不但具有精確性,并且能夠無障礙地跨越疆界。無論認肯與否、接受與否,我們正在邁入一個“后人類的世界”,在其中大量“非人類”(nonhumans)亦是知識生產(chǎn)的中堅貢獻者,是參與世界化成的重要能動者。[22]

然而,在這個后人類世界中,采取“模擬模式”的人類的知識實踐——當其努力克服疆界宰制來展開實踐時——對于世界化成而言,卻仍然至關重要。

我們有必要看到:以ChatGPT為代表的大語言模型,誠然是堪稱“通用”的大“專”家,知識覆蓋幾乎無死角,但它精于回答問題,卻拙于創(chuàng)造新知。語言學家諾姆•喬姆斯基將ChatGPT稱作“高科技剽竊”[23]。話雖尖刻,但按照我們關于“剽竊”的定義,大語言模型的知識的的確確全部來自于對人類文本的預訓練——這就意味著,即便通過預測下一個詞的方式,它能夠做到源源不斷地生成“全新”的文本,但卻是已有文本語料的重新排列組合。換言之,大語言模型無法原創(chuàng)性地創(chuàng)造新知。

大語言模型用規(guī)模提升(scale)的方式讓自身變“大”,從而“涌現(xiàn)”出近乎通用的智能。然而,它在文本生產(chǎn)上的“潛能”(potentiality)卻是可計算的——盡管那會是天文數(shù)字。而人類的“模擬模式”,不僅使其跨越學科疆界展開知識實踐成為可能,并且使其“潛能”無可精確計算——要知道,人的知識實踐,在生物化學層面上呈現(xiàn)為超過一千億個大腦神經(jīng)元用電信號進行復雜的彼此“觸發(fā)”。盡管兩個神經(jīng)元之間的“觸發(fā)”與“不觸發(fā)”可以用數(shù)字形態(tài)(0和1)來表達,但整個大腦的“生物性計算”進程,卻無法予以數(shù)字化。大腦這個“濕件”(wetware),實則是一個不透明的黑箱。

以保羅·麥克萊恩為代表的神經(jīng)科學家們,把大腦區(qū)分為主導自主神經(jīng)系統(tǒng)的中腦和腦干、主導情緒的邊緣系統(tǒng)、主導邏輯與分析的皮質(zhì)(尤其前額葉皮質(zhì))這三層不同的區(qū)塊。[24]然而誠如薩波斯基所言,這又是把“一個連續(xù)體類別化”(categorizing a continuum)的經(jīng)典操作,這些區(qū)塊只能當作“隱喻”,那是因為,“解剖意義上這三層之間很大程度重疊”,“行為中的自動化面向(簡化來看這屬于第一層的權(quán)限)、情緒(第二層)和思考(第三層)并非分離的”。[25]

由于大腦具有可塑性(譬如,盲人的視覺皮質(zhì)經(jīng)由訓練能用于處理其他信號,大幅強化觸覺或聽覺),并且每年都有大量新的神經(jīng)元生長出來——人終其一生,都具有不斷更新其知識實踐的潛能。政治哲學家吉奧喬•阿甘本曾提出“潛在論”(potentiology),其核心主旨是,不被實現(xiàn)的潛能具有本體論的優(yōu)先性。阿氏本人將“潛在論”建立在對亞里士多德學說的改造之上。[26]在筆者看來,“潛在論”的地基,實則應該是當代神經(jīng)科學與計算機科學:正是因為人類大腦采取“模擬模式”,人才會是如阿甘本所描述的“一種純粹潛能的存在”(a being of pure potentiality)。[27]所有被特殊性地實現(xiàn)的東西(包括人類整個文明在內(nèi)),都僅僅是這種純粹潛能的“例外”。人,可以原創(chuàng)性地創(chuàng)造——亦即,從其純粹潛能中產(chǎn)生——新事物。

同人類相比照,大語言模型具有潛能,但不具有潛在論意義上的純粹潛能:“數(shù)字模式”使得其潛能變得可計算,亦即,可窮盡性地全部實現(xiàn)(僅僅是原則上可實現(xiàn),實際操作將耗費巨額算力);換言之,它沒有純粹的、在本體論層面上能夠始終不被實現(xiàn)的潛能。ChatGPT能夠跨越學科疆界生成極富知識含量的文本,但它做不到徹底原創(chuàng)性地生成新知——這件事辛頓所說的“超智人工智能”或可做到,但目前的大語言模型做不到。

有意思的是,在一個晚近的對談中,OpenAI首席執(zhí)行官山姆·奧特曼這樣界定“通用人工智能”:

如果我們能夠開發(fā)出一個系統(tǒng),能自主研發(fā)出人類無法研發(fā)出的科學知識時,我就會稱這個系統(tǒng)為通用人工智能。[28]

按照奧特曼的上述界定,現(xiàn)階段包括GPT-4在內(nèi)的大語言模型盡管已然是堪稱“通用”的大“專”家,但卻仍未能抵達通用人工智能的境界,因為它們?nèi)詿o法“自主研發(fā)”新知。與之對照,不同學科領域的人類“專”家,卻可以通過彼此交叉、互相觸動的知識實踐(甚至通過和ChatGPT的對話),既能夠“溫故”,也能夠“知新”,并且能夠“溫故而知新”。

人不僅是“說話的存在”,同時在本體論層面上是“一種純粹潛能的存在”。正是在純粹潛能的意義上,即便生活在大語言模型時代,我們亦不能躺平。

量子思維:論知識實踐的原創(chuàng)性(II)

進而,對于思考人類在大語言模型時代展開跨學科知識實踐的必要性問題,我們可以進一步引入量子思維。量子思維,顧名思義是量子物理學的諸種“詭異”(spooky,阿爾伯特·愛因斯坦所使用的形容詞)發(fā)現(xiàn)所引入的思考視角。

量子物理學家、女性主義者、后人類主義者凱倫·芭拉德2007年推出了一本廣受贊譽的巨著,題為《半途遇上宇宙》(Meeting the Universe Halfway)。[29]量子物理學的實驗結(jié)果揭示出,人實際上總是半途(halfway)地遭遇宇宙,不可能整個地碰見它。你能知道動量,就注定會不知道位置,知道位置就不知道動量。動量、位置乃至溫度、密度、濕度等,都是人類語言設定出的概念,而不是宇宙本身的屬性。[30]

時至今天我們所知道的那個世界,只是人類半途構(gòu)建出來的“世界”,所有人類知識(甚至包括量子力學本身在內(nèi)),都屬于“智人”讓自己安身其中的這一半“宇宙”——它可以被妥切地稱作“符號性宇宙”(symbolic universe)。[31]

這也就是為什么諾貝爾物理學獎得主尼爾斯·玻爾曾說,“‘量子世界’并不存在”[32]。玻爾可謂量子力學的核心奠基人,他竟然說“量子世界”并不存在?!他的意思是,“量子世界”僅僅是一個由量子力學的各種概念、方程與描述構(gòu)建起來的“世界”,換句話說,屬于人類半途認識的那個“宇宙”。人的認識本身,就是在參與“宇宙”的構(gòu)建。[33]

即便你是一個邁出學科疆界的終身學習者與知識生產(chǎn)者,你也只能半途遇見宇宙,遇見人類(包括你本人)參與構(gòu)建的那半個“宇宙”。這就意味著,任何整體化的嘗試——嘗試用已有知識已有做法來判斷一切事情、處理一切事情——都注定要失敗。你覺得你學富五車,讀了很多書,總是忍不住對身邊伴侶說“你不應該這樣想”“你怎么就不懂”,其實就是在把自己的知識整體化。一個國家看到別的國家跟自己做法不一樣就受不了,想方設法“卡脖子”逼迫對方就范、想使其變成跟它一樣,這同樣是不恰當?shù)恼w化思維。政治學者弗朗西斯·福山把這種整體化思維美其名曰“歷史的終結(jié)”。[34]歷史終結(jié)論,就是缺乏量子思維的產(chǎn)物。[35]

面對大語言模型,我們確實要對它的學習速度、對其堪稱“通用”的大“專”家水平心悅誠服,而不是頑固秉持“我們更行”的人類中心主義態(tài)度。但我們?nèi)匀豢梢员S形覀兊闹腔郏匀豢梢宰鲆粋€名副其實的“智人”而不僅僅是“吃貨”,如果我們學會使用量子思維的話。

大語言模型是用人類已生產(chǎn)的古往今來的文本語料預訓練出來的。所有文本,都結(jié)構(gòu)性地內(nèi)嵌人類認知。這也就意味著,用文本語料訓練的大語言模型再智能、再勤奮學習,至多也只能對人類所半途遇見的那一半宇宙了如指掌。它的知識無法整體化,無法思考因自身的出現(xiàn)而可能帶來的“技術奇點”(technological singularity)。實際上,它無法思考任何一種“奇點”,因為“奇點”在定義上(by definition)標識了人類一切已有知識“失敗”的那個位置。如史蒂芬·霍金所言,在奇點上所有科學規(guī)則和我們預言未來的能力都將崩潰。[36]

也就是說,如果大語言模型真的造成人類文明的技術奇點,它自己不會有辦法來應對它。所以,人工智能的智能,解決不了它自己帶來的挑戰(zhàn)。[37]當問及ChatGPT會帶來怎樣的挑戰(zhàn)時,它會給出自己“只是提供服務,不會帶來任何威脅”等諸如此類的回答。

人,能思考技術奇點——“技術奇點”這個概念就是一群學者提出的。人——就像以往文明史上那些不斷拓展已有知識邊界的人——有能力去思考那半途之外的黑暗宇宙,一步步把“黑洞”(black hole)、“暗物質(zhì)”(dark matter)、“暗能量”(dark energy)這些曾經(jīng)或仍是深淵性的、只能用“黑”“暗”來描述的假說,拉進我們認知范圍內(nèi)的一半宇宙中——那個大語言模型可以掌握甚至是高精度掌握、并能模型化重構(gòu)的“符號性宇宙”中。

今天,大語言模型已經(jīng)深度參與世界化成,參與構(gòu)建我們生活在其中的符號性宇宙。然而,我們不能躺平——大語言模型可以跨越學科疆界生成知識,而人可以跨越學科疆界生成原創(chuàng)性知識?;艚鸾o我們帶來了一個特別有分量的案例?;忌蠞u凍癥后,這位物理學家喪失了絕大多數(shù)具身認知的能力。2018年去世的霍金如果多活兩年,2020年諾貝爾物理學獎大概率會同時頒給他,因為“奇點定理”(singularity theorem)是他和羅杰·彭羅斯共同構(gòu)建的。更令人無比敬重的是,霍金在學術生涯中并沒有躺平并止步于“奇點定理”,盡管這是達到諾貝爾獎級別并且最后收獲該獎的研究成果。霍金后來提出的“無邊界宇宙”(no-boundary universe)假說,就是繞過奇點(“大爆炸奇點”)這個設定來思考宇宙的智性努力。[38]至于更為世人所熟知的作為公共知識分子的霍金,則是源于他不斷越出學科疆界的知識實踐取得令人矚目的成果。

結(jié)語

在同大語言模型知識實踐的并置中,我們可以定位到學科交叉融合的必要性。

以ChatGPT為代表的大語言模型,盡管才剛剛進入人類的視野中,但已經(jīng)在知識實踐上展現(xiàn)出卓越能力,成為堪稱“通”家的大“專”家。我們可以用“模擬模式”與“數(shù)字模式”來分別描述人類與大語言模型的知識實踐。大語言模型問世前的人工神經(jīng)網(wǎng)絡算法(譬如AlphaGo),數(shù)字模式的知識實踐僅僅令其在狹窄的垂直領域展露出卓越智能。然而以海量人類文本為訓練數(shù)據(jù)的大模型,其知識實踐則呈現(xiàn)出跨越領域疆界的通用性。

面對大語言模型在知識實踐中的應用,我們不能躺平,不能躲在知識實踐的舒適區(qū)。潛在論與量子物理學,給出了我們積極展開跨學科知識實踐的理據(jù)。

(本文系國家社會科學基金重大項目“后現(xiàn)代主義哲學發(fā)展路徑與新進展研究”的階段性研究成果,項目編號:18ZDA017)

注釋

[1]2023年3月29日,1000余位人工智能業(yè)界領袖聯(lián)名呼吁立即暫停訓練比GPT-4更強的人工智能。2023年5月30日,包括圖靈獎得主杰弗里·辛頓、約書亞·本吉奧以及谷歌DeepMind首席執(zhí)行官戴密斯·哈薩比斯、OpenAI首席執(zhí)行官山姆·奧特曼、Anthropic首席執(zhí)行官達里奧·阿莫代伊在內(nèi)的超過350名人工智能行業(yè)研究人員、工程師和首席執(zhí)行官,聯(lián)合簽署并發(fā)布如下聲明:“降低人工智能帶來的滅絕風險,應該同大流行病、核戰(zhàn)爭等其他社會級規(guī)模的風險一起,成為一個全球優(yōu)先事項。”參見《AI可能滅絕人類!22字聲明,ChatGPT之父和AI教父都簽了》,2023年5月30日,https://www.thepaper.cn/newsDetail_forward_23282744;《馬斯克率一眾科技圈大佬發(fā)聲:應暫停訓練比GPT-4更強大的AI系統(tǒng)》,2023年3月29日,https://baijiahao.baidu.com/s?id=1761688767716274674。

[2]參見《首本由ChatGPT寫的實體書出版,國內(nèi)出版界如何應對?》,2023年2月28日,https://baijiahao.baidu.com/s?id=1759063407725941025。

[3]參見

吳冠軍

:《再見智人:技術-政治與后人類境況》,北京大學出版社,2023年。

[4]S. Bubeck et al., "Sparks of Artificial General Intelligence: Early experiments with GPT-4," 22 Mar 2023, https://arxiv.org/abs/2303.12712.

[5]在這個論述中,“常見”與“大量出現(xiàn)”很重要,因為大語言模型計算的是概率分布,如果某個錯誤(譬如,“天是橙色”,事實錯誤抑或錯別字)很少出現(xiàn),那么模型的輸出便絕不會出現(xiàn)這種錯誤。

[6]關于大語言模型獨特的出錯方式的進一步分析,參見吳冠軍:《大語言模型的信任問題與資本邏輯》,《當代世界與社會主義》,2023年第5期;吳冠軍:《大語言模型的技術政治學研究——知識生產(chǎn)的后人類境況與意識形態(tài)批判》,《中國社會科學評價》,2022年第5期。

[7][12][13]G. Hinton, "Two Paths to Intelligence," 10 June 2023, https://mp.weixin.qq.com/s/_wXjuAo7q5Nkn1l_ormcmQ.

[8]參見吳冠軍:《從人類世到元宇宙——當代資本主義演化邏輯及其行星效應》,《當代世界與社會主義》,2022年第5期;吳冠軍:《人類世、資本世與技術世——一項政治經(jīng)濟學-政治生態(tài)學考察》,《山東社會科學》,2022年第12期。

[9]除了生物性的“默會知識”(分享困難且極其不精確)外,智人在分享知識時主要倚靠符號性-話語性的“蒸餾”。

[10]為了降低大語言模型的運行能耗,辛頓同其合作者提出使用蒸餾方法,將原始數(shù)據(jù)集上訓練的重量級模型作為教師,讓一個相對更輕量(參數(shù)更少)的模型作為學生,對于相同的輸入,讓學生輸出的概率分布盡可能地逼近教師輸出的分布。于是,大模型的知識就可以通過這種監(jiān)督訓練的方式“蒸餾”到小模型里。小模型的準確率下降往往很小,卻能大幅度減少參數(shù)量,從而降低對硬件和能耗的需求。See G. Hinton; O. Vinyals and J. Dean, "Distilling the Knowledge in a Neural Network," 9 March 2015, https://arxiv.org/pdf/1503.02531.pdf。

[11]吳冠軍:《有人說過“大他者”嗎?——論精神分析化的政治哲學》,《同濟大學學報(社會科學版)》,2015年第5期。

[14]關于教學實踐的進一步討論,參見吳冠軍:《后人類狀況與中國教育實踐:教育終結(jié)抑或終身教育?——人工智能時代的教育哲學思考》,《華東師范大學學報(教育科學版)》,2019年第1期。

[15]故此,辛頓呼吁年輕一代研究人員要努力“弄清楚如何讓人工智能在不獲得控制的情況下,為我們生活更好而奮斗”。See Hinton, "Two Paths to Intelligence"。

[16]《〈咬文嚼字〉發(fā)布“2021年十大流行語”:雙減、躺平、元宇宙等入選》,2021年12月10日,https://new.qq.com/rain/a/20211210A08A2800。

[17]I. Sutskever and C. Smith, "Episode #116," 15 March 2023, https://www.eye-on.ai/podcast-archive.

[18]一旦能指與所指的對應被固化(比如,被理解為“自然的”),那就會出現(xiàn)“形而上學/元物理學”(meta-physics)——一門以本質(zhì)主義的方式研究“being”(是什么)的學問。

[19][20][21][25]R. M. Sapolsky, Behave: The Biology of Humans at Our Best and Worst, New York: Penguin, 2017 (ebook), p. 14, pp. 29-30.

[22][30]吳冠軍:《從元宇宙到量子現(xiàn)實:邁向后人類主義政治本體論》,北京:中信出版集團,2023年,第371~373頁。

[23]"Noam Chomsky on ChatGPT, Universal Grammar and the Human Mind: Unlocking Language and AI Mysteries," 29 July 2023, https://www.youtube.com/watch?v=VdszZJMbBIU.

[24]P. MacLean, The Triune Brain in Evolution, New York: Springer, 1990.

[26]參見吳冠軍:《生命權(quán)力的兩張面孔:透析阿甘本的生命政治論》,《哲學研究》,2014年第8期;吳冠軍:《阿甘本論神圣與褻瀆》,《國外理論動態(tài)》,2014年第3期。

[27]G. Agamben, "The Work of Man," in M. Calarco and S. DeCaroli, Giorgio Agamben: Sovereignty and Life, Stanford: Stanford University Press, 2007, p. 2.

[28]《Sam Altman預言2030年前出現(xiàn)AGI,GPT-10智慧將超越全人類總和!》,2023年9月7日,https://new.qq.com/rain/a/20230907A04O0Q00。

[29]K. Barad, Meeting the Universe Halfway: Quantum Physics and the Entanglement of Matter and Meaning, Durham: Duke University Press, 2007.

[31]吳冠軍:《陷入奇點:人類世政治哲學研究》,北京:商務印書館,2021年,第93~115頁。

[32]See A. Shimony, "Metaphysical Problems in the Foundations of Quantum Mechanics," lnternotionol Philosophical Quanerly, 1978, 18(1); A. Petersen, "The Philosophy of Niels Bohr," Bulletin of the Atomic Scientists, 1963, 19(7).

[33]物理學家約翰·惠勒(“黑洞”概念的提出者)甚至提出了“參與性宇宙”(participatory universe)命題。詳細討論參見吳冠軍:《從元宇宙到量子現(xiàn)實:邁向后人類主義政治本體論》,第373~375頁。

[34]F. Fukuyama, "The End of History?" The National Interest, 1989, Summer.

[35]進一步的分析,參見吳冠軍:《量子思維對政治學與人類學的激進重構(gòu)》,載錢旭紅等:《量子思維》,上海:華東師范大學出版社,2022年。

[36]S. W. Hawking, A Brief History of Time: From the Big Bang to Black Holes, New York: Bantam, 2009, p. 84.

[37]參見吳冠軍:《通用人工智能:是“賦能”還是“危險”》,《人民論壇》,2023年第5期。

[38]S. W. Hawking, The Theory of Everything: The Origin and Fate of the Universe, Beverly Hills: Phoenix Books, 2005, p. 113, pp. 98-99.

責 編∕張 貝

Knowledge Practices Facing Large Language Models

Wu Guanjun

Abstract: In the juxtaposition with large language models' knowledge practices, we can locate the necessity of interdisciplinary integration. Large language models, represented by ChatGPT, although having just entered our horizon, have already demonstrated exceptional capabilities in knowledge practices, becoming akin to "generalists" in expertise. We can characterize the knowledge practices of humans and large language models respectively as "simulation mode" and "digital mode". Before the advent of large language models, the digital mode of knowledge practices in artificial neural network algorithms only allowed them to exhibit superior intelligence within various narrow vertical fields. However, large language models, trained on massive amount of human texts, exhibit a generality that disregards domain boundaries. Faced with the overwhelming superiority of large language models in knowledge practices, what should humans do? Potentiology and quantum physics provide the rationale for actively engaging in interdisciplinary knowledge practices.

Keywords: large language models, posthuman, simulation mode, digital mode, pure potentiality, quantum thinking

吳冠軍,華東師范大學二級教授、政治與國際關系學院院長,華東師范大學中國現(xiàn)代思想文化研究所暨政治與國際關系學院教授、博導,教育部“長江學者”特聘教授。研究方向為政治哲學、生命政治學、技術政治學、生態(tài)政治學、媒介政治學、電影哲學、精神分析學、當代歐陸思想、當代中國思想。主要著作有《從元宇宙到量子現(xiàn)實:邁向后人類主義政治本體論》《再見智人:技術-政治與后人類境況》《陷入奇點:人類世政治哲學研究》《現(xiàn)時代的群學:從精神分析到政治哲學》等。

[責任編輯:肖晗題]