2022年12月初,美國(guó)人工智能實(shí)驗(yàn)室(OpenAI)發(fā)布了一款名為ChatGPT的自然語(yǔ)言處理工具。ChatGPT一經(jīng)問世就迅速引發(fā)關(guān)注,它能“接住”網(wǎng)友提出的一系列“刁鉆問題”,比如可以用英文寫檢討、生成特定領(lǐng)域的論文等,是目前為止較為接近人類水平的對(duì)話機(jī)器人。作為以AI語(yǔ)言自動(dòng)生成為特色的應(yīng)用,其一定程度上代表了未來“人類意圖+機(jī)器組合內(nèi)容”新型信息傳播形態(tài)的崛起,其引發(fā)的AIGC(AI Generated Content,人工智能內(nèi)容生產(chǎn))社會(huì)風(fēng)險(xiǎn)值得深入思考,并提前布局風(fēng)險(xiǎn)防控措施。
【資料圖】
AIGC的技術(shù)特色
ChatGPT通過類似微信對(duì)話框的形式,對(duì)用戶提出的問題進(jìn)行解答,是AIGC領(lǐng)域較為“像人”的對(duì)話機(jī)器人,其技術(shù)特色代表了AIGC的基本技術(shù)特點(diǎn)與趨勢(shì)。在過去幾年,OpenAI的研究取得了很多成就,其中包括自然語(yǔ)言處理模型GPT-3、視覺識(shí)別模型DALL-E和強(qiáng)化學(xué)習(xí)模型AlphaGo,ChatGPT依靠的就是自然語(yǔ)言處理模型GPT-3。
GPT-3模型是一個(gè)非常強(qiáng)大的自然語(yǔ)言生成模型,它可以用于生成文本、回答問題、翻譯文本、摘要文本、文本分類等任務(wù),基于Transformer模型架構(gòu),通過預(yù)訓(xùn)練大量文本數(shù)據(jù),再微調(diào)學(xué)習(xí)特定任務(wù),以此實(shí)現(xiàn)高效的自然語(yǔ)言處理能力。目前看來,GPT-3代表了AIGC內(nèi)容生成領(lǐng)域的發(fā)展方向,其技術(shù)特色表現(xiàn)在四個(gè)方面。一是超大規(guī)模,GPT-3擁有數(shù)百億個(gè)參數(shù),是目前為止最大的自然語(yǔ)言生成模型,這構(gòu)成了內(nèi)容精準(zhǔn)生成的基礎(chǔ)。二是自動(dòng)化,模型可以依據(jù)輸入文本的內(nèi)容自動(dòng)調(diào)整生成文本的語(yǔ)言風(fēng)格和內(nèi)容,通過添加個(gè)性化因素改進(jìn)普通AIGC“千篇一律”的缺點(diǎn)。三是通用性,GPT-3可以用于多種自然語(yǔ)言處理任務(wù),并且在這些任務(wù)中表現(xiàn)出色。四是可擴(kuò)展性,可以通過微調(diào)來學(xué)習(xí)新的任務(wù),并且隨著模型的擴(kuò)展而保持較高的性能,通過添加新信息,可以對(duì)語(yǔ)言模型進(jìn)行訓(xùn)練,從而實(shí)現(xiàn)用戶自身的使用目的。
這些技術(shù)特性綜合起來,相比市面上其他聊天機(jī)器人,ChatGPT的功能更加多樣化,例如它可以按照特定的要求書寫贊美詩(shī)、寫講話稿、新聞稿甚至編寫物理仿真程序。此外,該聊天機(jī)器人的回答更為嚴(yán)謹(jǐn),能夠主動(dòng)承認(rèn)自己的不足,面對(duì)許多高難度問題,會(huì)回答“缺乏資料”或者“我只是一個(gè)語(yǔ)言模型”,之后再嘗試進(jìn)行解答??梢哉f,通過有目的的設(shè)置條件,AIGC可以大量、快速生產(chǎn)內(nèi)容,特別是通過細(xì)化內(nèi)容生成的條件限制,能夠產(chǎn)出與人類語(yǔ)言高度相似的內(nèi)容。
AIGC的社會(huì)傳播風(fēng)險(xiǎn)
AIGC的社會(huì)傳播風(fēng)險(xiǎn)問題主要指其可能被用來進(jìn)行不道德,甚至違法的信息傳播活動(dòng),其核心是能夠生成“看上去很像那么回事”,但實(shí)質(zhì)上卻是虛假信息的內(nèi)容。具體來看,以ChatGPT為代表的AIGC應(yīng)用存在以下社會(huì)傳播風(fēng)險(xiǎn)。
生成假新聞。ChatGPT可以根據(jù)給定的一個(gè)或多個(gè)關(guān)鍵詞,生成看上去真實(shí),實(shí)際上卻完全是編造的新聞。其能夠?qū)崿F(xiàn)從新聞標(biāo)題到內(nèi)容甚至評(píng)論的全部自動(dòng)化產(chǎn)出。例如,當(dāng)給定關(guān)鍵詞“美國(guó)領(lǐng)導(dǎo)人”和“外交危機(jī)”,再加上限制在500字以內(nèi)的條件,ChatGPT就會(huì)按照要求的字?jǐn)?shù)與關(guān)鍵詞生成一篇新聞文章,報(bào)道某國(guó)領(lǐng)導(dǎo)人發(fā)生了外交危機(jī)。
進(jìn)行信息欺詐。由于ChatGPT能夠產(chǎn)出高質(zhì)量的人類口語(yǔ)文本,其可被用來進(jìn)行網(wǎng)絡(luò)欺騙,比如通過寫出看上去合法的電子郵件內(nèi)容來實(shí)施財(cái)產(chǎn)詐騙,通過制造假的政策文件、政府公文來進(jìn)行信息欺詐。其核心是按照使用者要求自動(dòng)模仿有固定模式的文本內(nèi)容。例如,可以生成一份非?!跋駱印钡恼猩涛募?。
模仿特定話語(yǔ)風(fēng)格進(jìn)行內(nèi)容生成。ChatGPT在大量獲取網(wǎng)絡(luò)文本的同時(shí),也可以進(jìn)行人為語(yǔ)料輸入,對(duì)人工智能進(jìn)行后期培訓(xùn)。如網(wǎng)絡(luò)名人、大V等有較大影響力的意見領(lǐng)袖,其語(yǔ)言風(fēng)格往往很有特色,ChatGPT能夠模仿特定的語(yǔ)言風(fēng)格進(jìn)行內(nèi)容生產(chǎn),其話語(yǔ)結(jié)構(gòu)、用詞特點(diǎn)等與真人高度相似,容易對(duì)受眾產(chǎn)生誤導(dǎo)。
整體來看,AIGC應(yīng)用的智慧化程度高,拉低了人工智能生產(chǎn)的技術(shù)使用門檻。其能夠一次性處理包括話語(yǔ)風(fēng)格、字?jǐn)?shù)、文本類型等多種語(yǔ)言生成要求,可以說生成條件設(shè)置得越具體,其生產(chǎn)的內(nèi)容越接近于真實(shí)。針對(duì)虛假、不實(shí)信息,類似的AIGC技術(shù)將直接降低批量制作虛假信息的技術(shù)要求,加快虛假內(nèi)容的生產(chǎn)速度,對(duì)未來的信息內(nèi)容治理提出了進(jìn)一步挑戰(zhàn)。
AIGC社會(huì)傳播風(fēng)險(xiǎn)的應(yīng)對(duì)策略
近年來,隨著自然語(yǔ)言處理(NLP)技術(shù)的飛速發(fā)展,ChatGPT等高級(jí)語(yǔ)言模型在語(yǔ)言理解和生成方面取得了顯著的進(jìn)展。然而,這些技術(shù)也帶來了虛假信息的風(fēng)險(xiǎn)。應(yīng)從以下三個(gè)方面防范AIGC成為虛假信息發(fā)源地。
落實(shí)內(nèi)容負(fù)責(zé)制:誰(shuí)生成,誰(shuí)生產(chǎn),誰(shuí)負(fù)責(zé)。在網(wǎng)絡(luò)空間內(nèi)容治理方面,明晰的責(zé)任制度是建設(shè)清朗網(wǎng)絡(luò)空間的基礎(chǔ)。針對(duì)ChatGPT等新一代人工智能生產(chǎn)應(yīng)用,應(yīng)該延續(xù)我國(guó)現(xiàn)有的內(nèi)容責(zé)任制度,將《互聯(lián)網(wǎng)信息服務(wù)管理辦法》《互聯(lián)網(wǎng)跟帖評(píng)論服務(wù)管理規(guī)定》等延續(xù)至人工智能生產(chǎn)領(lǐng)域,落實(shí)誰(shuí)生成,誰(shuí)生產(chǎn),誰(shuí)負(fù)責(zé),多方共同承擔(dān)治理責(zé)任。模型開發(fā)者應(yīng)該對(duì)模型在生成虛假信息方面的風(fēng)險(xiǎn)負(fù)責(zé)。平臺(tái)提供商和內(nèi)容發(fā)布者應(yīng)該對(duì)使用ChatGPT生成的信息進(jìn)行審核,以防止虛假信息的傳播。政府應(yīng)該制定有關(guān)網(wǎng)絡(luò)信息傳播的監(jiān)管法規(guī),為確保信息真實(shí)性和準(zhǔn)確性建立機(jī)制,對(duì)虛假信息提供者進(jìn)行懲罰。
以AI對(duì)AI:建立人工智能生成內(nèi)容鑒別處置機(jī)制。面對(duì)人工智能內(nèi)容生成,只能采用AI對(duì)AI的策略進(jìn)行反制。應(yīng)針對(duì)不同語(yǔ)言模型的技術(shù)特點(diǎn)提前進(jìn)行布局,不斷迭代人工智能內(nèi)容監(jiān)測(cè)系統(tǒng)。目前看來,ChatGPT等AIGC應(yīng)用有一些較為明顯的局限性,包括但不限于:語(yǔ)法和語(yǔ)義錯(cuò)誤,在生成文本時(shí)會(huì)出現(xiàn)語(yǔ)法錯(cuò)誤和語(yǔ)義不一致的情況。泛化能力有限,在處理新的任務(wù)時(shí)泛化能力較弱,它可能無法準(zhǔn)確地回答新的問題或處理新的文本數(shù)據(jù)。缺乏邏輯推理能力,無法通過推理來得出結(jié)論,在處理復(fù)雜的問題時(shí)可能會(huì)出錯(cuò)。依賴輸入文本,對(duì)輸入文本的內(nèi)容具有非常強(qiáng)的依賴性。這些問題在很大程度上代表了人工智能內(nèi)容生產(chǎn)的通用性缺陷,可從網(wǎng)絡(luò)內(nèi)容重復(fù)性、邏輯性、語(yǔ)法語(yǔ)義等方面著重開發(fā)監(jiān)測(cè)工具,通過分析語(yǔ)言特征和上下文信息來識(shí)別虛假信息,使用預(yù)訓(xùn)練數(shù)據(jù)進(jìn)行數(shù)據(jù)驅(qū)動(dòng)的方法來檢測(cè)生成的信息,構(gòu)建人工智能生成內(nèi)容鑒別處置機(jī)制。
加大力度培養(yǎng)自主可控的自然語(yǔ)言生成式模型。目前市面上的人工智能語(yǔ)言模型并不少見,如谷歌BERT模型、阿里巴巴的PLUG模型、清華大學(xué)計(jì)算機(jī)系自然語(yǔ)言處理與社會(huì)人文計(jì)算實(shí)驗(yàn)室的中文詩(shī)歌生成系統(tǒng)“九歌”等,能夠采用擬人化方式和用戶自由對(duì)話的也有Character.AI(角色AI)等。但相比上述能夠生成語(yǔ)言的模型,ChatGPT具有了更為強(qiáng)大的功能,其背后是未來人工智能生產(chǎn)領(lǐng)域“強(qiáng)者更強(qiáng)”的發(fā)展邏輯。ChatGPT主要通過使用人類反饋強(qiáng)化學(xué)習(xí)(RLHF)針對(duì)對(duì)話進(jìn)行優(yōu)化,這是一種使用人類演示來指導(dǎo)模型實(shí)現(xiàn)所需行為的方法,其參數(shù)量從最開始的1.17億增加到1750億,預(yù)訓(xùn)練數(shù)據(jù)量從5GB增加到45TB,其中GPT-3訓(xùn)練一次的費(fèi)用約為460萬(wàn)美元,總訓(xùn)練成本達(dá)1200萬(wàn)美元。流行的人工智能語(yǔ)言模型在人們的使用中不斷獲得信息反饋,持續(xù)進(jìn)化,最終讓競(jìng)爭(zhēng)對(duì)手“望而卻步”。這提示我們應(yīng)該加強(qiáng)自主可控的自然語(yǔ)言生成式模型的研發(fā)投入與推廣應(yīng)用,最終通過市場(chǎng)手段促進(jìn)中國(guó)人工智能發(fā)展。
(作者單位:中國(guó)社會(huì)科學(xué)院新聞與傳播研究所)
標(biāo)簽: 人工智能 自然語(yǔ)言處理 語(yǔ)言模型
熱門