【資料圖】
4月4日消息,OpenAI最新的語言模型GPT-4不僅能夠像人類一樣生成各種文本,還能夠設(shè)計(jì)和執(zhí)行測試來評估和改進(jìn)自己的表現(xiàn)。這種“反思”技術(shù)讓GPT-4在多項(xiàng)難度較高的測試中,都取得了顯著的進(jìn)步,測試表現(xiàn)提升30%。
GPT-4是繼GPT、GPT-2和GPT-3之后,OpenAI推出的最先進(jìn)的系統(tǒng),也是目前最大的多模態(tài)模型(可以接受圖像和文本輸入,輸出文本)。其利用深度學(xué)習(xí)技術(shù),使用人工神經(jīng)網(wǎng)絡(luò)來模仿人類的寫作。
研究人員諾亞辛恩(Noah Shinn)和阿什溫戈平納特(Ashwin Gopinath)在論文中寫道:“我們開發(fā)了一種新穎的技術(shù),讓AI代理能夠模擬人類的自我反思,并評估自己的表現(xiàn)。GPT-4在完成各種測試的時(shí)候,會(huì)增加一些額外的步驟,讓它能夠自己設(shè)計(jì)測試來檢查自己的答案,找出錯(cuò)誤和不足之處,然后根據(jù)發(fā)現(xiàn)來修改自己的解決方案。”
在 HumanEval編碼測試中,GPT-4使用自我反思環(huán)路,準(zhǔn)確率從67%上升到88%
GPT-4可以通過設(shè)計(jì)和執(zhí)行測試來批判其自身的性能,如AlfWorld測試結(jié)果所示,可以大大改善其性能
研究團(tuán)隊(duì)使用這種技術(shù)對GPT-4進(jìn)行了幾種不同的性能測試。在HumanEval測試中,GPT-4需要解決164個(gè)從未見過的Python編程問題,原本準(zhǔn)確率為67%,使用反思技術(shù)后,準(zhǔn)確率提升到了88%。在Alfworld測試中,AI需要在各種不同的交互環(huán)境中,通過執(zhí)行一些允許的操作,來做出決策和解決多步任務(wù)。使用反思技術(shù)后,GPT-4的準(zhǔn)確率從73%提高到了97%,只有4個(gè)任務(wù)失敗。在HotPotQA測試中,GPT-4可以訪問維基百科,并回答100個(gè)需要從多個(gè)支持文檔中解析內(nèi)容和推理的問題,原本準(zhǔn)確率為34%,使用反思技術(shù)后,準(zhǔn)確率提高到了54%。
這項(xiàng)研究表明,AI問題的解決方案有時(shí)候是依賴AI本身。發(fā)現(xiàn),這有點(diǎn)像生成對抗網(wǎng)絡(luò),這是一種讓兩個(gè)AI互相提高技能的方法,比如一個(gè)AI試圖生成一些看起來像真實(shí)圖片的圖片,另一個(gè)AI試圖分辨哪些是假的,哪些是真的。但在這種情況下,GPT既是寫作者又是編輯,通過自我反思來改進(jìn)自己的輸出質(zhì)量。
標(biāo)簽:
熱門