最新精品露脸国产在线,最新版天堂中文在线

首個“開源 ChatGPT ”來了：基于谷歌 5400 億參數(shù)大模型，網(wǎng)友吐槽：這誰能跑

發(fā)布時間：2022-12-30 12:12:16 文章來源：IT之家

當(dāng)前位置：主頁 > 資訊 > 國內(nèi) > 正文

就說程序員的手速有多快吧，首個開源 ChatGPT 項目已經(jīng)出現(xiàn)了！

(相關(guān)資料圖)

基于谷歌語言大模型 PaLM 架構(gòu)，以及使用從人類反饋中強(qiáng)化學(xué)習(xí)的方法（RLHF），華人小哥Phillip Wang復(fù)刻了一個 ChatGPT 出來。

項目 GitHub 星已經(jīng)超過 1.7k 了，而且還在一路飆升 ing。

不過一反常態(tài)的是，網(wǎng)友們看到“開源 ChatGPT”卻沒有火速開沖，反倒齊刷刷在發(fā)問：

這…… 有人能 run？

開源了但沒完全開？

項目的核心內(nèi)容，是在 PaLM 架構(gòu)上實現(xiàn)基于人類反饋的強(qiáng)化學(xué)習(xí)。

其中，PaLM（Pathways Language Model）是谷歌在今年 4 月發(fā)布的5400 億參數(shù)全能大模型，基于 Pathways 系統(tǒng)訓(xùn)練，BERT 之父 Jacob Devlin 為主要貢獻(xiàn)者之一。

PaLM 可以完成寫代碼、聊天、語言理解等任務(wù)，并且在大多數(shù)任務(wù)上實現(xiàn)了 SOTA 少樣本學(xué)習(xí)性能。

另一個核心點是 RLHF“從人類反饋中強(qiáng)化學(xué)習(xí)”。

OpenAI 提出 InstructGPT 時就用到了這一方法，它能讓 AI 的回答更加符合情景要求，降低“有害性”。

具體分三步：

第一步，找一些人寫下示范答案，來微調(diào) GPT-3 模型，訓(xùn)練監(jiān)督模型 baseline。

第二步，收集某個問題的幾組不同輸出數(shù)據(jù)，由人類對幾組答案進(jìn)行排序，在此數(shù)據(jù)集上訓(xùn)練獎勵模型。

第三步，使用 RM 作為獎勵函數(shù)，近端策略優(yōu)化（PPO）算法微調(diào) GPT-3 策略，以強(qiáng)化學(xué)習(xí)方法最大化獎勵。

ChatGPT使用的 GPT-3.5，其中 text-davinci-002 就是在 code-davinci-002 的基礎(chǔ)上，采用了 InstructGPT 訓(xùn)練方法改進(jìn)得到。

正是基于如上兩方面核心內(nèi)容，作者實現(xiàn)了 ChatGPT 的復(fù)刻。

大致步驟有 3 步：

首先來訓(xùn)練一下 PaLM，就和其他自回歸 Transformer 一樣。

第二……

等等，訓(xùn)練 PaLM？？？這確定不是在開玩笑？

現(xiàn)在明白為啥大家都覺得這個開源項目完全不能 run 了……

打個不恰當(dāng)?shù)谋确?，這就像如果想吃熊肉，那先自己去打頭熊來。

項目中只有 PaLM 架構(gòu)和代碼，沒有預(yù)先訓(xùn)練好的權(quán)重。

所以完成第一步，大概效果就是……

話雖如此，但還是繼續(xù)接著往下看看……

第二步，就要訓(xùn)練基于 RLHF 的獎勵模型了。作者使用的是一種輕量級訓(xùn)練大語言模型方法 LoRA，這種方法是開源的。

然后，再把之前訓(xùn)練好的模型和獎勵模型用強(qiáng)化學(xué)習(xí)進(jìn)行微調(diào)。

經(jīng)過這三步后，就能得到一個開源版的 ChatGPT 了。

這中間面臨的問題包括巨大的計算量、超大模型和難收集的文本…… 所以有人也不免發(fā)問：

有沒有一種可能，它也沒啥用？

不過有網(wǎng)友覺得這本質(zhì)上還是一件好事啦。

AI 的一個關(guān)鍵區(qū)別就是，每有一個重大突破，很快就會出現(xiàn)一個開源版本。

實際上，開源項目作者小哥 Philip Wang 一直都熱衷于復(fù)刻各種明星項目，過去還嘗試過 Dall E 2、AlphaFold 2 等。

以及 LAION 也發(fā)起了一個類似項目Open Assistant，他們將通過“眾籌腦力”的方式，共同開發(fā)一個開源的聊天 AI。

Stable Diffusion 用的開放數(shù)據(jù)集，就是這一組織做的。

標(biāo)簽：強(qiáng)化學(xué)習(xí) 進(jìn)行微調(diào) 語言模型

首個“開源 ChatGPT ”來了：基于谷歌 52022-12-30

【獨家】特斯拉新車型亮相廣州車展，預(yù)計202022-12-30

剛剛，教育部發(fā)布通知2022-12-30

今亮點！Mysteel調(diào)研：虎年辭去，兔年來臨2022-12-30

【環(huán)球快播報】包裹每天超1億件，小快遞如2022-12-30

果然是喜劇界扛把子！馬東這條新春視頻太太2022-12-30

每日消息!年線收官，黃金今天能刷新新高嗎2022-12-30

全球消息！許凡金銀油12.30視頻簡要總結(jié)2022-12-30

淘氣天尊：午后能不能沖上3100點圓滿收官？2022-12-30

通訊！全國哪里的小吃最好吃？2022-12-30

黑椰棗和黃椰棗有什么區(qū)別？2022-12-30

天天亮點！12月30日擒牛姐盤中提示2022-12-30

世界今亮點！綠殼雞蛋與普通雞蛋的區(qū)別2022-12-30

當(dāng)前通訊！上五花肉和下五花肉區(qū)別2022-12-30

世界聚焦：跨界者華民股份喜獲1512噸硅棒、2022-12-30

河南2022年11月份太陽能12.21億千瓦時,同比2022-12-30

【環(huán)球時快訊】2022年11月全國新能源并網(wǎng)消2022-12-30

世界最資訊丨supreme中文名叫什么？是什么2022-12-30

焦點消息！男人都是大豬蹄子是什么意思？大2022-12-30

焦點快播：端硯是什么產(chǎn)品？出產(chǎn)于哪個省市2022-12-30

當(dāng)前報道:電影找到你講述了什么故事？結(jié)局2022-12-30

彥佑君出自哪部電視??？是什么身份？2022-12-30

世界視點！狗十三中李玩養(yǎng)的寵物犬是什么品2022-12-30

【播資訊】莫若菲是誰扮演的？本人是男孩子2022-12-30

世界熱門:易什么什么處是什么成語？成語出2022-12-30

有關(guān)什么人什么什么的成語有哪些？2022-12-30

環(huán)球視點！山河破碎風(fēng)飄絮出自哪首詩？下一2022-12-30

【報資訊】花蛇是指什么？花蛇是貶義詞嗎？2022-12-30

企鵝一般生活在哪里？企鵝以什么為食？2022-12-30

每日熱議!荷蘭弟原名是什么？是哪國人？2022-12-30

聚焦

經(jīng)濟(jì)

世界新資訊：1—11月，合肥蜀山區(qū)經(jīng)濟(jì)發(fā)展持續(xù)穩(wěn)定向好

視訊！國道321（納西段）改建項目進(jìn)入重點控制性工程施工

安徽懷遠(yuǎn)打造數(shù)字農(nóng)業(yè)種菜“高大上”

焦點觀察：駐村第一書記的“詩和遠(yuǎn)方”

笛聲響處筑夢圓

科技創(chuàng)新推動綠色發(fā)展

999精品,丝袜综合,大陆老熟妇性,中国老女人AV,亚洲精品国产第一区二区三区

最近更新