999精品,丝袜综合,大陆老熟妇性,中国老女人AV,亚洲精品国产第一区二区三区

喝杯咖啡就能訓(xùn)練大模型?微軟開(kāi)源項(xiàng)目將訓(xùn)練速度提升15倍
發(fā)布時(shí)間:2023-04-14 18:14:12 文章來(lái)源:南方都市報(bào)
當(dāng)前位置: 主頁(yè) > 資訊 > 國(guó)內(nèi) > 正文

在OpenAI大走閉源之路,幾乎已經(jīng)要變成“CloseAI”的同時(shí),其身后老板微軟卻搞起了開(kāi)源。


(資料圖)

4月13日,微軟宣布開(kāi)源DeepSpeed-Chat,號(hào)稱可以通過(guò)這一項(xiàng)目將ChatGPT等大語(yǔ)言模型的訓(xùn)練速度提升15倍以上,并大幅降低成本。

事實(shí)上,訓(xùn)練速度和算力資源一直是大語(yǔ)言模型研發(fā)的一個(gè)難題。千億參數(shù)的ChatGPT初始所需的算力就需要1萬(wàn)塊當(dāng)前最先進(jìn)的AI芯片,英偉達(dá)A100來(lái)提供,成本高達(dá)1億美元,而就算是訓(xùn)練一個(gè)參數(shù)不超百億的類ChatGPT模型,也仍需要高成本的GPU集群。

DeepSpeed-Chat團(tuán)隊(duì)表示,該項(xiàng)目可以有效緩解上述問(wèn)題,開(kāi)源之后,也能讓類ChatGPT模型更容易被缺少資金和酸鋰資源的普通研究者使用。因此,消息一出,頓時(shí)引發(fā)了熱議。

其實(shí),微軟早在2020年就開(kāi)源了深度學(xué)習(xí)訓(xùn)練優(yōu)化庫(kù)Deep Speed,項(xiàng)目核心貢獻(xiàn)者中有不少華人開(kāi)發(fā)者。因此,此次的Deep Speed Chat也發(fā)布了中文博客,其中明確給出了在這一項(xiàng)目框架的加持下,各量級(jí)參數(shù)的大模型需要多長(zhǎng)訓(xùn)練時(shí)間。

可以看到,基于多節(jié)點(diǎn)的A10080GB芯片的GPU集群配置,一個(gè)參數(shù)量為1750億(即175B)的大模型僅需20個(gè)小時(shí)的時(shí)間,花費(fèi)5000多美元。而在兩年前,同樣有1750億參數(shù)量的GPT-3基于1024張80GB的A100進(jìn)行訓(xùn)練時(shí),仍需要1個(gè)月時(shí)間。

博客也提到,如果用DeepSpeed-Chat訓(xùn)練一個(gè),13億參數(shù)的小型模型(大約是2019年GPT-2的參數(shù)量級(jí)),總共也只需要2個(gè)多小時(shí),能夠在“咖啡或午餐休息時(shí)間”完成。

而能達(dá)到如此好的效果,是因?yàn)镈eepSpeed-Chat是一種針對(duì)RLHF訓(xùn)練的深度學(xué)習(xí)系統(tǒng)。

所謂RLHF是指以強(qiáng)化學(xué)習(xí)方式依據(jù)人類反饋優(yōu)化語(yǔ)言模型(Reinforcement Learning from Human Feedback),一種生成領(lǐng)域的新訓(xùn)練范式。這也是ChatGPT與常見(jiàn)大語(yǔ)言模型“預(yù)訓(xùn)練+微調(diào)”的訓(xùn)練方式截然不同的地方。

這種方式簡(jiǎn)單來(lái)說(shuō),就是大語(yǔ)言模型會(huì)根據(jù)人工反饋來(lái)調(diào)整自己的答案,具體來(lái)講,人工會(huì)針對(duì)初期訓(xùn)練中的多個(gè)模型給出的不同答案進(jìn)行排序,然后基于這些排序建立一個(gè)“獎(jiǎng)懲機(jī)制”(reward),再用強(qiáng)化學(xué)習(xí)繼續(xù)訓(xùn)練。

這種方法一方面使得ChatGPT最終生成的效果極佳,一方面也使得現(xiàn)有的深度學(xué)習(xí)系統(tǒng)在訓(xùn)練類ChatGPT模型時(shí)存在種種局限。而DeepSpeed-Chat則復(fù)刻了RLHF訓(xùn)練方式,使得模型能夠利用DeepSpeed-Inference的各種優(yōu)化,在RLHF中無(wú)縫地在推理和訓(xùn)練模式之間切換。

事實(shí)上,對(duì)于這一項(xiàng)目,也有觀點(diǎn)認(rèn)為,光有代碼層面的設(shè)計(jì),缺乏算力上的支持,仍然意義不大。對(duì)此,DeepSpeed項(xiàng)目的核心貢獻(xiàn)者之一Zhewei Yao在知乎相關(guān)問(wèn)題下表示,訓(xùn)練引擎、后端(backend)自然重要,但訓(xùn)練效率也一樣。

“如果一個(gè)人的訓(xùn)練速度比別人慢10倍,那么別人可以嘗試10次,而自己只能嘗試一次。這樣一來(lái),雙方最終成功的概率會(huì)有很大差距。因此,我們這次開(kāi)源的目的有兩個(gè):一是為大家提供RLHF的訓(xùn)練流程;二是為大家提供更優(yōu)秀的后端,以便大家在有限的時(shí)間內(nèi)進(jìn)行更多嘗試?!?/p>

編譯:南都記者楊博雯

人工智能

記者

標(biāo)簽:

最近更新