先說程序員有多快。第一個開源的ChatGPT項目已經出現了!
基于谷歌語言模型的PaLM架構和從人類反饋中加強學習的方法,中國弟弟Phillip Wang復制了一個ChatGPT。
項目GitHub star已經超過1.7k,而且還在飆升。
可是,一反常態,網友們看到開源ChatGPT并沒有搶,反而都提出了問題:
這......有人能跑。
開源,但不完全開放。
項目的核心內容是在PaLM架構上實現基于人類反饋的強化學習。
其中PaLM是谷歌在今年4月發布的5400億參數全能機型基于通路系統的訓練,伯特之父雅各布·德夫林是主要貢獻者之一
PaLM可以完成寫代碼,聊天,語言理解等任務,在大多數任務中實現了小樣本的SOTA學習性能
另一個核心點是RLHF的來自人類反饋的強化學習。
OpenAI在提出InstructGPT的時候就使用了這種方法,可以讓AI的回答更加符合情境要求,減少危害性。
它分為三個步驟:
第一步是找一些人寫下示范答案,以微調GPT—3模型并訓練監督模型基線。
第二步,收集一個問題的幾組不同的輸出數據,由人類對幾組答案進行排序,在這個數據集上訓練獎勵模型。
再次,采用RM作為獎勵函數,近端策略優化算法對GPT—3策略進行微調,加強學習方法,使獎勵最大化。
ChatGPT使用的GPT—3.5,其中text—davinci—002是在code—davinci—002的基礎上使用InstructGPT訓練方法改進的。
大致有三個步驟:
我們先訓練一下PaLM,就像其他自回歸變壓器一樣。
第二...
等等,練掌你確定這不是開玩笑嗎
現在我明白為什么大家都覺得這個開源項目根本跑不起來了...
打個不恰當的比方,這就好比你想吃熊肉,你得先自己給熊頭上。
項目里只有PaLM架構和代碼,沒有預訓練的權重。
所以完成第一步后,大概效果是...
說到這里,繼續往下看...
然后,用強化學習對之前訓練好的模型和獎勵模型進行微調。
經過這三步,你就可以得到一個開源版本的ChatGPT了。
中間的問題包括巨大的計算量,龐大的模型和難以收集的文本...所以有些人不禁要問:
沒有可能,也沒用。
不過,也有網友認為這本質上是好事。
AI的一個關鍵區別是,每一次重大突破,都會很快出現一個開源版本。
而LAION也推出了類似的項目Open Assistant,將通過眾籌腦力聯合開發一款開源聊天AI。
穩定擴散使用的開放數據集就是這個組織做的。
感興趣的童鞋不妨試試~
PaLM—rlhf—pytorch主頁:
打開助手主頁:
參考鏈接:
聲明:本網轉發此文章,旨在為讀者提供更多信息資訊,所涉內容不構成投資、消費建議。文章事實如有疑問,請與有關方核實,文章觀點非本網觀點,僅供讀者參考。
猜你喜歡
-
游客在進入北京環球度假區時須核驗北京健康
具體如下:北京環球度假區繼續按照相關政府部門的限流要求,以預約入園的形式加強人流動態監測和...詳情
2022-04-28
-
杭州湘湖的草坪人氣很高不少人在這里搭帳篷
湘湖邊亂搭帳篷,煞了春日風景景區出臺最新政策,將設置臨時帳篷搭建區,后續還要增設露營服務區...詳情
2022-04-14
-
南非徐霞客在云南:從行萬里路到吃百碗米線
題:南非徐霞客在云南:從行萬里路到吃百碗米線的文化之旅杜安睿來自南非,是一名國際注冊會計師...詳情
2022-04-10
-
廣州新增3例本土確診病例雙層觀光巴士全部
廣州新增3例本土確診病例雙層觀光巴士全部停運廣州市政府新聞辦公室21日公布的信息顯示,過去...詳情
2022-03-22