-
首頁(yè) > 國(guó)內(nèi) > 大模型靠“深呼吸”數(shù)學(xué)再漲8分!谷歌DeepMind發(fā)現(xiàn)AI自己設(shè)計(jì)提示
大模型靠“深呼吸”數(shù)學(xué)再漲8分!谷歌DeepMind發(fā)現(xiàn)AI自己設(shè)計(jì)提示
來源:IT之家 時(shí)間:2023-09-12 10:35:06 閱讀量:15081
感謝IT之家網(wǎng)友 Alejandro86、軟媒用戶1520111 的線索投遞!
提示詞中加上“深呼吸”,AI 大模型數(shù)學(xué)成績(jī)就能再漲 8.4 分!
谷歌 DeepMind 團(tuán)隊(duì)最新發(fā)現(xiàn),用這個(gè)新“咒語”結(jié)合大家已經(jīng)熟悉的“一步一步地想”(Let’s think step by step),大模型在 GSM8K 數(shù)據(jù)集上的成績(jī)就從 71.8 提高到 80.2 分。
而且這個(gè)最有效的提示詞,是 AI 自己找出來的。
有網(wǎng)友開玩笑說,深呼吸以后,散熱風(fēng)扇就轉(zhuǎn)速就提高了。
也有人表示,剛高薪入職的提示工程師們也應(yīng)該深呼吸,工作可能干不久了
相關(guān)論文《大語言模型是優(yōu)化器》,再次引起轟動(dòng)。
具體來說,大模型自己設(shè)計(jì)的提示詞在 Big-Bench Hard 數(shù)據(jù)集上最高提升 50%。
也有人的關(guān)注點(diǎn)在“不同模型的最佳提示詞不一樣”。
并且不止提示詞設(shè)計(jì)這一個(gè)任務(wù),在論文中還測(cè)試了大模型在線性回歸和旅行商問題這些經(jīng)典優(yōu)化任務(wù)上的能力。
模型不同,最佳提示詞也不同
優(yōu)化問題無處不在,基于導(dǎo)數(shù)和梯度的算法是強(qiáng)大的工具,但現(xiàn)實(shí)應(yīng)用中也經(jīng)常遇到梯度不適用的情況。
為解決這個(gè)問題,團(tuán)隊(duì)開發(fā)了新方法 OPRO,也就是通過提示詞優(yōu)化。
不是形式化定義優(yōu)化問題然后用程序求解,而是用自然語言描述優(yōu)化問題,并要求大模型生成新的解決方案。
一圖流總結(jié),就是對(duì)大模型的一種遞歸調(diào)用。
每一步優(yōu)化中,以之前生成的解決方案和評(píng)分作為輸入,大模型生成新的方案并評(píng)分,再將其添加到提示詞中,供下一步優(yōu)化使用。
論文主要使用谷歌的 PaLM 2 和 Bard 中的 text-bison 版本作為評(píng)測(cè)模型。
再加上 GPT-3.5 和 GPT-4,共 4 種模型作為優(yōu)化器。
結(jié)果表明,不光不同模型設(shè)計(jì)出的提示詞風(fēng)格不同,適用的提示詞風(fēng)格也不同。
此前在 GPT 系列上的 AI 設(shè)計(jì)出的最優(yōu)提示詞是“Let’s work this out in a step by step way to be sure we have the right answer.”
這個(gè)提示詞使用 APE 方法設(shè)計(jì),論文發(fā)表在 ICLR 2023 上,在 GPT-3上超過人類設(shè)計(jì)的版本“Let’s think step by step”。
但這次在谷歌系 PaLM 2 和 Bard 上,APE 版本作為基線就還不如人類版本。
OPRO 方法設(shè)計(jì)出來的新提示詞中,“深呼吸”和“拆解這個(gè)問題”對(duì) PaLM 來說效果最好。
對(duì) text-bison 版的 Bard 大模型來說,則更傾向于詳細(xì)的提示詞。
另外論文還展示了大模型在數(shù)學(xué)優(yōu)化器上的潛力。
線性回歸作為連續(xù)優(yōu)化問題的示例。
旅行商問題作為離散優(yōu)化問題的示例。
僅僅通過提示,大模型就能找到不錯(cuò)的解決方案,有時(shí)甚至匹敵或超過手動(dòng)設(shè)計(jì)的啟發(fā)式算法。
但團(tuán)隊(duì)也認(rèn)為大模型還無法替代傳統(tǒng)基于梯度的優(yōu)化算法,當(dāng)問題規(guī)模較大時(shí),OPRO 方法表現(xiàn)就不好。
對(duì)于未來改進(jìn)方向,團(tuán)隊(duì)提出當(dāng)前大模型還無法有效利錯(cuò)誤案例,僅提供錯(cuò)誤案例無法讓大模型捕捉捕捉到錯(cuò)誤的原因。
一個(gè)有前景的方向是結(jié)合關(guān)于錯(cuò)誤案例的更豐富的反饋,并總結(jié)優(yōu)化軌跡中高質(zhì)量和低質(zhì)量生成提示的關(guān)鍵特征差異。
這些信息可能幫助優(yōu)化器模型更高效地改進(jìn)過去生成的提示,并可能進(jìn)一步減少提示優(yōu)化所需的樣本數(shù)量。
論文放出大量最優(yōu)提示詞
論文來自谷歌與 DeepMind 合并后的部門,但作者以原谷歌大腦團(tuán)隊(duì)為主,包括 Quoc Le、周登勇。
共同一作為康奈爾大學(xué)博士畢業(yè)的復(fù)旦校友 Chengrun Yang,和 UC 伯克利博士畢業(yè)的上交大校友陳昕昀。
團(tuán)隊(duì)還在論文中給出了大量實(shí)驗(yàn)中得到的最優(yōu)提示詞,包括電影推薦、惡搞電影名字等實(shí)用場(chǎng)景,有需要的小伙伴可自取。
論文地址:
參考鏈接:
廣告聲明:文內(nèi)含有的對(duì)外跳轉(zhuǎn)鏈接,用于傳遞更多信息,節(jié)省甄選時(shí)間,結(jié)果僅供參考,IT之家所有文章均包含本聲明。
聲明:本網(wǎng)轉(zhuǎn)發(fā)此文章,旨在為讀者提供更多信息資訊,所涉內(nèi)容不構(gòu)成投資、消費(fèi)建議。文章事實(shí)如有疑問,請(qǐng)與有關(guān)方核實(shí),文章觀點(diǎn)非本網(wǎng)觀點(diǎn),僅供讀者參考。
猜你喜歡
-
游客在進(jìn)入北京環(huán)球度假區(qū)時(shí)須核驗(yàn)北京健康
具體如下:北京環(huán)球度假區(qū)繼續(xù)按照相關(guān)政府部門的限流要求,以預(yù)約入園的形式加強(qiáng)人流動(dòng)態(tài)監(jiān)測(cè)和...詳情
2022-04-28
-
杭州湘湖的草坪人氣很高不少人在這里搭帳篷
湘湖邊亂搭帳篷,煞了春日風(fēng)景景區(qū)出臺(tái)最新政策,將設(shè)置臨時(shí)帳篷搭建區(qū),后續(xù)還要增設(shè)露營(yíng)服務(wù)區(qū)...詳情
2022-04-14
-
南非徐霞客在云南:從行萬里路到吃百碗米線
題:南非徐霞客在云南:從行萬里路到吃百碗米線的文化之旅杜安睿來自南非,是一名國(guó)際注冊(cè)會(huì)計(jì)師...詳情
2022-04-10
-
廣州新增3例本土確診病例雙層觀光巴士全部
廣州新增3例本土確診病例雙層觀光巴士全部停運(yùn)廣州市政府新聞辦公室21日公布的信息顯示,過去...詳情
2022-03-22
- 防范洗錢風(fēng)險(xiǎn)維護(hù)金融安全
- 鹽田港拖車綜合服務(wù)中心二期項(xiàng)目舉行202
- 山西農(nóng)商聯(lián)合銀行:選舉王亞為董事長(zhǎng)聘任任
- 演練促安全防患于未然
- 打造小微企業(yè)服務(wù)新引擎,智能時(shí)代暢捷通助
- 金融監(jiān)管總局:優(yōu)化保險(xiǎn)公司償付能力監(jiān)管引
- 農(nóng)發(fā)行崇禮區(qū)支行開展存款保險(xiǎn)宣傳活動(dòng)
- 杭州亞運(yùn)會(huì)發(fā)布總賽程3.0版:電競(jìng)項(xiàng)目9
- 京東方A:下半年柔性AMOLED需求環(huán)比
- 8月份CPI同比、PPI環(huán)比由負(fù)轉(zhuǎn)正我國(guó)