解決AI落地的最大障礙,OpenAI找到辦法了?|資訊推薦
OpenAI似乎找到了解決生成式人工智能“一本正經(jīng)胡說(shuō)八道”的辦法。
5月31日,OpenAI在其官網(wǎng)宣布,已經(jīng)訓練了一個(gè)模型,能夠有助于消除生成式AI常見(jiàn)的“幻覺(jué)”和其他常見(jiàn)問(wèn)題。
【資料圖】
OpenAI表示,可以訓練獎勵模型來(lái)檢測幻覺(jué),獎勵模型又分為結果監督(根據最終結果提供反饋)或過(guò)程監督(為思維鏈中的每個(gè)步驟提供反饋)模型。
也就是說(shuō),過(guò)程監督獎勵推理的每個(gè)正確步驟,而結果監督只是簡(jiǎn)單地獎勵正確的答案。
OpenAI表示,相比之下,過(guò)程監督有一個(gè)重要的優(yōu)勢——它直接訓練模型以產(chǎn)生由人類(lèi)認可的思維鏈:
過(guò)程監督與結果監督相比有幾個(gè)一致性?xún)?yōu)勢。它直接獎勵遵循一致的思維鏈的模型,因為過(guò)程中的每一步都得到了精確的監督。
過(guò)程監督也更有可能產(chǎn)生可解釋的推理,因為它鼓勵模型遵循人類(lèi)批準的過(guò)程
結果監督可能會(huì )獎勵一個(gè)不一致的過(guò)程,而且通常更難審查。
OpenAI在數學(xué)數據集上測試了這兩種模型,發(fā)現過(guò)程監督方法導致了“顯著(zhù)更好的性能”。
但需要注意的是,到目前為止,過(guò)程監督方法僅在數學(xué)領(lǐng)域進(jìn)行了測試,并且需要更多的工作來(lái)觀(guān)察它如何更普遍地執行。
此外,OpenAI沒(méi)有說(shuō)明這一研究需要多長(cháng)時(shí)間才能應用在ChatGPT,它仍然處于研究階段。
雖然最初的結果是好的,但OpenAI確實(shí)提到,更安全的方法會(huì )產(chǎn)生降低的性能,稱(chēng)為對齊稅(alignment tax)。
目前的結果顯示,在處理數學(xué)問(wèn)題時(shí),過(guò)程監督不會(huì )產(chǎn)生對齊稅,但在一般的信息上的情況尚不知曉。
生成式AI的“幻覺(jué)”
生成式AI問(wèn)世以來(lái),圍繞其編造虛假信息、“產(chǎn)生幻覺(jué)”的指控從未消失,這也是目前生成式AI模型最大的問(wèn)題之一。
今年2月,谷歌為應對微軟資助下ChatGPT,倉促推出了聊天機器人Bard,結果卻被發(fā)現在演示中出現了常識性錯誤,導致谷歌股價(jià)大跌。
導致AI出現幻覺(jué)的原因有多種,輸入數據欺騙AI程序進(jìn)行錯誤分類(lèi)是其中一種。
例如,開(kāi)發(fā)人員使用數據(如圖像、文本或其他類(lèi)型)來(lái)訓練人工智能系統,如果數據被改變或扭曲,應用程序將以不同的方式解釋輸入并產(chǎn)生不正確的結果。
幻覺(jué)可能會(huì )出現在像ChatGPT這樣的基于語(yǔ)言的大型模型中,這是由于不正確的轉換器解碼,導致語(yǔ)言模型可能會(huì )產(chǎn)生一個(gè)沒(méi)有不合邏輯或模糊的故事或敘述。
風(fēng)險提示及免責條款 市場(chǎng)有風(fēng)險,投資需謹慎。本文不構成個(gè)人投資建議,也未考慮到個(gè)別用戶(hù)特殊的投資目標、財務(wù)狀況或需要。用戶(hù)應考慮本文中的任何意見(jiàn)、觀(guān)點(diǎn)或結論是否符合其特定狀況。據此投資,責任自負。關(guān)鍵詞: