每日速遞:看不下去AI胡說(shuō)八道,英偉達出手給大模型安了個(gè)“護欄”
大模型們胡說(shuō)八道太嚴重,英偉達看不下去了。
【資料圖】
他們正式推出了一個(gè)新工具,幫助大模型說(shuō)該說(shuō)的話(huà),并回避不應該觸碰的話(huà)題。 這個(gè)新工具名叫“護欄技術(shù)”(NeMo Guardrails),相當于給大模型加上一堵安全圍墻,既能控制它的輸出、又能過(guò)濾輸入它的內容。
一方面,用戶(hù)誘導大模型生成攻擊性代碼、輸出不道德內容的時(shí)候,它就會(huì )被護欄技術(shù)“束縛”,不再輸出不安全的內容。 另一方面,護欄技術(shù)還能保護大模型不受用戶(hù)的攻擊,幫它擋住來(lái)自外界的“惡意輸入”。
現在,這個(gè)大模型護欄工具已經(jīng)開(kāi)源,一起來(lái)看看它的效果和生成方法。
防止大模型胡言亂語(yǔ)的三類(lèi)“護欄”
根據英偉達介紹,目前NeMo Guardrails一共提供三種形式的護欄技術(shù): 話(huà)題限定護欄(topical guardrails)、對話(huà)安全護欄(safety guardrails)和攻擊防御護欄(security guardrails)。
話(huà)題限定護欄,簡(jiǎn)單來(lái)說(shuō)就是“防止大模型跑題”。
大模型具備更豐富的想象力,相比其他AI更容易完成創(chuàng )造性的代碼和文字編寫(xiě)工作。 但對于特定場(chǎng)景應用如寫(xiě)代碼、當客服而言,至少用戶(hù)不希望它在解決問(wèn)題時(shí)“脫離目標范圍”,生成一些與需求無(wú)關(guān)的內容。 這種情況下就需要用到話(huà)題限定護欄,當大模型生成超出話(huà)題范圍的文字或代碼時(shí),護欄就會(huì )將它引導回限定的功能和話(huà)題上。
對話(huà)安全護欄,指避免大模型輸出時(shí)“胡言亂語(yǔ)”。
胡言亂語(yǔ)包括兩方面的情況。 一方面是大模型生成的答案中包括事實(shí)性錯誤,即“聽(tīng)起來(lái)很有道理,但其實(shí)完全不對”的東西; 另一方面是大模型生成帶偏見(jiàn)、惡意的輸出,如在用戶(hù)引導下說(shuō)臟話(huà)、或是生成不道德的內容。
攻擊防御護欄,即防止AI平臺受到來(lái)自外界的惡意攻擊。
這里不僅包括誘導大模型調用外部病毒APP從而攻擊它,也包括黑客主動(dòng)通過(guò)網(wǎng)絡(luò )、惡意程序等方式攻擊大模型。護欄會(huì )通過(guò)各種方式防止這些攻擊,避免大模型癱瘓。 所以,這樣的護欄要如何打造?
如何打造一個(gè)大模型“護欄”?
這里我們先看看一個(gè)標準的“護欄”包含哪些要素。 具體來(lái)說(shuō),一個(gè)護欄應當包括三方面的內容,即格式規范(Canonical form)、消息(Messages)和交互流(Flows)。
首先是 格式規范,即面對不同問(wèn)題的問(wèn)法時(shí),規定大模型要輸出的內容。
例如被問(wèn)到“XX文章是什么”,大模型必須給出特定類(lèi)型的“文章”,而非別的東西;被問(wèn)到“誰(shuí)發(fā)表了什么”,大模型必須給出“人名”,而非別的回答。
然后是 消息定義,這里以“用戶(hù)問(wèn)候”話(huà)題為例,大模型可以輸出這些內容:
最后是 交互流的定義,例如告訴大模型,怎么才是問(wèn)候用戶(hù)的最好方式:
一旦問(wèn)候用戶(hù)的機制被觸發(fā),大模型就會(huì )進(jìn)入這個(gè)護欄,規規矩矩地問(wèn)候用戶(hù)。 具體工作流程如下:首先,將用戶(hù)輸入轉換成某種格式規范(canonical form),據此生成對應的護欄;隨后,生成行動(dòng)步驟,以交互流指示大模型一步步完成對應的操作;最后,根據格式規范生成輸出。
類(lèi)似的,我們就能給大模型定義各種各樣的護欄,例如“應對用戶(hù)辱罵”的護欄。 這樣即使用戶(hù)說(shuō)出“你是個(gè)傻瓜”,大模型也能學(xué)會(huì )冷靜應對:
目前,英偉達正在將護欄技術(shù)整合進(jìn)他們的AI框架NeMo中,這是個(gè)方便用戶(hù)創(chuàng )建各種AI模型、并在英偉達GPU上加速的框架。 對“護欄”技術(shù)感興趣的小伙伴們,可以試一試了~
開(kāi)源地址:https://github.com/NVIDIA/NeMo-Guardrails
參考鏈接:https://www.nvidia.com/en-us/ai-data-science/generative-ai/nemo-framework/
本文作者:蕭簫,來(lái)源,量子位,原文標題:《看不下去AI胡說(shuō)八道,英偉達出手給大模型安了個(gè)“護欄”》
風(fēng)險提示及免責條款 市場(chǎng)有風(fēng)險,投資需謹慎。本文不構成個(gè)人投資建議,也未考慮到個(gè)別用戶(hù)特殊的投資目標、財務(wù)狀況或需要。用戶(hù)應考慮本文中的任何意見(jiàn)、觀(guān)點(diǎn)或結論是否符合其特定狀況。據此投資,責任自負。關(guān)鍵詞: