GPT-4考90分全假!30年資深律師用ChatGPT打官司,6個(gè)虛假案例成笑柄 精選
在美國近來(lái)的一起訴訟案件中,一位律師幫原告打官司,引用了ChatGPT捏造的6個(gè)不存在的案例。
法官當庭指出,律師的辯護狀是一個(gè)徹頭徹尾的謊言,簡(jiǎn)直離了大譜。
然而,律師為自己辯護中,甚至提交了和ChatGPT聊天截圖的證據。
(資料圖片)
顯然,ChatGPT稱(chēng)「這些案例都是真實(shí)存在的」。
本為原告打的官司,自己竟惹禍上身,將受到制裁,這波操作瞬間在網(wǎng)上引起軒然大波。
畢竟,GPT-4剛誕生時(shí),OpenAI放出它在律師資格考試(UBE)的成績(jì),還拿到了90分。
網(wǎng)友警告,千萬(wàn)不要用ChatGPT進(jìn)行法律研究?。?!
還有人戲稱(chēng),要怪就怪你的prompt不行。
律師承認使用ChatGPT
這起訴訟的起始和其他許多案件一樣。
一位名叫Roberto Mata的男子在飛往紐約肯尼迪國際機場(chǎng)的航班上,不幸被一輛餐車(chē)撞到膝蓋,導致受傷。
由此,他便要起訴這架航班的「哥倫比亞航空公司」(Avianca)。
Mata聘請了Levidow,Levidow & Oberman律所的一位律師來(lái)替自己打這個(gè)官司。
接手案子后,律師Steven A. Schwartz向法院提交了一份10頁(yè)的辯護狀。其中,引用了6個(gè)相關(guān)的法院判決:
Varghese V. 中國南方航空公司
Shaboon V. 埃及航空公司
Petersen V. 伊朗航空公司
Martinez 達美航空公司
Estate of Durden V. 荷蘭皇家航空公司
Miller V. 美國聯(lián)合航空公司
原文件:
https://storage.courtlistener.com/recap/gov.uscourts.nysd.575368/gov.uscourts.nysd.575368.32.1.pdf
然而,讓所有人震驚的是,從案件本身,到司法判決,再到內部引文,全是假的!
為什么假?因為是ChatGPT生成的。
這不,麻煩就來(lái)了。
目前,對方律師考慮舉行聽(tīng)證會(huì ),對原告律師進(jìn)行制裁。
Schwartz律師,可以說(shuō)已經(jīng)非常資深,在紐約從事法律工作已有30年。
從他的話(huà)中得知,自己吃了大虧,竟是從來(lái)沒(méi)用過(guò)ChatGPT,由此沒(méi)有意識到它生成的內容是假的。說(shuō)來(lái),還是太離譜
原告律師Steven A. Schwartz在一份宣誓書(shū)中承認,他確實(shí)用了ChatGPT進(jìn)行相關(guān)研究。
為了驗證這些案件的真實(shí)性,他做了唯一一件合理的事:讓ChatGPT驗證這些案件的真實(shí)性。
他告訴法官,「自己無(wú)意欺騙法庭或航空公司」。
當他詢(xún)問(wèn)ChatGPT這些案件的來(lái)源時(shí),ChatGPT先是為之前的表述不清道歉,但還是堅稱(chēng)這些案件都是真實(shí)的,可以在Westlaw和LexisNexis上找到。
而對方律師也同樣堅持,來(lái)自L(fǎng)evidow & Oberman律師事務(wù)所的原告律師是多么荒唐可笑,由此才引發(fā)了法庭對這個(gè)細節的重視。
在其中一個(gè)案例中,有個(gè)叫Varghese的人起訴中國南方航空有限公司。然而這件事壓根不存在。
ChatGPT好像引用了另一個(gè)案件——Zicherman起訴大韓航空有限公司。而ChatGPT把日期、案件細節什么的都搞錯了。
Schwartz此時(shí)才悔恨地表示,他沒(méi)有意識到ChatGPT可能提供假案件,現在他非常后悔用生成式AI來(lái)進(jìn)行法律研究。
法官表示,這種情況前所未見(jiàn),并將于6月8日舉行聽(tīng)證會(huì ),討論可能的制裁措施。
這件事情再次體現了一個(gè)很重要的事實(shí),那就是用完ChatGPT必須用其它來(lái)源進(jìn)行雙重,甚至三重查證。
而AI模型在信息輸入上出現重大事實(shí)錯誤已經(jīng)不是第一次了,谷歌的Bard也遇到過(guò)這種問(wèn)題。
90分?GPT-4成績(jì)被夸大
還記得GPT-4剛剛發(fā)布那天,「小鎮做題家」在各項考試指標上接近滿(mǎn)分的水平。
尤其,在美國統一律師資格考試(UBE)中,GPT-4可以拿到90%水平,而ChatGPT(GPT-3.5)也僅拿到10%的分數。
但是,沒(méi)過(guò)多久,來(lái)自MIT的研究人員Eric Martínez發(fā)了一篇論文,重新評估了GPT-4在Bar考試中的表現。
論文直言,GPT-4的律師考試成績(jì)被夸大了。
論文地址:https://papers.ssrn.com/sol3/papers.cfm?abstract_id=4441311
作者在文中提出了4組發(fā)現,表明OpenAI對GPT-4在UBE的表現,盡管明顯比GPT-3.5有令人印象深刻的飛躍,但似乎過(guò)于夸大。
特別是,如果被當作代表「百分位數下限范圍」的保守估計。更不用說(shuō),意在反映一位執業(yè)律師的實(shí)際能力了。
首先,GPT-4的律師考試成績(jì),是與2月份伊利諾伊州律師考試的應試者相比較的。
值得注意的是,這些考生都是復讀生,不難理解,他們的分數可能會(huì )更差。
其次,最近一次七月份考試的數據表明,GPT-4的UBE成績(jì)?yōu)?8%。
第三,通過(guò)檢查官方NCBE數據,并使用若干保守的統計假設,估計GPT-4在所有首次考試中實(shí)現63%。
最后,當只考慮那些通過(guò)考試的人(即已獲得許可或待許可的律師)時(shí),預計GPT-4的表現將下降到48%。
網(wǎng)友稱(chēng),更準確來(lái)說(shuō),GPT-4應該只有63分,或者68分。
文中,作者還提供了深刻的見(jiàn)解,探討了將法律任務(wù)外包給AI模型的可取性和可行性。
甚至,人工智能開(kāi)發(fā)人員實(shí)施嚴格和透明的能力評估,以幫助確保安全和可靠的人工智能的重要性。
要是,原告的那位律師看過(guò)這項研究后,說(shuō)不定就不會(huì )吃大虧了。
ChatGPT胡說(shuō)八道
歸根結底,ChatGPT能夠編造出6個(gè)不在的案例,還是因為它固有的「幻覺(jué)」問(wèn)題。
直白來(lái)講,就是張口胡說(shuō)八道的天性所致。
就連馬斯克都想拯救這個(gè)致命的問(wèn)題,官宣推出了名為T(mén)ruthGPT的AI平臺。
馬斯克曾表示,TruthGPT將是一個(gè)「最大的求真人工智能」,它將試圖理解宇宙的本質(zhì)。
然而,別管什么GPT,幻覺(jué)很難搞定。
前段時(shí)間,OpenAI聯(lián)合創(chuàng )始人兼研究員John Schulman在演講「RL and Truthfulness – Towards TruthGPT」中,討論了幻覺(jué)產(chǎn)生的原因以及解決方案。
根據Schulman的說(shuō)法,幻覺(jué)大致可以分為兩種類(lèi)型:
1 模式完成行為,即語(yǔ)言模型無(wú)法表達自己的不確定性,無(wú)法質(zhì)疑提示中的前提,或者繼續之前犯的錯誤
2 模型猜測錯誤
語(yǔ)言模型代表一種知識圖譜,該圖譜將訓練數據中的事實(shí)存儲在自己的網(wǎng)絡(luò )中。而微調可以理解為「學(xué)習一個(gè)函數」,能夠在知識圖譜上操作并輸出token預測。
比如,微調數據集中,如果有包含「星球大戰是什么片?」這個(gè)問(wèn)題,以及「科幻」這個(gè)答案。
要是這一信息在原始訓練數據中存在,那么模型就不會(huì )學(xué)習新信息,而是學(xué)習一種行為——輸出答案。而這種微調也被稱(chēng)為「行為克隆」。
如果「星球大戰是什么片?」這一問(wèn)題的答案不是原始訓練數據的一部分。即便不知道,模型也會(huì )學(xué)習正確答案。
但問(wèn)題是,使用這些不在知識圖譜中的答案進(jìn)行微調,就會(huì )讓模型學(xué)會(huì )編造答案,即產(chǎn)生所謂的「幻覺(jué)」。
相反,要是用不正確的答案去訓練模型,就會(huì )導致模型知識網(wǎng)絡(luò )隱瞞信息。
網(wǎng)友熱評
此事一出,各位網(wǎng)友也是各抒己見(jiàn)。
Kim表示,不光是ChatGPT,其實(shí)人類(lèi)也愛(ài)用想象來(lái)彌補知識盲區。只不過(guò)ChatGPT能裝的更逼真。關(guān)鍵在于,要搞清楚ChatGPT知道什么、不知道什么。
Zero提出了一個(gè)很有建設性的提議,那就是:以后ChatGPT再舉事例,后面得附上來(lái)源鏈接。
Francis表示,早說(shuō)過(guò)了,ChatGPT是一種生成式人工智能。意味著(zhù)它會(huì )根據輸入的問(wèn)題生成回答。無(wú)論它有多能模仿人類(lèi)在理解問(wèn)題后的精彩回答,也改變不了ChatGPT本身并不理解這個(gè)問(wèn)題的事實(shí)。
Tricorn認為,這位原告律師不應該把鍋扔給ChatGPT,是他自己用錯了。應該是把事例當作prompt的一部分輸入進(jìn)去,然后讓ChatGPT填補中間缺環(huán)的論證部分。
還有網(wǎng)友稱(chēng),用ChatGPT要上點(diǎn)心,要不下一個(gè)超級碗就是你了。
這就是活靈活現的證據。ChatGPT等人工智能工具做人類(lèi)的工作,真的是可能直接導致我們的大災難。
對于ChatGPT這個(gè)表現,你怎么看?
參考資料:
https://www.theverge.com/2023/5/27/23739913/chatgpt-ai-lawsuit-avianca-airlines-chatbot-research
https://www.nytimes.com/2023/05/27/nyregion/avianca-airline-lawsuit-chatgpt.htm
本文來(lái)源:新智元,作者:桃子 拉燕,原標題:《GPT-4考90分全假!30年資深律師用ChatGPT打官司,6個(gè)虛假案例成笑柄》
風(fēng)險提示及免責條款 市場(chǎng)有風(fēng)險,投資需謹慎。本文不構成個(gè)人投資建議,也未考慮到個(gè)別用戶(hù)特殊的投資目標、財務(wù)狀況或需要。用戶(hù)應考慮本文中的任何意見(jiàn)、觀(guān)點(diǎn)或結論是否符合其特定狀況。據此投資,責任自負。關(guān)鍵詞: