天天快訊:華人團隊迷你GPT-4搶跑看圖聊天:OpenAI有的它都有,服務(wù)器已被擠爆
GPT-4識圖功能遲遲不開(kāi)放,終于有人忍不住自己動(dòng)手做了一個(gè)。
(資料圖片僅供參考)
MiniGPT-4來(lái)了,Demo開(kāi)放在線(xiàn)可玩。
傳一張海鮮大餐照片上去,就能直接獲得菜譜。
傳一張商品效果圖,就可以讓AI寫(xiě)一篇帶貨文案。
手繪一個(gè)網(wǎng)頁(yè),可以給出對應的HTML代碼:
除了生產(chǎn)力拉滿(mǎn),也支持根據常識推理圖上內容是否合理、解釋表情包為什么好笑,以及看截圖找電影等娛樂(lè )玩法。
可以說(shuō),GPT-4發(fā)布時(shí)展示過(guò)的功能,MiniGPT-4基本也都有了。
這下網(wǎng)友直接把Demo服務(wù)器擠爆,開(kāi)發(fā)團隊連開(kāi)4臺備用服務(wù)器,都有幾十人在排隊。
不等OpenAI了,現在就能玩
除了研究團隊給出的示例,網(wǎng)友也用MiniGPT-4玩出了各種花樣
有人上傳自己畫(huà)的畫(huà),讓AI評價(jià)評價(jià)。
有人上傳一張從車(chē)道拍攝的飛機墜毀瞬間,讓MiniGPT-4盡可能詳細地描述,并思考自動(dòng)駕駛AI能不能理解這個(gè)場(chǎng)面。
做到這么好的效果,MiniGPT-4實(shí)現起來(lái)卻并不復雜。
把圖像編碼器與開(kāi)源語(yǔ)言模型Vicuna(小羊駝)整合起來(lái),并且凍結了兩者的大部分參數,只需要訓練很少一部分。
傳統預訓練階段,使用4張A100在10個(gè)小時(shí)內就可完成,此時(shí)訓練出來(lái)的Vicuna已能夠理解圖像,但生成能力受到很大影響。
為解決這個(gè)問(wèn)題,團隊讓MiniGPT-4與ChatGPT合作創(chuàng )建了3500個(gè)圖像文本的高質(zhì)量數據集,也一并開(kāi)源。?
用新的數據集微調可以顯著(zhù)提高模型的生成可靠性和整體可用性,而且計算效率很高,使用單個(gè)A100只需要7分鐘。
并且團隊正在準備一個(gè)更輕量級的版本,部署起來(lái)只需要23GB顯存。
也就是消費級顯卡中擁有24GB顯存的3090或4090就可以本地運行了。
MiniGPT-4開(kāi)發(fā)團隊來(lái)自KAUST(沙特阿卜杜拉國王科技大學(xué)),包括4位華人成員和他們的導師 Mohamed Elhoseiny。
兩位正在讀博的共同一作還在GitHub頁(yè)面上特別標注正在找工作。
有意向的公司要抓緊搶人了~
在線(xiàn)Demo:https://minigpt-4.github.io
開(kāi)源代碼:https://github.com/Vision-CAIR/MiniGPT-4
論文:https://github.com/Vision-CAIR/MiniGPT-4/blob/main/MiniGPT_4.pdf
本文作者:夢(mèng)晨,來(lái)源:量子位,原文標題:《華人團隊迷你GPT-4搶跑看圖聊天:OpenAI有的它都有,服務(wù)器已被擠爆》
風(fēng)險提示及免責條款 市場(chǎng)有風(fēng)險,投資需謹慎。本文不構成個(gè)人投資建議,也未考慮到個(gè)別用戶(hù)特殊的投資目標、財務(wù)狀況或需要。用戶(hù)應考慮本文中的任何意見(jiàn)、觀(guān)點(diǎn)或結論是否符合其特定狀況。據此投資,責任自負。關(guān)鍵詞: