国产精品久久久久久久久久久久午衣片,无码AV大香线蕉伊人久久蜜臀,欧美日韩亚洲中文字幕三,欧美日韩精品成人网视频

您的位置：首頁(yè) > 產(chǎn)經(jīng) >

GPT的背后，從命運多舛到顛覆世界，人工神經(jīng)網(wǎng)絡(luò )的跌宕80年

來(lái)源：華爾街見(jiàn)聞 ? 2023-05-28 11:05:00

今天，ChatGPT等大型語(yǔ)言預訓練神經(jīng)網(wǎng)絡(luò )模型已經(jīng)成為廣為人知的名字，GPT背后的算法內核——人工神經(jīng)網(wǎng)絡(luò )算法，在此之前，卻曾經(jīng)歷了跌宕沉浮的80年，這80年間，除了少數的幾個(gè)爆發(fā)時(shí)刻，大部分時(shí)候，這個(gè)理論處于沉寂、無(wú)人問(wèn)津，甚至經(jīng)費“毒藥”的狀態(tài)。

人工神經(jīng)網(wǎng)絡(luò )的誕生，來(lái)自不羈天才皮特斯與當時(shí)已功成名就的神經(jīng)生理學(xué)專(zhuān)家麥卡洛克的黃金組合，然而，他們的理論超越了他們那個(gè)時(shí)代的技術(shù)水平，因而沒(méi)能獲得廣泛關(guān)注與實(shí)證驗證。

(相關(guān)資料圖)

幸而，在誕生之初的二十多年里，不停地有研究者進(jìn)來(lái)添磚加瓦，人工神經(jīng)網(wǎng)絡(luò )領(lǐng)域從最初最簡(jiǎn)單的神經(jīng)元數學(xué)模型和學(xué)習算法進(jìn)化到了具有學(xué)習能力的感知機模型，然而，來(lái)自其他研究者的質(zhì)疑與“感知機”創(chuàng )始人之一羅森布拉特在航行中隕難共同襲來(lái)，在那之后，這個(gè)領(lǐng)域陷入了二十多年的寒冬，直到反向傳播算法被引入人工神經(jīng)網(wǎng)絡(luò )的訓練過(guò)程中。

在那之后，經(jīng)歷了沉寂的20年，人工神經(jīng)網(wǎng)絡(luò )方面的研究才終于又獲得重啟，蓄力的近20年中，卷積神經(jīng)網(wǎng)絡(luò )與遞歸神經(jīng)網(wǎng)絡(luò )依次登場(chǎng)。

但該領(lǐng)域在學(xué)術(shù)界與產(chǎn)業(yè)界的飛速發(fā)展還是要等到17年前，硬件方面的突破——通用計算GPU芯片的出現，于是，才有了今天，隨著(zhù)ChatGPT等大型語(yǔ)言預訓練神經(jīng)網(wǎng)絡(luò )模型，成為廣為人知的名字。

從一定意義上，人工神經(jīng)網(wǎng)絡(luò )的成功是一種幸運，因為，不是所有的研究，都能等到核心的關(guān)鍵突破，等到萬(wàn)事齊備。在更多的領(lǐng)域，技術(shù)的突破出現得太早或是太晚，導致只能慢慢消亡。然而，這幸運中，不能被忽略地是那些身處其中的研究者們的堅定與執著(zhù)，靠著(zhù)這些研究者們的理想主義，人工神經(jīng)網(wǎng)絡(luò )才走過(guò)了它跌宕沉浮的80年，終得正果。

麥卡洛克-皮特斯神經(jīng)元

1941年，沃倫·斯特吉斯·麥卡洛克（Warren Sturgis McCulloch）跳槽到美國芝加哥大學(xué)醫學(xué)院，擔任神經(jīng)生理學(xué)教授。搬到芝加哥后不久，一位朋友介紹他認識了沃爾特·皮特斯（Walter Pitts）。正在芝加哥大學(xué)攻讀博士的皮特斯與麥卡洛克對神經(jīng)科學(xué)與邏輯學(xué)有共同的興趣，于是二人一拍即合，成為了科研上志同道合的好友和伙伴。皮特斯生性好學(xué)，12歲時(shí)便在圖書(shū)館讀完了羅素與懷特黑德所著(zhù)的《數學(xué)原理》，并致信羅素，指出書(shū)中的幾處錯誤。羅素很欣賞這位小讀者的來(lái)信，回信邀請他到劍橋大學(xué)讀書(shū)（盡管皮特斯只有12歲）。然而，皮特斯的家人受教育程度低，無(wú)法理解皮特斯的求知欲、反而時(shí)常惡語(yǔ)相向。皮特斯與原生家庭關(guān)系逐漸惡化，他15歲便離家出走。自那之后，皮特斯成為了芝加哥大學(xué)校園里的一名流浪漢，白天選擇喜歡的大學(xué)課程旁聽(tīng)，晚上隨便找個(gè)課室睡覺(jué)。在皮特斯認識麥卡洛克時(shí)，他雖然已是學(xué)校在冊博士生，但仍沒(méi)有固定住處。麥卡洛克了解到這個(gè)情況后，便邀請皮特斯到自家居住。

二人認識的時(shí)候，麥卡洛克已經(jīng)發(fā)表了多篇關(guān)于神經(jīng)系統的論文，是該領(lǐng)域有名的專(zhuān)家。而皮特斯雖然還是一名博士生，但他已經(jīng)在數理邏輯領(lǐng)域有所建樹(shù)，并獲得包括馮諾依曼等領(lǐng)域大牛們的賞識。盡管二人專(zhuān)業(yè)領(lǐng)域非常不同，但他們都對人腦的工作原理深感興趣，并堅信數學(xué)模型可以描述、模擬大腦的功能。在這個(gè)共同的信念的驅使下，二人合作發(fā)表了多篇論文。他們建立了第一個(gè)人工神經(jīng)網(wǎng)絡(luò )模型。他們的工作為現代人工智能與機器學(xué)習領(lǐng)域奠定了基礎，而他們二人也因此被公認為神經(jīng)科學(xué)與人工智能領(lǐng)域的開(kāi)創(chuàng )者。

1943年，麥卡洛克和皮特斯提出了最早的人工神經(jīng)網(wǎng)絡(luò )模型：麥卡洛克-皮特斯神經(jīng)元（McCulloch-Pitts Neuron）模型[1]。該模型旨在用二進(jìn)制開(kāi)關(guān)的“開(kāi)”與“關(guān)”的機制來(lái)模擬神經(jīng)元的工作原理。該模型的主要組成部分為：接收信號的輸入節點(diǎn)，通過(guò)預設閾值處理輸入信號的中間節點(diǎn)，以及生成輸出信號的輸出節點(diǎn)。在論文中，麥卡洛克與皮特斯證明了該簡(jiǎn)化模型可以用于實(shí)現基礎邏輯（如“與”、“或”、“非”）運算。除此以外，該模型還可以用于解決簡(jiǎn)單問(wèn)題，如模式識別與圖像處理。

麥卡洛克-皮特斯神經(jīng)元（圖源：www.cs.cmu.edu/~./epxing/Class/10715/reading/McCulloch.and.Pitts.pdf）

赫布式學(xué)習（Hebbian Learning）

1949年，加拿大心理學(xué)家唐納德·赫布（Donald Hebb）出版了一本題為《行為的組織（The Organization of Behavior）》，并在書(shū)中提出了著(zhù)名的赫布式學(xué)習（Hebbian Learning）理論[2]。該理論認為“共同激活的神經(jīng)元往往是相互連接的（Cells that fire together, wire together）”，也就是神經(jīng)元具有突觸可塑性（synaptic plasticity，?突觸是神經(jīng)元之間相互連接進(jìn)行信息傳遞的關(guān)鍵部位），并認為突觸可塑性是大腦學(xué)習與記憶功能的基礎。

機器學(xué)習理論中的關(guān)鍵步驟是如何使用不同的更新算法（update rule）來(lái)更新模型。使用神經(jīng)網(wǎng)絡(luò )模型進(jìn)行機器學(xué)習時(shí)，需設定初始模型的架構與參數。在模型訓練過(guò)程中，每一個(gè)來(lái)自訓練數據集中的輸入數據都會(huì )導致模型更新各項參數。這個(gè)過(guò)程，就需要使用到更新算法。赫布式學(xué)習理論為機器學(xué)習提供了最初更新算法：Δw = η x xpre x xpost。Δw為突觸模型的參數的變化大小，?η為學(xué)習速率，xpre 為突觸前神經(jīng)元活動(dòng)值大小，xpost為突觸后神經(jīng)元活動(dòng)值大小。

赫布更新算法為利用人工神經(jīng)網(wǎng)絡(luò )來(lái)模仿大腦神經(jīng)網(wǎng)絡(luò )的行為提供了理論基礎。赫布式學(xué)習模型是一種無(wú)監督學(xué)習模型——該模型通過(guò)調節其感知到的輸入數據之間聯(lián)系程度的強弱來(lái)實(shí)現學(xué)習目的。也正因為如此，赫布式學(xué)習模型在對輸入數據中的子類(lèi)別聚類(lèi)分析尤其擅長(cháng)。隨著(zhù)神經(jīng)網(wǎng)絡(luò )的研究逐漸加深，赫布式學(xué)習模型后來(lái)也被發(fā)現適用于強化學(xué)習等其他多個(gè)細分領(lǐng)域。

感知機?（Perceptron）

1957年，美國心理學(xué)家弗蘭克·羅森布拉特（Frank Rosenblatt）首次提出感知機（Perceptron）模型，并且首次使用了感知機更新算法[3]。感知機更新算法延伸了赫布更新算法的基礎，通過(guò)利用迭代、試錯過(guò)程來(lái)進(jìn)行模型訓練。在模型訓練時(shí)，感知機模型對于每一個(gè)新的數據，計算出模型預測的該數據輸出值與實(shí)際測得的該數據輸出值的差值，然后使用該差值更新模型中的系數。具體方程如下：Δw = η x (t - y) x x。在提出最初的感知機模型后，羅森布拉特繼續深入探討、發(fā)展感知機相關(guān)理論。1959年，羅森布拉特成功研發(fā)出一臺使用感知機模型識別英文字母的神經(jīng)計算機Mark1。

感知機模型與麥卡洛克-皮特斯神經(jīng)元類(lèi)似，也是基于神經(jīng)元的生物學(xué)模型，以接收輸入信號，處理輸入信號，生成輸出信號為基本運作機理。感知機模型與麥卡洛克-皮特斯神經(jīng)元模型的區別在于后者的輸出信號只能為0或1——超過(guò)預設閾值為1，否則為零——而感知機模型則使用了線(xiàn)性激活函數，使得模型的輸出值可以與輸入信號一樣為連續變化值。另外，感知機對每一條輸入信號都設置了系數，該系數能影響每條輸入信號對于輸出信號的作用程度。最后，感知機是學(xué)習算法，因為其各輸入信號的系數可以根據所看到的數據進(jìn)行調整；而麥卡洛克-皮特斯神經(jīng)元模型因沒(méi)有設置系數，所以其行為無(wú)法根據數據反饋進(jìn)行動(dòng)態(tài)更新。

1962年，羅森布拉特將多年關(guān)于感知機模型的研究集結成《神經(jīng)動(dòng)力學(xué)原理：感知機與大腦原理（Principles of Neurodynamics: Perceptrons and the theory of brain mechanisms）》一書(shū)。感知機模型在人工智能領(lǐng)域是一項重大的進(jìn)步，因為它是第一種具有學(xué)習能力的算法模型，能自主學(xué)習接收到的數據中的規律與特點(diǎn)。并且，它具有模式分類(lèi)的能力，可以將數據根據其特點(diǎn)自動(dòng)分為不同的類(lèi)別。另外，感知機模型相對簡(jiǎn)單，所需計算資源也較少。

盡管感知機具有種種優(yōu)點(diǎn)與潛力，但它畢竟是一個(gè)相對簡(jiǎn)化的模型，存在許多局限性。1969年，計算機科學(xué)家馬文·明斯基（Marvin Minsky）與西摩爾·派普特（Seymour Papert）合作出版了《感知機（Perceptron）》一書(shū)[5]。在書(shū)中，兩位作者對感知機模型進(jìn)行了深入的批判，分析了以感知機為代表的單層神經(jīng)網(wǎng)絡(luò )的局限，包括但不限于“異或”邏輯的實(shí)現以及線(xiàn)性不可分問(wèn)題。但是，二位作者與羅森布拉特都已經(jīng)意識到，多層神經(jīng)網(wǎng)絡(luò )可以解決這些單層神經(jīng)網(wǎng)絡(luò )不能解決的問(wèn)題?？上У氖?，《感知機》一書(shū)對感知機模型的負面評價(jià)影響巨大，使得公眾與政府機構對于感知機研究一下子失去了興趣。1971年，感知機理論的提出者兼頭號支持者羅森布拉特不幸在一次出海航行中遇難，享年43歲。在《感知機》一書(shū)與羅森布拉特之死的雙重打擊下，與感知機相關(guān)的論文發(fā)表數目逐年迅速減少。人工神經(jīng)網(wǎng)絡(luò )的發(fā)展進(jìn)入了“寒冬”。

感知機模型（圖源：towardsdatascience.com）

反向傳播算法

多層神經(jīng)網(wǎng)絡(luò )能夠解決單層神經(jīng)網(wǎng)絡(luò )無(wú)法解決的問(wèn)題，但它帶來(lái)了新的問(wèn)題：更新多層神經(jīng)網(wǎng)絡(luò )模型的每一層神經(jīng)元的權重涉及到大量精確計算，而普通的計算方法費時(shí)費力，使得神經(jīng)網(wǎng)絡(luò )學(xué)習過(guò)程變得非常緩慢，實(shí)用性很差。

為了解決這個(gè)問(wèn)題，美國社會(huì )學(xué)家、機器學(xué)習工程師保羅·韋伯（Paul Werbos）在1974年的哈佛大學(xué)的博士論文《Beyond Regression: New Tools for Prediction and Analysis in the Behavioral Sciences》中提出了反向傳播算法（backpropagation)[6]。該算法的基本思想是通過(guò)將預測到的輸出值與實(shí)際輸出值之間的誤差從輸出層反向傳播，從而調整神經(jīng)網(wǎng)絡(luò )各個(gè)神經(jīng)元的權重。這個(gè)算法的本質(zhì)是根據微積分中常用的鏈式法則從輸出層到輸入層反向（沿著(zhù)負梯度方向）實(shí)現對由多層感知機組成的神經(jīng)網(wǎng)絡(luò )的訓練。

令人感到遺憾的是，韋伯的論文在發(fā)表后很長(cháng)一段時(shí)間內都沒(méi)有得到足夠的關(guān)注。直到1985年，加州大學(xué)圣地亞哥分校的心理學(xué)家大衛·魯梅爾哈特（David Rumelhart）、認知心理學(xué)家與計算機學(xué)家杰弗里·辛頓（Geoffrey Hinton），以及計算機學(xué)家羅納德·威廉姆斯（Ronald Williams）合作發(fā)表了一篇關(guān)于反向傳播算法在神經(jīng)網(wǎng)絡(luò )中的應用的論文[7]。這篇論文在人工智能領(lǐng)域獲得了很大的反響。魯梅爾哈特等人的想法與韋伯的想法本質(zhì)上是相似的，但魯梅爾哈特他們沒(méi)有引用韋伯的論文，這一點(diǎn)近來(lái)常常為人詬病。

反向傳播算法在人工神經(jīng)網(wǎng)絡(luò )的發(fā)展中起著(zhù)關(guān)鍵作用，并使得深度學(xué)習模型的訓練成為可能。自從反向傳播算法于八十年代重新受到人們的重視以來(lái)，它被廣泛應用于訓練多種神經(jīng)網(wǎng)絡(luò )網(wǎng)絡(luò )。除了最初的多層感知機神經(jīng)網(wǎng)絡(luò )以外，反向傳播算法還適用于卷積神經(jīng)網(wǎng)絡(luò )、循環(huán)神經(jīng)網(wǎng)絡(luò )等。由于反向傳播算法的重要地位，韋伯與魯梅爾哈特等人被認為是神經(jīng)網(wǎng)絡(luò )領(lǐng)域的先驅之一。

事實(shí)上，反向傳播算法是人工智能領(lǐng)域的“文藝復興”時(shí)代（20世紀80年代和90年代期間）的重要成果。并行分布式處理（Parallel Distributed Processing）是這段時(shí)間的主要方法論。該方法論關(guān)注多層神經(jīng)網(wǎng)絡(luò )，并推崇通過(guò)并行處理計算來(lái)加速神經(jīng)網(wǎng)絡(luò )的訓練過(guò)程與應用。這與先前的人工智能領(lǐng)域的主流思想背道而馳，因而具有劃時(shí)代的意義。另外，該方法論受到了計算機科學(xué)以外，包括心理學(xué)、認知科學(xué)，以及神經(jīng)科學(xué)等不同領(lǐng)域的學(xué)者的歡迎。因此，這段歷史常常被后人認為是人工智能領(lǐng)域的文藝復興。

反向傳播算法原理（圖源：www.i2tutorials.com）

卷積神經(jīng)網(wǎng)絡(luò )（Convolutional Neural Network, CNN）

如果把麥卡洛克·皮特斯神經(jīng)元作為人工智能誕生的標志，那么美國可以說(shuō)是人工神經(jīng)網(wǎng)絡(luò )的發(fā)源地。人工神經(jīng)網(wǎng)絡(luò )誕生后的三十年里，美國在人工智能領(lǐng)域一直扮演著(zhù)主角，孕育了感知機、反向傳播算法等關(guān)鍵技術(shù)。但在第一個(gè)人工智能的"寒冬"中，包括政府、學(xué)術(shù)界在內的美國各方人士對人工神經(jīng)網(wǎng)絡(luò )的潛能失去了信心，大大放緩了對神經(jīng)網(wǎng)絡(luò )技術(shù)迭代的支持與投入。也因為如此，在這個(gè)席卷美國的”寒冬“中，其他國家的人工神經(jīng)網(wǎng)絡(luò )的研究走到了歷史發(fā)展的聚光燈之下。卷積神經(jīng)網(wǎng)絡(luò )與遞歸神經(jīng)網(wǎng)絡(luò )就是在這樣的背景下出場(chǎng)的。

卷積神經(jīng)網(wǎng)絡(luò )是一種包含了卷積層，池化層，以及全連接層等多種獨特結構的多層神經(jīng)網(wǎng)絡(luò )模型。該模型利用卷積層提取出輸入信號的局部特征，然后通過(guò)池化層降低數據的維度與復雜性，最后通過(guò)全連接層將數據轉化為一維的特征向量并生成輸出信號（一般為預測或分類(lèi)結果）。卷積神經(jīng)網(wǎng)絡(luò )的獨特結構使得它在處理具有網(wǎng)格結構屬性的數據（圖像，時(shí)間序列等）時(shí)尤有優(yōu)勢。

卷積神經(jīng)網(wǎng)絡(luò )（圖源：https://www.analyticsvidhya.com/blog/2022/01/convolutional-neural-network-an-overview/）

最早的卷積神經(jīng)網(wǎng)絡(luò )是日本計算機科學(xué)家福島邦彥（Kunihiko Fukushima）于1980年提出[8]。福島所提出的模型包含卷積層與下采樣層，是當今主流卷積神經(jīng)網(wǎng)絡(luò )結構仍然一直沿用的結構。福島的模型與今日的卷積神經(jīng)網(wǎng)絡(luò )唯一不同之處在于前者沒(méi)有使用反向傳播算法——如前文所敘，反向傳播算法要等到1986年才受到關(guān)注。由于福島的卷積神經(jīng)網(wǎng)絡(luò )模型沒(méi)有該算法的助力，該模型與當時(shí)的其他多層神經(jīng)網(wǎng)絡(luò )一樣存在訓練時(shí)間長(cháng)、計算復雜的問(wèn)題。

1989年，任職于美國貝爾實(shí)驗室法國計算機科學(xué)家楊·立昆（Yann LeCun）及其團隊提出了名為L(cháng)eNet-5的卷積神經(jīng)網(wǎng)絡(luò )模型，并在該模型中使用了反向傳播算法進(jìn)行訓練[9]。立昆證明了該神經(jīng)網(wǎng)絡(luò )可以用于識別手寫(xiě)數字與字符。這標志著(zhù)卷積神經(jīng)網(wǎng)絡(luò )在圖像識別中的廣泛應用的開(kāi)始。

遞歸神經(jīng)網(wǎng)絡(luò )（Recursive Neural Network, RNN）

與卷積神經(jīng)網(wǎng)絡(luò )一樣，遞歸神經(jīng)網(wǎng)絡(luò )也是一類(lèi)具有獨特結構特征的神經(jīng)網(wǎng)絡(luò )。該類(lèi)神經(jīng)網(wǎng)絡(luò )的主要結構特征在于各層級間具有遞歸關(guān)系，而不是順序關(guān)系。由于以上這些特殊結構特征，遞歸神經(jīng)網(wǎng)絡(luò )特別適于處理自然語(yǔ)言以及其他文本類(lèi)的數據。

1990年，美國認知科學(xué)家、心理語(yǔ)言學(xué)家杰弗里·艾爾曼（Jeffrey Elman）提出了艾爾曼網(wǎng)絡(luò )模型（又稱(chēng)為簡(jiǎn)化遞歸網(wǎng)絡(luò )）[10]。艾爾曼網(wǎng)絡(luò )模型是首個(gè)遞歸神經(jīng)網(wǎng)絡(luò )。艾爾曼利用該模型證明了遞歸神經(jīng)網(wǎng)絡(luò )能夠在訓練時(shí)維持數據本身的先后順序性質(zhì)，為日后該類(lèi)模型在自然語(yǔ)言處理領(lǐng)域的應用奠定了基礎。

遞歸神經(jīng)網(wǎng)絡(luò )存在梯度消失現象。在使用反向傳播算法訓練神經(jīng)網(wǎng)絡(luò )時(shí)，離輸入近的層級的權重更新梯度逐漸變得近似于零，使得這些權重變化很慢，導致訓練效果變差。為了解決這個(gè)問(wèn)題，1997年，德國計算機科學(xué)家瑟普·霍克賴(lài)特（Sepp Hochreiter）及其博士導師于爾根·施密德胡伯（Jürgen Schmidhuber）提出了長(cháng)短期記憶網(wǎng)絡(luò )[11]。該模型為一種特殊的遞歸神經(jīng)網(wǎng)絡(luò )模型。它引入了記憶節點(diǎn)，使得模型具有更好的長(cháng)期記憶存留的能力，從而化解了梯度消失現象。該模型目前仍是使用最普遍的遞歸神經(jīng)網(wǎng)絡(luò )模型之一。

通用計算GPU芯片

2006年，美國英偉達公司（NVIDIA）推出了第一款通用計算GPU（圖形處理單元）芯片并將其命名為CUDA（Compute Unified Device Architecture）。在此之前，GPU本是專(zhuān)門(mén)用于圖形渲染與計算的芯片處理器，常用于計算機圖形學(xué)相關(guān)的應用（如圖像處理，游戲場(chǎng)景實(shí)時(shí)計算渲染，視頻播放與處理等）。CUDA允許通用目的的并行計算，使原本僅能調用CPU（中央處理單元）的任務(wù)可以通過(guò)GPU來(lái)完成計算。GPU的強大的并行計算能力使其能夠同時(shí)執行多個(gè)計算任務(wù)，并且計算速度比CPU更快，適合矩陣運算。神經(jīng)網(wǎng)絡(luò )的訓練往往需要進(jìn)行大規模矩陣和張量運算。在通用GPU出現之前，人工神經(jīng)網(wǎng)絡(luò )的發(fā)展長(cháng)期受到傳統的CPU有限計算能力的限制。這種限制包括了對于理論研究的創(chuàng )新以及對現有模型的產(chǎn)品化、產(chǎn)業(yè)化的應用。而GPU的出現，讓這兩方面的掣肘被大大削弱了。

2010年，施密德胡伯團隊中的博士后研究員丹·奇雷尚（Dan Ciresan）利用GPU實(shí)現了對卷積神經(jīng)網(wǎng)絡(luò )訓練的顯著(zhù)加速[12]。但GPU真正在人工神經(jīng)網(wǎng)絡(luò )領(lǐng)域里聲名大噪是在2012年。那一年，加拿大計算機科學(xué)家亞歷克斯·克里澤夫斯基（Alex Krizhevsky）、伊利亞·蘇茨克維（Ilya Sutskever）以及前文提到過(guò)的杰弗里·辛頓提出了亞歷克斯網(wǎng)絡(luò )模型（AlexNet）[13]。亞歷克斯網(wǎng)絡(luò )模型本質(zhì)上是一類(lèi)卷積網(wǎng)絡(luò )模型?？死餄煞蛩够热嗽谟柧毮Ｐ蜁r(shí)使用了GPU，并用該模型參加了一個(gè)國際著(zhù)名的圖像分類(lèi)與標記的競賽（ImageNet ILSVRC）。令人意外的是，該模型最后竟以大比分的優(yōu)勢獲得了冠軍。亞歷克斯網(wǎng)絡(luò )模型的成功極大地激發(fā)了各界對于人工神經(jīng)網(wǎng)絡(luò )在計算機視覺(jué)領(lǐng)域應用的興趣與關(guān)注。

生成式神經(jīng)網(wǎng)絡(luò )與大型語(yǔ)言模型

遞歸神經(jīng)網(wǎng)絡(luò )可以逐字連續生成文本序列，因此常常被認為是早期的生成式神經(jīng)網(wǎng)絡(luò )模型。然而，盡管遞歸神經(jīng)網(wǎng)絡(luò )善于處理、生成自然語(yǔ)言數據，但它對于長(cháng)序列數據一直無(wú)法有效捕捉全局信息（對于距離較遠的信息無(wú)法進(jìn)行有效聯(lián)系）。

變壓器模型? 圖源：[14]

2017年，美國谷歌公司的研究員阿希瑟·瓦斯瓦尼（Ashish Vaswani）等人提出了變壓器模型（Transformer）[14]。該大型神經(jīng)網(wǎng)絡(luò )分為編碼器與解碼器兩個(gè)主要部分。編碼器對輸入序列進(jìn)行編碼處理，通過(guò)自注意力層等來(lái)進(jìn)一步處理編碼后的信息。此后，信息傳至解碼器，并經(jīng)過(guò)解碼器部分的自注意力層等網(wǎng)絡(luò )結構來(lái)生成輸出序列。該模型的重要創(chuàng )新在于自注意力層（self-attention）。自注意力層使得神經(jīng)網(wǎng)絡(luò )模型能擺脫順序處理文本的局限性，而是直接去文本中的不同位置抓取信息并捕捉各處信息之間的依賴(lài)關(guān)系，并且并行化計算不同位置之間在語(yǔ)義上的相關(guān)性。變壓器模型的橫空出世對自然語(yǔ)言處理領(lǐng)域乃至整個(gè)人工智能領(lǐng)域產(chǎn)生了巨大影響。在短短的幾年里，變壓器模型已經(jīng)被廣泛用在各類(lèi)人工智能大模型中。

在層出不窮基于變壓器結構的大型語(yǔ)言模型中，OpenAI公司推出的聊天機器人ChatGPT最為出名。ChatGPT所基于的語(yǔ)言模型為GPT-3.5（生成式預訓練變壓器模型-3.5）。OpenAI公司在訓練該模型時(shí)用了大量的語(yǔ)料庫數據，使其最終具備了廣泛的語(yǔ)言理解能力與生成能力，包括提供信息、交流，文本創(chuàng )作、完成軟件代碼寫(xiě)作、以及輕松勝任各類(lèi)涉及語(yǔ)言理解相關(guān)的考試。

尾聲

幾周前，我去參加一個(gè)中學(xué)生與科研人員共進(jìn)午餐的志愿者活動(dòng)?；顒?dòng)上，我與幾名十五六歲的中學(xué)生聊天。很自然的我們就聊到了ChatGPT。我問(wèn)他們：”你們用ChatGPT嗎？你們可以跟我說(shuō)實(shí)話(huà)，我不會(huì )告訴你們的老師的。"其中一位男生靦腆的笑了笑，說(shuō)他現在已經(jīng)離不開(kāi)ChatGPT了。

80年前，四處流浪的皮特斯只能想象著(zhù)那能夠模擬大腦功能的數學(xué)模型。而在今天年輕人的世界里，神經(jīng)網(wǎng)絡(luò )不再僅是虛幻的數學(xué)公式，而變得無(wú)時(shí)無(wú)出不在。下一個(gè)80年會(huì )發(fā)生什么？人工神經(jīng)網(wǎng)絡(luò )中會(huì )像人類(lèi)的神經(jīng)網(wǎng)絡(luò )一樣產(chǎn)生意識嗎？碳基大腦會(huì )持續主宰硅基大腦嗎？還是會(huì )被硅基大腦主宰？

參考文獻：

1.Warren S. McCulloch and Walter Pitts. "A Logical Calculus of Ideas Immanent in Nervous Activity." The Bulletin of Mathematical Biophysics, vol. 5, no. 4, 1943, pp. 115-133.

2.Donald O. Hebb. "The Organization of Behavior: A Neuropsychological Theory." Wiley, 1949.

3.Frank Rosenblatt. "The Perceptron: A Probabilistic Model for Information Storage and Organization in the Brain." Psychological Review, vol. 65, no. 6, 1958, pp. 386-408.

4.Frank Rosenblatt. "Principles of Neurodynamics: Perceptrons and the theory of brain mechanisms." MIT Press, 1962.

5.Marvin Minsky and Seymour Papert. "Perceptrons: An Introduction to Computational Geometry." MIT Press, 1969.

6.Paul Werbos. "Beyond Regression: New Tools for Prediction and Analysis in the Behavioral Sciences.". Harvard University, 1974.

7.David E. Rumelhart, Geoffrey E. Hinton, and Ronald J. Williams. "Learning representations by back-propagating errors." Nature, vol. 323, no. 6088, 1986, pp. 533-536.

8.Kunihiko Fukushima. "Neocognitron: A self-organizing neural network model for a mechanism of pattern recognition unaffected by shift in position." Biological Cybernetics, vol. 36, no. 4, 1980, pp. 193-202.

9.Yann LeCun, Léon Bottou, Yoshua Bengio, and Patrick Haffner. "Gradient-based learning applied to document recognition." Proceedings of the IEEE, vol. 86, no. 11, 1998, pp. 2278-2324.

10.Jeffrey L. Elman. "Finding Structure in Time." Cognitive Science, vol. 14 1990, pp. 179-211.

11.Sepp Hochreiter and Jürgen Schmidhuber. "Long Short-Term Memory." Neural Computation, vol. 9, no. 8, 1997, pp. 1735-1780.

12.Dan C. Ciresan, Ueli Meier, Luca Maria Gambardella, and Jürgen Schmidhuber. "Deep Big Simple Neural Nets Excel on Handwritten Digit Recognition." Neural Computation, vol. 22, no. 12, 2010, pp. 3207-3220.

13.Alex Krizhevsky, Ilya Sutskever, and Geoffrey E. Hinton. "ImageNet Classification with Deep Convolutional Neural Networks." Advances in Neural Information Processing Systems, 2012, pp. 1097-1105.

14.Vaswani, Ashish, et al. "Attention is All You Need." Advances in Neural Information Processing Systems, 2017, pp. 5998-6008.

本文來(lái)源：知識分子，作者：孫睿晨，原標題：《GPT的背后，從命運多舛到顛覆世界，人工神經(jīng)網(wǎng)絡(luò )的跌宕80年》

風(fēng)險提示及免責條款市場(chǎng)有風(fēng)險，投資需謹慎。本文不構成個(gè)人投資建議，也未考慮到個(gè)別用戶(hù)特殊的投資目標、財務(wù)狀況或需要。用戶(hù)應考慮本文中的任何意見(jiàn)、觀(guān)點(diǎn)或結論是否符合其特定狀況。據此投資，責任自負。

關(guān)鍵詞：