国产精品久久久久久久久久久久午衣片,无码AV大香线蕉伊人久久蜜臀,欧美日韩亚洲中文字幕三,欧美日韩精品成人网视频

環(huán)球觀(guān)熱點(diǎn):AI時(shí)代的“Killer App”,一文了解向量數據庫是什么

最近,又一個(gè)概念火了——向量數據庫。

首先是,4月一個(gè)月內多家向量數據庫創(chuàng )業(yè)公司獲大額新融資,引發(fā)市場(chǎng)熱議。


(資料圖片僅供參考)

其次行情方面,龍頭A股星環(huán)科技、北交所云創(chuàng )數據等股價(jià)連續異動(dòng),其中云創(chuàng )數據自底部以來(lái)股價(jià)已接近翻倍。

此外,8日開(kāi)始,分析師們“后知后覺(jué)”開(kāi)始密集推出研報進(jìn)行覆蓋。

多家創(chuàng )業(yè)公司獲大額新融資

據華福證券梳理,隨著(zhù)大模型帶來(lái)的應用需求提升,4月以來(lái)多家海外知名向量數據庫創(chuàng )業(yè)企業(yè)傳出融資喜訊。

4月28日,向量數據庫平臺Pinecone宣布獲得1億美元(約7億元)B輪融資,由Andreessen Horowitz領(lǐng)投,ICONIQ Growth等跟投。

4月22日,向量數據庫平臺Weaviate宣布獲得5000萬(wàn)美元(約3.5億元)B輪融資,由Index Ventures領(lǐng)投,Battery Ventures等跟投。

此外,4月6日Chroma獲1800萬(wàn)美元種子輪融資,4月19日Qdrant獲750萬(wàn)美元種子輪融資。

什么是向量數據庫?

據東北證券研報,向量數據庫是專(zhuān)門(mén)用來(lái)存儲和查詢(xún)向量的數據庫,其存儲的向量來(lái)自于對文本、語(yǔ)音、圖像、視頻等的向量化。

同傳統數據庫相比,向量數據庫不僅能夠完成基本的CRUD(添加、讀取查詢(xún)、更新、刪除)等操作,還能夠對向量數據進(jìn)行更快速的相似性搜索,商業(yè)價(jià)值提升明顯。

向量數據庫有啥用?

東北證券指出,向量數據庫一個(gè)很重要的功能是拓展大模型的邊界,分為時(shí)間邊界和空間邊界。

第一,時(shí)間邊界的擴展,指的是向量數據庫能夠使得大模型LLM擁有“長(cháng)期記憶”。

眾所周知,目前的大模型(無(wú)論是NLP領(lǐng)域的GPT系列還是CV領(lǐng)域的ResNET系列)都是預先訓練Pretrain的大模型,有著(zhù)非常明晰的訓練截止日Cut-off Date,這導致這些模型對于訓練截止日之后發(fā)生的事情一無(wú)所知。

而隨著(zhù)向量數據庫的引入,其內部存儲的最新的信息向量能夠極大地拓展大模型的應用邊界,向量數據庫可以使得大模型保持準實(shí)時(shí)性,提高大模型的適用性,并使得大模型能夠動(dòng)態(tài)調整。也就是說(shuō),向量數據庫使得大模型的長(cháng)期記憶得到了可能。

例如,假設一個(gè)預訓練的新聞?wù)P驮?021年底完成了訓練,到了2023年,許多新聞事件和趨勢已經(jīng)發(fā)生了變化。為了使大模型能夠處理這些新信息,可以使用向量數據庫來(lái)存儲和查詢(xún)2023年的新聞文章向量。

同樣,在推薦系統中,預訓練的大模型可能無(wú)法識別新用戶(hù)和新產(chǎn)品的特征,通過(guò)向量數據庫,可以實(shí)時(shí)更新用戶(hù)和產(chǎn)品的特征向量,從而使大模型能夠根據最新的信息為用戶(hù)提供更精準的推薦。

此外,向量數據庫還可以支持實(shí)時(shí)監測和分析。例如,在金融領(lǐng)域,預訓練的股票預測模型可能無(wú)法獲取訓練截止日期之后的股票價(jià)格信息。通過(guò)將最新的股票價(jià)格向量存儲在向量數據庫中,大模型可以實(shí)時(shí)分析和預測未來(lái)股票價(jià)格走勢。還有就是在客服領(lǐng)域,向量數據庫將使得大模型可以追溯到對話(huà)的開(kāi)始。

第二,空間邊界的擴展,指的是向量數據庫能夠協(xié)助解決目前企業(yè)界最擔憂(yōu)的大模型泄露隱私的問(wèn)題。

用戶(hù)給出的Prompt可能會(huì )包含一些敏感信息。根據媒體報道,員工A用ChatGPT幫自己查一段代碼的bug,而這段源代碼與半導體設備測量數據有關(guān);員工B想用ChatGPT幫自己優(yōu)化一段代碼,就直接將與產(chǎn)量和良品率記錄設備相關(guān)的一段代碼輸入了其中。

這些行為直接導致了三星關(guān)鍵數據的泄露,而ChatGPT本身其實(shí)也出現過(guò)隱私泄露事件,使得有一小部分的對話(huà)歷史/支付數據會(huì )被其他用戶(hù)查看,這些數據都極為敏感,而通過(guò)本地部署,向量數據庫能夠在很大程度上解決這個(gè)問(wèn)題。

向量數據庫本地部署后可以存儲企業(yè)有關(guān)的大量隱私數據,在本地部署或者專(zhuān)有云部署大模型后,通過(guò)特別的Agent大模型可以在有保護的情況下訪(fǎng)問(wèn)向量數據庫的隱私數據,進(jìn)而可以在不向外網(wǎng)暴露公司的隱私的情況下,使得公司的業(yè)務(wù)得到大模型的助力。

此外,多模態(tài)搜索也是向量數據庫的拿手好戲。

東北證券指出,向量數據庫自帶多模態(tài)功能,這意味著(zhù)它能夠通過(guò)機器學(xué)習方法處理和理解來(lái)自不同源的多種模態(tài)信息,如文本、圖像、音頻和視頻等,數據向量化過(guò)程使得這些不同模態(tài)數據的內部隱藏信息得以暴露,進(jìn)而為多模態(tài)應用提供支持。

一個(gè)典型的應用場(chǎng)景是多語(yǔ)言搜索,向量數據庫支持跨語(yǔ)言的信息檢索,用戶(hù)可以使用英語(yǔ)、法語(yǔ)、中文等多種語(yǔ)言搜索圖書(shū)庫,而無(wú)需事先對書(shū)名進(jìn)行多語(yǔ)言翻譯處理。這得益于向量表示能夠捕捉到語(yǔ)義相似性,使得來(lái)自不同語(yǔ)言的查詢(xún)和內容能夠相互匹配。

再一個(gè),東北證券指出,即使不考慮需要LLM支持的邊界拓展型應用和多模態(tài)搜索,近似搜索功能就可以給向量數據庫帶來(lái)巨大的商業(yè)化潛力。比如推薦系統、圖像檢索、語(yǔ)音識別和處理、生物信息學(xué)等。

市場(chǎng)空間巨大,行業(yè)處于從0-1階段

東北證券指出,向量數據庫市場(chǎng)空間巨大,目前處于從0-1階段,預測到2030年,全球向量數據庫市場(chǎng)規模有望達到500億美元,國內向量數據庫市場(chǎng)規模有望超過(guò)600億人民幣。

其認為,量數據庫是AI時(shí)代的Killer App。AI時(shí)代一切AI化,而AI化的本質(zhì)則是向量化,向量化計算成本高昂,海量的高維向量勢必需要專(zhuān)門(mén)的數據庫進(jìn)行存儲和處理,向量數據庫應運而生,向量數據庫在拓展AI全新應用場(chǎng)景的同時(shí),也將對傳統數據庫產(chǎn)品形成替代,進(jìn)而成為AI時(shí)代的Killer App。

相關(guān)公司方面,全球范圍內來(lái)看,目前向量數據庫以初創(chuàng )公司為主,包括Pinecone、Milvus、Weaviate、Vespa等。

目前全球已有的向量數據庫產(chǎn)品主要包括Pinecone、Milvus、Weaviate、Vespa等,其中超過(guò)70%的向量數據庫選擇了開(kāi)源,超過(guò)一半的向量數據庫具有云化部署的能力,大部分向量數據庫產(chǎn)品在進(jìn)行ANN相似性搜索時(shí)采用HNSW(HierarchicalNavigable Small World)算法。

風(fēng)險提示及免責條款 市場(chǎng)有風(fēng)險,投資需謹慎。本文不構成個(gè)人投資建議,也未考慮到個(gè)別用戶(hù)特殊的投資目標、財務(wù)狀況或需要。用戶(hù)應考慮本文中的任何意見(jiàn)、觀(guān)點(diǎn)或結論是否符合其特定狀況。據此投資,責任自負。

關(guān)鍵詞: