百億美金的平臺扳手腕,云數據的生成式AI之爭
Snowflake和Databricks一直是數據庫領(lǐng)域關(guān)注度非常高的兩家公司,雖然同在一個(gè)地盤(pán),但各有特色,競爭一直沒(méi)有擺到臺面上。
而這一次的生成式AI浪潮,兩家公司非常積極的通過(guò)收購布局,Snowflake完成了對Neeva(企業(yè)級AI搜索引擎)的收購,Databricks 13億美金收購MosaicML(ML模型部署),并低調宣布對OmniML(模型壓縮)的收購。
兩家一改一直以來(lái)表面和睦、暗里較勁的態(tài)勢,選擇同一天舉辦公司最重要的年會(huì ),亮明自家的生成式AI布局,野心藏不住了。
(資料圖片僅供參考)
Snowflake 2020年上市,目前市值579.2億美金(2023.8.1),Databricks還未上市,根據上一輪融資,其估值已達到380億美金。在生成式AI的加持下,Databricks的估值/未來(lái)上市市值能否追上Snowflake?Snowflake又能否更上一層樓?
作為投資了Snowflake的基金Madrona的合伙人Vivek和投資人Sabrina分享了他們對兩家公司在生成式AI領(lǐng)域扳手腕的看法。
上周對數據和人工智能領(lǐng)域從業(yè)者來(lái)說(shuō)是重要的一周,兩個(gè)最重要的參與者——Databricks和Snowflake——分別在舊金山和拉斯維加斯舉辦了他們的年度會(huì )議(Databricks的Data and AI Summit和Snowflake的Summit)。
這兩個(gè)巨頭決定在同一周舉辦他們的重要活動(dòng),這大概率不是巧合。在過(guò)去十年中,Snowflake和Databricks一直是朋友也是對手,但這一周明顯表明,它們現在是彼此的主要競爭對手,而新的戰場(chǎng)就是人工智能。
毫不奇怪的是,兩個(gè)會(huì )議上的討論和宣布大部分都圍繞生成式人工智能。所傳達的重要信息是,為了建立生成式人工智能戰略,每家公司都必須從數據戰略開(kāi)始。
不出所料,Databricks和Snowflake都為自己為什么可以在這一旅程中為客戶(hù)提供最佳支持進(jìn)行了論證。
兩家公司從價(jià)值鏈的不同部分開(kāi)始,曾經(jīng)甚至是戰略合作伙伴關(guān)系,為何在這個(gè)人工智能的新時(shí)代演變?yōu)槿绱思ち业母偁帉κ帜兀?/p>
讓我們深入探討。
【快速免責聲明:Madrona曾投資Snowflake的C輪,并仍持有該公司的一些股份?!?br />
01Snowflake:從數據倉庫到數據云
Snowflake由Beno?t Dageville和Thierry Cruanes于2012年創(chuàng )立。他們是兩位在Oracle工作多年的數據庫專(zhuān)家,他們敏銳地觀(guān)察到大多數數據倉庫“固化、昂貴且難以使用”。Dageville和Cruanes與Vectorwise的前首席執行官Marcin Zukowski合作,構建了基于三個(gè)關(guān)鍵前提的未來(lái)數據倉庫:
1)完全基于云的架構;
2)將計算與存儲分離,實(shí)現近乎無(wú)限擴展;
3)在計算資源使用上具有彈性,從而實(shí)現查詢(xún)處理和靈活性方面的前所未有的速度。
如今,Snowflake已經(jīng)從“僅僅”一個(gè)云數據倉庫發(fā)展成為一個(gè)“數據云”,為客戶(hù)提供訪(fǎng)問(wèn)、構建、協(xié)作和變現其數據的單一平臺。僅用十多年時(shí)間,Snowflake已發(fā)展成為市值550億美元的上市公司,為6000多家客戶(hù)和許多《財富》500強企業(yè)提供服務(wù)。Snowflake已與主要超大規模云服務(wù)提供商(Azure、AWS和GCP)并肩作戰,現在他們明確將目光投向人工智能領(lǐng)域以贏(yíng)得更多關(guān)注。
為了實(shí)現這一目標,他們在人工智能和機器學(xué)習領(lǐng)域進(jìn)行了一系列收購和產(chǎn)品推出,包括:
1)Snowpark允許數據科學(xué)家使用其首選編程語(yǔ)言進(jìn)行端到端的機器學(xué)習工作負載開(kāi)發(fā)、部署和編排。通過(guò)Snowpark,客戶(hù)可以攝取、分析和轉換其數據,以訓練機器學(xué)習模型和運行更多的預測性分析。
2)Streamlit是一個(gè)數據驅動(dòng)的應用程序構建工具,Snowflake于2022年3月以8億美元收購。Streamlit使客戶(hù)能夠僅通過(guò)幾行代碼開(kāi)發(fā)數據密集型應用程序。Streamlit簡(jiǎn)化了通過(guò)前端Web應用程序對數據分析任務(wù)和機器學(xué)習模型輸出進(jìn)行上下文化的過(guò)程。
3)Neeva是Snowflake今年早些時(shí)候收購的公司,旨在加速企業(yè)與數據的交互和搜索,尤其是以更具對話(huà)性的方式進(jìn)行。
02Databricks: 構建Lakehouse
Databricks成立于2013年,僅比Snowflake晚一年。與Benoit和Theirry是行業(yè)從業(yè)者不同,Databricks是由一群與學(xué)術(shù)界和開(kāi)源社區有著(zhù)深厚淵源的人士創(chuàng )立的。
包括現任CEOAli Ghodsi在內的七位創(chuàng )始人是UC Berkeley的AMPLab研究員,他們構思了Apache Spark,這是一個(gè)用于大規模數據處理的開(kāi)源統一分析引擎。Spark已經(jīng)發(fā)展成為最大且最常用的數據處理框架之一,在大規模數據工程、數據科學(xué)和機器學(xué)習方面起著(zhù)重要作用。
Databricks最初的目標是商業(yè)化Spark,推出了企業(yè)級的Spark版本,提供了大型組織所需的所有功能(治理、支持、托管等)。Databricks隨后發(fā)展成為創(chuàng )新的“Lakehouse平臺”,統一了數據、分析和人工智能。統一的Lakehouse概念將“集成、存儲、處理、治理、共享、分析和人工智能”融合在一個(gè)平臺上。
在過(guò)去的十年中,Databricks已成為全球估值最高的私人公司之一,2021年估值達到380億美元,并于近期實(shí)現了10億美元的收入里程碑。他們?yōu)槌汕先f(wàn)的企業(yè)客戶(hù)和開(kāi)源用戶(hù)提供服務(wù),并被視為最受矚目的IPO之一。在所有這些增長(cháng)中,他們越來(lái)越將自己定位為人工智能領(lǐng)域的領(lǐng)導者,并最近進(jìn)行了重要的收購和產(chǎn)品發(fā)布,包括以13億美元收購MosaicML(下文將更詳細介紹),并開(kāi)源了Dolly,這是一種以低于30美元的成本訓練的指令調優(yōu)LLM。
03?AI中的碰撞
Snowflake和Databricks都有良好的生態(tài)位,可以繼續利用長(cháng)期的結構性趨勢,因為企業(yè)正在為生成式人工智能的轉變做準備。隨著(zhù)生成式人工智能應用的廣泛應用,這兩家公司都試圖將自己定位為戰略性的多產(chǎn)品數據平臺。以下是各自會(huì )議中的一些重要公告以及我們對每家公司整體人工智能戰略的看法。
Snowflake主要公告:
開(kāi)發(fā)者公告
1)Snowflake的原生應用框架:通過(guò)允許開(kāi)發(fā)人員創(chuàng )建、分發(fā)和變現應用程序,以新的方式利用數據,可基于Snowflake的數據云擴展。
2)Snowpark容器服務(wù):擴展數據可編程性和計算基礎架構,以支持編程語(yǔ)言、訪(fǎng)問(wèn)第三方軟件,并為托管全棧應用程序和LLM提供增強的安全性和治理。通過(guò)泛化Snowflake的計算平臺,提供進(jìn)一步的靈活性,使客戶(hù)能夠從底層(數據層)一直到UI層運行完整的端到端應用程序。
3)其他重要公告:Snowpipe流式處理功能;動(dòng)態(tài)表格(也稱(chēng)為材料化表格);Document AI(一項新服務(wù),用于提取文檔中的非結構化數據);以及Iceberg Tables。
合作伙伴公告Snowflake宣布NVIDIA、Microsoft和Weights & Biases等幾個(gè)重要合作伙伴。
1)與NVIDIA的合作計劃將其N(xiāo)eMo企業(yè)開(kāi)發(fā)框架嵌入到Snowflake的數據云中,這將使Snowflake的客戶(hù)能夠構建和部署LLMs和基于人工智能的應用程序,利用存儲在Snowflake中的專(zhuān)有數據。
2)與Microsoft的合作將擴展與Azure的合作伙伴關(guān)系,重點(diǎn)是圍繞Microsoft Azure的OpenAI和Azure AI/ML服務(wù)進(jìn)行新產(chǎn)品整合。該合作有可能將工作負載和客戶(hù)引入數據云。
3)與Weights & Biases這家領(lǐng)先的MLOps平臺的合作,Snowflake的容器服務(wù)使Weights & Biases能夠加速在Snowflake數據云中進(jìn)行ML模型、LLMs和LLM驅動(dòng)應用的迭代開(kāi)發(fā)。最終,這項合作將幫助企業(yè)和用戶(hù)更輕松地構建和利用生成式人工智能。
4)除了這兩家公司,Snowflake還宣布了與Alteryx、Hex、Dataiku、RelationalAI、Pinecone等公司的許多其他合作伙伴關(guān)系。
我們的看法
直到最近,Snowflake沒(méi)有透露任何在現有能力上添加生成式人工智能的計劃,許多投資者對Snowflake在這個(gè)領(lǐng)域(尤其是與Databricks相比)的競爭能力表示擔憂(yōu)。然而,在2023年的峰會(huì )上,Snowflake展示了一個(gè)強大的愿景,將自己定位為可信賴(lài)的數據云提供商,并以此打造了一個(gè)與生成式人工智能相關(guān)的強大故事。
Snowflake與Nvidia的合作,以及Snowpark容器服務(wù)的宣布,使他們在A(yíng)I數據堆棧中成為一個(gè)更具可行性的參與者。他們想傳達的核心觀(guān)點(diǎn)是,他們可以讓客戶(hù)在Snowflake數據云中安全地訪(fǎng)問(wèn)、開(kāi)發(fā)和部署LLMs和基于人工智能的應用程序,同時(shí)提供Nvidia GPU和AI軟件的加速計算。
雖然他們的故事和傳遞的信息令人印象深刻,但我們認為他們在人工智能領(lǐng)域相對于Databricks仍然處于劣勢狀態(tài)...
Databricks主要公告:
開(kāi)發(fā)者公告
1)LakehouseIQ:基于LLM的自然語(yǔ)言接口,用于搜索和查詢(xún)數據,并強大地理解客戶(hù)的數據、內部行話(huà)和使用模式,以了解客戶(hù)的架構、文檔、查詢(xún)、系統等。
2)LakehouseAI:Databricks在Databricks ML方面宣布了許多新功能,包括一些關(guān)于LLMOps的能力,例如整合數據、為機器學(xué)習準備數據集、微調和策劃機器學(xué)習模型,以及部署模型本身。Databricks還宣布了關(guān)于向量搜索、特征服務(wù)和MLFlow Gateway的許多功能。
3)MosaicML:就在峰會(huì )開(kāi)始之前,Databricks宣布以13億美元收購MosaicML,該收購在峰會(huì )期間定位為“構建GenAI模型的機器”。
4)其他值得注意的公告:Delta Lake 3.0、MLFlow 2.5支持不同后端LLMs、Lakehouse Apps和Databricks Lakehouse Monitoring智能監控。
我們的觀(guān)點(diǎn)
Databricks通過(guò)將數據、人工智能模型、監控和治理能力整合到Lakehouse平臺中,采取了統一的人工智能方法。因此,Databricks使客戶(hù)能夠更高效地開(kāi)發(fā)他們的GenAI解決方案,并且客戶(hù)認為Databricks是一個(gè)值得信賴(lài)的合作伙伴,平均而言,在機器學(xué)習開(kāi)發(fā)方面更快速、更經(jīng)濟、更易于使用。
雖然Databricks已經(jīng)被視為人工智能堆棧中的關(guān)鍵參與者,但通過(guò)對模型(如Dolly,一個(gè)開(kāi)源的指令跟隨LLM)的投資以及對MosaicML的重大收購,Databricks在GenAI領(lǐng)域鞏固了其領(lǐng)導地位。Databricks繼續強調他們的Lakehouse是GenAI初創(chuàng )企業(yè)訓練和部署自己的人工智能模型的最佳方式,以成本效益的方式利用自己的專(zhuān)有數據,而不受大型科技公司的束縛。
04展望未來(lái),我們可以期待什么呢?
盡管生成式人工智能的熱潮已經(jīng)持續了8個(gè)多月,但過(guò)去一周明確表明,Snowflake和Databricks正在展開(kāi)競爭,爭奪這個(gè)領(lǐng)域的心智和市場(chǎng)份額。那么,我們可以對這種加劇的競爭有哪些期待?
1.收購將繼續進(jìn)行→ Snowflake和Databricks都相對有良好的生態(tài)位來(lái)繼續收購與其整體戰略相輔相成的小公司。Snowflake在其資產(chǎn)負債表上擁有約40億美元的現金,而Databricks則擁有可用于交易的高估值。同時(shí),數百家AI和數據工具初創(chuàng )企業(yè)渴望在干旱的IPO市場(chǎng)找到出口。我們不認為Neeva和MosaicML會(huì )是這些巨頭最后一次收購,市場(chǎng)將出現整合。
2.客戶(hù)將受益→ 在Snowflake和Databricks之間逐漸升級的競爭中,最明顯的贏(yíng)家應該是他們的客戶(hù)。這兩家巨頭正在快速為他們的平臺添加新穎的產(chǎn)品和服務(wù),構建“一站式商店”,供客戶(hù)構建數據應用程序并利用LLMs。這種平臺增強將有助于民主化訪(fǎng)問(wèn)人工智能,并讓數據科學(xué)家、數據工程師和人工智能從業(yè)者能夠更有意義地進(jìn)行合作。
3.Azure和AWS將賺取更多的利潤→ 隨著(zhù)Snowflake和Databricks繼續在A(yíng)I市場(chǎng)上進(jìn)一步擴張,它們將需要大量的計算能力,主要由Azure和AWS提供。數據工程師Anant Packidurali敏銳地觀(guān)察到這一點(diǎn)。與Nvidia在A(yíng)I中受益一樣,為Snowflake和Databricks的計算需求提供基礎設施的超大規模云服務(wù)提供商無(wú)論誰(shuí)在A(yíng)I競爭中獲勝,都將獲得利益。
隨著(zhù)企業(yè)對數據的依賴(lài)程度越來(lái)越高,以支持其生成式人工智能戰略,我們相信Snowflake和Databricks都處于良好的位置,可以利用這一代的轉變。盡管它們來(lái)自?xún)r(jià)值鏈的不同部分,并且它們的關(guān)系在過(guò)去十年的發(fā)展中發(fā)生了變化,但它們現在正處于一場(chǎng)獎勵巨大的競賽中。
本文作者:?Vivek Sabrina,來(lái)源:硅兔賽跑,原文標題:《百億美金的平臺扳手腕,云數據的生成式AI之爭》
風(fēng)險提示及免責條款 市場(chǎng)有風(fēng)險,投資需謹慎。本文不構成個(gè)人投資建議,也未考慮到個(gè)別用戶(hù)特殊的投資目標、財務(wù)狀況或需要。用戶(hù)應考慮本文中的任何意見(jiàn)、觀(guān)點(diǎn)或結論是否符合其特定狀況。據此投資,責任自負。關(guān)鍵詞: