Databricks
Databricks是一家基于云計(jì)算Spark大數(shù)據(jù)的軟件運(yùn)營(yíng)商,于2013年1月1日正式成立,總部設(shè)在美國(guó)舊金山。作為大數(shù)據(jù)處理領(lǐng)域的領(lǐng)軍企業(yè),Databricks專(zhuān)注于提供基于Spark的云服務(wù),涵蓋數(shù)據(jù)集成、數(shù)據(jù)清洗、數(shù)據(jù)管理等多個(gè)環(huán)節(jié),致力于為企業(yè)打造高效、安全的數(shù)據(jù)處理解決方案?,F(xiàn)任首席執(zhí)行官為阿里?戈西(Ali Ghodsi)。
發(fā)展歷程 編輯本段
Databricks由Apache Spark的7位初始成員(Ali Ghodsi、Andy Konwinski、Arsalan Tavakoli-Shiraji、Ion Stoica、Matei Zaharia、Patrick Wendell和Reynold Xin)共同創(chuàng)立。2016年,Databricks與微軟達(dá)成合作,開(kāi)啟了其在云計(jì)算領(lǐng)域的重要布局。2017年11月,Databricks成功成為微軟Azure的第一方服務(wù)平臺(tái),進(jìn)一步鞏固了其在云市場(chǎng)的地位。
2018年:Databricks發(fā)布了MLflow,這是一款用于管理機(jī)器學(xué)習(xí)項(xiàng)目的開(kāi)源平臺(tái),旨在簡(jiǎn)化數(shù)據(jù)科學(xué)家構(gòu)建、測(cè)試和部署機(jī)器學(xué)習(xí)模型的復(fù)雜過(guò)程。
2019年:Databricks發(fā)布了Delta Lake,構(gòu)建了數(shù)據(jù)湖屋架構(gòu)的存儲(chǔ)框架,為數(shù)據(jù)湖的構(gòu)建和管理提供了有力支持。
2020年:6月,Databricks宣布收購(gòu)以色列初創(chuàng)公司Redash,并基于其技術(shù)推出了數(shù)據(jù)湖屋關(guān)鍵開(kāi)源技術(shù)Delta Engine,該技術(shù)可在Delta Lake之上分層,顯著提高查詢性能。11月,Databricks推出了Databricks SQL,用于在數(shù)據(jù)湖上運(yùn)行商業(yè)智能和分析報(bào)告,進(jìn)一步豐富了其產(chǎn)品線。
2021年:Databricks與谷歌云建立合作,使用戶能夠在谷歌云上應(yīng)用Databricks平臺(tái)的功能,成為當(dāng)時(shí)唯一一個(gè)可以在谷歌、亞馬遜和微軟三大云平臺(tái)上使用的統(tǒng)一數(shù)據(jù)平臺(tái)。10月,Databricks收購(gòu)了德國(guó)無(wú)代碼公司8080Labs,降低了平臺(tái)的使用門(mén)檻,并在CIDR 2021發(fā)表論文,首次正式提出了數(shù)據(jù)湖屋(Lakehouse)的概念。
2023年:為了應(yīng)對(duì)OpenAI的ChatGPT,Databricks推出了開(kāi)源語(yǔ)言模型Dolly,展現(xiàn)了其在人工智能領(lǐng)域的創(chuàng)新能力。
2024年:3月,Databricks推出了一款名為DBRX的通用大型語(yǔ)言模型,進(jìn)一步提升了其在人工智能領(lǐng)域的競(jìng)爭(zhēng)力。
2023年6月26日:Databricks正式宣布以約13億美元收購(gòu)生成式人工智能初創(chuàng)公司MosaicML,旨在為企業(yè)提供構(gòu)建類(lèi)ChatGPT工具的服務(wù),交易預(yù)計(jì)于7月31日前完成。
2023年9月14日:Databricks完成了超過(guò)5億美元的I輪融資,為其后續(xù)發(fā)展提供了強(qiáng)大的資金支持。
2024年12月7日:Databricks宣布完成100億美元J輪融資,公司估值從此前的430億美元攀升至620億美元。本輪融資由Thrive Capital領(lǐng)投,多家知名投資機(jī)構(gòu)參與,包括Andreessen Horowitz、DST Global、GIC、Insight Partners和WCM Investment Management作為共同領(lǐng)投方。
2025年8月19日:Databricks發(fā)布公告稱(chēng),正在進(jìn)行一輪超過(guò)10億美元的K輪融資,各方已經(jīng)簽署了投資條款清單,對(duì)應(yīng)估值將超過(guò)1000億美元。
機(jī)構(gòu)治理 編輯本段
管理團(tuán)隊(duì)
聯(lián)合創(chuàng)始人兼首席執(zhí)行官阿里?戈西(Ali Ghodsi)
全球現(xiàn)場(chǎng)運(yùn)營(yíng)總裁安迪?科福德(Andy Kofoid)
首席財(cái)務(wù)官大衛(wèi)?孔特(David Conte)
首席人力官艾米?賴(lài)克南德特(Amy Reichanadter)
高級(jí)副總裁兼總法律顧問(wèn)特蘭?菲(Tram Phi)
首席營(yíng)收官羅恩?加布里斯科(Ron Gabrisko)
首席營(yíng)銷(xiāo)官里克?舒爾茨(Rick Schultz)
首席運(yùn)營(yíng)官哈蒂姆?沙菲克(Hatim Shafique)
業(yè)務(wù)服務(wù) 編輯本段
主營(yíng)業(yè)務(wù)
Databricks旗下主要產(chǎn)品為大數(shù)據(jù)平臺(tái)Spark,該平臺(tái)基于Apache Spark開(kāi)源大數(shù)據(jù)框架,是統(tǒng)一的數(shù)據(jù)分析平臺(tái),定義了云計(jì)算時(shí)代數(shù)據(jù)處理標(biāo)準(zhǔn)的引擎,為企業(yè)提供了高效、靈活的數(shù)據(jù)處理能力。
產(chǎn)品服務(wù)
Data Sharing(數(shù)據(jù)共享平臺(tái)):Databricks和Linux基金會(huì)聯(lián)合開(kāi)發(fā)了Delta Sharing數(shù)據(jù)共享平臺(tái),為跨數(shù)據(jù)、分析和人工智能的數(shù)據(jù)共享提供了一個(gè)開(kāi)源方法??蛻艨梢栽诟叨劝踩椭卫淼钠脚_(tái)區(qū)域之間共享實(shí)時(shí)數(shù)據(jù),適用于企業(yè)內(nèi)部業(yè)務(wù)線共享、B2B分享與數(shù)據(jù)貨幣化等場(chǎng)景。
Unity Catalog(統(tǒng)一管理方法):Databricks Unity Catalog為Databricks數(shù)據(jù)智能平臺(tái)內(nèi)的數(shù)據(jù)和人工智能提供了統(tǒng)一的管理方法。組織可以在任何云或平臺(tái)上無(wú)縫地管理其結(jié)構(gòu)化和非結(jié)構(gòu)化數(shù)據(jù)、機(jī)器學(xué)習(xí)模型、筆記本、儀表板和文件。數(shù)據(jù)科學(xué)家、分析師和工程師可以使用Unity Catalog發(fā)現(xiàn)、訪問(wèn)可信數(shù)據(jù)和人工智能資產(chǎn)并進(jìn)行協(xié)作,利用人工智能提高生產(chǎn)力并釋放數(shù)據(jù)湖屋架構(gòu)的全部潛力。該功能能夠提高生產(chǎn)力,簡(jiǎn)化許可模型,進(jìn)行人工智能監(jiān)控并提高可視性。
Mosaic AI(統(tǒng)一構(gòu)建工具):Databricks Mosaic AI能夠提供統(tǒng)一的工具來(lái)構(gòu)建、部署和監(jiān)控人工智能和機(jī)器學(xué)習(xí)解決方案,包括構(gòu)建預(yù)測(cè)模型、最新的GenAI和大型語(yǔ)言模型。基于Databricks數(shù)據(jù)智能平臺(tái),Mosaic AI使組織能夠安全且經(jīng)濟(jì)高效地將企業(yè)數(shù)據(jù)集成到AI生命周期中。在保證企業(yè)對(duì)模型和數(shù)據(jù)的所有權(quán)的同時(shí),提供準(zhǔn)確、安全和可控的AI應(yīng)用程序,并以更低的成本為用戶培訓(xùn)定制化的大語(yǔ)言模型。
DBRX(通用大語(yǔ)言模型):DBRX是Databricks下一代GenAI產(chǎn)品的核心支柱,是由Databricks創(chuàng)建的開(kāi)放的通用大語(yǔ)言模型,采用了創(chuàng)新的先進(jìn)技術(shù)。它為開(kāi)放社區(qū)和企業(yè)提供了構(gòu)建定制化大語(yǔ)言模型的功能,可供Databricks客戶通過(guò)應(yīng)用程序接口使用。根據(jù)Databricks的測(cè)試,它超過(guò)了GPT-3.5,與Gemini 1.0 Pro有相似的競(jìng)爭(zhēng)力。另外,DBRX在開(kāi)放模型中提高了效率,是同類(lèi)型的模型計(jì)算速度的2倍。
Delta Lake(構(gòu)建湖屋架構(gòu)的存儲(chǔ)框架):Delta Lake是DataBricks公司開(kāi)源的、用于構(gòu)建數(shù)據(jù)湖屋架構(gòu)的存儲(chǔ)框架,是可以在開(kāi)放格式之間自動(dòng)即時(shí)轉(zhuǎn)換的開(kāi)放格式存儲(chǔ)層,能夠支持Spark、Flink、Hive、PrestoDB、Trino等查詢計(jì)算引擎。數(shù)據(jù)湖和數(shù)據(jù)庫(kù)、數(shù)據(jù)倉(cāng)庫(kù)一樣,都是數(shù)據(jù)存儲(chǔ)的設(shè)計(jì)模式。區(qū)別在于,數(shù)據(jù)庫(kù)和數(shù)據(jù)倉(cāng)庫(kù)通常采用明確的模式設(shè)計(jì),即先定義好數(shù)據(jù)模型和數(shù)據(jù)結(jié)構(gòu),再將數(shù)據(jù)整合到這個(gè)模型中,因此數(shù)據(jù)庫(kù)和數(shù)據(jù)倉(cāng)庫(kù)更固定、更靜態(tài);而數(shù)據(jù)湖則更注重?cái)?shù)據(jù)的采集和存儲(chǔ),采用更靈活的架構(gòu)對(duì)各種異構(gòu)的數(shù)據(jù)源和數(shù)據(jù)格式進(jìn)行處理,因此數(shù)據(jù)湖更加動(dòng)態(tài)和靈活。數(shù)據(jù)湖屋結(jié)合了兩者的優(yōu)勢(shì),并且通過(guò)打通數(shù)據(jù)湖和數(shù)據(jù)倉(cāng)庫(kù),能有效消除用戶組織內(nèi)部的數(shù)據(jù)壁壘。
Data Streaming(數(shù)據(jù)流):Databricks數(shù)據(jù)智能平臺(tái)極大地簡(jiǎn)化了數(shù)據(jù)流,在一個(gè)平臺(tái)上提供實(shí)時(shí)分析、機(jī)器學(xué)習(xí)和應(yīng)用程序。Data Streaming能夠幫助用戶使用已知的語(yǔ)言和工具構(gòu)建數(shù)據(jù)平臺(tái),通過(guò)自動(dòng)化構(gòu)建和維護(hù)實(shí)時(shí)數(shù)據(jù),簡(jiǎn)化開(kāi)發(fā)和操作流程,并通過(guò)流的方式批量處理數(shù)據(jù),消除數(shù)據(jù)孤島。Spark結(jié)構(gòu)化流是實(shí)現(xiàn)Databricks數(shù)據(jù)智能平臺(tái)上數(shù)據(jù)流的核心技術(shù),為批處理和流處理提供統(tǒng)一的應(yīng)用程序接口。Databricks是運(yùn)行Apache Spark工作負(fù)載的最佳場(chǎng)所,其托管服務(wù)能夠達(dá)到99.95%的正常運(yùn)行率。
MLflow(開(kāi)源的機(jī)器學(xué)習(xí)平臺(tái)):MLflow是一個(gè)能夠覆蓋機(jī)器學(xué)習(xí)全流程(從數(shù)據(jù)準(zhǔn)備到模型訓(xùn)練到最終部署)的平臺(tái),旨在簡(jiǎn)化數(shù)據(jù)科學(xué)家構(gòu)建、測(cè)試和部署機(jī)器學(xué)習(xí)模型的復(fù)雜過(guò)程。MLflow的第一個(gè)alpha版本有三個(gè)組件,其中"跟蹤"組件(Tracking)支持記錄和查詢實(shí)驗(yàn)周?chē)臄?shù)據(jù),如評(píng)估指標(biāo)和參數(shù);"項(xiàng)目"組件(Projects)提供了可重復(fù)運(yùn)行的簡(jiǎn)單包裝格式;"模型"組件(Models)提供了管理和部署模型的工具。
相關(guān)事件 編輯本段
2024年,Databricks陷入了一場(chǎng)版權(quán)糾紛。多名作家在舊金山聯(lián)邦法院對(duì)Databricks提起集體訴訟,指控該公司在訓(xùn)練大模型時(shí)“未經(jīng)同意、未經(jīng)認(rèn)可、無(wú)補(bǔ)償”地復(fù)制和借鑒了他們的書(shū)籍。根據(jù)起訴書(shū),Databricks被指控使用盜版數(shù)字電子書(shū)庫(kù)Books3的數(shù)據(jù)訓(xùn)練了公司旗下的大模型MosaicML。原告認(rèn)為,Databricks收購(gòu)了MosaicML公司,而MosaicML生產(chǎn)MPT系列大型語(yǔ)言模型中使用了含有盜版內(nèi)容的數(shù)據(jù)集進(jìn)行訓(xùn)練,因此構(gòu)成著作權(quán)侵權(quán)。這一事件對(duì)Databricks的聲譽(yù)和市場(chǎng)形象造成了一定的影響。
附件列表
詞條內(nèi)容僅供參考,如果您需要解決具體問(wèn)題
(尤其在法律、醫(yī)學(xué)等領(lǐng)域),建議您咨詢相關(guān)領(lǐng)域?qū)I(yè)人士。