3
發(fā)布日期:2024-12-10 14:57 瀏覽次數(shù):
作為一家超級(jí)獨(dú)角獸公司,Databricks是基于云的大數(shù)據(jù)處理和機(jī)器學(xué)習(xí)平臺(tái),旨在幫助企業(yè)更輕松地處理大規(guī)模數(shù)據(jù)以及進(jìn)行智能決策。Databricks所提供的數(shù)據(jù)湖屋技術(shù)結(jié)合了數(shù)據(jù)湖和數(shù)據(jù)庫的優(yōu)勢,能有效消除用戶組織內(nèi)部的數(shù)據(jù)壁壘,滿足用戶在互聯(lián)網(wǎng)數(shù)據(jù)爆炸性增長的背景下,對(duì)結(jié)構(gòu)化、非結(jié)構(gòu)化等多樣化數(shù)據(jù)實(shí)時(shí)處理的需求。如今,Databricks已發(fā)展為一個(gè)更廣泛的湖倉一體式的Databricks Marketplace,倍受數(shù)據(jù)工程師和數(shù)據(jù)科學(xué)家的關(guān)注與青睞。
為了讓更多用戶使用Spark,創(chuàng)始團(tuán)隊(duì)選擇將其開源,于是Databricks應(yīng)運(yùn)而生。作為Apache Spark的核心要素,Databrick具有絕對(duì)的影響力、理解力和解釋力,這也是其核心競爭力之一。
2016年,微軟和Databricks達(dá)成合作。2017年11月,微軟正式宣布將Databricks作為Azure的第一方服務(wù)平臺(tái),這意味著用戶能在Azure門戶中啟動(dòng)Databricks,Databricks用戶也可以輕松訪問Azure上的功能,與所有其他Azure服務(wù)進(jìn)行深度集成,從而構(gòu)建現(xiàn)代數(shù)據(jù)分析通道。與微軟的合作是Databricks的里程碑,這幫助其收入從2017年初的不到100萬美元增長到2018年的超過1億美元。
2018年,Databricks發(fā)布了MLflow來管理機(jī)器學(xué)習(xí)項(xiàng)目,一年后又發(fā)布了Delta Lake,二者均獲得了市場認(rèn)可。2020年6月,Databricks宣布收購以色列初創(chuàng)公司Redash并基于其技術(shù)推出了數(shù)據(jù)湖屋關(guān)鍵開源技術(shù)Delta Engine,可在Delta Lake之上分層以提高查詢性能。同年11月,Databricks推出了Databricks SQL(以前稱為SQL Analytics),用于在數(shù)據(jù)湖上運(yùn)行商業(yè)智能和分析報(bào)告。
2021年,Databricks和谷歌云建立合作,使用戶能夠在谷歌云上應(yīng)用Databricks平臺(tái)的功能。通過此次合作,Databricks成為了唯一一個(gè)可以在三大云平臺(tái)(谷歌、亞馬遜和微軟)上使用的統(tǒng)一數(shù)據(jù)平臺(tái)。同年10月,Databricks收購了德國無代碼公司8080Labs,降低了平臺(tái)的使用門檻,并在CIDR 2021發(fā)表論文首次正式提出了數(shù)據(jù)湖屋(Lakehouse)的概念。到2022年8月,Databricks的年?duì)I收已超過10億美元。
2023年,為了應(yīng)對(duì)OpenAI的ChatGPT, Databricks推出了開源語言模型Dolly。該模型使用更少的參數(shù)便可產(chǎn)生與ChatGPT類似的結(jié)果,開發(fā)人員可以使用它來創(chuàng)建自己的聊天機(jī)器人。同時(shí),為了進(jìn)一步增強(qiáng)公司實(shí)力,Databricks先后收購了數(shù)據(jù)安全公司Okera、人工智能公司MosaicML以及數(shù)據(jù)復(fù)制公司Arcion。2024年3月,Databricks推出通用大語言模型DBRX,號(hào)稱是目前最強(qiáng)的開源AI,據(jù)稱在各種基準(zhǔn)測試中都超越了市面上所有的開源模型。
如今,Databricks在世界各地都設(shè)有辦事處,客戶遍布全球,包括荷蘭銀行(ABN AMRO)、康德納仕(condnast)、Regeneron和殼牌(Shell)在內(nèi)的全球9000多家組織機(jī)構(gòu)。
2021年2月,Databricks完成了10億美元G輪融資,由Franklin Templeton領(lǐng)投,進(jìn)一步鞏固了其作為全球最有價(jià)值初創(chuàng)公司之一的地位。同年8月,Databricks又完成了16億美元的H輪融資,公司估值被推至380億美元。
截至目前,Databricks共完成了9輪融資,籌集資金42億美元。如今隨著融資放緩,許多處于后期階段的初創(chuàng)公司的估值正在大幅下降,而Databricks在2023年9月I輪融資中的估值達(dá)到了430億美元,較2021年融資后估值上升了50億美元。
正如Databricks官網(wǎng)所示的Your data. Your AI. Your future. Own them all on the new data intelligence platform.,其業(yè)務(wù)集中在大數(shù)據(jù)和人工智能領(lǐng)域。Databricks致力于提供統(tǒng)一的數(shù)據(jù)分析平臺(tái),幫助企業(yè)加速數(shù)據(jù)處理、機(jī)器學(xué)習(xí)和人工智能工作流程,提升數(shù)據(jù)團(tuán)隊(duì)的效率和創(chuàng)新能力。其平臺(tái)結(jié)合了數(shù)據(jù)工程、數(shù)據(jù)科學(xué)和數(shù)據(jù)團(tuán)隊(duì)協(xié)作的功能,以便用戶可以在一個(gè)集成的環(huán)境中完成數(shù)據(jù)處理、分析和建模工作。
Databricks目標(biāo)客戶通常是擁有大量數(shù)據(jù)并需要先進(jìn)分析和機(jī)器學(xué)習(xí)能力的大型企業(yè)組織。這些客戶通常來自金融、醫(yī)療保健、零售和科技等行業(yè),對(duì)快速高效地處理和分析大量數(shù)據(jù)有極為旺盛的需求。在這個(gè)過程中,他們可能面臨著一系列技術(shù)上、法律上、倫理上的問題,如數(shù)據(jù)隱私和安全性問題,而這些都可以在Databricks獲得較好的解決辦法。
Databricks和Linux基金會(huì)聯(lián)合開發(fā)了Delta Sharing數(shù)據(jù)共享平臺(tái),為跨數(shù)據(jù)、分析和人工智能的數(shù)據(jù)共享提供了一個(gè)開源方法??蛻艨梢栽诟叨劝踩椭卫淼钠脚_(tái)區(qū)域之間共享實(shí)時(shí)數(shù)據(jù),可以在企業(yè)內(nèi)部業(yè)務(wù)線B分享與數(shù)據(jù)貨幣化等場景中應(yīng)用。
Databricks Unity Catalog為Databricks數(shù)據(jù)智能平臺(tái)內(nèi)的數(shù)據(jù)和人工智能提供了統(tǒng)一的管理方法。使用Unity Catalog,組織可以在任何云或平臺(tái)上無縫地管理其結(jié)構(gòu)化和非結(jié)構(gòu)化數(shù)據(jù)、機(jī)器學(xué)習(xí)模型、筆記本、儀表板和文件。數(shù)據(jù)科學(xué)家、分析師和工程師可以使用Unity Catalog發(fā)現(xiàn)、訪問可信數(shù)據(jù)和人工智能資產(chǎn)并進(jìn)行協(xié)作,利用人工智能提高生產(chǎn)力并釋放數(shù)據(jù)湖屋架構(gòu)的全部潛力。該功能能夠提高生產(chǎn)力,簡化許可模型,進(jìn)行人工智能監(jiān)控并提高可視性。
Databricks Mosaic AI能夠提供統(tǒng)一的工具來構(gòu)建、部署和監(jiān)控人工智能和機(jī)器學(xué)習(xí)解決方案,包括構(gòu)建預(yù)測模型、最新的GenAI和大型語言模型?;贒atabricks數(shù)據(jù)智能平臺(tái),Mosaic AI使組織能夠安全且經(jīng)濟(jì)高效地將企業(yè)數(shù)據(jù)集成到AI生命周期中。在保證企業(yè)對(duì)模型和數(shù)據(jù)的所有權(quán)的同時(shí),提供準(zhǔn)確、安全和可控的AI應(yīng)用程序,并以更低的成本為用戶培訓(xùn)定制化的大語言模型。
DBRX是Databricks下一代GenAI產(chǎn)品的核心支柱。它是由Databricks創(chuàng)建的開放的通用大語言模型,采用了創(chuàng)新的先進(jìn)技術(shù)。此外,它為開放社區(qū)和企業(yè)提供了構(gòu)建定制化大語言模型的功能,可供Databricks客戶通過應(yīng)用程序接口使用。根據(jù)Databricks的測試,它超過了GPT-3.5,與Gemini 1.0 Pro有相似的競爭力。另外,DBRX在開放模型中提高了效率,是同類型的模型計(jì)算速度的2倍。
Delta Lake是DataBricks公司開源的、用于構(gòu)建數(shù)據(jù)湖屋架構(gòu)的存儲(chǔ)框架,是可以在開放格式之間自動(dòng)即時(shí)轉(zhuǎn)換的開放格式存儲(chǔ)層,能夠支持Spark、Flink、Hive、PrestoDB、Trino等查詢計(jì)算引擎。
數(shù)據(jù)湖和數(shù)據(jù)庫、數(shù)據(jù)倉庫一樣,都是數(shù)據(jù)存儲(chǔ)的設(shè)計(jì)模式。區(qū)別在于,數(shù)據(jù)庫和數(shù)據(jù)倉庫通常采用明確的模式設(shè)計(jì),即先定義好數(shù)據(jù)模型和數(shù)據(jù)結(jié)構(gòu),再將數(shù)據(jù)整合到這個(gè)模型中,因此數(shù)據(jù)庫和數(shù)據(jù)倉庫更固定、更靜態(tài);而數(shù)據(jù)湖則更注重?cái)?shù)據(jù)的采集和存儲(chǔ),采用更靈活的架構(gòu)對(duì)各種異構(gòu)的數(shù)據(jù)源和數(shù)據(jù)格式進(jìn)行處理,因此數(shù)據(jù)湖更加動(dòng)態(tài)和靈活。數(shù)據(jù)湖屋結(jié)合了兩者的優(yōu)勢,并且通過打通數(shù)據(jù)湖和數(shù)據(jù)倉庫,能有效消除用戶組織內(nèi)部的數(shù)據(jù)壁壘。
Databricks數(shù)據(jù)智能平臺(tái)極大地簡化了數(shù)據(jù)流,在一個(gè)平臺(tái)上提供實(shí)時(shí)分析、機(jī)器學(xué)習(xí)和應(yīng)用程序。Data Streaming能夠幫助用戶使用已知的語言和工具構(gòu)建數(shù)據(jù)平臺(tái),通過自動(dòng)化構(gòu)建和維護(hù)實(shí)時(shí)數(shù)據(jù),簡化開發(fā)和操作流程,并通過流的方式批量處理數(shù)據(jù),消除數(shù)據(jù)孤島。
Spark結(jié)構(gòu)化流是實(shí)現(xiàn)Databricks數(shù)據(jù)智能平臺(tái)上數(shù)據(jù)流的核心技術(shù),為批處理和流處理提供統(tǒng)一的應(yīng)用程序接口。Databricks是運(yùn)行Apache Spark工作負(fù)載的最佳場所,其托管服務(wù)能夠達(dá)到99.95%的正常運(yùn)行率。
MLflow是一個(gè)能夠覆蓋機(jī)器學(xué)習(xí)全流程(從數(shù)據(jù)準(zhǔn)備到模型訓(xùn)練到最終部署)的平臺(tái),旨在簡化數(shù)據(jù)科學(xué)家構(gòu)建、測試和部署機(jī)器學(xué)習(xí)模型的復(fù)雜過程。MLflow的第一個(gè)alpha版本有三個(gè)組件,其中跟蹤組件(Tracking)支持記錄和查詢實(shí)驗(yàn)周圍的數(shù)據(jù),如評(píng)估指標(biāo)和參數(shù);項(xiàng)目組件(Projects)提供了可重復(fù)運(yùn)行的簡單包裝格式;模型組件(Models)提供了管理和部署模型的工具。
與典型的開源商業(yè)模式有所不同,Databricks是一家站在云巨頭肩膀上的公司,其盈利模式依托獨(dú)特的SaaS開源模式進(jìn)行。
Databricks本身是開源軟件,通過提供附加功能進(jìn)行收費(fèi),包括在開發(fā)、軟件運(yùn)行、運(yùn)營和托管等方面。SaaS開源的盈利模式,支持客戶在本地開源平臺(tái)下載免費(fèi)的基礎(chǔ)軟件,同時(shí)也可以下載開源公司打造的其他付費(fèi)版本。
付費(fèi)模式方面,Databricks根據(jù)客戶每秒消耗的計(jì)算資源量收費(fèi)。為此,其使用了一種獨(dú)創(chuàng)的DBU作為其標(biāo)準(zhǔn)化單位,工作負(fù)載消耗的DBU數(shù)量取決于多個(gè)指標(biāo),包括使用的計(jì)算資源、處理的數(shù)據(jù)量、區(qū)域、所處的分級(jí)定價(jià)層以及正在使用的服務(wù)類型等。此外,為了吸引用戶,Databricks為用戶提供了14天免費(fèi)試用期。
Databricks在運(yùn)營過程中堅(jiān)持三個(gè)原則:云上全流程、不做數(shù)據(jù)倉庫、不做定制化。這一舉措使得公司的基礎(chǔ)軟件能夠規(guī)?;构救藛T的單位產(chǎn)出最大化。對(duì)于未來發(fā)展的計(jì)劃,Databricks曾明確表示,公司會(huì)一直做SaaS,并且只做SaaS。
另外,SaaS租賃模式也為Databricks的知識(shí)產(chǎn)權(quán)提供了保護(hù)。公司最有價(jià)值的知識(shí)產(chǎn)權(quán)蘊(yùn)藏在監(jiān)控和管理云端軟件的工具和技術(shù)中,而不是在它所贊助的軟件項(xiàng)目中(這些項(xiàng)目是公開的),這樣便避免了泄露的風(fēng)險(xiǎn)。
根據(jù)《財(cái)富商業(yè)洞察》公布的《2021-2028年大數(shù)據(jù)分析市場報(bào)告》,目前大量初創(chuàng)公司正在爭奪全球大數(shù)據(jù)分析市場的份額,預(yù)計(jì)2028年將達(dá)到5497.3億美元。根據(jù)資本流動(dòng)趨勢和觀察到的客戶需求,大數(shù)據(jù)分析市場中最熱門的領(lǐng)域是數(shù)據(jù)倉庫、數(shù)據(jù)湖、數(shù)據(jù)湖倉、數(shù)據(jù)網(wǎng)格、DataOps和超快速大數(shù)據(jù)查詢引擎。
隨著互聯(lián)網(wǎng)、物聯(lián)網(wǎng)和各種傳感器的普及,企業(yè)獲得的數(shù)據(jù)來源更加龐大及多樣化,包括結(jié)構(gòu)化數(shù)據(jù)(如數(shù)據(jù)庫中的表格數(shù)據(jù))、半結(jié)構(gòu)化數(shù)據(jù)(如XML、JSON等格式)和非結(jié)構(gòu)化數(shù)據(jù)(如文本、圖像、視頻等)。一方面,企業(yè)需要高性價(jià)比的儲(chǔ)存方案。隨著云存儲(chǔ)成本下降和網(wǎng)速提升,企業(yè)越來越多地選擇將所有數(shù)據(jù)存儲(chǔ)在中央存儲(chǔ)庫,而不是將不同的數(shù)據(jù)類型單獨(dú)存儲(chǔ)。另一方面,企業(yè)希望通過處理這些不同類型的數(shù)據(jù),以獲取有價(jià)值的信息。同時(shí)許多企業(yè)還有實(shí)時(shí)數(shù)據(jù)處理的需求,以便及時(shí)采取行動(dòng)。例如,金融領(lǐng)域需要實(shí)時(shí)監(jiān)控交易數(shù)據(jù)和市場波動(dòng),制造業(yè)需要實(shí)時(shí)監(jiān)控設(shè)備狀態(tài)和生產(chǎn)過程等。這種實(shí)時(shí)數(shù)據(jù)處理需求推動(dòng)了實(shí)時(shí)數(shù)據(jù)處理技術(shù)的發(fā)展。數(shù)據(jù)處理需求快速增長,需求推送發(fā)展,大數(shù)據(jù)行業(yè)的體量在可預(yù)見的未來將會(huì)繼續(xù)膨脹。
與此同時(shí),基于海量的數(shù)據(jù),企業(yè)希望利用人工智能技術(shù)來進(jìn)行更加智能化的決策支持,如通過分析大數(shù)據(jù)來預(yù)測客戶行為、優(yōu)化供應(yīng)鏈、改善產(chǎn)品設(shè)計(jì)等;或者提供個(gè)性化的產(chǎn)品和服務(wù),如通過分析用戶的行為和偏好來推薦相關(guān)產(chǎn)品、個(gè)性化定價(jià)、個(gè)性化營銷等。這種個(gè)性化服務(wù)可以提升用戶滿意度和忠誠度。AI的輔助可以幫助企業(yè)降本增效,并獲得競爭優(yōu)勢。
大數(shù)據(jù)和人工智能行業(yè)未來預(yù)期可觀,競爭也明顯地加劇。Databricks目前的發(fā)展主要面臨三類對(duì)手的夾擊。
第一類對(duì)手是同一行業(yè)的其他云數(shù)據(jù)平臺(tái)。2012年,前Oracle架構(gòu)師創(chuàng)立的Snowflake是Databricks不可忽視的對(duì)手。最初,Snowflake將自己定位為提供數(shù)據(jù)倉和分析計(jì)算工作負(fù)載的云數(shù)據(jù)平臺(tái),主要面向業(yè)務(wù)分析師和數(shù)據(jù)工程師等用戶。同期的Databricks則一直受數(shù)據(jù)科學(xué)家和機(jī)器學(xué)習(xí)工程師的青睞。
但現(xiàn)在二者的界限正在模糊,比如Snowflake發(fā)布了Snowpark for Data Science、事務(wù)數(shù)據(jù)庫以及Python支持功能,希望以此吸引數(shù)據(jù)科學(xué)家。而Databricks則推出了Databricks SQL、Delta Lake功能和Unity Catalog等產(chǎn)品,以滿足數(shù)據(jù)存儲(chǔ)功能和注重?cái)?shù)據(jù)安全的客戶。從模式來看,Snowflake是閉源生態(tài),而Databricks是開源的。Databricks的主要產(chǎn)品線都可以免費(fèi)使用,當(dāng)客戶需要獲得更高級(jí)的功能和支持時(shí),可以選擇相關(guān)付費(fèi)產(chǎn)品。Snowflake提供現(xiàn)成的解決方案,使公司能夠快速開展基本分析,而Databricks提供更好的定制和配置,讓客戶能夠完全控制他們的設(shè)置。
2022年底,Snowflake的年收入為21億美元,但增速放緩;而Databricks預(yù)計(jì)年收入為14億美元,但增速可觀。預(yù)計(jì)未來兩家的競爭會(huì)愈發(fā)激烈。
第三類競爭對(duì)手為特定領(lǐng)域的解決方案公司。Databricks與特定的數(shù)據(jù)管理和科學(xué)領(lǐng)域解決方案公司也存在競爭。比如Databricks的調(diào)度程序類似Apache Airflow,MLflow產(chǎn)品與DataRobot和Alteryx提供相似的服務(wù)。
今年來,Databricks被多名作家在舊金山聯(lián)邦法院提起集體訴訟,稱該公司在訓(xùn)練大模型時(shí)未經(jīng)同意、未經(jīng)認(rèn)可、無補(bǔ)償?shù)貜?fù)制和借鑒了他們的書籍。
根據(jù)起訴書,Databricks被指控分別使用盜版數(shù)字電子書庫Books3的數(shù)據(jù)訓(xùn)練了公司旗下的大模型MosaicML。在訓(xùn)練期間,大模型復(fù)制并攝取訓(xùn)練數(shù)據(jù)集中的每個(gè)4166am金沙文本作品,并從中提取受保護(hù)的表達(dá)。原告認(rèn)為,Databricks收購了MosaicML公司,而MosaicML生產(chǎn)MPT系列大型語言模型中使用了含有盜版內(nèi)容的數(shù)據(jù)集進(jìn)行訓(xùn)練,因此構(gòu)成著作權(quán)侵權(quán)。一同被指控的還有英偉達(dá)旗下的大模型NeMo Megatron。
人工智能工具的繁榮正在考驗(yàn)版權(quán)法的邊界,內(nèi)容創(chuàng)作者與人工智能間的版權(quán)之爭愈演愈烈。到底是侵犯版權(quán)還是合理使用,目前還沒有明確的答案。美媒Vox指出,一方面,技術(shù)創(chuàng)新的倡導(dǎo)者認(rèn)為,人工智能技術(shù)充滿了希望,最好不要為了過度保護(hù)版權(quán)而犧牲人工智能訓(xùn)練的效率。另一方面,媒體及內(nèi)容創(chuàng)作者認(rèn)為,即使是顛覆行業(yè)的科技公司在使用受版權(quán)保護(hù)的內(nèi)容時(shí)也需要付費(fèi)。