3
發(fā)布日期:2024-06-19 10:11 瀏覽次數(shù):
對(duì)于許多大企業(yè)來(lái)說(shuō),開(kāi)源大數(shù)據(jù)分析已經(jīng)成為日常業(yè)務(wù)中一個(gè)必不可少的組成部分。據(jù)New Vantage Partners公司對(duì)《財(cái)富》1000強(qiáng)公司的高層主管開(kāi)展的調(diào)查顯示,如今62.5%的企業(yè)在生產(chǎn)環(huán)境中至少運(yùn)行一種大數(shù)據(jù)工具或應(yīng)用軟件。這比2013年給出同樣回復(fù)的企業(yè)數(shù)量高出近一倍,只有5.4%的受訪企業(yè)沒(méi)有大數(shù)據(jù)計(jì)劃。
說(shuō)到大數(shù)據(jù)分析,開(kāi)源軟件是常態(tài),而不是異數(shù)。許多企業(yè)使用的一些領(lǐng)先工具由Apache基金會(huì)管理,許多商業(yè)工具至少一部分基于這些開(kāi)源解決方案。
我們?cè)诒疚闹薪榻B了市面上12款頂尖的開(kāi)源數(shù)據(jù)分析解決方案,其中一些為大數(shù)據(jù)分析提供了全面的端到端平臺(tái),另一些要與其他技術(shù)結(jié)合起來(lái)。它們都適合大企業(yè)使用,都是市面上領(lǐng)先的數(shù)據(jù)分析工具。
談到開(kāi)源數(shù)據(jù)分析技術(shù),就不可能不提到Hadoop。Apache基金會(huì)的這個(gè)項(xiàng)目已經(jīng)幾乎成為大數(shù)據(jù)的同義詞,它讓企業(yè)能夠大規(guī)模分布式處理極其龐大的數(shù)據(jù)集。TDWI和SAS聯(lián)合開(kāi)展的一項(xiàng)調(diào)查發(fā)現(xiàn),近60%的企業(yè)預(yù)計(jì)在2016年年底之前會(huì)在生產(chǎn)環(huán)境中擁有Hadoop集群。
然而值得一提的是,Hadoop本身無(wú)法實(shí)現(xiàn)數(shù)據(jù)分析。它通常是從大數(shù)據(jù)獲取洞察力的整個(gè)更龐大解決方案的一部分。
Spark也是Apache旗下的一個(gè)項(xiàng)目,它承諾可以迅速處理大數(shù)據(jù)。實(shí)際上,它聲稱“在內(nèi)存中運(yùn)行程序的速度比Hadoop MapReduce快100倍,在磁盤上運(yùn)行程度的速度快10倍”。
由于這種出色性能,它常常用于分析流式數(shù)據(jù)或用于需要交互式分析功能的應(yīng)用軟件中。許多公司經(jīng)常把它與Hadoop或Mesos一起使用,不過(guò)它也能獨(dú)立運(yùn)行。最近,它的人氣得到了急劇提升,Syncsort在2016年開(kāi)展的一項(xiàng)調(diào)查發(fā)現(xiàn),受訪的企業(yè)大數(shù)據(jù)工作人員中近70%對(duì)Spark有興趣。
不像前面兩個(gè)項(xiàng)目,Talend由一家營(yíng)利公司管理,而不是由基金會(huì)管理。因而,提供收費(fèi)支付服務(wù)。Talend既提供免費(fèi)產(chǎn)品,又提供收費(fèi)產(chǎn)品。它免費(fèi)的開(kāi)源解決方案名為Talend Open Studio,下載量已超過(guò)了200萬(wàn)人次。
市場(chǎng)研究公司Gartner最近將Talend評(píng)為數(shù)據(jù)集成領(lǐng)域的“領(lǐng)導(dǎo)者”。這家公司聲稱,相比與之競(jìng)爭(zhēng)的解決方案,它幫助企業(yè)分析大數(shù)據(jù)的速度快五倍,而成本卻只有五分之一。
與Talend一樣,Jaspersoft也有多個(gè)版本,有的版本免費(fèi),有的版本收費(fèi)。社區(qū)版是免費(fèi)、開(kāi)源的,而Reporting版、AWS版、專業(yè)版和企業(yè)版需要收費(fèi),不過(guò)隨帶支持服務(wù)。
Jaspersoft是一款開(kāi)源商業(yè)智能工具,旨在讓企業(yè)用戶可以借助自助服務(wù),滿足自己的要求。該公司聲稱,它的技術(shù)支持130000多款應(yīng)用軟件,提供嵌入式商業(yè)智能功能。
Pentaho自詡為“全面的數(shù)據(jù)集成和商業(yè)智能平臺(tái)?!痹摴局饕罅ν其N它的商業(yè)版軟件,該軟件基于開(kāi)源社區(qū)版。
許多公司將它與Hadoop和Spark之類的工具一起使用,以便能夠報(bào)告和顯示大數(shù)據(jù)。該軟件聲稱擁有一大批的知名客戶,包括英國(guó)電信(BT)、卡特皮勒、納斯達(dá)克、美國(guó)國(guó)土安全部、美國(guó)國(guó)家海洋和大氣局(NOAA)、《》、EMC及其他許多企業(yè)組織。
RapidMiner聲稱是“頭號(hào)開(kāi)源數(shù)據(jù)科學(xué)平臺(tái)”,Gartner將它評(píng)為高級(jí)分析魔力象限報(bào)告中的領(lǐng)導(dǎo)者。它能夠?qū)崿F(xiàn)自助式預(yù)測(cè)分析,承諾有望提升速度飛快的性能。
用戶包括寶馬、漢莎航空、達(dá)美樂(lè)比薩公司、索尼、福特、Salesforce、組織和通用電氣公司。整個(gè)RadiMiner平臺(tái)包括三個(gè)獨(dú)立的組件:RapidMiner Studio、RapidMiner Server和RapidMiner Radoop。這三個(gè)組件都采用開(kāi)源許可證或商業(yè)許可證,商業(yè)版價(jià)格取決于用戶數(shù)量。
它的官方網(wǎng)站解釋:“Storm讓用戶很容易可靠地處理無(wú)限制的數(shù)據(jù)流,它在實(shí)時(shí)處理方面的功能好比Hadoop在批處理方面的功能?!笨蛻艨梢詫⑺c任何數(shù)據(jù)庫(kù)或任何編程語(yǔ)言一起使用。它具有可擴(kuò)展、容錯(cuò)、易于部分使用的優(yōu)點(diǎn)。然而用戶要注意的是,Storm還沒(méi)有進(jìn)入到1.0版本這個(gè)階段。
H2O被60000多個(gè)數(shù)據(jù)科學(xué)家和7000多家企業(yè)組織所使用,聲稱是“世界上領(lǐng)先的開(kāi)源機(jī)器學(xué)習(xí)平臺(tái)?!庇捎谒膬?nèi)存技術(shù),它提供了極其出色的性能。它還與Hadoop和Spark之類的其他許多開(kāi)源數(shù)據(jù)分析工具整合起來(lái),支持所有主要的流行數(shù)據(jù)庫(kù),提供收費(fèi)的支持服務(wù)。
除了標(biāo)準(zhǔn)版的H2O外,該公司還提供Sparkling Water,這個(gè)版本整合了Spark和Steam,后者是一種端到端人工智能應(yīng)用引擎。
Lumify由一家名為Altamira 科技的公司開(kāi)發(fā),自稱是“開(kāi)源大數(shù)據(jù)分析和可視化平臺(tái)”。
它讓用戶易于創(chuàng)建二維或三維圖形,可顯示實(shí)體之間的關(guān)系,或在地圖上覆蓋數(shù)據(jù)。對(duì)于有興趣深入了解它的工作原理的那些人來(lái)說(shuō),官方網(wǎng)站提供了幾個(gè)視頻,顯示了Lumify的實(shí)際運(yùn)行,上面還有一個(gè)演示網(wǎng)站,讓用戶可以上傳自己的數(shù)據(jù),并試用軟件。
Apache Drill讓用戶得以使用SQL查詢用于非關(guān)系型數(shù)據(jù)存儲(chǔ)系統(tǒng)。它支持一系列NoSQL和基于云的數(shù)據(jù)存儲(chǔ)系統(tǒng)。
Apache Drill包括HBase、MongoDB、MapR-DB、HDFS、MapR-FS、亞馬遜S3、Azure Blob Storage、谷歌云存儲(chǔ)和Swift。它還讓用戶可以使用單一查詢,即可搜索用不同技術(shù)存儲(chǔ)起來(lái)的多個(gè)數(shù)據(jù)集。4166am金沙信心之選此外,它支持許多流行的商業(yè)智能工具。
作為最知名的NoSQL數(shù)據(jù)庫(kù)之一,MongoDB是一種開(kāi)源非關(guān)系型數(shù)據(jù)存儲(chǔ)解決方案??蛻舭ù蠖紩?huì)人壽(MetLife)、芝加哥市、Expedia、谷歌、氣象頻道、BuzzFeed和Facebook。
除了免費(fèi)開(kāi)源版外,該公司還提供一款收費(fèi)的企業(yè)版和云托管的版本MongoDB Atlas。知名市場(chǎng)研究機(jī)構(gòu)弗雷斯特研究公司將MongoDB評(píng)為大數(shù)據(jù)NoSQL領(lǐng)域的“領(lǐng)導(dǎo)者”。
該軟件完全免費(fèi),但還提供收費(fèi)的用戶支持、維護(hù)、咨詢和培訓(xùn)等服務(wù)。它包括了用于報(bào)告、多維分析(OLAP)、圖表、位置情報(bào)、數(shù)據(jù)挖掘、ETL(抽取轉(zhuǎn)換和加載)及更多其他方面的工具。它還與流行的內(nèi)存處理引擎整合起來(lái),能夠?qū)崿F(xiàn)實(shí)時(shí)處理。