概述
數(shù)據(jù)科學(xué)的工具數(shù)不勝數(shù)——你應(yīng)該選擇哪一個?
這里列出了超過20種的數(shù)據(jù)科學(xué)工具,滿足數(shù)據(jù)科學(xué)生命周期不同階段的需求。
引言
執(zhí)行數(shù)據(jù)科學(xué)任務(wù)的最佳工具有哪些?作為數(shù)據(jù)科學(xué)新手,你應(yīng)該選擇哪些工具? 我相信在你的數(shù)據(jù)科學(xué)之旅的某些時刻中你已經(jīng)問過(或搜索過)這些問題。這些問題是合理的!雖然在這個行業(yè)中并不缺乏數(shù)據(jù)科學(xué)工具,但是為你的數(shù)據(jù)科學(xué)旅程和生涯做出一個選擇可能是一個棘手的決定。
我們得承認——數(shù)據(jù)科學(xué)的范圍龐雜,每一個領(lǐng)域要求處理數(shù)據(jù)的方式各有不同,這讓許多分析家/數(shù)據(jù)庫科學(xué)家陷入困惑。而如果你是一位商業(yè)領(lǐng)袖,你將要選擇你和你的公司所使用的工具,這很關(guān)鍵,因為這些工具會產(chǎn)生長期的影響。 同樣地,問題是你應(yīng)該選擇哪種數(shù)據(jù)科學(xué)工具呢? 在本文中,我將通過羅列出數(shù)據(jù)科學(xué)領(lǐng)域廣泛使用的工具并細分它們的用途和優(yōu)勢,來幫你解決這些困惑。所以,讓我們開始吧!
處理大數(shù)據(jù)體量的工具
顧名思義,體量是指數(shù)據(jù)的規(guī)模和數(shù)量。要了解我在說的數(shù)據(jù)規(guī)模,你需要知道,世界上超過90%的數(shù)據(jù)是在最近兩年內(nèi)創(chuàng)建的! 十年來,隨著數(shù)據(jù)量的增加,該技術(shù)也變得越來越好。計算和存儲成本的降低使收集和存儲大量數(shù)據(jù)變得更加容易。 數(shù)據(jù)體量定義了它是否符合大數(shù)據(jù)的條件。 當我們的數(shù)據(jù)范圍在1Gb到10Gb左右時,傳統(tǒng)的數(shù)據(jù)科學(xué)工具就可以很好地工作。那么這些工具有哪些呢?
Microsoft Excel–Excel是處理少量數(shù)據(jù)的最簡單,最受歡迎的工具。它支持的最大行數(shù)只剛剛超過一百萬,一張表一次最多只能處理16,380列。當數(shù)據(jù)量很大時,這些根本不夠用。
Microsoft Excel:
https://www.analyticsvidhya.com/blog/category/excel/?utm_source=blog&utm_medium=22-tools-data-science-machine-learning
Microsoft Access –它是Microsoft流行的用于數(shù)據(jù)存儲的工具。使用此工具可以平穩(wěn)順暢地處理高達2Gb的較小數(shù)據(jù)庫,但超過這個數(shù)字,Access會開始崩潰。
SQL – SQL是自1970年代以來最流行的數(shù)據(jù)管理系統(tǒng)之一。幾十年來,它一直是主要的數(shù)據(jù)庫解決方案。SQL仍然很流行,但有一個缺點——隨著數(shù)據(jù)庫的不斷增長,很難對其進行擴展。
到目前為止我們已經(jīng)介紹了一些基本工具?,F(xiàn)在該放大招了!如果你的數(shù)據(jù)大于10Gb,甚至超過1Tb+,那么需要使用我在下面提到的工具:
Hadoop –它是一個開源的分布式框架,用于管理大數(shù)據(jù)的數(shù)據(jù)處理和存儲。當你從零開始構(gòu)建機器學(xué)習(xí)項目時,很可能會使用此工具。
Hive –它是建立在Hadoop之上的數(shù)據(jù)倉庫。Hive提供了一個類似于SQL的接口來查詢存儲在與Hadoop集成的各種數(shù)據(jù)庫和文件系統(tǒng)中的數(shù)據(jù)。
處理大數(shù)據(jù)種類的工具
數(shù)據(jù)種類是指存在的不同類型的數(shù)據(jù)。數(shù)據(jù)類型可以是以下之一:結(jié)構(gòu)化和非結(jié)構(gòu)化數(shù)據(jù)。 讓我們看一下不同數(shù)據(jù)類型的示例:
花一點時間去觀察這些示例,并且將它們與你的真實數(shù)據(jù)關(guān)聯(lián)起來。 你可能在結(jié)構(gòu)化數(shù)據(jù)中觀察到,這種類型的數(shù)據(jù)有固定的順序和結(jié)構(gòu),而非結(jié)構(gòu)化數(shù)據(jù)相反,這些示例并不遵循任何趨勢或者模式。例如,顧客反饋在長度、情感和其他方面有所不同。另外,這類數(shù)據(jù)巨大并且種類繁多。 處理這類數(shù)據(jù)可能非常具有挑戰(zhàn)性,那么市場上用于管理和處理這些不同數(shù)據(jù)類型的數(shù)據(jù)科學(xué)工具有哪些呢? 兩個最常見的數(shù)據(jù)庫是SQL和NoSQL。在NoSQL出現(xiàn)前,SQL多年來一直是市場主導(dǎo)者。
SQL的一些例子是Oracle,MySQL,SQLite,而NoSQL由諸如MongoDB,Cassandra等流行的數(shù)據(jù)庫組成。這些NoSQL數(shù)據(jù)庫由于具有擴展和處理動態(tài)數(shù)據(jù)的能力而被廣泛地應(yīng)用。
處理大數(shù)據(jù)速度的工具
第三個,也是最后一個V代表了速度。這是捕獲數(shù)據(jù)時的速度,包括實時和非實時數(shù)據(jù)。我們在這里將主要討論實時數(shù)據(jù)。 我們周圍有許多捕獲和處理實時數(shù)據(jù)的示例。最復(fù)雜的是自動駕駛汽車收集的傳感器數(shù)據(jù)。想象一下,在自動駕駛汽車中,汽車必須同時動態(tài)地收集和處理有關(guān)車道、與其他車輛的距離等數(shù)據(jù)! 其他正在收集的實時數(shù)據(jù)的例子包括:
閉路電視
股票交易
信用卡交易欺詐檢測
網(wǎng)絡(luò)數(shù)據(jù)——社交媒體(Facebook、Twitter等)
“你知道嗎? 在紐約證券交易所的每個交易時段中,都會生成超過1TB的數(shù)據(jù)!” 現(xiàn)在,讓我們來看看處理實時數(shù)據(jù)的一些常用數(shù)據(jù)科學(xué)工具:
Apache Kafka – Kafka是Apache的開源工具。它用于創(chuàng)建實時數(shù)據(jù)管道。Kafka的一些優(yōu)點在于——它具有容錯性、速度很快,并且被大量機構(gòu)投入生產(chǎn)使用。
Apache Storm – Apache的該工具幾乎可用于所有編程語言。它每秒可處理多達100萬個元組,并具有高度的可擴展性。對于高數(shù)據(jù)速率來說,這是個好工具。
Amazon Kinesis – 亞馬遜提供的此工具類似于Kafka,但需要付費。然而,它提供的是開箱即用的解決方案,這使其成為組織機構(gòu)的強勢的備選方案。
Apache Flink – Flink是Apache另一種可用于實時數(shù)據(jù)的工具。Flink的優(yōu)點在于它的高性能、容錯能力和有效的內(nèi)存管理。
現(xiàn)在,我們已經(jīng)掌握了通常用于處理大數(shù)據(jù)的各種工具,接下來將介紹使用高級機器學(xué)習(xí)技術(shù)和算法來利用數(shù)據(jù)的部分。
廣泛使用的數(shù)據(jù)科學(xué)工具
如果你要建立一個全新的數(shù)據(jù)科學(xué)項目,那么腦海中會浮現(xiàn)很多問題,這與你的水平無關(guān)——無論你是數(shù)據(jù)科學(xué)家,數(shù)據(jù)分析師,項目經(jīng)理還是高級數(shù)據(jù)科學(xué)主管,都是如此。 你將面對的一些問題是: ?在數(shù)據(jù)科學(xué)的不同領(lǐng)域中應(yīng)該使用哪些工具? ?應(yīng)該購買這些工具的許可證還是選擇開源工具?等等。 在本節(jié)中,我們將根據(jù)不同領(lǐng)域討論行業(yè)中使用的一些受歡迎的數(shù)據(jù)科學(xué)工具。 數(shù)據(jù)科學(xué)本身就是一個廣義術(shù)語,它由各種不同的領(lǐng)域組成,每個領(lǐng)域都有它自己的業(yè)務(wù)重要性和復(fù)雜性,正如下圖所示:
數(shù)據(jù)科學(xué)的范圍包含了各種領(lǐng)域,上圖表示了這些領(lǐng)域的相對復(fù)雜性和它們提供的業(yè)務(wù)價值。讓我們討論一下以上頻譜中顯示的每一個點。
報告和商業(yè)智能
讓我們從這個范圍的底端開始。報告和商業(yè)智能使一個機構(gòu)能夠識別出數(shù)據(jù)的趨勢和模式,從而制定關(guān)鍵的戰(zhàn)略決策。這種分析的類型包括MIS、數(shù)據(jù)分析和儀表板。 這些領(lǐng)域中常用的工具有:
Excel – 它提供了多種選擇,包括了數(shù)據(jù)透視表和圖表,使你可以快速分析數(shù)據(jù)。簡而言之,它是數(shù)據(jù)科學(xué)/分析工具中的“瑞士軍刀”。
QlikView – 您只需單擊幾下即可合并,搜索,可視化和分析所有數(shù)據(jù)資源。這是一種易于學(xué)習(xí)的直觀的工具,因此非常受歡迎。
Tableau – 它是當今市場上最受歡迎的數(shù)據(jù)可視化工具之一。它能夠處理大量數(shù)據(jù),甚至提供類似于Excel的計算功能和參數(shù)。Tableau因其整潔的儀表板和故事界面而倍受贊譽.
https://courses.analyticsvidhya.com/courses/tableau-2-0?utm_source=blog&utm_medium=22-tools-data-science-machine-learning
Microstrategy – 它是另一個BI工具,支持儀表板、自動分發(fā)和其他關(guān)鍵數(shù)據(jù)分析任務(wù)。
PowerBI – 它是商業(yè)智能(BI)領(lǐng)域中的Microsoft產(chǎn)品。PowerBI旨在與Microsoft技術(shù)進行集成。因此,如果你的組織有Sharepoint或SQL數(shù)據(jù)庫用戶,那么你和你的團隊將會喜歡這個工具。
Google Analytics – 想知道Google Analytics如何進入此名單的嗎?嗯……數(shù)字營銷在業(yè)務(wù)轉(zhuǎn)型中起著重要作用,沒有比它更好的工具可以用來分析你的數(shù)字化工作。
預(yù)測分析和機器學(xué)習(xí)工具
順著前面那個圖再往上走,其復(fù)雜性和商業(yè)價值也變高了!這是大多數(shù)數(shù)據(jù)科學(xué)家賴以生存的領(lǐng)域。你將要解決的問題類型是統(tǒng)計建模,預(yù)測,神經(jīng)網(wǎng)絡(luò)和深度學(xué)習(xí)。 讓我們了解一些該領(lǐng)域的常用工具:
Python – 由于其易用性,靈活性和開源特性,Python是當今行業(yè)數(shù)據(jù)科學(xué)中最主要的語言之一。它已經(jīng)在ML社區(qū)中迅速普及并被廣泛接受。
https://courses.analyticsvidhya.com/courses/introduction-to-data-science?utm_source=blog&utm_medium=22-tools-data-science-machine-learning
R – 它是數(shù)據(jù)科學(xué)中另一種非常常用且受人尊敬的語言。R有一個蓬勃發(fā)展且被極大支持的社區(qū),附帶了許多軟件包和庫,支持大多數(shù)的機器學(xué)習(xí)任務(wù)。
Apache Spark – Spark由加州大學(xué)伯克利分校于2010年開源,此后已成為最大的大數(shù)據(jù)社區(qū)之一。它被稱為大數(shù)據(jù)分析的“瑞士軍刀”,因為它具有多種優(yōu)勢,例如靈活性、速度、計算能力等。
Julia – 它是一種即將到來的語言,被捧為Python的繼承者。目前它仍處于起步階段,觀察其在未來的表現(xiàn)將會是一件有趣的事。
Jupyter Notebooks – 這些筆記本廣泛用于Python編程。盡管它主要用于Python,但它也支持其他語言,例如Julia,R等。
到目前為止,我們討論的工具都是真正的開源工具。你無需支付費用或購買任何額外的許可證。它們擁有活躍的社區(qū),可以定期維護和發(fā)布更新。 現(xiàn)在,我們將看一些在某些特定行業(yè)中通用的收費工具:
SAS – 這是一個非常受歡迎且功能強大的工具。在銀行和金融部門中被普遍使用。它的使用在美國運通,摩根大通,西格瑪,蘇格蘭皇家銀行等私人組織中占有很高的份額。
SPSS – SPSS是“社會科學(xué)統(tǒng)計軟件包”的縮寫,在2009年被IBM收購。它提供高級統(tǒng)計分析、龐大的機器學(xué)習(xí)算法庫、文本分析等。
Matlab – Matlab在組織機構(gòu)的領(lǐng)域里確實被低估了,但在學(xué)術(shù)界和研究部門中得到了廣泛的使用。最近相較于Python,R和SAS,Matlab已經(jīng)陣地失守,但是大學(xué)(尤其在美國)仍在使用Matlab教授許多本科課程。
深度學(xué)習(xí)的通用框架
深度學(xué)習(xí)需要大量的計算資源,并且需要特殊的框架才能有效地利用這些資源。因此,你很可能需要GPU或TPU。 讓我們看看本節(jié)中用于深度學(xué)習(xí)的一些框架。
TensorFlow – 它很容易成為當今行業(yè)中使用最廣泛的工具。Google可能與此有關(guān)!
PyTorch – 這種超級靈活的深度學(xué)習(xí)框架正在成為TensorFlow的強勢競爭對手。PyTorch最近受到一些關(guān)注,它的開發(fā)者是Facebook的研究人員。
Keras和Caffe是廣泛用于構(gòu)建深度學(xué)習(xí)應(yīng)用程序的其他框架。
人工智能工具
AutoML的時代就在這里。如果還沒有聽說過這些工具,那么這是一個自我學(xué)習(xí)的好機會!作為數(shù)據(jù)科學(xué)家,你很可能會在不久的將來與他們合作。
列舉一些最受歡迎的AutoML工具,包括AutoKeras,Google Cloud AutoML,IBM Watson,DataRobot,H20的無人駕駛AI和亞馬遜的Lex。AutoML有望成為AI / ML社區(qū)中的下一個大事件。它旨在消除或減少技術(shù)性,以便商業(yè)領(lǐng)導(dǎo)者可以使用它來制定戰(zhàn)略決策。 這些工具將推動整個數(shù)據(jù)分析流程自動化!
尾注
我們已經(jīng)討論了數(shù)據(jù)收集引擎以及完成檢索、處理和存儲,這一整個流水線所需的工具。數(shù)據(jù)科學(xué)的眾多領(lǐng)域中每個領(lǐng)域都有自己的一套工具和框架。 選擇數(shù)據(jù)科學(xué)工具通常取決于你的個人選擇、你的領(lǐng)域或項目,當然也取決于你的機構(gòu)。 在評論中讓我知道你喜歡使用的最喜歡的數(shù)據(jù)科學(xué)工具或框架!
-
神經(jīng)網(wǎng)絡(luò)
+關(guān)注
關(guān)注
42文章
4793瀏覽量
102045 -
機器學(xué)習(xí)
+關(guān)注
關(guān)注
66文章
8473瀏覽量
133749 -
python
+關(guān)注
關(guān)注
56文章
4821瀏覽量
85679 -
數(shù)據(jù)科學(xué)
+關(guān)注
關(guān)注
0文章
168瀏覽量
10330
原文標題:2020年22個廣泛使用的數(shù)據(jù)科學(xué)與機器學(xué)習(xí)工具
文章出處:【微信號:DBDevs,微信公眾號:數(shù)據(jù)分析與開發(fā)】歡迎添加關(guān)注!文章轉(zhuǎn)載請注明出處。
發(fā)布評論請先 登錄
相關(guān)推薦
20張圖讓你理解各種數(shù)學(xué)概念
2020年中國科技核心期刊目錄自然科學(xué)卷
MIT Technology Review 2020年“十大突破性技術(shù)”解讀 【中國科學(xué)基金】2020年第3期發(fā)布 精選資料分享
2010年世界十大最差電子科學(xué)工作
一種用于形狀精確描述的數(shù)學(xué)工具

十大機器學(xué)習(xí)工具及數(shù)據(jù)科學(xué)工具
2018年數(shù)據(jù)科學(xué)和機器學(xué)習(xí)工具調(diào)查

2020年數(shù)據(jù)科學(xué)領(lǐng)域的四種發(fā)展趨勢
數(shù)據(jù)科學(xué)的工具數(shù)不勝數(shù)——你應(yīng)該選擇哪一個?
2023年你應(yīng)該知道的所有機器學(xué)習(xí)算法
虹科分享 | 網(wǎng)絡(luò)流量監(jiān)控 | 你的數(shù)據(jù)能告訴你什么:解讀網(wǎng)絡(luò)可見性的4種數(shù)據(jù)類型

評論