python包 wget_Python数据科学“冷门”库
原標題 | Lesser Known Python Libraries for Data Science
作者 | Parul Pandey
譯者 | CONFIDANT(福建師范大學)、Seabiscuit、唐里、david95(研發(fā)工程師)
Python是一門神奇的語言。事實上,它是世界上發(fā)展最快的編程語言之一。它已經(jīng)一次又一次地證明了它在跨行業(yè)的開發(fā)人員職位和數(shù)據(jù)科學職位上的實用性。Python的整個生態(tài)系統(tǒng)及其庫使其成為全世界用戶(初學者和高級用戶)的最佳選擇。它的成功和流行的原因之一是它的健壯庫集的存在,這些庫使它能夠做到非常動態(tài)和快速。
在本文中,我們將研究一些用于數(shù)據(jù)科學任務的Python庫,而不是常用的Python庫,如panda、scikit-learn、matplotlib等。雖然像panda和scikit-learn這樣的庫是機器學習任務的默認名稱,但是了解這個領(lǐng)域中的其他 python 應用總是好的。
Wget
抽取數(shù)據(jù)特別是從網(wǎng)絡上爬取數(shù)據(jù)是數(shù)據(jù)科學家的一項重要任務。Wget是一個免費的實用的從網(wǎng)上下載文件的非交互式的命令行工具。它支持HTTP,HTTPS和FTP協(xié)議,同時也支持通過HTTP代理進行檢索。因為它是非交互式的,所以它可以在即使沒有登錄的情況下也能工作。所以下次你想下載一個網(wǎng)頁或者是從網(wǎng)頁中下載圖片,Wget可以幫助你。
安裝:
$ pip install wget例子:
Pendulum
對于那些處理日期時間數(shù)據(jù)而感到沮喪的人來說,Pendulum就是為這些人準備的。這是一個為減輕日期和時間操作設計的Python包。它是Python內(nèi)置的類的一個替代。需要深入工作可以參考文檔:https://pendulum.eustace.io/docs/#installation
安裝:
$ pip install pendulum例子:
imbalanced-learn
可以看出,大多數(shù)分類算法在每個類的樣本數(shù)量幾乎相同的情況下,即平衡狀態(tài)下,分類效果最好。但現(xiàn)實生活中存在大量的不平衡數(shù)據(jù)集,這些數(shù)據(jù)集對機器學習算法的學習階段和后續(xù)預測都有一定的影響。幸運的是,創(chuàng)建這個庫是為了解決這個問題。它與scikit-learn兼容,是scikit-learn-contrib項目的一部分。下次遇到不平衡的數(shù)據(jù)集時,可以嘗試一下。
安裝:
pip install -U imbalanced-learn
# or
conda install -c conda-forge imbalanced-learn有關(guān)用法和示例,請參考文檔:
http://imbalanced-learn.org/en/stable/api.html
FlashText
在NLP任務中清理文本數(shù)據(jù)通常需要替換句子中的關(guān)鍵字或從句子中提取關(guān)鍵字。通常,這類操作可以使用正則表達式來完成,但是如果要搜索的術(shù)語數(shù)達到數(shù)千,就會變得很麻煩。Python的FlashText模塊基于FlashText算法,為這種情況提供了一個合適的替代方案。FlashText最好的地方在于,無論搜索項的數(shù)量如何,運行時都是相同的。
安裝:
$ pip install flashtext例子:
提取關(guān)鍵字
替換關(guān)鍵字
有關(guān)更多使用示例,請參考官方文檔:
https://flashtext.readthedocs.io/en/latest/#
Fuzzywuzzy
這個名字聽起來有點奇怪,但是fuzzywuzzy是一個很有用的用于字符串匹配的庫。可以用它輕松的實現(xiàn)例如字符串比較比例、單詞比例。它還可以很容易的用于匹配記錄,即使他們是在不同的數(shù)據(jù)庫的。
安裝:
$ pip install fuzzywuzzy例子:
from fuzzywuzzy import fuzz
from fuzzywuzzy import process
# Simple Ratio
fuzz.ratio("this is a test", "this is a test!")
97
# Partial Ratio
fuzz.partial_ratio("this is a test", "this is a test!")100更多有趣的例子,可以訪問這里:
https://github.com/seatgeek/fuzzywuzzy
PyFlux
時間序列分析是機器學習領(lǐng)域最經(jīng)常遇到的問題之一。PyFlux就是專門針對時間序列問題設計的一個開源庫。這個庫有著優(yōu)秀的時間序列模型,包含ARIMA、GARCH和VAR模型。總之,PyFlux提供了一個基于概率的方法來組織時序模型,很值得一試。
安裝:
pip install pyflux具體試用方法和例子,請參考文檔:
https://pyflux.readthedocs.io/en/latest/index.html
Ipyvolume
溝通結(jié)果是數(shù)據(jù)科學的一個重要方面。 能夠?qū)⒔Y(jié)果可視化是一個顯著的優(yōu)勢。Ipyvolume是一個Python庫,用于在Jupyter筆記本中可視化3d體積和字形(例如3d散點圖),并且配置和工作量的需求很少。但是,它目前處于測試階段。一個很好的比喻:IPyvolume的volshow之于3d數(shù)組,就像matplotlib的imshow之于2d數(shù)組一樣。你可以通過原文了解更多關(guān)于它的內(nèi)容。
安裝:
Using pip
$ pip install ipyvolume
Conda/Anaconda
$ conda install -c conda-forge ipyvolume例子:
- 動圖
- 體繪圖
Dash
Dash是一個用于構(gòu)建web應用程序的高效Python框架。它寫在Flask上,
Plotly.js和response .js以及下拉菜單、滑塊和圖形等現(xiàn)代UI元素會綁定到您的分析Python代碼中,而不需要javascript。Dash非常適合構(gòu)建數(shù)據(jù)可視化應用程序。然后可以在web瀏覽器中呈現(xiàn)這些應用程序。用戶指南可以在這里訪問。
安裝:
例子:
下面的示例展示了一個具有下拉功能的高度交互式圖。當用戶在下拉菜單中選擇一個值時,應用程序代碼將動態(tài)地將數(shù)據(jù)從谷歌Finance導出到panda DataFrame中。
Gym
來自OpenAI的Gym是一個開發(fā)和比較強化學習算法的工具箱。它兼容任何數(shù)值計算庫,如TensorFlow或Theano。健身房圖書館必然是一個測試問題的集合,也稱為環(huán)境——你可以用它來制定你的強化學習算法。這些環(huán)境有一個共享接口,允許您編寫通用算法。
安裝:
pip install gym例子:
一個將要運行1000個CartPole-v0時間步長環(huán)境實例,每一步都會呈現(xiàn)其環(huán)境。
你可以通過下方鏈接了解其他環(huán)境:
https://gym.openai.com/
結(jié)論
這些是我為數(shù)據(jù)科學選擇的有用python庫,而不是常見的如numpy、panda等。如果你知道還有哪些可以添加到列表中的,請評論中告知我。
最后,別忘了試一試!
本文編輯:王立魚
英語原文:https://medium.com/analytics-vidhya/python-libraries-for-data-science-other-than-pandas-and-numpy-95da30568fad
想要繼續(xù)查看該篇文章相關(guān)鏈接和參考文獻?
點擊底部【python數(shù)據(jù)科學“冷門”庫】即可訪問:
福利大放送——滿滿的干貨課程免費送!
「好玩的Python:從數(shù)據(jù)挖掘到深度學習」該課程涵蓋了從Python入門到CV、NLP實踐等內(nèi)容,是非常不錯的深度學習入門課程,共計9節(jié)32課時,總長度約為13個小時。。
課程頁面:AI研習社 - 研習AI產(chǎn)學研新知,助力AI學術(shù)開發(fā)者成長。
「計算機視覺基礎入門課程」本課程主要介紹深度學習在計算機視覺方向的算法與應用,涵蓋了計算機視覺的歷史與整個課程規(guī)劃、CNN的模型原理與訓練技巧、計算機視覺的應用案例等,適合對計算機視覺感興趣的新人。
課程頁面:AI研習社 - 研習AI產(chǎn)學研新知,助力AI學術(shù)開發(fā)者成長。
現(xiàn)AI研習社將兩門課程免費開放給社區(qū)認證用戶,只要您在認證時在備注框里填寫「Python」,待認證通過后,即可獲得該課程全部解鎖權(quán)限。心動不如行動噢~
認證方式:AI研習社 - 研習AI產(chǎn)學研新知,助力AI學術(shù)開發(fā)者成長。
總結(jié)
以上是生活随笔為你收集整理的python包 wget_Python数据科学“冷门”库的全部內(nèi)容,希望文章能夠幫你解決所遇到的問題。
- 上一篇: 《死亡诗社》的内容是?
- 下一篇: android 设置setmultich