標籤:程式設計,獲取載入,整併轉換,摘要探索
圖片來源:郭耀仁 from DATAINPOINT
如果希望可以透過電子郵件收到我的文章,按下訂閱鈕🎉
基礎資料分析套件有哪些
依據 Python 增強提案第 206 項(PEP 206, Python Enhancement Proposal 206)所描述的自帶電池(Batteries Included)哲學,我們暸解到在標準套件中已經提給使用者豐富的類別、函式;不過由於應用領域眾多,以科學計算、資料分析領域而言,仍必須廣納第三方套件作為工具箱,這裡的主角就會是三個基礎資料分析套件:numpy、pandas 與 matplotlib。
為何需要基礎資料分析套件
numpy
全名 Numerical Python,顧名思義是處理數值運算的套件,她提供了新的資料結構類別 ndarray,當使用者有向量、矩陣以及張量運算需求時,就可以透過 numpy
達成目的;另外也提供了豐富的通用、聚合、隨機與線代函式。
pandas
全名 Panel DataFrame Series,顧名思義是,好吧,沒有辦法顧名思義,她提供了新的資料結構類別 DataFrame 與 Series,當使用者有表格式資料(Tabular data)的運算處理需求時,就可以透過 pandas
達成目的;另外也提供了豐富的表格式資料載入、整併清理、轉換外型與視覺化的函式。
matplotlib
全名 Matlab Plotting Library,顧名思義是語法和 Matlab 相似的繪圖套件,她提供了新的類別 Figure 與 AxesSubplot,當使用者有視覺化的需求時,就可以透過 matplotlib
達成目的;多數使用場景是呼叫其中的一個子模組 pyplot
來進行視覺化。
專案簡介
在這個專案中,我們打算使用 numpy
、pandas
與 matplotlib
抓出確診數趨勢與每日新增確診數;首先使用 pandas
將約翰霍普金斯大學 COVID-19 Data Repository 中的時間序列資料 time_series_covid19_confirmed_global.csv 載入、接著使用 numpy
計算每日新增確診人數、最後使用 matplotlib
繪製累計確診數趨勢與每日新增確診數。透過這個專案,我們能夠暸解如何整合運用三個 Python 的基礎資料分析套件。
點選連結可以在瀏覽器開啟互動 Jupyter Notebook 查看完整程式碼以及專案細節:https://mybinder.org/v2/gh/datainpoint/project-python-data-toolkit-glimpse/master?filepath=project-python-data-toolkit-glimpse.ipynb
如果希望多寫哪些題材,留言和我說👇