結合 Python 基礎資料分析套件的小專案

使用 numpy、pandas 與 matplotlib 抓出累計確診數趨勢與每日新增確診數

Yao-Jen Kuo

Sep 17, 2020

標籤：程式設計，獲取載入，整併轉換，摘要探索

圖片來源：郭耀仁 from DATAINPOINT

如果希望可以透過電子郵件收到我的文章，按下訂閱鈕🎉

基礎資料分析套件有哪些

依據 Python 增強提案第 206 項（PEP 206, Python Enhancement Proposal 206）所描述的自帶電池（Batteries Included）哲學，我們暸解到在標準套件中已經提給使用者豐富的類別、函式；不過由於應用領域眾多，以科學計算、資料分析領域而言，仍必須廣納第三方套件作為工具箱，這裡的主角就會是三個基礎資料分析套件：numpy、pandas 與 matplotlib。

為何需要基礎資料分析套件

numpy 全名 Numerical Python，顧名思義是處理數值運算的套件，她提供了新的資料結構類別 ndarray，當使用者有向量、矩陣以及張量運算需求時，就可以透過 numpy 達成目的；另外也提供了豐富的通用、聚合、隨機與線代函式。

pandas 全名 Panel DataFrame Series，顧名思義是，好吧，沒有辦法顧名思義，她提供了新的資料結構類別 DataFrame 與 Series，當使用者有表格式資料（Tabular data）的運算處理需求時，就可以透過 pandas 達成目的；另外也提供了豐富的表格式資料載入、整併清理、轉換外型與視覺化的函式。

matplotlib 全名 Matlab Plotting Library，顧名思義是語法和 Matlab 相似的繪圖套件，她提供了新的類別 Figure 與 AxesSubplot，當使用者有視覺化的需求時，就可以透過 matplotlib 達成目的；多數使用場景是呼叫其中的一個子模組 pyplot 來進行視覺化。

專案簡介

在這個專案中，我們打算使用 numpy、pandas 與 matplotlib 抓出確診數趨勢與每日新增確診數；首先使用 pandas 將約翰霍普金斯大學 COVID-19 Data Repository 中的時間序列資料 time_series_covid19_confirmed_global.csv 載入、接著使用 numpy 計算每日新增確診人數、最後使用 matplotlib 繪製累計確診數趨勢與每日新增確診數。透過這個專案，我們能夠暸解如何整合運用三個 Python 的基礎資料分析套件。

點選連結可以在瀏覽器開啟互動 Jupyter Notebook 查看完整程式碼以及專案細節：https://mybinder.org/v2/gh/datainpoint/project-python-data-toolkit-glimpse/master?filepath=project-python-data-toolkit-glimpse.ipynb

如果希望多寫哪些題材，留言和我說👇

數聚點

Discussion about this post