標籤:程式設計,獲取載入,整併轉換
圖片來源:Photo by Jonathan Kemper on Unsplash
什麼是基礎資料框操作
基礎資料框操作指的是在現代資料科學管線中 Tidy 與 Transform 環節上廣泛常見的資料處理技法。
這些技法包含有:
衍生(mutate),新增欄位到資料框中,特別是新欄位與既有欄位具有函式的輸出以及輸入關係;
選擇(select),從資料框中依據名稱挑出單個或多個欄位;
篩選(filter),依據判斷條件(布林值)從資料框中挑出符合(布林值為 True)的觀測值;
摘要(summarize),對欄位進行聚合(Aggregate)的運算將多筆觀測值總結;
排序(arrange),對觀測值由小到大(遞增)或者由大到小(遞減)變動排列順序;
分組(group by),將欄位依照獨一類別進行摘要。
專案簡介
在這個專案中,我們打算寫一些 pandas
語法操作約翰霍普金斯大學 COVID-19 Data Repository 中最新的每日報告,讀者將學會如何定義函式 get_latest_daily_report()
將約翰霍普金斯大學 COVID-19 Data Repository 中最新的每日報告載入成為資料框、如何衍生新的欄位(治療中案例數)、選擇特定欄位(挑出一個或多個)、篩選指定觀測值(台灣在哪裡)、分組摘要(以國家為單位聚合確診數)以及排序(將摘要結果由大到小遞減排序)。
點選連結可以在瀏覽器開啟互動 Jupyter Notebook 查看完整程式碼以及專案細節:
如果您喜歡 Datainpoint 的文章,歡迎訂閱🎉
如果您希望 Datainpoint 多寫哪些題材,留言給我👇