TL; DR
Johns Hopkins University 的 Covid19 GitHub Repository: https://github.com/CSSEGISandData/COVID-19 在 2023-03-10 封存了,藉由這個事件,我梳理了良好示範資料的五個要素,並且希望讀者也能推薦自己喜歡的資料集來源。
緣起
過去三年多的時間,不論是課程、工作坊或者寫作,我都相當頻繁地使用 Johns Hopkins University 的 Covid19 GitHub Repository 作為其中一個示範資料來源:
https://github.com/CSSEGISandData/COVID-19
隨著三年多的 Covid19 疫情逐漸收尾,這個 GitHub Repository 也在 2023-03-10 封存,不再進行更新。
This repository has been archived by the owner on Mar 10, 2023. It is now read-only.
良好示範資料的五個要素
在選擇示範資料(Demo data)的時候,我往往會考量五個要素:
資料是否真實?
資料是否有更新與維護?
資料是否能引起聽眾、學員或讀者的共鳴?
資料是否具有關聯性?
變數類型是否涵蓋數值、文字、日期時間與地理資訊?
而 Johns Hopkins University 的 Covid19 GitHub Repository 恰好都能滿足上述五個要素:
資料是真實的。
資料由 Johns Hopkins University Center for Systems Science and Engineering 更新維護,在封存前的至少一天會有一次資料的更新。
資料所描述的事件就發生在與自己切身相關之處,加上網路社群與新聞媒體的報導,是所有人都必定有經歷的共同體驗。
Johns Hopkins University 的 Covid19 GitHub Repository 中有 UID_ISO_FIPS_LookUp_Table.csv 作為地理區域的 Reference Table,不論是使用每日報告或時間序列資料,都可以透過國家區域名或州省郡縣名進行關聯。
Johns Hopkins University 的 Covid19 GitHub Repository 中有確診人數與死亡人數等數值欄位,有地理區域名等文字欄位、有時間序列資料等日期時間欄位以及國家、區域、州、省、郡或縣的經緯度資訊。
第五個要素尤其重要,我總是希望用一份示範資料能夠詮釋完所有想要呈現的應用,像是資料的轉置以及關聯、地理圖資的視覺化與時間序列的預測,Johns Hopkins University 的 Covid19 GitHub Repository 其變數多元性能夠完整滿足這個需求。
GitHub Repository 有一個很棒的功能是能夠瀏覽 Raw file,因此在資料取得的便利性相當高,找到想要載入的資料之後,點擊 Raw file 的按鈕,就可以轉換到 https://raw.githubusercontent.com 網域,這時的網址 URL 能夠接受 GET 請求,以 Python 為例:
首先找到想要載入的資料:https://github.com/CSSEGISandData/COVID-19/blob/master/csse_covid_19_data/UID_ISO_FIPS_LookUp_Table.csv
點擊 Raw file 的按鈕。
轉換到 https://raw.githubusercontent.com 網域:https://raw.githubusercontent.com/CSSEGISandData/COVID-19/master/csse_covid_19_data/UID_ISO_FIPS_LookUp_Table.csv
使用該網址 URL 作為 GET 請求的伺服器端。
import pandas as pd
data_url = "https://raw.githubusercontent.com/CSSEGISandData/COVID-19/master/csse_covid_19_data/UID_ISO_FIPS_LookUp_Table.csv"
lookup_table = pd.read_csv(data_url)
print(type(lookup_table))
lookup_table.head()
拋磚引玉
文章的最後,想要跟各位讀者請教討論,能不能夠推薦你們喜歡的、覺得有趣的資料集來源讓我參考呢?本文開放所有訂閱戶回覆,歡迎留言討論、交流並且推薦!