收聽連結:https://www.ner.gov.tw/program/5a83f4eac5fd8a01e2df0183/66f1347f6dee3400222a4876
承蒙 Hahow 好學校的牽線與介紹,我在 2024-09-24(二)早上 7 點半至 8 點的時間參與了國立教育廣播電台「教育行動家」節目的單元專訪,感到非常榮幸,也解鎖人生第一次上電台節目的初體驗,我藉著梳理訪綱的機會,將預先準備好的回覆內容記錄起來。
節目介紹
主持人:李大華,著重國內外重要時事、教育新知及重大政策、趨勢分析訪談,藉由訪問各界專家,提供不同端點的全新資訊及討論,並有青年新創家等各言其志,分享年輕人的創意和奉獻社會的初心。青年是國家未來主力,透過熱血追夢的實踐故事,看見新世代的生活新主張,為生涯建立新價值觀,也鼓勵青年人在各領域發揮影響力,走出台灣在國際發揮影響力。另於每月一次與「職人」、「Hahow」團隊合作,將他們關心的議題以及對未來的期待與實際行動分享給聽眾,以青年的角度與社會溝通交流。
究竟什麼是「資料分析」?「資料分析」為何在公司、企業中這麼重要?
我們可以用兩個角度來詮釋「資料分析」,以非資料科學從業人員的角度來說,就是一個將問題拆解後,試圖以客觀事實佐證,再推導出答覆的問題解決(problem solving)技巧;如果以資料科學從業人員的角度來說,就是依據問題解決的需求,盤點六個工作場景,這六個工作場景分別是:資料載入、資料清理、資料型態轉換、資料視覺化、模型評估與溝通。並且透過程式語言讓六個工作場景能夠無縫隙、平順地銜接成一個如管線般的流程。
「資料分析」在公司、企業中扮演的角色變得重要的原因與組織中決策模式的演進相關,傳統組織的決策模式容易淪於由會議中話語權較大(通常是負責業務收入的單位)以經驗來做決策,我們可以稱之為經驗導向決策(experience-oriented decision making);現代組織的決策模式則會強調與會單位的平行,並且讓提案者就實證資料提供會議主持人審視評估,就稱之為資料導向決策(data-driven decision making)。簡而言之,因為資料導向決策廣受現代公司企業的歡迎,所以用來支撐資料導向決策的「資料分析」技能就相應變得重要。
是否和我們介紹一下資料分析師的工作內容?以及要成為一位資料分析師該如何準備,或需要有什麼樣的門檻與條件?
藉由回覆這個問題,我想展示一下經驗導向決策與資料導向決策有什麼不同。如果我以自身工作經驗或者根據我周遭的資料科學從業人員就進行分享,這樣的做法就偏向我們前述的經驗導向決策。那麼如果希望以資料導向決策來回覆這題,我會去思考是否有任何公開、容易取得的調查資料,能夠佐證我的自身工作經驗,避免從某群偏誤小樣本中來推論母體。
佐證答覆所需的資料是離現在最近、2022 年的 Kaggle Machine Learning and Data Science Survey,從接近 2 萬 4 千位資料科學從業人員填答的問卷,資料分析師回覆 Select any activities that make up an important part of your role at work 時獲得最多票的是:Analyze and understand data to influence product or business decisions,其次是 Build prototypes to explore applying machine learning to new areas.
https://www.kaggle.com/c/kaggle-survey-2022
由工作內容回推所需的門檻與條件,我們可以知道資料分析師必須要具備問題解決與資料科學這兩個領域的基礎素養,並且具備有寫作程式的能力。如果以資料科學從業人員的角度來說,就是能夠撰寫程式語言進行科學計算、能夠撰寫查詢語言與資料庫互動、能夠理解使用者需求、能夠建置原型產品(prototype)或服務進行概念驗證(Proof-Of-Concept, POC)。
現今台灣的教育體系是否有跟「資料分析」有關的學科?是哪些?若想要專研「資料分析」領域,應該就讀什麼科系?
就我的認知,台灣不論是大學部或者研究所,都不太有資料科學或資料分析作為主修的科系,但這並不代表台灣的高等教育並沒有對資料科學有興趣的學生能夠選擇的教育資源。多數的情況是在有相關的傳統系所中,以組別、學程或者證書的方式來滿足對於資料科學有興趣的學生。這樣的情況是因為雖然資料科學這個學門從 2012 年興起至今也已經有 12 年的時間,但相較於其他傳統科系仍相對年輕;再者台灣高等教育並不如某些歐美校系強調就業導向,資料科學學門其實能自資訊學系和統計學系的基礎學科擷取而成,沒有非得獨立門戶的需求。如果以台灣大學的大學部為例,像是管理學院的工管系、資管系、社會科學院的經濟系、圖資系、電資學院的資工系等,都有資料科學相關的組別、學程或者證書,即便無法轉系、雙主修或輔系,也能夠透過跨系選修、通識課程選修,獲得相關修課經驗,進而在就讀國內外的商業分析、資料分析或資料科學的碩士班前,能有一定程度的先備知識與申請優勢。
您認為除了相關的工作領域外,一般人是否也需要具備「資料分析」的能力?在日常生活中何時會運用到「資料分析」?請您幫我們舉幾個例子。
一般人需要具備資料分析的能力,具體的例子是所有辦公室工作者不一定都是資料科學從業者,但他們一定都會使用 Excel 試算表軟體,一般人即便是在工作場所以外,也有很多機會使用 Excel。某個程度上,我們可以說當日常生活中需要使用 Excel 的時候,就是運用到資料分析的場景。
例如我們想要進行投資理財,希望利用在書籍中所學到的基本面分析、技術面分析技巧,來挑選上市櫃投資標的,那麼該如何從眾多上市櫃股票中,找出符合自己所設定指標中的特定股票?
例如我們想要說服社區大樓管委會建置電動車充電樁,希望將近似條件的社區大樓,進行「有充電樁」與「沒有充電樁」的房價比對,該如何進行描述性統計、甚至假設檢定來讓管委會同意建置呢?
例如我們想要進行民調,因為預算有限,希望從台灣 300 多個行政區、近 8000 個村鄰里中挑選「具代表性」的地理區域來實施,該如何定義「具代表性」的意義?該如何從眾多地理區域中挑選出合適的對象?
近年由於人工智慧突破性地進展,資料分析與資料科學的使用門檻已經大幅降低,可以預期在短中期的未來,很有可能目前仍屬於競爭優勢的資料分析、資料科學能力,會像英語或辦公室軟體一樣,轉變為辦公室工作者的必備基本條件,而不再是競爭優勢。
就您的自身經驗,或是您認為在學習資料分析的過程中,最常見的挑戰是什麼呢?又該如何應對並克服?
資料分析、資料科學並不是橫空出世的學科知識,它基本上是擷取了資訊工程與統計學部分的科目,所以最常見的挑戰其實可以用一個有趣的定義來述說:什麼是資料科學家呢?資料科學家就是一個比其他軟體工程師更懂統計的軟體工程師;又或者是一個比其他統計學家更懂軟體工程的統計學家。
就「學習面」來說,如果我們沒有一個足夠長的時間與預算完整投入,例如極端一點來說:雙主修資工系與統計系,並且拿到學位,該怎麼做才好?這是第一個常見挑戰:在時間、預算有限的情況下,該怎麼為自己設定一個學習、轉職或增強職能的規劃,而這個規劃必須合理且可行性高。就「執行面」來說,如果我們需要學習的知識範圍是廣闊的,但不一定每個知識點都必須非常深入,那麼該如何化零為整達到一個合理且客製化的配適(fitting),例如「資料庫」對於資料分析師是重要且必備的技能,但是在實務上多數初級資料分析師可能只需要查詢,而不需要定義、操作或控制資料;例如「程式設計」對於資料分析師同樣是重要且必備的技能,但是多數初級分析師可能只需要定義函數,而不需要物件導向或資料結構與演算法。這是常見的第二個挑戰:在每一個知識點、學科的準備上,拿捏自己所需要花費的時間精力。
要應對或者克服這樣的挑戰,由於每一個人的職涯狀態是獨特的,比較合適的做法是尋找一個資深的資料分析師或資料科學家,以導師(mentor)的角度來衡量與評估,視個人現狀與目的,客製化訂立行動方案。
聽說您最近在籌劃「資料分析的七個練習專案:累積個人作品集」,這些有關資料分析的作品應該要怎麼樣去呈現、製作成作品集呢?
資料分析的作品集呈現會呼應到我們前面所提到的六個工作場景:資料載入、資料清理、資料型態轉換、資料視覺化、模型評估與溝通,最後一個工作場景就是「溝通」。以這堂新課程設計中,我會希望學員能夠用專案包裝每一份作品,會要求同學利用 README.md 去描述專案、利用 requirements.txt 去描述第三方模組、利用 environment.yml 去描述環境、利用 data 資料夾儲存原始資料、利用 scripts 資料夾儲存程式碼。作品集的最終呈現結果可以是靜態視覺化、動態視覺化、網頁應用程式、程式腳本或者互動 Python 筆記本(Interactive Python Notebook, ipynb)俗稱 Jupyter Notebook。
當然,不論是專案的包裝結構或者最終呈現結果的類型,並沒有一個所謂的「最佳解」,在某些情況之下,即便是使用傳統的簡報、試算表、文字甚或程式碼也可以作為溝通媒介,前提是能否引起檢視作品對象(通常是面試官)的好奇心與共鳴,假如沒有辦法引起好奇心進而讓面試產生更有深度的討論,那麼結構再嚴謹、效果再華麗,某種程度上也是多餘的。