Page 84 - 金融科技力

P. 84

3. 數據清理

數據採集後，肯定會有許多意想不到的數據不完整或不適用

情形，可能包括資料重覆、欄位值越界、遺漏、代碼不一致、辭
彙的統一或是無用的資料，此時就需要通過對數據的清理，將這

些數據從準確性、完整性、一致性、唯一性、有效性等幾個方面
來處理資料問題。在清理過程中導入的數據量龐大，通常會達到

TB、甚至 PB 等級資料時，資料清理的時間，及如何持續獲得資
料更新將是這項工作最大的挑戰。

臚列幾項數據問題及清理的方法：

(1)資料遺缺問題

資料遺缺是最常遭遇到的問題，大多數情況下，遺缺值會
影響數據分析統計的正確性，也會導致工具程式的執行造成異

常，因此不可忽視。遺缺值的處理包括透過有經驗的人以手動
方式填入、由既有來源資料中推導出 (例如年齡可由出生年月

日推導出 )、可以利用遺缺值週遭相似位置以概率方式計算出來
(例如平均值或中位數 )。當然，若發現某些遺缺值的資料對整

體分析評估沒有影響，也可以考慮將該筆資料直接刪除，也是
一種解決遺缺值的方法。

(2)重覆資料問題

收集的數據資料中所有欄位值相同的紀錄被認為是重複
資料，通過程式判斷紀錄間的屬性值是否相等，可以來檢測資

料是否重複、重複的資料則合併為一筆或刪除。

(3)不一致性的問題
數值不一致最常見的就是單位、西元與民國年、小數點位

數、代碼對應等不一致的問題，這樣的問題處理多以訂定同樣
的規格進行資料轉換即可，困難度不會太高。另外有時會因為

文字用辭不一，導致統計分析上有誤差，最常見的以學校名為
例，「台大」與「臺灣大學」表示為同一所學校，但若統計臺

灣大學出現次數時，「台大」出現的部份就會被忽略而錯估數

79 80 81 82 83 84 85 86 87 88 89