Page 84 - 金融科技力
P. 84

3.  數據清理

                               數據採集 後,肯定 會有許多 意想不到 的數據不 完整或不 適用

                          情形,可 能包括資 料重覆、 欄位值越 界、遺漏 、代碼不 一致、辭
                          彙的統一 或是無用 的資料, 此時就需 要通過對 數據的清 理,將這

                          些數據從 準確性、 完整性、 一致性、 唯一性、 有效性等 幾個方面
                          來處理資 料問題。 在清理過 程中導入 的數據量 龐大,通 常會達到

                          TB、甚 至 PB 等級資料時,資料清理的時間,及如何持續獲 得資
                          料更新將是這項工作最大的挑戰。



                             臚列幾項數據問題及清理的方法:

                          (1)資料遺缺問題

                                  資料遺缺是最常遭遇到的問題,大多數情況下,遺缺值會
                             影響數據分析統計的正確性,也會導致工具程式的執行造成異

                             常,因此不可忽視。遺缺值的處理包括透過有經驗的人以手動
                             方 式填入、 由既有來 源資料中 推導出  (例如年齡可 由出生年月

                             日推導出 )、可 以利用遺缺值週遭相似位置以概率方式計算出 來
                             (例如平 均值或中位數 )。當 然,若發現某些遺 缺值的資 料對整

                             體分析評估沒有影響,也可以考慮將該筆資料直接刪除,也 是
                             一種解決遺缺值的方法。

                          (2)重覆資料問題

                                  收 集的數據 資料中所 有欄位值 相同的紀 錄被認為 是重複
                             資料,通過程式判斷紀錄間的屬性值是否相等,可以來檢測資

                             料是否重複、重複的資料則合併為一筆或刪除。

                          (3)不一致性的問題
                                  數值不一致最常見的就是單位、西元與民國年、小數點位

                             數、代碼對應等不一致的問題,這樣的問題處理多以訂定同樣
                             的規格進行資料轉換即可,困難度不會太高。另外有時會因為

                             文字用辭不一,導致統計分析上有誤差,最常見的以學校名為
                             例,「 台大」 與「臺灣 大學」表 示為同一 所學校, 但若統計 臺

                             灣 大學出現 次數時,「台 大」出 現的部份 就會被忽 略而錯估 數


             70
   79   80   81   82   83   84   85   86   87   88   89