Page 85 - 金融科技力
P. 85
量。由於處理數字比處理文字方便,我們也會利用代碼轉換方
式, 將文字格式以數字代碼,方便統一,例如「台大」與「 臺
灣大學」都用 01 代表,降低文字比對的誤差。
(4)數值誤植及檢核錯誤問題
有時候因為人工的誤植,系統未檢驗,導致存在的數據出
現不合理情形,例如生日出現 1900 年的人,或 是 2 月 30 日生
日等不合理的數值。另外這些數值錯誤,也有可能因為新、舊
系統規格 未統一或 跨系統資 料欄位格 式定義不 同造成的錯
誤,例如 A 系統將學歷定義成 1 小學、2 國中、3 高中、4 大學,
而 B 系統將學歷定義為 1 幼兒園、2 小學、3 國中、4 大學,當
這兩個系統整合時,若未進一步了解每個代碼意義,僅將兩欄
數值整合,就會造成數值錯誤 情形,此部份在資料清理時需特
別留意。
4. 統計分析
傳統進行資料統計分析,我們會利用統計方法事先發現樣本的
輪廓及態樣,以便找到關連母體的特徵,進而推論母體的狀況。然
而在數據資料量龐大的今日,數據資料結構複雜,樣本間充滿著真
實性與雜訊問題,利用傳統統計方法進行推論,表現上已漸不如目
前人工智慧技術處理大數據的預測準確,而人工智慧大數據分析方
法常也因為無法解釋說明預測準確或有效的原因,因此反而有更多
人開始重視傳統統計學與人工智慧大數據分析的結合。
傳統統計學上的統計分析方法,可分為敘述統計和推論統計:
(1) 敘述統計:
是一種最基本的統計方法,根據收集到的數據進行整理歸
類,並進行概括性的輪廓分析,了解目前數據的特徵、集中趨
勢、離散程度及相關強度,純粹描述樣本的特性,最常用的參
考指標包括平均值、標準差、中位數、最大值、最小值等。
71