Page 85 - 金融科技力
P. 85

量。由於處理數字比處理文字方便,我們也會利用代碼轉換方

                             式, 將文字格式以數字代碼,方便統一,例如「台大」與「 臺
                             灣大學」都用 01 代表,降低文字比對的誤差。

                          (4)數值誤植及檢核錯誤問題

                                  有時候因為人工的誤植,系統未檢驗,導致存在的數據出
                             現不合理情形,例如生日出現 1900 年的人,或 是 2 月 30 日生

                             日等不合理的數值。另外這些數值錯誤,也有可能因為新、舊
                             系統規格 未統一或 跨系統資 料欄位格 式定義不 同造成的錯

                             誤,例如 A 系統將學歷定義成 1 小學、2 國中、3 高中、4 大學,
                             而 B 系統將學歷定義為 1 幼兒園、2 小學、3 國中、4 大學,當

                             這兩個系統整合時,若未進一步了解每個代碼意義,僅將兩欄
                             數值整合,就會造成數值錯誤 情形,此部份在資料清理時需特
                             別留意。


                        4.  統計分析


                               傳統進行資料統計分析,我們會利用統計方法事先發現樣本的
                          輪廓及態樣,以便找到關連母體的特徵,進而推論母體的狀況。然

                          而在數據資料量龐大的今日,數據資料結構複雜,樣本間充滿著真
                          實性與雜訊問題,利用傳統統計方法進行推論,表現上已漸不如目

                          前人工智慧技術處理大數據的預測準確,而人工智慧大數據分析方
                          法常也因為無法解釋說明預測準確或有效的原因,因此反而有更多
                          人開始重視傳統統計學與人工智慧大數據分析的結合。




                             傳統統計學上的統計分析方法,可分為敘述統計和推論統計:
                          (1)  敘述統計:

                                  是一種最基本的統計方法,根據收集到的數據進行整理歸

                             類,並進行概括性的輪廓分析,了解目前數據的特徵、集中趨
                             勢、離散程度及相關強度,純粹描述樣本的特性,最常用的參
                             考指標包括平均值、標準差、中位數、最大值、最小值等。





                                                                                                          71
   80   81   82   83   84   85   86   87   88   89   90