Page 79 - 金融科技力
P. 79

2.  非結構化資料  (Unstructured Data)

                               非結構化 資料指的 是資料本 身格式相 對不固定 ,資料的 型態

                          也較為多 元,但資 料的表達 及呈現卻 也是最直 覺清楚, 例如一篇
                          文章、一 段音樂、 一支影片 、一個網 頁等,內 容則具備 有完整的

                          意思表現 。但是非 結構化資 料通常較 難以數位 化直接處 理 及 運
                          用,例如 我們無法 快速從一 堆小說中 找有哪幾 篇小說發 生地點在

                          台北市? 或者從一 堆影片中 找到女主 角的姓名 ?我們必 須經過一
                          些前置處 理程序, 將這些非 結構化資 料進行格 式標準化 ,產生對

                          這些非結構化資料的結構化描述資訊,作 為未來更多加值的利用。
                               例如若要 從每日新 聞中發現 當天影響 股票市場 的訊息, 從中

                          判斷當日 股市/個 股可能的 漲跌變化  (前文中 提 及大數據 資料 的
                          真實性待確認,此處不考慮新聞的真實性 ),新聞資料屬於非 結構

                          化的資料 ,為了將 每篇新聞 中重要的 訊息擷取 出來,通 常利用斷
                          字斷詞技術,找出文章中名詞、動 詞及形容詞,將這些斷詞結果,

                          以結構化 方式儲存 ,再透過 語法、語 意分析技 術來判斷 該文章對
                          於股票市場或個股的評價,藉此預測可能的變化。


                        3.  半結構化資料  (Semi-structured Data)

                               對大多數 人來說, 最無法理 解就是半 結構化資 料的意思 ,通

                          常用來做 為資料交 換之用, 其格式介 於結構化 資料及非 結構化資
                          料之間。嚴格來說,半結構化資料解讀起來比較像是結構化資料,

                          但缺乏結 構化資料 的好處。 舉例來說 ,以下為 臺鐵局房 地產出租
                                            1
                          情形的部份資料 ,此資料目前格式廣為資訊系統資料交換使用的
                          JSON 格式,可以很清楚看出這兩筆資料的內容資訊。
                          [{ "縣市 ": "臺北市 ",

                               "經管單位": "台北所",
                               "用途限制": "辦公或住宅或法律許可範圍 ",

                               "實際用途": "商店",
                               "每月租金": 22900,



                        1    資料 來源 為政 府 Open Data, 網址: https://data.gov.tw/dataset/78625。

                                                                                                          65
   74   75   76   77   78   79   80   81   82   83   84