Page 83 - 金融科技力
P. 83

會搞錯方 向,反而 事倍功半 。一個問 題的解決 方法一般 來說不只

                          一種,採 用大數據 分析方法 是否為最 佳的解法 。當問題 描述無法
                          很清楚讓 專案成員 知道目標 時,可以 透過問題 逐步拆解 ,將問題

                          的範圍大 小、涉及 的對象、 處理的方 向、處理 步驟等簡 化為小問
                          題,使所 有解決問 題的專案 成員有共 同一致且 明確的目 標,再逐

                          一克服所 有的小問 題,最後 解決真正 要處理的 問題。問 題的定義
                          越清楚,成功的機會就越高。


                        2.  收集數據

                               確定明確 的問題後 ,就要開 始進行數 據的收集 。首先針 對所

                          需數據進 行盤點, 瞭解為解 決這個問 題,需要 哪些數據 ?哪些數
                          據是有影 響的?哪 些數據是 必要的? 哪些數據 可以參考 ,這些數

                          據可以如 何取得? 有沒有版 權問題? 或是有些 現成可以 購買的數
                          據源?數據存在的期間有多久,目前是否足夠使用?

                               數據經過 盤點得到 數據清單 後,即可 進行數據 資料收集 ,若
                          是企業內 部可得的 數據,則 透過企業 資訊部門 的資訊系 統負責人

                          員,請其 協助完成 ;若為企 業本身過 去並未收 集的數據 ,則可以
                          利用 網路 工具  (如 Crawler)、或 撰寫 網頁 抓取 程式 、或 透過 數據

                          提供商的 API 抓取相關資料。隨 著網際網路的盛行,企業可以取
                          得的資料 ,已不再 只限於內 部因業務 收集的客 戶與交易 資料,有

                          更多在網 路上的資 訊,可以 用來輔助 數據的分 析工作, 提高精準
                          度 , 例如房 價 的時價 登 錄、政 府 Open Data、 Facebook、 Twitter

                          社群資訊 ,然而收 集這些資 料的同時 ,應該特 別留意避 免觸犯著
                          作 權法及個 人資料保 護法,若 是必需要 使用網頁 爬蟲程式

                          (Crawler)  進行網頁資料收集,也應遵守機器人排除協議  (Robots
                                               2
                          Exclusion Protocol) 才是。


                        2    爬蟲 程式 存取目 標網 站的過 程會 消耗目 標系 統資源,導 致 目標系 統效 能下 降,
                           嚴 重時更 可能 造成服 務癱 瘓,因 此爬 蟲程式 需要 考慮到 抓取 策略規 劃  (包括
                           抓取頻 率 、 抓取內 容 、 對目標 的負 載 、 目標 的 限 制 ), 機 器 人排除 協議 則由目
                           標管理者來決定爬蟲程式可否進行資料收集或可到達哪些網頁的協議。不願
                           意被爬 蟲存 取的公 開網 站管理 者,可 以使 用 robots.txt 檔案設 定的方 法避 免 存
                           取。

                                                                                                          69
   78   79   80   81   82   83   84   85   86   87   88