Page 117 - 金融科技力

P. 117

去辨識及分類剩餘 90 張照片。因為已經有辨識的依據，所以預測
出來的結果通常比純非監督式學習準確。

4. 強化式學習：

機器自己嘗試錯誤並且找出最佳答案，透過每一次與環境互
動來學習。強化式學習的特色是訓練必須要有正負反饋 (Positive

/ Negative Reward)，在訓練過程中，模型會根據不同的狀況嘗試
各種決定，再根據此決定，告訴機器所採取的哪一步是正確的 (正

反饋 )、那一步是錯誤的 (負反饋 )，根據反饋的好壞，機器自行
逐步修正、最終得到正確的結果。若機器自行辨識特徵與分類，

將某張大象的照片預測成獅子，則人類告訴機器是錯誤的 (負反
饋 )，機器會再次辨認特徵及分類。透過一次一次正確與錯誤的學

習，最後的預測將會越來越精準。例如：進行圍棋遊戲時，必須
依照對手的每一步棋來修正下一步的走法，或是自動駕駛車，必
須依照路況的變化，來修正下一步要怎麼行駛等。

103

112 113 114 115 116 117 118 119 120 121 122