[閱讀筆記] 執行機器學習所學到的教訓 : 五家公司分享曾犯的錯誤

文章網址

Machine learning lessons: 5 companies share their mistakes

筆記摘要

機器學習可能會產生很糟糕的結果，讓你很後悔太過匆忙地去熱情擁抱

機器學習做對了，能大幅提升行銷、財務、除錯、預測…的效能，但相信你也看過用機器學習導致非常離譜的結果。本文分享五家公司用機器學習所獲得的教訓 :

教訓 1 : 不正確的假設會導致脫軌的機器學習

Project PSA：運用機器學習幫助顧問公司專案管力理的美國公司

錯誤: 假設預估時程與實際時程誤差越小, 專案經理的能力越強

結果: 發現有的被公認很不錯的專案經理以機器學習的評斷顯示，反而非常差

牴觸事實: 事實上這些最優秀的專案經理被指派到難以收拾和管理的專案

結論: 訓練機器學習的前題假設必須符合實際狀況

教訓 2 : 無監督的機器學習有可能導致意外的偏差

Mejor Trato : 運用機器學習做人力資源的數位化的巴西公司

方法: 對工作應徵者以與聊天機器人做即時對話做應徵者篩選

錯誤: 以為機器人經過訓練，看起來沒問題的狀況下，讓它無監督的狀況下作業

結果: 機器人給錯表單讓候選人填寫，10% 收集到的資料有誤

結論: 機器學習在初期訓練後有可能 90% 正確，有 10% 仍需要人為監督矯正演算法。訓練至少需要過好幾個月，就算正確率能到達 99%，建議仍要繼續注意有任何偏離，有些新狀況並非在一開始時就能預期到。持續監督才能避免意外。

教訓 3 : 品質差的標籤將損害機器學習的結果

兩家俄羅斯公司 Ashmanov Neural Networks 和 SOVA (Smart Open Virtual Assitant ) 結盟開發機器學習做各種企業的分析, 包含影片分析、自然語言處理、訊號處理和神經網路。

遇到的問題 : 人們在匆忙中做標籤，做標籤的人不在意造成的結果，收集到的圖與實際操作時電腦看到的影像差很多，可收集到的資料有限

錯誤: 將有黑眼圈的人認成戴眼鏡的人，將屋頂的壁架看成車子。

結論: 需仰賴對邊緣案例的仔細研究，創建啟發式方法，以及改進初步資料處理和後處理的證明與檢驗。

教訓 4 : 機器學習對細微的分類問題仍無法應付

Casepoint，運用機器學習為法律或其他市場進行數位探索，做文件的分類與預測分析的美國公司

遇到的問題: 律師盲目地仰賴機器學習去找出相關文件，沒顧及更細微的分類，如辨識出律師和當事人才有權接觸的文件

狀況: 律師運用機器學習的技術助理審查( technology-assisted review，TAR )做文件分類並篩選出相應的文件。但特權文件需檢查更細微的資訊，如文件受眾、機密性、法律諮詢或訴訟關係、收件時間等，大多數的機器學習分類器還無法適當地做到。

結論: 特別針對特權文件和內容做機器學習的訓練，不過目前還是請律師親自審查有可能是特權的文件，再做最後的分類決策。

教訓 5 : 測試/訓練污染會讓機器學習失效

Indico，提供企業人工智慧與深度學習服務的美國公司

遇到的問題:

案例 1 : 在建立股價衝擊模型時，因不確定什麼時候會造成衝擊，則針對隔天的衝擊來做測試與訓練，沒有做測試和訓練的分隔，只對隔天衝擊做訓練和測試雖然到達 100% 的正確率，但這模型拿去實際運作時，並沒有比隨機好。

案例 2 : 根據同一組搜尋來測試並訓練其自然語言處理( NLP，natural language processing) 模組，看起來這重複的測試和改進演算法讓結果越來越正確，但造就出來的系統卻臨界無效，這是測試/訓練污染的結果。

結論: 測試和訓練需要分隔且泛化，可參考機器學習：一些需要知道的知識-論文翻譯

你可能會有興趣

[線上課程] 使用 Python 學習最新的深度學習技術
機器學習相關線上課程
Soft & Share 特價資訊加入這個社團追蹤我們的分享的特價課程與工具

相關

發表迴響取消回覆

這個網站採用 Akismet 服務減少垃圾留言。進一步了解 Akismet 如何處理網站訪客的留言資料。

由 WordPress.com 建置.