fbpx

[閱讀筆記] 執行機器學習所學到的教訓 : 五家公司分享曾犯的錯誤

文章網址

Machine learning lessons: 5 companies share their mistakes

筆記摘要

機器學習可能會產生很糟糕的結果,讓你很後悔太過匆忙地去熱情擁抱

機器學習做對了,能大幅提升行銷、財務、除錯、預測…的效能,但相信你也看過用機器學習導致非常離譜的結果。 本文分享五家公司用機器學習所獲得的教訓 :

教訓 1 : 不正確的假設會導致脫軌的機器學習

Project PSA:運用機器學習幫助顧問公司專案管力理的美國公司

錯誤: 假設預估時程與實際時程誤差越小, 專案經理的能力越強

結果: 發現有的被公認很不錯的專案經理以機器學習的評斷顯示,反而非常差

牴觸事實: 事實上這些最優秀的專案經理被指派到難以收拾和管理的專案

結論: 訓練機器學習的前題假設必須符合實際狀況


教訓 2 : 無監督的機器學習有可能導致意外的偏差

Mejor Trato : 運用機器學習做人力資源的數位化的巴西公司

方法: 對工作應徵者以與聊天機器人做即時對話做應徵者篩選

錯誤: 以為機器人經過訓練,看起來沒問題的狀況下,讓它無監督的狀況下作業

結果: 機器人給錯表單讓候選人填寫,10% 收集到的資料有誤

結論: 機器學習在初期訓練後有可能 90% 正確,有 10% 仍需要人為監督矯正演算法。訓練至少需要過好幾個月,就算正確率能到達 99%,建議仍要繼續注意有任何偏離,有些新狀況並非在一開始時就能預期到。持續監督才能避免意外。


教訓 3 : 品質差的標籤將損害機器學習的結果

兩家俄羅斯公司 Ashmanov Neural Networks 和 SOVA (Smart Open Virtual Assitant ) 結盟開發機器學習做各種企業的分析, 包含影片分析、自然語言處理、訊號處理和神經網路。

遇到的問題 : 人們在匆忙中做標籤,做標籤的人不在意造成的結果,收集到的圖與實際操作時電腦看到的影像差很多,可收集到的資料有限

錯誤: 將有黑眼圈的人認成戴眼鏡的人,將屋頂的壁架看成車子。

結論: 需仰賴對邊緣案例的仔細研究,創建啟發式方法,以及改進初步資料處理和後處理的證明與檢驗。


教訓 4 : 機器學習對細微的分類問題仍無法應付

Casepoint,運用機器學習為法律或其他市場進行數位探索,做文件的分類與預測分析的美國公司

遇到的問題: 律師盲目地仰賴機器學習去找出相關文件, 沒顧及更細微的分類,如辨識出律師和當事人才有權接觸的文件

狀況: 律師運用機器學習的技術助理審查( technology-assisted review,TAR )做文件分類並篩選出相應的文件。但特權文件需檢查更細微的資訊, 如文件受眾、機密性、法律諮詢或訴訟關係、收件時間等,大多數的機器學習分類器還無法適當地做到。

結論: 特別針對特權文件和內容做機器學習的訓練,不過目前還是請律師親自審查有可能是特權的文件,再做最後的分類決策。


教訓 5 : 測試/訓練污染會讓機器學習失效

Indico,提供企業人工智慧與深度學習服務的美國公司

遇到的問題:

案例 1 : 在建立股價衝擊模型時, 因不確定什麼時候會造成衝擊,則針對隔天的衝擊來做測試與訓練,沒有做測試和訓練的分隔,只對隔天衝擊做訓練和測試雖然到達 100% 的正確率,但這模型拿去實際運作時,並沒有比隨機好。

案例 2 : 根據同一組搜尋來測試並訓練其自然語言處理( NLP,natural language processing) 模組,看起來這重複的測試和改進演算法讓結果越來越正確,但造就出來的系統卻臨界無效,這是測試/訓練污染的結果。

結論: 測試和訓練需要分隔且泛化,可參考機器學習:一些需要知道的知識-論文翻譯


你可能會有興趣


🛫使用關鍵字連結獲得更多線上學習資訊?請參考這個網頁說明


 歡迎使用 e-mail 訂閱 Soft & Share 

這個網站採用 Akismet 服務減少垃圾留言。進一步了解 Akismet 如何處理網站訪客的留言資料

Powered by WordPress.com.

Up ↑

%d 位部落客按了讚: