Contents
文章網址
Machine learning lessons: 5 companies share their mistakes
筆記摘要
機器學習可能會產生很糟糕的結果,讓你很後悔太過匆忙地去熱情擁抱
機器學習做對了,能大幅提升行銷、財務、除錯、預測…的效能,但相信你也看過用機器學習導致非常離譜的結果。 本文分享五家公司用機器學習所獲得的教訓 :
教訓 1 : 不正確的假設會導致脫軌的機器學習
Project PSA:運用機器學習幫助顧問公司專案管力理的美國公司
錯誤: 假設預估時程與實際時程誤差越小, 專案經理的能力越強
結果: 發現有的被公認很不錯的專案經理以機器學習的評斷顯示,反而非常差
牴觸事實: 事實上這些最優秀的專案經理被指派到難以收拾和管理的專案
結論: 訓練機器學習的前題假設必須符合實際狀況
教訓 2 : 無監督的機器學習有可能導致意外的偏差
Mejor Trato : 運用機器學習做人力資源的數位化的巴西公司
方法: 對工作應徵者以與聊天機器人做即時對話做應徵者篩選
錯誤: 以為機器人經過訓練,看起來沒問題的狀況下,讓它無監督的狀況下作業
結果: 機器人給錯表單讓候選人填寫,10% 收集到的資料有誤
結論: 機器學習在初期訓練後有可能 90% 正確,有 10% 仍需要人為監督矯正演算法。訓練至少需要過好幾個月,就算正確率能到達 99%,建議仍要繼續注意有任何偏離,有些新狀況並非在一開始時就能預期到。持續監督才能避免意外。
教訓 3 : 品質差的標籤將損害機器學習的結果
兩家俄羅斯公司 Ashmanov Neural Networks 和 SOVA (Smart Open Virtual Assitant ) 結盟開發機器學習做各種企業的分析, 包含影片分析、自然語言處理、訊號處理和神經網路。
遇到的問題 : 人們在匆忙中做標籤,做標籤的人不在意造成的結果,收集到的圖與實際操作時電腦看到的影像差很多,可收集到的資料有限
錯誤: 將有黑眼圈的人認成戴眼鏡的人,將屋頂的壁架看成車子。
結論: 需仰賴對邊緣案例的仔細研究,創建啟發式方法,以及改進初步資料處理和後處理的證明與檢驗。
教訓 4 : 機器學習對細微的分類問題仍無法應付
Casepoint,運用機器學習為法律或其他市場進行數位探索,做文件的分類與預測分析的美國公司
遇到的問題: 律師盲目地仰賴機器學習去找出相關文件, 沒顧及更細微的分類,如辨識出律師和當事人才有權接觸的文件
狀況: 律師運用機器學習的技術助理審查( technology-assisted review,TAR )做文件分類並篩選出相應的文件。但特權文件需檢查更細微的資訊, 如文件受眾、機密性、法律諮詢或訴訟關係、收件時間等,大多數的機器學習分類器還無法適當地做到。
結論: 特別針對特權文件和內容做機器學習的訓練,不過目前還是請律師親自審查有可能是特權的文件,再做最後的分類決策。
教訓 5 : 測試/訓練污染會讓機器學習失效
Indico,提供企業人工智慧與深度學習服務的美國公司
遇到的問題:
案例 1 : 在建立股價衝擊模型時, 因不確定什麼時候會造成衝擊,則針對隔天的衝擊來做測試與訓練,沒有做測試和訓練的分隔,只對隔天衝擊做訓練和測試雖然到達 100% 的正確率,但這模型拿去實際運作時,並沒有比隨機好。
案例 2 : 根據同一組搜尋來測試並訓練其自然語言處理( NLP,natural language processing) 模組,看起來這重複的測試和改進演算法讓結果越來越正確,但造就出來的系統卻臨界無效,這是測試/訓練污染的結果。
結論: 測試和訓練需要分隔且泛化,可參考機器學習:一些需要知道的知識-論文翻譯
你可能會有興趣

-
[線上課程] 使用 Python 學習最新的深度學習技術
-
機器學習相關線上課程
- Soft & Share 特價資訊 加入這個社團追蹤我們的分享的特價課程與工具
你必須登入才能發表留言。