[ liveProject ]利用文本探勘和機器學習進行作者身份識別

必備知識:Python 初學者 • Pandas 基礎 • NumPy 基礎 • 機器學習與 scikit-learn 基礎知識

你將學到的技術:使用 scikit-learn 和 spaCy 從文本中提取特徵 • 建立預測分類模型 • 使用互動式圖表視覺化作者風格 • 將訓練好的模型整合到使用者友善的程式中。

在這個 liveProject 中,您將扮演一名調查員,試圖找到一篇嚴重誹謗性部落格文章的匿名作者。您已經縮小了嫌疑人名單,獲得了書寫樣本資料集,現在計劃使用自訂機器學習專案來找出罪犯。您的挑戰是建立一個作者分析模型,將樣本與誹謗性部落格文章進行匹配,並揭露有罪方。為此,您需要從文件的語料庫( corpus )中提取資料,建立一個可以學習作者風格的模型,擴展模型以處理數百名嫌疑人,最後開發一個用戶友好的程式,讓非技術同事可以利用您的研究結果。

你的講師 : Robert Layton

Rob Layton 是一位資料科學家,曾是 scikit-learn 的核心貢獻者,擁有網路犯罪分析博士學位,擅長分析網路釣魚網站以識別作者模式。他經營自己的資料分析公司 dataPipeline,並與專家培訓提供者 Python Charmers 合作,為金融、政府和其他私營部門的學生提供培訓超過 5 年。

學前需求

這個 liveProject 適用於對資料科學感興趣的軟體開發人員和初級資料科學家。它需要一台至少有 2GB 可用硬碟空間和 4GB RAM 的機器。要開始這個 liveProject,您需要熟悉:

工具

  • 初級 Python 及其實用功能,最少。版本 3.9
    Pandas 基礎知識
    NumPy 基礎知識
    scikit-learn 基礎知識,最少。版本 0.24.0

科技

  • 資料科學和機器學習的基礎知識
    使用 Python 讀取文字檔
    儲存和載入 Pandas DataFrames
    運行訓練和評估實驗
    從 Jupyter Notebook 運行 Python 程式碼
    運行終端命令的基礎知識

專案概略

liveProject 特徵

自訂進度
您可以選擇時間表並決定在建立專案時投入多少時間。
專案路線圖
每個項目分為幾個可實現的步驟。
獲取協助
在 liveProject 平台內,您可以獲得其他參與者的幫助,甚至可以透過與我們的專家導師進行付費課程獲得更多幫助。
與其他人比較
對於每個步驟,將您的交付成果與作者和其他參與者的解決方案進行比較。
圖書資源
獲得 90 天的精選書籍完全訪問權限。其中還包括對曼寧產品摘錄的永久訪問,以及對其他資源的引用。

相關書籍

看更多與參加此專案 | 今日特價書

Sponsored by Mannning


也許你會有興趣

不受 FB 演算法影響,歡迎透過 e-mail 訂閱網站更新

發表迴響

這個網站採用 Akismet 服務減少垃圾留言。進一步了解 Akismet 如何處理網站訪客的留言資料

由 WordPress.com 建置.

Up ↑

探索更多來自 Soft & Share 的內容

立即訂閱即可持續閱讀,還能取得所有封存文章。

Continue reading