Lazynlp:用於爬取網頁內容和清理以建立大量資料集的 Python 程式庫

這是一個簡單使用的程式庫,讓您對網頁進行爬取,清理和重複資料刪除,以建立大量的單語資料集( monolingual datasets )。 使用這個程式庫,你應該能夠建立一個比 OpenAI 給 GPT-2 用的更大資料集( datasets )。

如何使用 Lazynlp ? 細節可參考專案中的說明,下面簡單摘要一下步驟

  1. 安裝lazynlp
  2. 取得你要爬取的網頁 URLs ( 看起來要先有一堆 URL 列表,專案有列出一些現成的 URLs ,例如 Wikipedia ,Gutenberg ,Reddit )
  3. 去除重複的 URLS
  4. 批次下載 URLs 的網頁內容 ( 可以一次取一個,也可以從包含 URLs 的檔案做批次爬取 )
  5. 清理網頁內容 – 去除網頁的 tag – 使用lazynlp / cleaner.py中提供的方法刪除所有HTML標記,將 utf-8 解碼為 string,直譯成外來字元,折疊空格,替換無法印出的字元,unescape HTML 等。
  6. 刪除重複的網頁- 為避免任何文字被過度表示( over-represented ) ,您只希望包含不重複的網頁內容。( 前面已經有做一次去除重複的 URLs ,這一步應該是可能 URL 不一樣,但是網頁內容一樣 )

✍ 專案網址 https://github.com/chiphuyen/lazynlp

相關線上課程

 訂閱開源報報-使用中文掌握開源資訊

Comments are closed.

Powered by WordPress.com.

Up ↑

%d 位部落客按了讚: