Contents
這是一個簡單使用的程式庫,讓你對網頁進行爬取,清理和重複資料刪除,以建立大量的單語資料集( monolingual datasets )。 使用這個程式庫,你應該能夠建立一個比 OpenAI 給 GPT-2 用的更大資料集( datasets )。
如何使用 Lazynlp ? 細節可參考專案中的說明,下面簡單摘要一下步驟
- 安裝lazynlp
- 取得你要爬取的網頁 URLs ( 看起來要先有一堆 URL 列表,專案有列出一些現成的 URLs ,例如 Wikipedia ,Gutenberg ,Reddit )
- 去除重複的 URLS
- 批次下載 URLs 的網頁內容 ( 可以一次取一個,也可以從包含 URLs 的檔案做批次爬取 )
- 清理網頁內容 – 去除網頁的 tag – 使用lazynlp / cleaner.py中提供的方法刪除所有HTML標記,將 utf-8 解碼為 string,直譯成外來字元,折疊空格,替換無法印出的字元,unescape HTML 等。
- 刪除重複的網頁- 為避免任何文字被過度表示( over-represented ) ,您只希望包含不重複的網頁內容。( 前面已經有做一次去除重複的 URLs ,這一步應該是可能 URL 不一樣,但是網頁內容一樣 )