fbpx

Soft & Share 開源報報 227 – 一種基於 Python 的強大的網路爬蟲系統

這是 Soft & Share 為訂閱會員所推出的服務,小編週一到週五會每天整理一篇開源專案的摘要說明整理 (早上 8 點前會發佈在 Soft & Share 網站 ) ,讓你可以利用上班前快速掌握目前開源專案的焦點。( 之前出版的開源報報 )。想體驗開源報報,可先參考開放閱讀

🔥以主題方式整理出相關的開源專案 – 開源報報主題報導

為什麼需要 Soft & Share 開源報報?

每天快速瀏覽開源報報具備有什麼效益?

  1. 增加自己的學習動力,提升自己的視野
  2. 從開源專案中獲得 side project 靈感與想法
  3. 利用開源專案提升自己的生產力

每天使用 NT8.3 元,你可以使用 Soft & Share 開源報報省下掌握每天開源資訊焦點的時間,這是一個很划算的時間槓桿投資

訂閱網址

開源報報內容

工具

為你的 Java 應用程式建構容器映像檔

Jib 在沒有 Docker 守護程序的情況下為您的 Java 應用程式構建最佳化的 Docker 和 OCI 映像檔,並且不需要深入掌握 Docker 最佳實踐。它可以作為 Maven 和 Gradle 的外掛以及 Java 程式庫使用。

Web 應用程式開發

Node.js & TypeScript 的現代資料庫訪問(ORM 備選方案) ,支援PostgreSQL,MySQL & SQLite

Prisma 是一個由以下工具組成的資料庫工具套件:

  • Prisma 客戶端: 自動為 Node.js 和 TypeScript 產生型別安全的查詢建立器
  • Prisma 遷移 (實驗的): 宣告性資料建模和遷移系統
  • Prisma Studio: 圖形使用者介面檢視和編輯資料庫中的資料

Prisma 客戶端( Client )可以在任何 Node.js 或 TypeScript 後端應用程式(包括無伺服器應用程式和微服務)中使用。這可以是 REST API、 GraphQL API、 gRPC API 或其他需要資料庫的 API。

TypeScript 和 JavaScript 的 ORM (ES7,ES6,ES5)。

支援 MySQL,PostgreSQL,MariaDB,SQLite,MS SQL Server,Oracle,SAP Hana,WebSQL 資料庫。適用於 node.js,瀏覽器,Ionic,Cordova 和 Electron平台。

它的目標是始終支援最新的 JavaScript 特性,並提供額外的特性,以幫助你開發任何類型的應用程式,使用資料庫-從小型應用程式與幾個表格大型企業應用程式使用多種資料庫。

支援 Active Record 和 Data Mapper 模式,不像現在存在的所有其他 JavaScript ORM,這意味著你可以以最高效的方式編寫高品質、鬆散耦合、可伸縮、可維護的應用程式。

TypeORM 深受其他 ORM 的影響,如 Hibernate、 Doctrine 和 Entity Framework。

使用 Javascript 做螢幕截圖

這個 script 允許你直接在使用者的瀏覽器上擷取網頁或其部分內容的“截圖”。截圖是基於 DOM 的,因此可能不是100% 準確的真實表示,因為它不會做一個真實的截圖,而是基於頁面上可用的資訊來構建截圖。

原理

該 script 透過閱讀 DOM 和應用於元素的不同樣式,將當前頁面呈現為畫布影象( canvas image )。

它不需要伺服器端的任何渲染,因為整個影象是在客戶端的瀏覽器上建立的。然而,由於它嚴重依賴於瀏覽器,這個程式庫不適合在 node.js 中使用。它也不能神奇地繞過任何瀏覽器內容策略的限制,因此呈現跨來源內容將需要一個代理(proxy)來將內容獲取到同一來源

該 script 仍處於非常試驗階段,因此不建議在營運環境中使用它

基於 Flexbox 的現代 CSS 框架

Bulma 是一個基於 Flexbox 的現代 CSS 框架。

將你的日誌傳送到檔案、sockets、收信箱、資料庫和各種 web 服務的 PHP 程式庫

可使用各種特殊的處理程式允許你建構高階日誌記錄策略。

這個程式庫實現了 PSR-3 介面,你可以在自己的程式庫中鍵入提示,以保持最大的相互操作性。你還可以在應用程式中使用它,以確保以後總是可以使用另一個相容的日誌記錄器。從 1.11.0 Monolog 公共 api 也將接受 PSR-3日誌級別。Monolog 內部仍然使用自己的級別模式,因為它早於 PSR-3。

資料科學

pix2code: 從一個圖形使用者介面螢幕截圖生成程式碼

將一個設計師建立的圖形使用者介面螢幕截圖轉換成電腦程式碼是一個典型的任務,由開發人員進行,以建立定製的軟體,網站和行動應用程式。在本文中,我們展示了深度學習方法可以用來訓練一個端到端的模型,從而自動地從一個單一的輸入影象生成程式碼,在三個不同的平台(即 iOS、 Android 和基於 web 的技術)上準確率超過77% 。

類似的開源專案 – 從手繪 Wireframe 自動生成 HTML 程式碼

裡面有一個 Q & A 的一個問題,如果你是前端開發者應該也會有這個疑問

Q :我是一個前端開發者,我會很快失去我的工作嗎?

A:人工智慧不會很快取代前端開發者。

即使設想一個成熟版本的 pix2code 能夠以100% 的準確率為宇宙中的每一個平台/語言生成 GUI 程式碼,前端仍然需要實現邏輯,互動部分,高階圖形和動畫,以及所有使用者喜歡的功能。我們在 Uizard Technologies 公司開發的產品旨在彌合 UI/UX 設計者和前端開發者之間的鴻溝,而不是取代他們中的任何一個。我們想要重新思考傳統的工作流程,它常常導致更多的挫折而不是創新。我們希望設計師儘可能的富有創造性,以更好的服務於終端使用者,開發人員把他們的時間花在編寫核心功能上,而忘記重複的任務,比如 UI 的實現。我們相信未來人工智慧將與人類合作,而不是取代人類。

程式設計語言/程式庫

一種基於 Python 的強大的網路爬蟲系統。

  • 用 Python 編寫 script
  • 強大的 WebUI 與 script 編輯器,任務監控,專案經理和結果檢視器
  • 使用 MySQL, MongoDB, Redis, SQLite, Elasticsearch; PostgreSQL 和SQLAlchemy 作為資料庫後端
  • 使用 RabbitMQ, Redis 及Kombu 作為訊息佇列
  • 任務優先順序,重試,定期,按時間重試,等等
  • 分散式架構,爬取 Javascript 頁面,Python 2. {6,7} ,3. {3,4,5,6}支援,等等

Luigi 是一個 Python 模組,可以幫助你建構批次處理作業的複雜管道。它處理依賴解析、工作流程管理、視覺化等。它還內建了 Hadoop 支援。

Luigi 的目的是解決所有通常與長時間執行的批次處理流程相關的管道( pipeline )。你希望將許多工連結起來,實現自動化,這樣就會發生故障。這些任務可以是任何任務,但通常是長時間執行的任務,比如 Hadoop 作業、將資料轉儲到/來自資料庫、執行機器學習演算法或其他任何東西。

還有其他軟體套件專注於資料處理的底層方面,比如 Hive、 Pig 或 Cascading。Luigi 不是一個可以取代這些的框架。相反,它可以幫助你將許多工作縫合在一起,其中每個任務可以是一個 Hive 查詢,一個 Java 中的 Hadoop 作業,一個 Scala 或 Python 中的 Spark 作業,一個 Python 程式碼片段,從資料庫中轉儲一個表格( Table ),或者其他任何東西。很容易建立長時間執行的管道,這些管道由成千上萬的任務組成,需要數天或數週才能完成。Luigi 負責很多工作流程管理,這樣你就可以專注於任務本身及其依賴關係。

你幾乎可以建構任何你想要的任務,但 Luigi 還提供了一個工具箱,裡面有您使用的幾個常用任務模板。它支援在 Hadoop 中執行 Python mapreduce job,以及 Hive 和 Pig 作業。它還附帶 HDFS 的檔案系統抽象和本地端檔案,確保所有檔案系統操作都是原子( atomic ) 的。這一點很重要,因為它意味著資料管道不會在包含部分資料的狀態下崩潰。

Luigi 伺服器也有一個網頁介面,所以你可以搜尋和過濾你所有的任務。

區塊鏈

ZeroNet-使用比特幣加密和 BitTorrent 網路的分散式網站

Why?

  • 我們相信開放、自由和不受審查的網路和交流
  • 沒有單點故障: 網站仍然在線上,只要至少有一個 peer 服務它
  • 無主機費用: 網站由訪問者提供服務
  • 不可能關閉: 它無處不在,因為它無處不在
  • 快速離線工作: 即使網際網路不可用,你也可以訪問該網站

訂閱網址

喜歡今天小編整理的開源報報嗎?歡迎給小編意見與回饋

Comments are closed.

Powered by WordPress.com.

Up ↑

%d 位部落客按了讚: