Soft & Share 開源報報 189 – 關於資料科學和機器學習的工作應用論文和文章

這是 Soft & Share 為訂閱會員所推出的服務,小編週一到週五會每天整理一篇開源專案的摘要說明整理 (早上 8 點前會發佈在 Soft & Share 網站 ) ,讓你可以利用上班前快速掌握目前開源專案的焦點。( 之前出版的開源報報 )。想體驗開源報報,可先參考每週五有開放閱讀

🔥以主題方式整理出相關的開源專案 – 開源報報主題報導

為什麼需要 Soft & Share 開源報報?

每天快速瀏覽開源報報具備有什麼效益?

  1. 增加自己的學習動力,提升自己的視野
  2. 從開源專案中獲得 side project 靈感與想法
  3. 利用開源專案提升自己的生產力

每天使用 NT8.3 元,你可以使用 Soft & Share 開源報報省下掌握每天開源資訊焦點的時間,這是一個很划算的時間槓桿投資

訂閱網址

開源報報內容

學習資源

在 20 天內吃下 PyTorch

如果是工程師,應該優先選TensorFlow2.

如果是學生或者研究人員,應該優先選擇Pytorch.

如果時間足夠,最好TensorFlow2和Pytorch都要學習掌握。

理由如下:

1,在工業界最重要的是模型落地,目前國內的大部分網際網路企業只支援TensorFlow模型的線上部署,不支援Pytorch。 並且工業界更加註重的是模型的高可用性,許多時候使用的都是成熟的模型架構,除錯需求並不大。

2,研究人員最重要的是快速迭代發表文章,需要嘗試一些較新的模型架構。而Pytorch在易用性上相比TensorFlow2有一些優勢,更加方便除錯。 並且在2019年以來在學術界佔領了大半壁江山,能夠找到的相應最新研究成果更多。

3,TensorFlow2和Pytorch實際上整體風格已經非常相似了,學會了其中一個,學習另外一個將比較容易。兩種框架都掌握的話,能夠參考的開源模型案例更多,並且可以方便地在兩種框架之間切換。

Web 應用程式開發

適用於AWS Lambda的Rust Runtime

通過此軟體套件,可以輕鬆執行用 Rust 編寫的AWS Lambda函式。

從 UTF-8編碼的 HTML 生成 PDF 檔案的 PHP 程式庫

它基於 FPDFHTML2FPDF ,並有一些增強。

本地端和遠端檔案系統的抽象層

Flysystem 是一個檔案系統抽象層,它允許你輕鬆地將本地端檔案系統替換為遠端檔案系統。

目標

  • 有一個通用的 API 來處理跨多個檔案儲存引擎的常見任務
  • 你可以依靠一個有一致的輸出,
  • 與其他軟體套件/框架良好整合 ( 主要是 PHP 框架 )
  • 可快取
  • 在不支援目錄的系統中模擬目錄,如 AWS S3
  • 支援第三方外掛
  • 使測試檔案系統互動變得容易
  • 支援大檔案處理的串流

資料科學

論文和文章分享關於資料科學和機器學習的工作應用

關於營運中的資料科學和機器學習的論文、文章和部落格

弄清楚如何實施你的ML專案? 瞭解其他組織如何做到這一點:

  • 這個問題是如何建構的(例如,personalization as recsys vs. search vs. sequences)
  • 什麼樣的機器學習技術起作用了(有時候什麼技術不起作用)
  • 為什麼它有效,它背後的科學與研究,文學和參考
  • 取得了什麼樣的實際結果(因此您可以更好地評估 ROI )

兩百萬張以上的 Unsplash 圖片可用於研究和機器學習

Unsplash 資料集是由超過200萬的全球攝影師和數以億計的搜尋資料組成的,這些資料來自於幾乎無限的使用和情境。由於包含在 Unsplash 資料集中的意圖和語義的廣度,它為研究和學習提供了新的機會

雲端和網路管理

使用 TLS 1.3規避審查,繞過網路防禦,並融入噪音

這是在DEF CON 28(安全模式)演講 “Domain Fronting is Dead, Long Live Domain Fronting: Using TLS 1.3 to evade censors, bypass network defenses, and blend in with the noise.” 的一部分中開發和提供的程式碼。

Domain fronting 是透過混淆 HTTPS 連線的網域來繞過 Internet 審查和監視的技術,於2018年4月被主要的雲端供應商所殺死。但是,隨著 TLS 1.3 的到來,新技術實現了一種新的 Domain fronting。 這次,可以在多個級別上欺騙網路監視和Internet審查工具。 本演講將概述什麼是 Domain fronting,它如何運作,TLS 1.3如何啟用一種新形式的 Domain fronting 以及對網路監視的外觀。 你無需使用將在本次演講中釋出的開源TCP和UDP傳輸工具(Cloak)來修改工具,而今天就可以繞過審查和監視。

完整的容器管理平台

Rancher 是一個開放原始碼專案,它為在營運環境中部署容器的組織提供了一個容器管理平台。Rancher 可以輕鬆到處執行 Kubernetes,滿足 IT 需求,並授權 DevOps 團隊。

獲取關於檔案、 IP 或網域的威脅情報資料

你想要獲取關於檔案、 IP 或網域的威脅情報資料嗎?

是否希望使用單個 API 請求同時從多個來源獲取此類資料?

這個應用程式用來建立擴充和加快檢索威脅資訊。

它可以很容易地整合到你的安全工具堆疊中,以自動執行平常的作業,例如,由 SOC 分析師手動執行。

Intel Owl 由分析程式組成,可以執行這些分析程式從外部來源(如 VirusTotal 或 AbuseIPDB)檢索資料,或者從內部分析程式(如 Yara 或 Oletools)生成 Intel

這個解決方案適用於需要單點查詢特定檔案或可觀察檔案(網域、 IP、 URL、雜湊)資訊的所有人。

Argo 工作流程: 用 Kubernetes 完成工作。

Argo 工作流程是一個開放原始碼 container-native 工作流引擎,用於在 Kubernetes 上編排並行( parallel ) 作業。Argo 工作流程實現為一個 Kubernetes CRD (Custom Resource Definition)。

  • 定義工作流程,工作流程中的每一個步驟是一個容器
  • 將多步驟工作流程建模為一個任務序列,或者使用一個 directed acyclic graph (DAG)捕獲任務之間的依賴關係
  • 使用 Kubernetes 上的 Argo Workflows,可以在很短的時間內輕鬆執行用於機器學習或資料處理的運算密集型作業
  • 在 Kubernetes 上原生執行 CI/CD 管道,而不需要配置複雜的軟體開發產品

為何使用 Argo Workflow?

  • 從頭開始為容器設計,沒有 legacy VM 和基於伺服器的環境的開銷和限制
  • 與雲端無關,可以在任何 Kubernetes 叢集上執行
  • 在 Kubernetes 上輕鬆編排高度並行的作業
  • Argo 工作流程在你的指尖建立一個雲端規模的超級電腦

程式設計語言/程式庫

使用 CRD 建構Kubernetes API的SDK

Kubebuilder 是一個使用自定義資源定義(CRDs)建構 Kubernetes api 的框架。

注意: kubebedilder 並不是複製貼上的一個範例,而是提供了強大的程式庫和工具來簡化從頭開始建構和釋出 Kubernetes api。

ArangoDB 是一個原生的多模型資料庫,具有靈活的文件、圖和鍵值資料模型。使用一種方便的類似 sql 的查詢語言或 JavaScript 擴充套件來建立高效能的應用程式。

所有支援的資料模型和訪問模式都可以包含在查詢中,從而實現最大的靈活性。ArangoDB 執行在 prem 上,在雲端-任何地方。

想要了解 ArangoDB ,udemy 上有免費的線上課程 https://www.udemy.com/course/getting-started-with-arangodb/

訂閱網址

喜歡今天小編整理的開源報報嗎?歡迎給小編意見與回饋

這個網站採用 Akismet 服務減少垃圾留言。進一步了解 Akismet 如何處理網站訪客的留言資料

Powered by WordPress.com.

Up ↑

%d 位部落客按了讚: