中文課程 – Generative AI第18部 如何訓練DeepSeek大語言模型

關於 DeepSeek,RoPE,MoE,MLA,MHA,Transformer,Attention,Positional Embedding,SoftMax,Logits

從這 7 小時的課程,你會學到

  • DeepSeek 的發展與技術特點
  • 如何使用 Python 編寫 MLA & RoPE
  • 如何用 Python 編寫 MLA 的各層和結構
  • 如何用 Python 編寫混合專家架構
  • 如何實現訓練和編寫 DeepSeekModel

要求

一台電腦

課程說明

掌握AI未來:用Python代碼拆解DeepSeek-R1,開啓低成本大模型訓練之旅——從理論到實踐,手把手教你成為下一代AI開發者

DeepSeek-R1:一場全球AI競賽的顛覆性突破

2025 年初,中國 AI 企業 DeepSeek 憑借開源模型 DeepSeek-R1 震撼全球,其性能與 OpenAI 的頂級推理模型o1旗鼓相當,但成本僅為後者的1/40!這一突破不僅讓亞馬遜、微軟等科技巨頭爭相接入,更引發美國政界與科技界的雙重震動

課程包括內容:

  1. DeepSeek 的發展與技術特點(DeepSeek V1, DeepSeek V2, DeepSeek V3, DeepSeek R1-Zero, DeepSeek R1, )
  2. 神經網絡 Neural Networks 的組成和原理
  3. 前饋神經網絡的原理&數據加載(輸入層,隱藏層, Softmax,Logits,激活函數,輸出層)
  4. 如何用Python訓練前饋神經網絡(tensor, epoch)
  5. 什麼是Transformer & Attention & MHA & GQA & MQA(Transformer, Attention, Positional Embedding)
  6. 什麼是 MLA & RoPE & MoE
  7. 用 Python 編寫 MLA 的各層和結構
  8. 如何添加 RotaryEmbedding 到 MLA
  9. 如何用 Python 編寫混合專家架構
  10. 如何實現訓練和編寫 DeepSeekModel
  11. 如何實現 Transformer ( Encoder , Decoder )

目標受眾

  • 對資料科學感興趣的Python 開發人員
  • 對 Deepseek 感興趣的學員

講師簡介

Ken Cen AI工程師,網頁工程師,IOS開發工程師 ( 更多講師的課程 )

大家好,我是 Ken Cen

我是一名AI工程師和網站工程師,也一名IOS程序工程師。
我曾經在英資銀行(匯豐銀行)IT部門工作 6 年

我希望可以建立一些課程可以幫助任何一個沒有程序開發經驗的朋友較輕鬆地學習IT相關的語言和工具。

在我的課程都是實踐操作的示範,很少或幾乎沒有PPT。我相信實踐是學習很重要的部分。

對於大家在提問區的提問,我也會儘快回覆,希望和大家一起進步。

而我在Udemy平台發布課程時間裡,我很幸運,遇到很多支持我的學員。在大家的支持和鼓勵下,我獲得Udemy全球前10%頂級教師的稱號,非常感謝大家。

在接下來的時間,我希望能做得更好,為大家創作更多高質量有意思的課程,期待在每一個課程都能見到大家!~

最後,衷心感謝所有支持我的學員,願您生活幸福,學習愉快!~


  • Udemy 永久擁有課程 許多課程約 NT400 (點擊連結看更多)
  • 年訂閱每月 NT350 ( ⏳首年再享 30%off ) 🌈 悠遊 Udemy 的 26000+ 門課,最大化學習 ( 原價 NT635/月 )
  • Udemy 現在越來越多課程有中文字幕,請參考 Soft & Share 中文線上課程
  • 手機上點選優惠連結看到的價格比電腦上看到的貴
  • $代表當地貨幣, 如在台灣為 NT
  • 點選”報名參加課程”有可能因瀏覽器 cookies 轉久一點或回報錯誤而無法連上,請稍等刷新或重新點選就會出現

報名參加課程

Sponsored by Udemy


也許你會有興趣

不受 FB 演算法影響,歡迎透過 e-mail 訂閱網站更新

發表迴響

這個網站採用 Akismet 服務減少垃圾留言。進一步了解 Akismet 如何處理網站訪客的留言資料

由 WordPress.com 建置.

Up ↑

探索更多來自 Soft & Share 的內容

立即訂閱即可持續閱讀,還能取得所有封存文章。

Continue reading