← 回首頁
MLOps 與系統部署整合
🚀

M09 MLOps 與系統部署整合

從 Notebook 到產品:版本管理、部署、監控與成本控制

共 10 講
MLOps 概覽:從實驗到產品的橋樑
M09.01

MLOps 概覽:從實驗到產品的橋樑

訓練出一個好模型只是起點 — 讓它在真實世界穩定運作才是挑戰的開始

MLOps 機器學習 DevOps ML生命週期 模型部署 持續學習 資料漂移 監控維運
模型版本管理:讓實驗可重現、讓部署有憑有據
M09.02

模型版本管理:讓實驗可重現、讓部署有憑有據

你還在用 model_v2_final_REALLY_FINAL.pkl 命名嗎?是時候認真對待模型版本管理了

模型版本管理 DVC MLflow 實驗追蹤 模型登錄 資料版本控制 可重現性 超參數調整
CI/CD for ML:讓模型更新像軟體發布一樣可靠
M09.03

CI/CD for ML:讓模型更新像軟體發布一樣可靠

自動化不只是懶人的工具 — 在 ML 系統中,它是確保品質和可重現性的唯一方式

CI/CD 持續整合 持續部署 自動化測試 ML Pipeline 模型測試 金絲雀部署 A/B測試
模型服務化:讓 AI 模型變成可呼叫的服務
M09.04

模型服務化:讓 AI 模型變成可呼叫的服務

訓練好的模型如果沒辦法被其他系統使用,它就只是一個孤立的 .pkl 檔

模型服務化 REST API gRPC 批次推論 即時推論 FastAPI TensorFlow Serving 推論延遲 吞吐量
容器化與雲端部署:讓模型在任何地方都能跑
M09.05

容器化與雲端部署:讓模型在任何地方都能跑

『在我的電腦上可以跑』已經不夠了 — 容器化讓環境一致,雲端讓規模彈性

Docker Kubernetes 容器化 雲端部署 AWS SageMaker GCP Vertex AI Azure ML 自動擴展 邊緣運算
模型監控與觀測:讓 AI 系統持續健康運作
M09.06

模型監控與觀測:讓 AI 系統持續健康運作

部署只是開始 — 真正的挑戰是確保模型在真實世界不悄悄變差

模型監控 資料漂移 概念漂移 效能退化 A/B測試 觀測性 預警系統 線上評估
模型重訓練策略:讓 AI 系統跟上世界的腳步
M09.07

模型重訓練策略:讓 AI 系統跟上世界的腳步

不是訓練一次就永遠好用 — 聰明的重訓練策略才是長期競爭力

模型重訓練 觸發條件 排程重訓 持續學習 線上學習 增量學習 訓練流程自動化 模型版本管理
Edge AI 與端側部署:讓 AI 在裝置上跑起來
M09.08

Edge AI 與端側部署:讓 AI 在裝置上跑起來

不是所有 AI 都需要雲端 — 在裝置端跑 AI 才是真正改變世界的方式

Edge AI 端側部署 模型壓縮 量化 剪枝 ONNX TensorRT 嵌入式AI 行動端推論
AI 系統的可靠性工程:讓 AI 服務穩如磐石
M09.09

AI 系統的可靠性工程:讓 AI 服務穩如磐石

準確率 99% 但掛掉 10% 的時間 — 可靠性才是 AI 上線的真正門檻

可靠性工程 SLA SLO 故障容錯 降級策略 負載均衡 高可用性 服務可用性 熔斷器
MLOps 成熟度模型:從「跑得動」到「跑得好」的組織旅程
M09.10

MLOps 成熟度模型:從「跑得動」到「跑得好」的組織旅程

一個模型上線不難 — 難的是讓整個組織持續、可靠、有效率地做 AI

MLOps成熟度 Google ML成熟度 組織轉型 AI治理 機器學習平台 自動化流水線 CI/CD 特徵工程平台 技術債