← M10 iPAS 實戰 M10 iPAS 實戰

M10.09｜AI 產業趨勢與未來：Agentic AI、多模態與 AI 民主化

AI 不再只是一個工具，它正在演化成一個能夠主動思考和行動的夥伴

L1-AI基礎知識-AI發展趨勢 L1-AI應用規劃-新興AI技術 L3-AI倫理與治理-AI治理框架

🇺🇸 DOL AI Literacy 🧠 理解 AI 原理 🔍 探索 AI 應用 💡 培養互補的人類技能

📋

本講學習重點

Agentic AI 和傳統 AI 助理的根本差異是什麼？

多模態 AI 解決了什麼問題？

AI 民主化對一般企業意味著什麼？

小型語言模型（SLM）的崛起代表什麼趨勢？

未來 3-5 年 AI 最可能改變哪些產業？

Agentic AI：能夠自主規劃、使用工具、執行多步驟任務的 AI 系統，代表從被動問答走向主動行動

多模態 AI：同時處理文字、圖片、影音、語音、表格等多種輸入，更接近人類的感知方式

AI 民主化：無需程式設計能力也能使用 AI（no-code/low-code），讓 AI 從少數專家工具變成大眾工具

SLM（Small Language Model）：比 GPT-4 小 100 倍的語言模型，可在手機、邊緣裝置上執行，不需雲端

推理模型（Reasoning Model）：如 o1/o3 系列，在回答前進行「思考鏈（Chain of Thought）」，大幅提升複雜推理能力

AI Agent 的五個核心能力：感知（Perceive）、記憶（Memory）、規劃（Plan）、工具調用（Tool Use）、行動（Act）

多智能體系統（Multi-agent）：多個 AI 代理人分工合作，比單一 AI 更能處理複雜任務

📌 AI 的下一個演化方向是三個維度的突破：從被動到主動（Agentic AI 能自主規劃和執行任務）、從單一感知到全感知（多模態 AI 同時理解文字、圖像、影音）、從少數人用到所有人用（AI 民主化讓不寫程式的人也能發揮 AI 的力量）。這三個趨勢共同指向一個未來：AI 不再是一個工具，而是一個能夠主動配合人類目標的智慧夥伴。

🎙️ Podcast（中文）

0:00 / 0:00

一句話搞懂

AI 正在經歷三個同步發生的革命：Agentic AI 讓 AI 從被動回答問題進化到主動完成複雜任務；多模態 AI 讓 AI 能夠同時看、聽、讀，更接近人類的感知方式；AI 民主化讓不懂程式的人也能輕鬆駕馭 AI 的力量。這三個趨勢合流，正在把 AI 從一個「強大的搜尋引擎」轉化成一個「能替你辦事的智慧助理」。

白話解說

從「問答機」到「行動者」：Agentic AI 的革命

2022 年底 ChatGPT 的誕生，讓全世界見識到 AI 的對話能力——你問它什麼，它就回答什麼。這一代的 AI 是被動的：它只在被問到的時候才回應，完成一個對話就結束，無法主動採取行動改變外部世界。

但從 2024 年開始，AI 的典範正在快速轉移。Agentic AI（代理型 AI） 的核心特徵是自主性（Autonomy）：它不只是回答問題，而是能夠接收一個高層次的目標，然後自己想辦法達成它——包括把大目標分解成步驟、決定每個步驟用哪個工具、執行行動、觀察結果、根據結果調整計畫。

一個具體的例子：你告訴傳統 AI 助理「幫我分析這個月的銷售資料」，它會回答「請把資料貼過來，我來分析」——它需要你一步一步餵給它輸入。但一個 Agentic AI 會自己去連接資料庫把銷售資料撈出來、呼叫資料分析工具做計算、生成圖表、起草一份報告、然後用 email 工具把報告寄給相關主管——在整個過程中，你只需要說「分析這個月的銷售並發送報告給主管」。

AI Agent 的五個核心能力：

感知（Perceive）：從環境中獲取資訊（讀取檔案、瀏覽網頁、查詢資料庫）
記憶（Memory）：短期記憶（當前對話的上下文）和長期記憶（儲存過去任務的結果供未來參考）
規劃（Plan）：把複雜目標分解成可執行的步驟序列
工具調用（Tool Use）：呼叫外部工具（搜尋引擎、計算器、API、程式執行器）
行動（Act）：在真實世界採取可觀察的行動（寄送 email、填寫表單、執行程式碼）

多智能體系統（Multi-agent System）是 Agentic AI 的進階形式：不是一個 AI 包辦所有事，而是多個專業化的 AI 代理人分工合作。一個「研究型代理人」負責蒐集資料，一個「分析型代理人」負責解讀數據，一個「寫作型代理人」負責撰寫報告，一個「協調型代理人」（Orchestrator）負責分配任務和整合結果。這個架構讓 AI 能夠處理原本對單一 AI 來說太複雜的任務。

多模態 AI：AI 開始用所有感官認識世界

人類理解世界不只靠語言：我們看圖片、聽聲音、讀表格數字、感受情境。早期的 AI 系統是「單模態」的——文字模型只能處理文字，圖像模型只能處理圖像，語音模型只能處理聲音，它們各自獨立。

多模態 AI（Multimodal AI） 打破了這個隔閡，能夠同時理解和生成多種形式的資訊。GPT-4V、Gemini Ultra、Claude 3.5 Sonnet 都是代表性的多模態 AI，它們能做到：

輸入端的多模態理解：

給它一張產品照片，它能描述這個產品、識別品牌、估算價格
給它一段醫療影像，它能標記可疑區域並解釋診斷依據
給它一份 PDF 報表，它能閱讀圖表、提取數字、做跨頁比較
給它一段語音錄音，它能轉錄、翻譯、分析說話者的情緒

輸出端的多模態生成：

根據一段文字描述，生成符合要求的圖片（DALL-E 3、Midjourney、Stable Diffusion）
根據劇本，生成配音和配樂（如 Suno 作曲、ElevenLabs 配音）
根據指令，生成影片（Sora、Kling、Veo）

為什麼多模態很重要？ 因為真實世界的業務問題幾乎都不是純文字的。工廠品管看的是圖片，醫療診斷看的是影像，合約審查看的是 PDF，客服對話可能是語音。多模態 AI 讓這些場景不再需要把所有輸入先轉換成文字再處理，可以直接以原始形式輸入，大幅降低了 AI 應用的技術複雜度。

AI 民主化：不寫程式也能用 AI

在 2020 年之前，真正用 AI 解決問題需要：懂 Python、理解機器學習原理、能設定和維護雲端基礎設施、有足夠的資料工程能力。這些門檻把大多數非技術背景的人擋在門外。

AI 民主化（AI Democratization） 指的是 AI 工具和能力的門檻大幅降低，讓更廣泛的人群能夠受益，不論技術背景。這個趨勢有幾個具體的表現：

No-code/Low-code AI 平台：像 Make.com（Integromat）、Zapier、n8n 這類工作流自動化平台，讓非技術人員能用拖拉介面把各種服務連接起來，並加入 AI 節點做智慧處理，完全不需要寫程式。

自然語言程式設計：GitHub Copilot、Cursor 等 AI 程式設計助理讓不熟練的程式設計師也能快速產出程式碼；更進一步，有工具讓你只需要用中文描述「我要一個能分析 Excel 並畫出折線圖的程式」，AI 就直接幫你生成可執行的程式。

SLM（Small Language Models，小型語言模型）的崛起：不是所有應用都需要 GPT-4 等級的大模型。Meta 的 Llama 3、Microsoft 的 Phi-3、Google 的 Gemma 等開源 SLM，可以在一般電腦甚至手機上本地執行。這意味著：

不需要把資料傳到雲端（資料隱私保護）
不需要支付高額的 API 費用
即使沒有網路連線也能使用（醫療現場、工廠車間、離島地區）

AI On-Device（裝置端 AI）：Apple 的 Apple Intelligence、Google 的 Gemini Nano in Pixel、高通的 AI 晶片，讓手機本身就能跑語言模型，不需要每次呼叫雲端 API。這是隱私保護和即時性需求的重要進展。

推理模型：AI 開始「先想再說」

2024 年 OpenAI 發布的 o1 系列模型，以及後續的 o3、o1-mini，代表了另一個重要的技術演進：推理模型（Reasoning Model）。

傳統語言模型是「直接生成」的——輸入問題，直接輸出答案，就像一個人脫口而出第一個想到的答案。推理模型則是「思考後回答」的——在給出最終答案之前，模型會產生一段「內部思考（Chain of Thought）」過程，把問題分析清楚再回答，就像學生在解題時先打草稿再謄答案。

這個改變讓 AI 在複雜的數學、邏輯、程式設計、科學推理問題上的表現大幅提升。o3 在數學奧林匹亞競賽題和研究生等級的科學題目上，接近甚至超越了人類頂尖水準。

對 iPAS 考試來說，推理模型的關鍵考點是：它不是比傳統模型「更大」的模型，而是採用了不同的推論策略；它的計算成本比傳統模型高（因為要生成思考過程），適合需要高準確率的複雜推理任務，而不是所有任務都需要用推理模型。

具身智能與機器人：AI 走進物理世界

AI 的另一個重要前沿是具身智能（Embodied AI）：讓 AI 不只在數位世界運作，而是控制有實體的機器人在物理世界行動。

Figure 01、Tesla Optimus、Boston Dynamics Atlas 等人形機器人，正在把大型語言模型的語言理解能力與機器人的運動控制結合。未來的工廠作業員、倉儲物流、家庭助理，可能有相當部分由能夠「聽指令、看環境、做動作」的具身 AI 機器人完成。

這個領域目前仍在快速發展中，iPAS 考試中的考點通常是概念理解層次：具身智能的定義、和純軟體 AI 的差異、以及在製造業、醫療、服務業的應用方向。

應用場景

趨勢	代表技術	近期應用案例	台灣產業機會	潛在風險
Agentic AI	AutoGPT、LangGraph、CrewAI	自動化業務報告生成、多步驟客戶服務	製造業流程自動化、金融業研究報告	自主行動難以監控、錯誤連鎖放大
多模態（視覺）	GPT-4V、Gemini Vision、Claude	品質檢測、醫療影像輔助、零售貨架分析	PCB 瑕疵檢測、電子製造品管	訓練資料偏差導致誤判
多模態（影音生成）	Sora、Kling、Stable Video	廣告影片製作、教育影片自動化	媒體內容產業、教育科技	Deepfake 濫用、版權爭議
AI 民主化 / No-code	Zapier、Make、n8n、Dify	中小企業流程自動化、個人生產力	傳統製造業的數位轉型入口	低品質 AI 應用泛濫、資安漏洞
SLM / On-Device AI	Llama 3、Phi-3、Gemma	手機端即時翻譯、工廠離線品管	隱私敏感的醫療、金融場景	小模型能力有限，容易在邊界情境出錯
推理模型	o1、o3、DeepSeek-R1	複雜法律合約分析、高難度程式除錯	律師事務所、IC 設計電路驗證	計算成本高，延遲較長
具身智能	Figure 01、Tesla Optimus	倉儲搬運、組裝線輔助	半導體廠、電子代工廠	安全標準、事故責任歸屬

常見誤區

誤區 1：「Agentic AI 就是 AI 會自動化所有工作」

Agentic AI 的強大能力在媒體上常被誇大成「AI 要取代一切工作」。但實際上，目前的 AI Agent 在執行複雜、多步驟任務時仍然有重要的限制：可靠性（Reliability）問題——在長達幾十步的任務序列中，每一步都有一定的失敗概率，這些概率累積起來，整體任務成功率可能遠低於預期。一個每步成功率 95% 的 Agent，執行 20 步任務的整體成功率只有 0.95^20 ≈ 36%。

因此，現實中的 Agentic AI 部署通常採用「人在迴圈（Human-in-the-Loop）」設計：AI 執行可逆的、低風險的步驟，在關鍵決策點（如：送出付款、刪除資料、發布公告）時暫停並請求人類確認。完全自主的 AI Agent 目前更多是研究和概念驗證階段，企業真實部署時幾乎都有人類監督機制。

iPAS 考試常見的考題角度：如何在 Agentic AI 的「效率」和「可靠性/安全性」之間取得平衡？答案方向是：根據任務的風險等級設計不同程度的人類監督，而不是全自主或完全不用 Agent 的二選一。

誤區 2：「模型越大越好，用最新最大的模型就對了」

這個誤解在 LLM 剛興起時非常普遍：GPT-4 比 GPT-3.5 好，所以永遠用最新最大的。但 2024 年 SLM 的崛起和各種專用小模型的優秀表現，已經挑戰了這個假設。

選擇模型的正確框架是任務需求 × 資源限制 × 部署環境的匹配：

需要在工廠車間的邊緣設備即時判斷瑕疵？用 SLM，因為需要低延遲和離線能力，大模型的雲端 API 根本跟不上生產線速度
需要分析複雜的法律文件？用大型推理模型，因為準確率比速度更重要
需要每天處理數百萬個簡單的客服分類？用一個微調後的小模型，成本比呼叫 GPT-4 API 低 100 倍

選錯模型不只是效能問題，還是成本問題。用 GPT-4 做一個只需要 GPT-3.5 等級能力的任務，是一種資源浪費；相反，用一個太小的模型做複雜任務，錯誤率高到讓人無法信任，同樣是資源浪費。「剛好夠用的模型」是最好的模型。

誤區 3：「AI 發展太快，根本無法預測，學了也沒用」

這種「AI 發展太快學什麼都來不及」的焦慮，導致很多人陷入兩種極端反應：一是完全不學（反正學了也很快過時）；二是焦慮地追逐每一個新工具（每週有新模型，每天學新東西，卻沒有積累真正有用的能力）。

正確的學習策略是分層學習：

底層原理（不過時）：統計學習的基本概念、神經網路的運作原理、資料品質的重要性——這些在 10 年後仍然成立
中層框架（緩慢演進）：如何評估 AI 系統的性能、如何設計 AI 產品的使用者體驗、如何進行成本效益分析——這些框架可以適應工具的更換
上層工具（快速更新）：哪個 LLM 最新、哪個 Agent 框架最流行——這些確實會很快變化，但如果有了前兩層的基礎，學習新工具的速度會快很多

趨勢理解的意義不在於「預測哪個工具會贏」，而在於理解技術演化的方向（更自主、更多模態、更民主化），據此調整自己的技能組合和業務策略。

小練習

練習 1：趨勢應用情境分析

一家傳統的中型製造業公司（員工 500 人，主要生產消費電子零件），想在未來兩年內積極導入 AI。他們的 IT 部門只有 3 人，沒有資料科學家。

請針對以下三個 AI 趨勢，各舉出一個最適合這家公司優先導入的具體應用，並說明選擇理由： (A) AI 民主化 / No-code AI (B) 多模態 AI（視覺辨識） (C) 邊緣 AI / SLM On-device

練習 2：AI 趨勢辨識模擬考題

下列哪個描述最準確地說明了「Agentic AI」與「傳統 AI 助理」的核心差異？

(A) Agentic AI 使用的模型比傳統 AI 助理的模型更大、參數量更多 (B) Agentic AI 能夠自主規劃多步驟任務並調用工具執行，傳統 AI 助理主要回應單一輸入並給出單次回應 (C) Agentic AI 只能在雲端運行，傳統 AI 助理可以在本地設備上執行 (D) Agentic AI 不需要人類監督，可以完全自主地做出所有決策

查看答案

**練習 1 答案（示範版本）：** **(A) AI 民主化 / No-code AI 應用建議** **推薦應用**：用 Make.com 或 n8n 建立供應商詢價自動化流程——採購人員用自然語言填寫需求，系統自動產生詢價郵件、發送給指定供應商清單、整理報價回覆並產生比較表。 **選擇理由**：IT 部門只有 3 人，沒有資料科學家，無法自行開發 AI 系統。No-code 平台讓非技術的採購主管也能建立自動化流程，IT 部門只需做基礎的系統整合配置。這類流程自動化效益立竿見影（直接節省重複性人力），也是說服管理層投入更多 AI 預算的好的第一步。 **(B) 多模態 AI（視覺辨識）應用建議** **推薦應用**：生產線瑕疵檢測系統——在生產線關鍵節點架設工業相機，用視覺 AI 即時偵測零件的外觀瑕疵（刮痕、裂縫、尺寸偏差、顏色異常）。 **選擇理由**：消費電子零件的品質要求高，人工目視檢查有疲勞問題和一致性問題。視覺 AI 可以做到 7×24 不中斷、高度一致的品質把關，直接降低出貨瑕疵率和客訴。這是台灣製造業 AI 導入最成熟、ROI 最清晰的應用之一，也有許多成熟的解決方案供應商可以選擇，不需要自己從頭開發。 **(C) 邊緣 AI / SLM On-device 應用建議** **推薦應用**：設備異常偵測——在關鍵生產設備上部署邊緣 AI 模組，即時分析設備的振動、溫度、電流等感測器資料，在設備故障前發出預警（預測性維護）。 **選擇理由**：工廠設備資料更新頻率極高（每秒多次），如果傳到雲端再回傳，延遲根本來不及做即時預警。邊緣 AI 讓模型直接在靠近設備的本地計算節點執行，延遲在毫秒級；同時也避免了把大量生產資料傳到雲端的頻寬成本和資安疑慮（生產製程是核心機密）。 --- **練習 2 答案：(B)** **(A) 錯誤** — Agentic AI 和傳統 AI 助理的差異不在於模型大小，而在於系統架構和任務執行方式。有些 Agentic AI 框架（如 CrewAI、AutoGPT）可以使用相對較小的模型，而傳統 AI 助理也可能使用大模型。規模和「代理性」是兩個獨立的維度。 **(B) 正確** — 這精確描述了 Agentic AI 的核心特徵：**自主性**（自己規劃步驟）、**工具使用**（調用外部工具如搜尋、程式碼執行器、API）、**多步驟執行**（不只是一問一答，而是完成一個連貫的任務序列）。傳統 AI 助理的典型模式是「單一輸入 → 單一輸出」，而 Agentic AI 是「高層目標 → 自主規劃和執行 → 結果交付」。 **(C) 錯誤** — Agentic AI 可以在雲端或本地執行，這不是核心差異。LLaMA-based 的本地 Agent 系統（如 LocalAI + AutoGPT）就是在本地運行的 Agentic AI。 **(D) 錯誤** — 這是一個危險的誤解。目前的 Agentic AI 在可靠性上仍有顯著限制，業界的最佳實踐是「Human-in-the-Loop」——在關鍵決策節點保留人類確認環節。「Agentic AI 不需要人類監督」不是現實，也不是當前 AI 治理的主流觀點。

關鍵字自我檢核

✅ Agentic AI ✅ AI代理人 ✅ Multi-modal AI多模態 ✅ AI民主化 ✅ AI Democratization ✅ 大型語言模型 ✅ LLM ✅ 生成式AI ✅ Generative AI ✅ 小型語言模型 ✅ SLM ✅ AI On-Device ✅ 邊緣AI ✅ Edge AI ✅ AI工作流 ✅ AI Workflow ✅ 推理模型 ✅ Reasoning Model ✅ 具身智能 ✅ Embodied AI ✅ 多智能體系統 ✅ Multi-agent System