← 回首頁
NLP / CV / 多模態應用
👁️

M07 NLP / CV / 多模態應用

自然語言、電腦視覺、多模態的任務地圖與應用場景

共 10 講
自然語言處理 NLP 概覽:讓 AI 讀懂人話
M07.01

自然語言處理 NLP 概覽:讓 AI 讀懂人話

人類語言充滿了歧義、俚語和言外之意 — NLP 的挑戰就在這裡

NLP 自然語言處理 分詞 詞性標記 命名實體辨識 情緒分析 機器翻譯 Transformer
文本分類與情緒分析:AI 讀懂客戶心聲
M07.02

文本分類與情緒分析:AI 讀懂客戶心聲

一萬則客戶留言,AI 三分鐘就能告訴你哪些在抱怨

文本分類 情緒分析 BERT 詞袋模型 詞嵌入 面向情緒分析 顧客聲音
電腦視覺 CV 概覽:讓 AI 學會看世界
M07.03

電腦視覺 CV 概覽:讓 AI 學會看世界

對人類來說看一眼就懂的照片,AI 需要分析幾百萬個像素才能理解

電腦視覺 CV CNN 影像分類 物件偵測 語義分割 YOLO U-Net
物件偵測與影像辨識:從分類到定位
M07.04

物件偵測與影像辨識:從分類到定位

不只說『這張圖有貓』,還要畫出貓在哪裡

物件偵測 影像辨識 YOLO Faster R-CNN mAP IoU 邊界框 錨點框
語音辨識與合成:AI 的耳朵和嘴巴
M07.05

語音辨識與合成:AI 的耳朵和嘴巴

Siri 和 Alexa 背後的技術 — 把聲音變文字、把文字變聲音

語音辨識 ASR 語音合成 TTS Whisper 聲音複製 台灣中文語音
多模態 AI:看圖說話、聽聲辨物的全能選手
M07.06

多模態 AI:看圖說話、聽聲辨物的全能選手

真正的 AI 不只看文字 — 它要同時理解圖片、聲音和文字

多模態AI CLIP GPT-4V Gemini 跨模態理解 融合策略 視覺語言模型
OCR 與文件理解:讓 AI 讀懂紙本文件
M07.07

OCR 與文件理解:讓 AI 讀懂紙本文件

發票、合約、手寫表單 — AI 把紙上的字變成可搜尋的資料

OCR 文件理解 繁體中文OCR 鍵值擷取 表格擷取 手寫辨識 文件AI
推薦系統:AI 怎麼知道你想看什麼
M07.08

推薦系統:AI 怎麼知道你想看什麼

Netflix 的推薦比你自己選的還準 — 背後是協同過濾和深度學習

推薦系統 協同過濾 內容式過濾 深度學習推薦 冷啟動 過濾泡泡
知識圖譜:讓 AI 理解事物之間的關係
M07.09

知識圖譜:讓 AI 理解事物之間的關係

Google 搜尋為什麼知道『蘋果公司的 CEO 是誰』?因為有知識圖譜

知識圖譜 實體關係 Wikidata 知識表示 圖神經網路 KG+LLM
AI 應用技術選型指南:NLP、CV、多模態怎麼選
M07.10

AI 應用技術選型指南:NLP、CV、多模態怎麼選

問題決定技術,不是技術決定問題

技術選型 NLP 電腦視覺 多模態 自建vs購買 技術成熟度 總擁有成本