M07 NLP / CV / 多模態應用

M07.01

人類語言充滿了歧義、俚語和言外之意 — NLP 的挑戰就在這裡

NLP 自然語言處理分詞詞性標記命名實體辨識情緒分析機器翻譯 Transformer

M07.02

一萬則客戶留言，AI 三分鐘就能告訴你哪些在抱怨

文本分類情緒分析 BERT 詞袋模型詞嵌入面向情緒分析顧客聲音

M07.03

對人類來說看一眼就懂的照片，AI 需要分析幾百萬個像素才能理解

電腦視覺 CV CNN 影像分類物件偵測語義分割 YOLO U-Net

M07.04

不只說『這張圖有貓』，還要畫出貓在哪裡

物件偵測影像辨識 YOLO Faster R-CNN mAP IoU 邊界框錨點框

M07.05

Siri 和 Alexa 背後的技術 — 把聲音變文字、把文字變聲音

語音辨識 ASR 語音合成 TTS Whisper 聲音複製台灣中文語音

M07.06

真正的 AI 不只看文字 — 它要同時理解圖片、聲音和文字

多模態AI CLIP GPT-4V Gemini 跨模態理解融合策略視覺語言模型

M07.07

發票、合約、手寫表單 — AI 把紙上的字變成可搜尋的資料

OCR 文件理解繁體中文OCR 鍵值擷取表格擷取手寫辨識文件AI

M07.08

Netflix 的推薦比你自己選的還準 — 背後是協同過濾和深度學習

推薦系統協同過濾內容式過濾深度學習推薦冷啟動過濾泡泡

M07.09

Google 搜尋為什麼知道『蘋果公司的 CEO 是誰』？因為有知識圖譜

知識圖譜實體關係 Wikidata 知識表示圖神經網路 KG+LLM

M07.10

問題決定技術，不是技術決定問題

技術選型 NLP 電腦視覺多模態自建vs購買技術成熟度總擁有成本