← M07 NLP / CV / 多模態 M07 NLP / CV / 多模態

M07.09|知識圖譜:讓 AI 理解事物之間的關係

Google 搜尋為什麼知道『蘋果公司的 CEO 是誰』?因為有知識圖譜

L1-AI基礎知識-知識圖譜 L2-AI技術應用-知識表示
知識圖譜 實體關係 Wikidata 知識表示 圖神經網路 KG+LLM
📋

本講學習重點

知識圖譜的基本資料結構是什麼?
知識圖譜的三種主要建構方式?
Wikidata 和 Google Knowledge Graph 有何不同?
知識圖譜如何補強大型語言模型的缺陷?
圖神經網路在知識圖譜上可以做什麼?

知識圖譜:以圖結構表示現實世界的實體和實體之間的關係(主語-謂語-受語三元組)

三元組(Triple):(頭實體, 關係, 尾實體),如(台積電, 創辦人, 張忠謀)

RDF(Resource Description Framework):W3C 標準的知識表示格式

SPARQL:查詢知識圖譜的標準查詢語言(類似 SQL 但用於圖資料)

Wikidata:維基百科背後的結構化知識庫,開放授權,超過 1 億個實體

Google Knowledge Graph:支援搜尋引擎知識卡片、語音助理回答的商業知識圖譜

實體連結(Entity Linking):把文字中的提及(如「蘋果」)連結到知識圖譜中的正確實體

關係擷取(Relation Extraction):從文本中自動抽取(實體 A, 關係 R, 實體 B)三元組

圖神經網路(GNN):可在知識圖譜上做鏈接預測(預測缺失的關係)

RAG + KG:用知識圖譜提供結構化事實補強 LLM,減少幻覺,提升事實準確性

📌 知識圖譜用「實體-關係-實體」三元組表示現實世界的知識結構,是 AI 理解事物之間關係的基礎設施。Wikidata、DBpedia、Google Knowledge Graph 是三個代表性的大型公開或商業知識圖譜。知識圖譜的建構結合了人工標注、NLP 自動抽取和眾包協作。圖神經網路能在知識圖譜上做鏈接預測和實體分類。在 LLM 時代,知識圖譜作為結構化事實庫,與 RAG 結合可以有效減少大型語言模型的幻覺問題,在需要高事實準確性的企業應用中扮演關鍵角色。
知識圖譜:讓 AI 理解事物之間的關係

🎙️ Podcast(中文)

0:00 / 0:00

一句話搞懂

知識圖譜就是把人類知識系統化地存成一張「關係地圖」——圖上的每個點是一個「事物」(實體,如一個人、一家公司、一個地點),點和點之間的連線是它們的「關係」(如「創辦人是」「位於」「製造了」),這樣 AI 就能沿著這些關係線推理:「台積電的創辦人是張忠謀,張忠謀畢業於麻省理工學院,麻省理工學院位於美國麻薩諸塞州」——而不只是把這些事實當成一段文字死記硬背。


白話解說

從「記住事實」到「理解關係」

早期的 AI 知識儲存方式非常粗糙:把大量文字塞進資料庫,或者訓練語言模型讓它「記住」這些文字。這種方式的問題是:AI 記住了「台積電成立於 1987 年」和「張忠謀在 1987 年創辦了一家半導體公司」兩句話,但它無法自動推理這兩句話在說同一件事,更無法回答「台積電的創辦人在哪裡出生?」這樣需要多跳推理的問題(要先知道台積電的創辦人是張忠謀,再知道張忠謀的出生地)。

知識圖譜(Knowledge Graph, KG) 提供了一種更結構化的知識表示方式。它的核心資料單元是三元組(Triple),格式是「(頭實體, 關係, 尾實體)」——例如:(台積電, 創辦人, 張忠謀)、(張忠謀, 出生地, 台灣)、(台積電, 成立年份, 1987)、(台積電, 總部, 新竹科學園區)、(新竹科學園區, 位於, 新竹市)。這些三元組形成一個龐大的圖網路(Graph),圖上的節點(Node)是實體邊(Edge)是關係

有了這張關係地圖,回答「台積電的總部在哪個縣市?」只需要沿著圖的邊走兩步:台積電 → 總部 → 新竹科學園區 → 位於 → 新竹市。這種沿著關係進行多跳推理(Multi-hop Reasoning)的能力,是知識圖譜相較於平面文字的根本優勢。Google 搜尋頁面右側出現的「知識卡片」(顯示一個人物或組織的基本資訊)、語音助理(Siri、Google Assistant)回答事實性問題、以及 Google 理解「蘋果公司的 CEO」和「蘋果水果」是完全不同的概念——這些都依賴知識圖譜。

知識圖譜的標準格式:RDF 和 SPARQL

為了讓不同系統的知識圖譜能互通,W3C(全球資訊網協會)制定了標準格式。RDF(Resource Description Framework) 是知識圖譜的標準資料格式,每個三元組中的實體和關係都用 URI(統一資源識別符) 來唯一標識——例如台積電的 URI 可能是 http://www.wikidata.org/entity/Q183210,這個 URI 在全球任何系統中都代表「台積電」這個實體,不會和其他「台積電」混淆(台積電的英文名、中文名、縮寫、股票代碼都可以作為同一個 URI 的不同標籤)。

SPARQL 是查詢 RDF 知識圖譜的標準查詢語言,語法類似 SQL,但查詢的是圖結構。例如查詢「所有台積電的高階主管」:

SELECT ?person ?role
WHERE {
  wd:Q183210 wdt:P488 ?person .  # 台積電 的 CEO 是 ?person
  ?person wdt:P39 ?role .         # ?person 的 職位 是 ?role
}

SPARQL 查詢保證返回精確的結構化答案(有就是有,沒有就是沒有),而不像語言模型回答可能存在幻覺。這種精確性是知識圖譜在需要高可靠度查詢(如醫療資訊、法律資訊、金融資料)場景中的核心優勢。

三大代表性知識圖譜

全球最重要的知識圖譜可以從開放性和用途分成幾類。

Wikidata(維基媒體基金會,2012 年啟動)是目前規模最大的公開結構化知識圖譜,擁有超過 1 億個實體,支援 300 多種語言,採用 CC0 完全開放授權,任何人或機構都可以免費使用。Wikidata 是維基百科的「結構化後台」——每篇維基百科文章對應到 Wikidata 中的一個實體,使用者和社群可以直接對 Wikidata 進行結構化編輯。台灣也有活躍的 Wikidata 台灣社群,持續增加台灣本地的地理、文化、政府機關等知識,是台灣 AI 研究者取得中文知識圖譜資料的重要來源。

DBpedia(柏林自由大學,2007 年)是把英文維基百科的 Infobox(右側的摘要信息框)自動結構化轉換成 RDF 三元組的項目,包含約 600 萬個實體。DBpedia 是「鏈接開放資料(Linked Open Data)」運動的核心,它與 Wikidata 和其他開放知識庫相互鏈接,形成「知識圖譜的網際網路」。

Google Knowledge Graph(2012 年)是 Google 搜尋背後的商業知識圖譜,估計包含超過 5,000 億個事實。它不公開原始資料,但提供 Knowledge Graph API 讓開發者查詢。Google Knowledge Graph 整合了多個來源(維基百科、CIA World Factbook、世界銀行資料等),並且持續從網路爬取和用 NLP 技術自動更新。它直接支撐了 Google 搜尋的「精選摘要」、Google Assistant 的事實問答,以及 Google 理解搜尋查詢中的人物、地點、組織之間關係的能力。

知識圖譜的建構方式

建構一個高品質的知識圖譜,通常需要三種方式的結合:

人工標注(Manual Curation):由領域專家定義知識的模式(Schema)——哪些類型的實體、哪些類型的關係、關係的約束(如「出生地」的值必須是「地點」類型的實體)——並手動輸入和審核三元組。品質最高,但速度慢且成本高,通常只用於核心概念和高重要性事實。Wikidata 有一個人工審核機制(每個編輯由社群審核)確保品質。

NLP 自動抽取(Automatic Extraction):用自然語言處理技術從大量文本中自動識別實體(命名實體辨識 NER)和實體間的關係(關係擷取 Relation Extraction),生成三元組候選,再經過信心度過濾。例如,從新聞文章「台積電(TSMC)創辦人張忠謀於 1987 年在新竹設立了公司」,NLP 系統抽取:(台積電, 創辦人, 張忠謀)、(台積電, 成立年份, 1987)、(台積電, 總部, 新竹)三個三元組。這種方式速度快但錯誤率高(特別是關係的識別),通常需要人工複審高信心度的三元組後才加入知識圖譜。

眾包協作(Crowdsourcing):Wikidata 和 Wikipedia 的模式——開放社群貢獻,設計激勵機制鼓勵大眾填寫和更新結構化資料,同時設置社群審核和機器人監控以維護品質。台灣本土的知識圖譜建設,若能善用台灣社群的眾包力量(如台灣百科、台灣地方文化資料庫),往往比純靠人工標注更有效率。

知識圖譜 + 大型語言模型:強強聯合

知識圖譜和大型語言模型(LLM)各有優缺點:LLM 的優點是語言理解和生成能力強、具有常識推理能力;缺點是事實可能過時(訓練資料截止日期)、可能幻覺(自信但錯誤的事實)、難以精確查詢特定事實。知識圖譜的優點是事實精確、可驗證、可以做多跳精確查詢;缺點是覆蓋範圍有限(只包含被明確定義的實體和關係)、更新需要流程、自然語言問題轉 SPARQL 查詢的橋接困難。

KG-RAG(Knowledge Graph + Retrieval-Augmented Generation) 是近年結合兩者的主流方向:當 LLM 需要回答事實性問題時,先把問題分解成結構化查詢(或用 LLM 自動生成 SPARQL),在知識圖譜中查詢精確事實,再把查詢結果作為上下文提供給 LLM 生成回答。這樣 LLM 的事實基礎由知識圖譜保障,不依賴訓練資料中的記憶;LLM 的語言生成能力讓知識圖譜的結構化答案變成流暢的自然語言回覆。微軟的 GraphRAG(2024 年)進一步探索了如何從非結構化文件自動建構知識圖譜,再用這個圖譜增強 LLM 的問答能力。


應用場景

場景 知識圖譜的角色 具體價值 代表案例
搜尋引擎知識卡片 提供結構化事實 直接在搜尋結果頁顯示人物/公司/地點的關鍵資訊,不需要點擊連結 Google Knowledge Panel
企業內部知識管理 組織公司知識網絡 員工能查詢「這個客戶和哪些產品有合約?」等多跳關係查詢 金融機構的客戶知識圖譜
藥物研發輔助 生物醫學知識圖譜 找出藥物-疾病-蛋白質之間的潛在關聯,輔助新藥靶點發現 默克藥廠的知識圖譜平台
推薦系統強化 物品屬性關係圖 利用商品之間的語意關係(「手機架」和「手機」的「適用關係」)改善推薦 電商知識圖譜推薦
問答系統(QA) 事實問題的可靠答案 「台灣有幾個縣市?」直接查知識圖譜給出精確答案 Alexa、Google Assistant
金融風控關係圖 公司/人物關係網絡 偵測複雜的公司控股關係、股東關聯、可疑資金流向 台灣金管會報告的關聯圖分析
政府資料整合 跨機關資料鏈結 把不同政府資料庫的「公司登記」「稅籍」「土地登記」鏈接為統一圖譜 台灣政府開放資料知識圖譜

常見誤區

誤區 1:「有了 ChatGPT 這樣的大型語言模型,就不需要知識圖譜了」

LLM 確實能回答大量事實性問題,看起來似乎讓知識圖譜顯得多餘。但這個認知在幾個關鍵面向是錯誤的。精確性:LLM 的事實記憶來自訓練資料的統計規律,面對需要「精確無誤的結構化事實」的場景(如法律判決中引用的法條版本、藥物的精確劑量、公司的精確持股比例),LLM 的幻覺風險不可接受,知識圖譜的精確查詢是不可替代的。即時性:LLM 有訓練資料截止日期(通常落後現實 6–12 個月),而企業知識圖譜可以即時更新(今天簽的合約、今天的股東變動),這種動態更新能力是 LLM 無法提供的。可審計性:知識圖譜的每條三元組都有明確來源(這個事實從哪個資料庫來的、什麼時候更新的),而 LLM 的答案來源不透明。在金融、醫療、法律等需要監管合規的場景,知識的來源可追溯性是法規要求,知識圖譜在這方面有根本優勢。

誤區 2:「建構知識圖譜只需要收集資料、定義關係,剩下的 NLP 可以自動完成」

NLP 自動關係抽取的技術確實進步顯著,但「全自動建構高品質知識圖譜」在現實中幾乎不存在。主要挑戰是:歧義問題——「蘋果」是水果、還是蘋果公司、還是蘋果品牌的手機?文本中的指代需要上下文消歧,NLP 消歧的錯誤會直接污染知識圖譜;關係多義——「台積電的張忠謀」這句話中,「的」代表「創辦人」關係還是「前董事長」關係還是「員工」關係?自動抽取的關係標籤很容易過於粗糙;時效性——文本中的事實有時間性(「蘋果公司的 CEO 是 XXX」在不同年份是不同答案),自動抽取不易處理時態和版本管理;錯誤傳播——自動抽取的低質量三元組一旦進入知識圖譜,後續的推理和查詢都會被污染。現實中的企業知識圖譜建設,往往是「NLP 自動抽取候選 + 人工審核確認 + 規則過濾」的混合流程,人工環節不可省略,只是在做高信心度的批量確認而非從零人工輸入。

誤區 3:「知識圖譜是靜態的百科全書,不適合處理動態或不確定的知識」

傳統知識圖譜確實偏向儲存「確定性的事實三元組」,不擅長處理不確定性。但現代知識圖譜技術已大幅演進:時序知識圖譜(Temporal KG) 為每條三元組加入時間標記(張忠謀, 董事長, 台積電, [1987, 2018]),可以追蹤隨時間變化的事實;概率知識圖譜(Probabilistic KG) 為每條三元組標記信心度(這條關係從多個來源確認則信心高,只從一個來源則信心低);知識圖譜補全(KG Completion) 用圖神經網路等機器學習方法,在現有圖結構上預測可能缺失的關係(如從「A 和 B 都是某公司董事」「A 和 C 是大學同學」推測「B 和 C 也認識」),讓知識圖譜從靜態查詢工具變成具有推斷能力的動態知識系統。鏈接預測(Link Prediction) 是知識圖譜機器學習的核心研究問題,在新藥開發(預測哪種蛋白質可能是某疾病的新藥靶點)和金融風控(預測兩家公司之間的隱藏關聯)上有重要應用。


小練習

練習 1:三元組設計

台灣某科技公司要建構一個「台灣科技業知識圖譜」,用於支援內部的市場調研和競爭分析問答系統。

以下資訊需要轉換成知識圖譜三元組,請為每段文字列出至少兩個三元組(格式:(頭實體, 關係, 尾實體)):

文字 1:「台積電(TSMC)成立於 1987 年,總部位於新竹科學園區,主要業務為晶圓代工,客戶包括蘋果公司、NVIDIA 和 AMD。台積電的創辦人為張忠謀,現任董事長為魏哲家(自 2018 年起)。」

文字 2:「台灣政府於 2022 年宣布成立國科會,負責統籌科技政策,設計半導體研究中心,並在台南和高雄規劃科技走廊。」

接著,請說明:針對競爭分析場景,「台積電和三星電子」之間應該定義哪幾種有意義的「關係類型」?

查看答案 **文字 1 的三元組:** - (台積電, 成立年份, 1987) - (台積電, 總部, 新竹科學園區) - (台積電, 主要業務, 晶圓代工) - (台積電, 客戶, 蘋果公司) - (台積電, 客戶, NVIDIA) - (台積電, 客戶, AMD) - (台積電, 創辦人, 張忠謀) - (魏哲家, 職位, 台積電董事長) - (魏哲家, 台積電董事長任期開始, 2018) **文字 2 的三元組:** - (台灣政府, 成立機構, 國科會) - (國科會, 成立年份, 2022) - (國科會, 主要職責, 統籌科技政策) - (國科會, 規劃設施, 半導體研究中心) - (台南, 科技走廊計畫, 台灣科技走廊) - (高雄, 科技走廊計畫, 台灣科技走廊) **台積電和三星電子之間有意義的關係類型:** 1. **(台積電, 競爭對手, 三星電子)** — 直接競爭關係(同為晶圓代工業務競爭者) 2. **(三星電子, 客戶, 台積電)** — 三星的 Exynos 晶片部分委由台積電代工 3. **(台積電, 同業製程節點競爭, 三星電子)** — 在先進製程(如 3nm、2nm)的技術競賽 4. **(三星電子, 股票市場競爭, 台積電)** — 國際投資人在兩者間的資金配置競爭 5. **(台積電, 主要客戶重疊, 三星電子)** — 兩家共同的下游客戶(如 Qualcomm 同時有訂單在兩家) 這些不同類型的關係讓系統能回答更精細的問題:「台積電和三星有哪些合作和競爭並存的面向?」而不只是簡單的「是競爭對手」。

練習 2:知識圖譜 vs LLM 的選擇

以下五個業務問題,請判斷每個問題應該優先用「知識圖譜精確查詢」、「LLM 語言理解生成」,還是「KG + LLM 混合」來解決,並說明理由:

問題 建議方式 理由
A. 「請列出台灣所有在 NASDAQ 上市的科技公司,以及它們今天的收盤股價。」
B. 「請幫我分析台積電最近一季財報的重點,並評估其競爭地位。」
C. 「這份合約中,甲方和乙方是否有任何關係人交易?(需對照公司法人股東關係圖)」
D. 「請解釋量子電腦的基本原理,並說明它對台灣半導體產業的可能影響。」
E. 「我們系統中的客戶 ID 12345 是否和任何已知詐騙集團的成員有三個以內的人際關係連結?」
查看答案 **A. 台灣 NASDAQ 上市科技公司清單 + 今天股價** 建議方式:**知識圖譜精確查詢 + 即時資料 API** 理由:「哪些台灣公司在 NASDAQ 上市」是一個明確的結構化事實問題,答案必須精確(不能遺漏或多列)——這是知識圖譜查詢的強項。「今天的收盤股價」是即時動態資料,需要接 Bloomberg/Yahoo Finance 等市場資料 API,不是任何靜態知識庫能提供的。LLM 的訓練資料截止日期讓它無法提供即時股價,且清單類問題 LLM 容易遺漏或幻覺出不存在的公司。 --- **B. 台積電財報分析 + 競爭地位評估** 建議方式:**KG + LLM 混合** 理由:財報的結構化數字(營收、毛利率、資本支出)可以從財報知識庫或結構化資料庫取得(KG 的精確性);但「評估競爭地位」需要理解行業趨勢、比較多個數據點、生成流暢的分析文字——這是 LLM 的強項。最佳方案:用 KG/結構化資料庫取得精確財報數字,作為上下文提供給 LLM,讓 LLM 在準確事實基礎上生成分析文字,而非憑訓練記憶生成可能過時的數字。 --- **C. 合約甲乙方關係人交易核查** 建議方式:**知識圖譜精確查詢**(必要時 LLM 輔助理解合約文字) 理由:「A 公司是否是 B 公司的關係人」是一個需要精確答案的法律合規問題(一旦遺漏可能有法律責任),必須依靠結構化的公司股東和法人代表關係圖譜(知識圖譜)來查詢——例如查詢「甲方公司的法人股東清單」和「乙方公司的董事名單」是否有交集。LLM 對這類問題若憑語言理解作答,可能因幻覺而遺漏關鍵關係,不可作為法遵依據。但若合約文字中提到的公司名稱需要識別(甲方寫「○○科技股份有限公司」,需連結到知識圖譜中的對應實體),可以用 LLM/NER 輔助做實體連結。 --- **D. 量子電腦原理解釋 + 對台灣半導體的影響** 建議方式:**LLM 語言理解生成** 理由:這是一個開放性的解說和分析問題,需要結合概念解釋(量子疊加、量子糾纏)和產業洞察(台灣半導體廠的優勢/挑戰),生成流暢易懂的說明文字。知識圖譜不擅長回答這類需要綜合推理和解說性語言的問題(知識圖譜能說「量子電腦的發明者是某某」,但無法解釋「量子電腦為什麼對台灣半導體有影響」)。LLM 在此類解說性問題上具備優勢,且量子電腦的基礎原理是已知知識而非即時事實,幻覺風險相對可控(可請使用者確認關鍵技術細節)。 --- **E. 客戶和詐騙集團的三跳關係連結查詢** 建議方式:**知識圖譜精確查詢(圖資料庫最短路徑查詢)** 理由:這是一個典型的「圖遍歷(Graph Traversal)」問題:從一個起點節點(客戶 ID 12345),在人際關係圖中查詢三個邊以內的路徑上是否存在已知詐騙集團成員節點。這種多跳精確路徑查詢是知識圖譜(圖資料庫)的核心能力(用圖查詢語言如 Cypher 或 SPARQL 表達),時間複雜度可以優化到毫秒級回應。LLM 完全沒有能力執行這類精確的圖遍歷計算,它只能理解問題的文字描述,無法在實際的使用者關係資料上進行路徑查詢。這也是金融業知識圖譜(用 Neo4j 等圖資料庫實作)在反詐騙和 AML(反洗錢)領域的核心應用。

關鍵字自我檢核

✅ 知識圖譜 ✅ Knowledge Graph ✅ KG ✅ 實體 ✅ Entity ✅ 關係 ✅ Relation ✅ 三元組 ✅ Triple ✅ RDF ✅ SPARQL ✅ Wikidata ✅ DBpedia ✅ Google Knowledge Graph ✅ 實體連結 ✅ Entity Linking ✅ 關係擷取 ✅ Relation Extraction ✅ 圖神經網路 ✅ GNN ✅ 知識庫問答 ✅ KBQA ✅ 鏈接預測 ✅ Link Prediction ✅ RAG ✅ 知識增強生成 ✅ 知識表示 ✅ Knowledge Representation