← → 翻页
签到二维码
扫码签到
Sign In
Internal Technical Talk · For All Teams

知识图谱
从入门到落地

用最通俗的语言,读懂 AI 的「知识大脑」
以及它如何赋能我们的财税多智能体平台

Palantir 靠 KG(知识图谱)做到年营收 $44.8 亿 Forrester 实测 ROI(投资回报率)320% Gartner 2025:KG 提升 LLM 准确率 54.2%
财税多智能体平台 产品经理 · 财税专家 · 智能体开发 约 90 分钟
Maurice | maurice_wen@proton.me

知识图谱是将海量知识组织成机器可理解的语义网络的技术基础设施。

Sources: [1] Palantir FY2025 10-K (SEC, 2026-02; Revenue $4.48B, YoY +56%) [2] Forrester TEI: Stardog Enterprise KG, 2023 [3] Gartner "Enhance RAG Using KG" 2025 + "Top D&A Trends 2026: GraphRAG"
00
AGENDA

今天我们聊什么

五个篇章 -- 产品 / 业务 / 开发三种视角,从零开始建立完整认知

01

生活中的知识图谱

抛开术语,从你的大脑、搜索引擎说起

日常类比 零基础
02

核心结构解密

三元组(S-P-O)+ 本体——积木与图纸

核心概念 图可视化
03

谁在用?行业案例

Google、蚂蚁集团、医疗KG、华为、Agentic AI(自主智能体)……

案例驱动 数据说话
04

财税 × 知识图谱

多智能体 + 知识图谱 = 超级财税大脑

结合业务 实战场景
05

入门路线图

工具、资源、动手方法

行动指南 资源推荐
01
PART 01 · 从生活出发

你每天都在使用"知识图谱"

正式定义之前,先看看生活中的例子

Biz

淘宝"猜你喜欢"

买了手机壳,推荐钢化膜和充电线——淘宝用商品知识图谱理解"手机壳→手机→配件"的关系链,比单纯看历史更精准。

Q

豆包 AI 问答

问"小规模纳税人要交哪些税?",豆包不仅回答,还追问"你是季度还是月度?"——这种沿关系链追问正是知识图谱的思路。

Ent

抖音 / 小红书推荐

刷了几条旅行视频,立刻推酒店和机票攻略——背后是兴趣图谱:用户→喜欢→旅行→关联→酒店/机票/美食。

Map

高德 / 美团搜"附近"

"附近的川菜馆"——高德/美团靠POI 知识图谱把餐厅→菜系→位置→评分关联起来,一句话就能精准匹配。

01
PART 01 · 从生活出发

到底什么是知识图谱?

知识图谱 = 用「」表示事物,用「线」表示关系,将海量知识组织成机器可读、可推理语义网络

如果知识是一座城市...

节点 = 城市里的建筑(企业、人、政策)
关系 = 连接建筑的道路(持股、开票、适用)
图谱 = 整张城市地图(导航任意两点)

如果知识是人脉圈...

节点 = 你认识的每个人
关系 = 同事、朋友、亲属
图谱 = 六度人脉,找到任何人的关系链

三元组 = 一句最短的话

企业A → 法人代表 → 张三
主语 + 谓语 + 宾语 = 一个知识原子

传统数据库(表格思维)

  • 数据像 Excel,行列存放
  • 多层关系查询需 JOIN 四五张表
  • 关系越深,性能越差
SELECT ... FROM A JOIN B JOIN C JOIN D WHERE ...

知识图谱(图思维)

  • 数据像蜘蛛网,点线自然连接
  • 沿关系"走"几步就到,性能不受层数影响
  • 新增关系 = 加一条边,灵活扩展
A公司 →法人→ 张三 →配偶→ 李四 →控制→ B公司 →欠税→ ✓
核心优势:关系是一等公民。更关键的是——当 AI 仍有 约2% 幻觉率时(最佳模型已低至0.7%),知识图谱是唯一可溯源的事实底座
Sources: 幻觉率约2% — Vectara HHEM Leaderboard (2025 refreshed), allaboutai.com LLM Hallucination Index, 2026; 最佳: Gemini-2.0-Flash 0.7%
02
CORE STRUCTURE

图的两大核心:节点与边

知识图谱本质上就是一张图(Graph)-- 由节点(点)和(线)构成

节点 Nodes

图中的"点" -- 代表现实世界中的实体或概念

实体节点 Entity

具体的人/物/组织

华为技术有限公司 任正非

概念节点 Concept

抽象类别或术语

增值税 科技行业

事件节点 Event

有时间属性的行为

2024年度审计 A轮融资

属性值 Literal

数值/日期/字符串

1,000万元 2025-01-01

边 Edges

图中的"线" -- 代表节点之间的语义关系

从属关系 Ownership

控股/任职/隶属

华为 →控股→ 海思半导体
张三 →任职于→ A公司

交易关系 Transaction

买卖/开票/支付

A公司 →开具发票→ B公司
客户X →购买→ 产品Y

分类关系 Classification

属于/是一种

增值税 →属于→ 流转税
华为 →属于→ 科技企业

时序关系 Temporal

发生于/截止于

合同A →签订于→ 2025-03
审计报告 →截止→ 2025-06
任正非 Entity / Person 任职于 华为 Entity / Company 控股 海思半导体 Entity / Company 属于 科技企业 Concept 开具发票 B公司 Entity / Company 时序 & 属性关系示例 年度审计 Event 截止于 2025-06 Literal 增值税发票 Event 金额 1,000万元 Literal 实体(人) 实体(组织) 概念 事件 属性值 从属 交易 分类 时序 属性

节点 = 名词(Who / What)    边 = 动词(How / Why)

02
PART 02 · 核心结构

知识图谱的"积木":三元组

整个图谱由无数三元组搭建而成,每个三元组就是一条知识

主语 SSubject · 谁?什么?
谓语 PPredicate · 什么关系
宾语 OObject · 谁?什么值?
主语 (S)谓语 (P)宾语 (O)通俗理解
华为总部位于深圳"华为的总部在深圳"
张三法人代表A科技有限公司"张三是A公司的法人"
发票 #2026001开票金额50,000 元"这张发票金额5万"
小规模纳税人适用政策季度≤30万免增值税"小规模季度≤30万免税"
A公司开票给B公司"A向B开了发票"

小结:每个三元组 = 一句" 怎么了 什么"。千万个三元组编织在一起 → 一张巨大的知识网络。

02
PART 02 · 核心结构

一张财税迷你知识图谱

节点是实体,箭头是关系——把三元组画出来,就是这张图

提示:图中每条箭头 + 两端节点 = 前面学的一个三元组;试着读出任意一条
法人代表 客户关系 交易 / 开票 持有 适用税率 开具 适用政策 所属行业 A科技公司 张三(法人) B贸易公司 营业执照 增值税 13% 发票#2026001 小微企业免税 软件与信息 企业实体 自然人 关系 交易关系 每个「节点 + 箭头 + 节点」= 一个三元组
02
PART 02 · 核心结构

知识图谱的"图纸":本体

三元组是积木块,本体就是搭积木的说明书——规定怎么拼

本体 = 知识图谱的"说明书"
想象一盒乐高积木:本体就是那份拼装说明书——规定有哪些积木种类、积木之间怎么拼接、每块积木有什么规格、以及什么搭法是不允许的

类 Class

积木种类:企业、自然人、
发票、税种、政策

关系 Relation

拼接方式:法人代表、开票给、
适用税率

属性 Property

积木规格:注册资本、
识别号、金额

约束 Constraint

搭建规则:"法人代表"
只能从 自然人→企业

本体层 = "拼装说明书"

  • 积木:企业、自然人、发票、税种
  • 拼法:法人代表(自然人 → 企业)
  • 规则:一家企业只能有一个法人

实例层 = "拼好的模型"

  • A科技公司(一块企业积木)
  • 张三 → 法人代表 → A公司(拼上一步)
  • A公司.注册资本 = 500万(属性值)
换个比喻:本体像公司组织架构图(规定有哪些部门、汇报线),实例像具体的员工和汇报关系。架构图不变,人来人去——这就是"规则和数据分离"的威力
02
PART 02 · 核心结构

概念速查手册:一张图分清所有术语

7 个核心概念,每个都有日常比喻,再也不会搞混

实体 Entity

一个具体的"东西":一家公司、一个人、一张发票。

比喻:城市里的每栋建筑——有名字、有地址、有用途。

关系 Relation

两个实体之间的连接方式:持股、开票给、法人代表。

比喻:建筑之间的道路——公路、铁路、管道,各不相同。

属性 Property

实体自身的特征数据:注册资本、税号、金额。

比喻:建筑的身份证——面积、楼层、建造年份。

三元组 Triple

知识的最小单元:主语 → 谓语 → 宾语。

比喻:一句最短的新闻——"XX大厦 → 隔壁是 → YY银行"。

事实 Fact

经过验证的三元组。三元组是格式,事实是内容被确认为真。

比喻:新闻 vs 经过核实的新闻——事实 = 三元组 + 可信来源。

Schema 模式

数据存储与校验的结构规范:表结构、字段类型、JSON 格式。

比喻:Excel 表头——规定每列填什么、什么格式。解决约 80% 结构问题。

本体 Ontology

语义与概念体系的结构规范:类型层级、关系语义、推理规则。

比喻:组织架构图——规定部门层级、汇报线、哪些违规。跨系统统一语义时必要。

知识图谱 KG

本体 + 所有事实的总和。说明书 + 全部已验证的知识网络。

比喻:公司本身——架构图 + 所有员工 + 所有汇报关系 = 完整的组织。

实体是点,关系是线,属性是标签,三元组是一句话,事实是核实过的话,Schema是表头,本体是规则书,图谱是整本百科全书

02
PART 02 · 核心结构

常见混淆概念 -- 画清边界

三组最容易搞混的概念,用一句话分清

图数据库 vs 知识图谱

图数据库

存储引擎 + 查询语言
相当于仓库

知识图谱

语义模型 + 推理 + 数据
相当于仓库里有序摆好的货

图数据库是「容器」,知识图谱是「容器 + 内容 + 规则」

知识建模 vs 知识抽取

知识建模

设计「表头」
定义有哪些类型、关系、属性

知识抽取

填写「表格」
从文本/数据中提取实体和关系

建模在前(先画蓝图),抽取在后(按蓝图填数据)

规则推理 vs LLM(大语言模型)推理

规则推理

确定性 · 可审计
「如果 A->B 且 B->C,则 A->C」

LLM 推理

概率性 · 可泛化
「根据上下文,最可能是...」

合规用规则(100% 一致),分析用 LLM(灵活但需复核)

记住一个原则:工具解决「怎么存」,流程解决「怎么建」,方法解决「怎么用」

02
PART 02 · 核心结构

三元组无处不在——多行业示例

几乎所有行业的知识都可以用 S-P-O 表达

医疗

糖尿病常见症状多饮多尿
二甲双胍用于治疗2型糖尿病
阿司匹林禁忌搭配华法林

金融

王五持股 60%C投资公司
C投资公司担保D地产公司
D地产公司贷款来自XX银行

电商

iPhone 17品牌Apple
用户A购买iPhone 17
iPhone 17常搭配AirPods Pro 3

财税

A科技公司适用增值税 13%
A科技公司享受高新技术优惠
发票001开具方A科技公司

物流

订单001发货自上海仓
货物X运输方式冷链专线
包裹002签收人张三

法律合规

企业B违反发票管理办法
财税[2024]01号适用于小规模纳税人
企业B处罚记录罚字2024-003

思考练习:试着用三元组描述身边事物——"我 → 就职于 → XX公司"、"XX公司 → 属于 → 财税行业"——恭喜你,你已经在构建知识图谱了!

03
PART 03 · 谁在用

知识图谱的真实落地案例

从搜索引擎到金融风控,知识图谱已无处不在

共同点:行业不同,但解法一样——用关系连接一切,让机器像人一样"顺藤摸瓜"

Google Knowledge Graph

2012年发布至今持续迭代,5000亿+事实、50亿+实体。2025年6月大幅精简提质(-6.26%冗余),深度融合 Gemini 驱动 AI Overview 搜索。

蚂蚁集团 -- 企业关联风控

十亿级节点企业关联图谱 + GraphRAG,识别壳公司、循环担保。2025年响应效率提升200%

医疗知识图谱 -- 精准医药

2025年医药KG已覆盖基因-疾病-药品多模态图谱,量子AI+KG预测药物靶点准确率达 92%

华为 — 智能客服

产品手册 + Agent协同构建图谱,精准定位答案,客户满意度从78%提升至92%

税务总局 -- 税务风控

纳税人关联图谱,虚开发票识别、骗取退税检测。多层股权穿透分析。

Palantir -- Ontology 知识图谱

核心产品即 KG 平台,FY2025(2025财年)营收$44.8亿(+56% YoY 同比)。服务国防、金融、医疗,ROI(投资回报率)标杆。

Sources: [1] Google KG: 500B+ facts, 5B+ entities (Official Blog, 2020); 2025.6 质量精简-6.26% [2] 蚂蚁集团技术年报, 2025 [3] Nature Reviews Drug Discovery, 2025 [4] 华为年报, 2024 [5] 国家税务总局公开报告 [6] Palantir FY2025 10-K (SEC 美国证监会年报 Filing)
04
PART 04 · 结合我们

财税领域为什么特别需要知识图谱?

财税天然是"关系密集型"领域

数据孤岛

企业、发票、财务、政策分散在多个系统,查关联关系需跨多系统。

关系迷宫

集团几十家子公司、交叉持股、多层嵌套。表格理到第三层就晕。

政策跟不上

2025年仅增值税相关政策更新60+条。知识库不实时就出错。

LLM 幻觉 = 财务风险

你问 AI"小规模纳税人季度限额多少?",它可能回答一个过期数字——即使是最好的模型也有约2%的幻觉率,法律领域高达19%+。财税领域:错一个数就是损失

↓ 知识图谱如何解决 ↓

✓ 统一知识底座

打通企业、发票、税种、政策,形成互联互通的财税知识网络。

✓ 多跳查询秒级

股权穿透、关联排查——沿边走就行,不需 JOIN 一堆表。

✓ 动态可更新

新政策 → 新增图谱边 → 所有智能体实时获取最新知识。

✓ 消除幻觉、增强专家

GraphRAG(图谱增强检索生成)可将幻觉率降至<1%。KG 负责记住所有条文和数字,专家负责判断和决策——不是替代你,是给你一个不会忘事的助手。

Sources: [1] 60+条 — 国家税务总局政策文件索引, 2025 [2] 约2%幻觉率 — Vectara HHEM 2025 refreshed + allaboutai LLM Hallucination Index, 2026 [3] 法律领域19%+ — LegalBench-RAG, 2025 (大幅改善但仍显著高于通用领域) [4] GraphRAG幻觉<1% — ICLR'26 GraphRAG-Bench (multi-hop)
04
PART 04 · 结合我们

财税知识图谱:本体设计示例

构建我们自己的财税知识图谱,第一步是写好"说明书"

为什么要先设计本体?因为没有说明书就没法拼积木——定好规则,后续所有智能体才能统一理解财税世界

核心实体类(8类)

纳税人 · 自然人 · 发票 · 税种 · 税收政策 · 申报表 · 行业 · 税务机关

核心关系(10+种)

开具 · 适用 · 受控于 · 属于 · 法人代表 · 持股
例:纳税人 → 开具 → 发票 · 税种 → 受控于 → 政策

核心属性

纳税人:信用代码、注册资本、信用等级
发票:代码、金额、税额、状态
政策:文号、生效/失效日期

约束规则示例

① 增值税专票开票方 必须 是一般纳税人
② 小微优惠 仅适用 年所得≤300万企业
③ 一家企业有且仅有 1个法人代表
④ 红冲发票必须对应 1张蓝字发票

Sources: 税务约束 — 财税[2023]1号(小规模免征); 财税[2023]12号(小微企业所得税)
04
PART 04 · 结合我们

多智能体 × 知识图谱 = 超级财税大脑

知识图谱为多个智能体提供"共享记忆"和"推理引擎"

数据(原材料)→ 经本体规则加工 → 形成知识图谱(结构化底座)→ 供智能体查询调用
AI
智能体层
税务咨询 · 发票审核 · 风险检测 · 申报助手 · 政策解读 —— 各司其职,协同工作
⬆⬇ 查询 / 推理 / 写入 / 验证
KG
知识图谱层
财税本体 + 千万级三元组 + 推理规则 —— 统一底座 · 全员共享 · 实时可溯源
⬆⬇ ETL(抽取/转换/加载) / NLP(自然语言处理)抽取 / 实体对齐 / 融合
DB
数据源层
金税系统 · 发票平台 · 工商数据 · 政策库 · ERP(企业资源规划) · 银行流水
财税专家

你是知识的源头:定义本体规则、审核图谱质量、输入领域经验。KG 替你记住所有细节,你专注判断。

产品经理

你是场景的设计师:决定哪些业务场景优先接入 KG、如何量化价值、怎样定义验收标准。

智能体开发

你是桥梁的建造者:让 Agent 通过 API 查询图谱、用 Cypher 做推理、把 GraphRAG 管道跑通。

04
PART 04 · 结合我们

四大实战场景演示

看知识图谱如何在真实业务中发挥作用

智能税务问答

"季度不超30万,要交增值税吗?"
① LLM 理解意图,查询图谱
② 命中政策:季度≤30万 → 免征
③ 输出答案 + 附政策文号溯源
财税专家:日常高频产品:核心功能

关联交易风险检测

自动扫描企业关系网络
图谱遍历:A →法人→ 张三 →持股→ B
② 发现异常:关联企业高频大额开票
③ 生成风险报告,推送审核
财税专家:风控关键开发:图遍历核心

智能申报辅助

Agent 自动填写申报表
图谱查询:汇总本期进/销项
② 自动计算应纳税额
约束校验:金额与比例合规性
财税专家:省时最多开发:Agent集成

政策变更智能同步

新政策发布 → 图谱自动更新
① NLP 解析新政策,抽取实体
影响分析:遍历找出受影响企业
③ 通知 Agent + 推送客户提醒
财税专家:不再漏政策产品:差异化卖点开发:NLP管道
04
PART 04 · 结合我们

知识图谱 + 大模型:1 + 1 > 2

大模型 LLM

Claude Opus 4.6 · GPT-5.3 · Gemini 3.1 Pro · Kimi 2.5 · GLM-5 · MiniMax M2.5

  • ✓ 擅长:自然语言理解与生成、上下文推理
  • ✗ 弱点:知识过时、会"幻觉"编造事实
  • ✗ 弱点:缺乏可解释性、数字计算不可靠
  • 比喻:博学但偶尔胡编的「学者
+

知识图谱 KG

  • ✓ 擅长:精确事实、结构化推理、可溯源
  • ✓ 擅长:实时更新、逻辑一致性、规则约束
  • ✗ 弱点:不理解自然语言、需要构建成本
  • 比喻:精准但不会说话的「百科全书
白话版:LLM 是大脑KG 是笔记本——大脑聪明但偶尔记岔,笔记本不会思考但从不记错;两者搭档才靠谱

LLM 负责「听懂用户、组织语言」 + KG 负责「提供事实、验证答案」
= GraphRAG(图增强检索生成) / LazyGraphRAG:既自然流畅,又专业精准

GraphRAG
LazyGraphRAG
LightRAG
HippoRAG
幻觉消除
可解释AI
Text2Cypher
04
PART 04 · 结合我们

大数据 + 知识图谱:从「数据湖」到「知识湖」

已有基础 + KG 新增 L1 数据采集 已有 Kafka / CDC (变更数据捕获) API 接入 日志采集 文档解析 / 爬虫 L2 数据处理 已有 Spark / Flink / Hive (大数据引擎) ETL 管道 数据清洗 数据质量校验 NLP 抽取 L3 知识语义层 +KG -- 核心新增 -- Neo4j / TigerGraph (图数据库) 图计算引擎 推理引擎 本体建模 / 实体对齐 L4 智能应用 +KG GraphRAG 智能问答 风控推理 数据治理仪表盘 合规自动检查 智能申报

数据治理 -- 血缘追溯、Schema 建模为图,数据资产一目了然

关联分析 -- 多跳穿透秒级完成,SQL JOIN 链做不到

智能标签 -- NLP 自动打语义标签,告别"先搜再猜"

大数据解决「量」,知识图谱解决「义」——先有量,再加义,数据价值指数级释放

04
PART 04 · 结合我们

从 RAG(检索增强生成)到 GraphRAG:演进全景

RAG 不是一种技术,而是一个不断进化的架构范式

Naive RAG 文档切块 向量嵌入 相似度检索 文档A 片段1 文档B 片段7 文档C 片段3 ... 无结构拼接 碎片化、无关系、易丢上下文 准确率 ~43% 进化 Advanced RAG 智能分块 重排序 Rerank 查询改写 HyDE 假设文档 上下文压缩 多路召回融合 Self-RAG 自反思 更聪明的检索,但仍是平面文档 准确率 ~65% 质变 GraphRAG 企业 税种 政策 发票 实体+关系 = 结构化知识网络 多跳推理、跨域关联、可溯源 准确率 91% | 幻觉 <1%
白话版:Naive RAG = 按关键词找纸条拼答案;Advanced RAG = 更聪明地找纸条;GraphRAG = 先画地图再找路,从根本上理解知识之间的关系

领域子图 = 专业小 RAG

每个业务领域构建独立子图:税政子图(政策+税种+适用条件)、企业子图(股权+法人+行业)、发票子图(品目+税率+开票方)—— 各子图独立维护、独立更新。

+

统一图谱 = GraphRAG

多个领域子图通过共享实体(如"A公司"同时出现在企业图和发票图)自动连通,形成统一知识网络。跨域问题(如"A公司适用哪些优惠?")只需沿边遍历,无需跨库查询。

Sources: RAG演进分类 — Gao et al. "Retrieval-Augmented Generation for Large Language Models: A Survey" (2024); GraphRAG准确率 — ICLR'26 GraphRAG-Bench
04
PART 04 · 结合我们

GraphRAG 工作流详解

用户提问 → LLM 理解 → 查询图谱 → 组合回答

不用记技术细节——核心就一句:先查事实,再说话,所以不会胡说八道

用户提问

"A公司可以享受哪些税收优惠?"

意图理解

识别实体:A公司
意图:查询适用政策

图谱查询

LLM → Cypher(图查询语言)
或调用 KG API(应用接口)

图谱推理

A公司→行业→软件
→适用→多项优惠

组织回答

结合图谱结果
生成自然语言

输出用户

答案 + 政策文号
+ 溯源链接

纯 LLM 回答(即使是 GPT-5.3 / Claude Opus 4.6)

"可能享受高新技术优惠……"
可能过时、无文号、不可溯源

GraphRAG 回答

"A公司属于软件行业,适用:① 即征即退 ② 研发费加计扣除"
✓ 精确、有文号、可溯源

回答准确率
43%
纯LLM
91%
GraphRAG
可溯源率
0%
纯LLM
100%
GraphRAG
幻觉率
~2%
纯LLM
<1%
GraphRAG
Sources: [1] 准确率43%→91% — ICLR'26 GraphRAG-Bench (multi-hop QA benchmark, 2026) [2] 可溯源率 — 架构特性:纯LLM无引用,KG查询天然可溯源 [3] 纯LLM幻觉~2% — Vectara HHEM 2025 refreshed + allaboutai 2026 [4] GraphRAG幻觉<1% — ICLR'26 GraphRAG-Bench; Microsoft GraphRAG评测
05
PART 05 · 入门引导

入门路线图:从 0 到 1

不管是开发、产品还是业务,都能找到切入点

00

理解概念

三元组 + 本体
今天已完成

01

上手工具

Neo4j Desktop
可视化操作

02

建迷你图谱

用公司数据
构建小Demo

03

接入智能体

GraphRAG
知识增强

04

生产落地

大规模灌入
持续迭代

推荐工具

图数据库:Neo4j 5.x / NebulaGraph
框架:LangGraph 1.0
查询:Cypher / GQL(ISO标准)

推荐资源

书:《知识图谱:方法、实践与应用》
课:浙大 MOOC(大规模在线课程) · GraphAcademy
练:AuraDB Free(在线沙盒)

角色切入(你的第一步)

财税专家:挑一个最痛场景(如关联交易排查),用白板画出实体和关系 → 这就是本体设计的雏形
产品经理:选一个已有功能(如税务问答),写一页 KG 增强方案 → ROI 对比"有图谱 vs 无图谱"
Agent 开发:装 Neo4j Desktop,导入 50 条三元组 → 写 3 条 Cypher 查询 → 接入一个 Agent 做 demo

05
PART 05 · 入门引导

构建财税知识图谱的 6 个步骤

从本体设计到应用对接的完整流程

六步口诀:画图纸 → 找原料 → 提炼 → 去重 → 入库 → 接应用

① 本体设计

最重要的第一步。和领域专家梳理实体类型、关系、约束。
Tools: Protege / draw.io

② 数据采集

从金税系统、发票平台、工商API(应用接口)、政策文件库获取原始数据。
Tools: ETL / API / OCR

③ 知识抽取

LLM驱动的自动抽取已成主流:从非结构化文本直接提取实体和关系。
Tools: LLM Extract / NER(命名实体识别)/ GraphRAG Index

④ 知识融合

"A科技有限公司"和"A科技(深圳)"是同一家?实体对齐、消歧。
Tools: Similarity Matching / Manual Review

⑤ 图谱存储

融合后的三元组导入图数据库,建索引优化查询性能。
Tools: Neo4j / NebulaGraph

⑥ 应用对接

开发 KG API,集成到多智能体平台,实现 GraphRAG。
Tools: Agent -> KG API -> Graph DB

05
PART 05 · 入门引导

图查询 vs SQL:同一个问题,两种思路

不用记语法 -- 只看"问法"和"查法"的区别
核心区别:SQL 靠拼表,图查询靠"沿路走" -- 关系越深,差距越大

场景:查找公司法人代表

SQL 写法
SELECT p.name
FROM 自然人 p
JOIN 法人代表关系 r
  ON p.id = r.person_id
JOIN 企业 c
  ON c.id = r.company_id
WHERE c.name = 'A科技'
图查询
(自然人)-[法人代表]->(企业)

像说话一样:
"沿着法人代表这条线走"

→ 返回:张三

场景:2层股权穿透

SQL 写法
SELECT c2.name
FROM 企业 c1
JOIN 持股 s1 ON ...
JOIN 企业 c_mid ON ...
JOIN 持股 s2 ON ...
JOIN 企业 c2 ON ...
WHERE c1.name = 'A科技'
-- 每多一层多 2 个 JOIN
图查询
(A科技)-[持股*1..2]-(企业)

"沿着持股关系走1-2步"
层数再深也只改数字

→ 找出 2层以内关联的所有企业

场景:查适用的税收优惠

SQL 写法
SELECT p.名称, p.文号
FROM 企业 c
JOIN 企业行业 ci ON ...
JOIN 行业 ind ON ...
JOIN 企业税种 ct ON ...
JOIN 税种 t ON ...
JOIN 税种政策 tp ON ...
JOIN 政策 p ON ...
WHERE ... AND p.类型='优惠'
-- 4张表 6次 JOIN
图查询
(企业)-[属于]->(行业)
(企业)-[适用]->(税种)
    -[受控于]->(政策)

"从企业出发,沿三条线
 直接走到优惠政策"

→ 一次跨越 4种实体、3种关系

场景:发现循环开票嫌疑

SQL 写法
SELECT a.name, b.name, c.name
FROM 发票 f1
JOIN 企业 a ON ...
JOIN 发票 f2 ON ...
JOIN 企业 b ON ...
JOIN 发票 f3 ON ...
JOIN 企业 c ON ...
WHERE f3.buyer = a.id
-- 环路检测极其复杂
图查询
(A)-[开票给]->(B)
  -[开票给]->(C)
  -[开票给]->(A)

"找到开票的环路"
图数据库天生擅长环检测

→ 检测 A->B->C->A 循环开票

05
PART 05 · 入门引导

知识图谱的量化收益预期

基于2026年2月行业最新数据(全球KG市场$10.7亿(2024) -> 预计$69.4亿(2030),CAGR 36.6%)

86% vs 32%
GraphRAG vs Baseline RAG(企业级)
Microsoft Hierarchical Community, 2025
1.8%
SOTA最低幻觉率(Finix-S1-32B)
Vectara HHEM v2 Leaderboard, 2026.02.23
99.9%
LazyGraphRAG 索引成本降低
Microsoft Research, 2024; Azure集成 2025.06
$69.4亿
2030年KG全球市场规模预测
MarketsandMarkets, 2025 ($10.7亿→$69.4亿)
320%
知识图谱项目 ROI
Forrester TEI Study for Stardog, 2024
100%
答案可溯源(KG固有特性)
图结构天然可追溯
对你意味着什么?

产品经理

问答准确率 3x → 用户满意度直升;政策实时同步 → 功能迭代不再被"信息差"卡住。KG 项目 ROI 320%:图谱越完善,所有 AI 模块同步增强。

财税专家

60+ 政策/年自动入图 → 再也不怕漏更新;关联交易一键穿透 → 审计效率翻倍;幻觉降至 <1% → 数字有据可查,来源可溯源

智能体开发 / 大数据

GraphRAG 91% vs Naive 43% → 根本性质量提升;每条新知识自动连接全图 = 网络效应;LazyGraphRAG 索引成本降 99.9% → 大规模落地可行。

Sources: [1] GraphRAG 91% vs 43% — Microsoft Research "From Local to Global", 2024 [2] 幻觉率0.7% — Vectara HHEM Leaderboard / allaboutai.com, 2025-2026 [3] LazyGraphRAG 99.9% — Microsoft Research, 2024 [4] KG市场$690亿 — MarketsandMarkets, 2025-2030 [5] ROI 320% — Forrester TEI Study for Stardog, 2024
SUMMARY

今天的核心收获

五个模块的精华回顾

是什么

用"点+线"组织知识的语义网络。让机器像人一样理解事物关系。

核心结构

三元组(S-P-O, 主-谓-宾) = 最小知识单元。本体 = 类型+关系+属性+约束。

谁在用

Google、蚂蚁集团、医疗KG、华为、税务总局、Agentic AI……财税场景天然适合。

KG x Agent

知识图谱是智能体的"共享大脑"。GraphRAG = 精准 + 自然流畅。

知识图谱不是遥远的学术概念 --
它是让智能体从「能说话」进化到「懂业务」的关键基础设施

三元组 S-P-O
本体 Ontology
GraphRAG
LazyGraphRAG
Neo4j + Cypher
Agentic AI
Agent × KG
QUIZ TIME

现场小测验:你学到了多少?

点击卡片揭晓答案 -- 看看你能答对几道

-- 基础概念 --
Q1. 知识图谱的最小单元叫什么?
点击揭晓答案
三元组(Triple)
主语 → 谓语 → 宾语
Q2. Schema 和"本体"有什么区别?
点击揭晓答案
Schema = 数据格式校验(表头)
本体 = 语义概念体系(说明书)
80% 用 Schema 够,跨系统推理用本体
Q3. 用三元组表示"A公司开具了发票001"
点击揭晓答案
A公司 → 开具 → 发票001
Q4. "模式层"和"实例层"的区别?
点击揭晓答案
模式层 = 说明书(类型与约束)
实例层 = 拼好的模型(真实数据)
-- 价值认知 --
Q5. 相比传统数据库,KG 最大优势是?
点击揭晓答案
关系是一等公民
多跳查询性能不受层数影响
Q6. GraphRAG 解决了 LLM 的什么问题?
点击揭晓答案
消除幻觉
让回答有据可查、可溯源
Q7. KG 的"推理"能力具体指什么?
点击揭晓答案
根据已有边推导新关系
如 A持股B、B持股C → A间接控制C
Q8. 为什么多跳查询是 KG 的强项?
点击揭晓答案
图结构沿边遍历,无需多表 JOIN
性能不随跳数线性下降
-- 财税应用 --
Q9. 如何用 KG 做股权穿透分析?
点击揭晓答案
沿"持股"边多跳遍历
不需 JOIN 表,一条 Cypher 搞定
Q10. 虚开发票检测中,KG 怎样发现异常?
点击揭晓答案
遍历企业关联网络
识别关联方高频大额开票模式
Q11. 新税收政策发布后,KG 如何更新?
点击揭晓答案
NLP 抽取实体 → 新增图谱边
自动遍历受影响企业并推送
Q12. 用 KG 做税务合规检查的核心流程?
点击揭晓答案
查询企业关系网络 → 约束规则校验
→ 输出合规/异常报告
THINK DEEPER

苏格拉底式提问:深度思考引导

不给答案,只给方向 -- 用提问激发你自己的洞察

澄清概念

"知识图谱和数据库的本质区别是什么?为什么不能直接用 MySQL?"

思考方向:
1. "关系是一等公民" -- MySQL 的 JOIN 操作和图数据库的"沿边遍历"在多跳查询时性能差异有多大?
2. 当关系本身也有属性(如"投资比例 60%"),关系型数据库如何表达?图数据库呢?
3. 试想一个需要 5 层穿透的股权查询 -- 两种方案的 SQL/Cypher 复杂度对比。

追问假设

"如果大模型的幻觉率降到 0%,我们还需要知识图谱吗?"

思考方向:
1. 即使 LLM 零幻觉,它能回答"这条结论的法规依据是什么?"并给出可审计的溯源链吗?
2. 当税务政策每月更新 5+ 条,LLM 如何"实时"感知?微调成本 vs 图谱增量更新成本?
3. 合规审计要求"可解释、可追溯" -- 纯 LLM 输出能通过审计吗?

探索边界

"知识图谱最不适合解决什么问题?它的局限性在哪里?"

思考方向:
1. 创意写作、情感分析、开放式对话 -- 这些"没有标准答案"的场景,KG 能否辅助?辅助到什么程度?
2. KG 的构建成本(领域专家 + 数据清洗)在什么规模下才值得投入?50条数据 vs 50万条?
3. 如果业务领域的知识变化极快(如社交热点),图谱维护成本会不会超过收益?

反向思考

"如果我们的财税系统不用 KG,三年后会变成什么样?"

思考方向:
1. 每年 60+ 条政策变更全靠人工追踪,团队规模翻倍后追踪成本是线性增长还是指数增长?
2. 没有 KG 的关联交易审查:A->B->C 三层穿透靠 Excel 需要多久?错误率多高?
3. 当业务规模扩大 10 倍,现有的"人工经验"模式还能撑多久?瓶颈在哪里?

类比迁移

"你身边还有什么场景,本质上也是'多跳关系查询'问题?"

思考方向:
1. 供应链溯源:原料->加工->物流->零售,每一跳都是"关系查询" -- 和财税穿透的本质区别是什么?
2. 反欺诈:手机号->银行卡->商户->IP地址,社交网络图谱如何发现"团伙"?
3. 你的日常工作中,有哪些场景本质上是在"沿着关系链追溯"?列举 2-3 个。

行动导向

"明天开始,你可以用什么最小行动验证 KG 的价值?"

思考方向:
1. 选一个最痛的场景(如股权穿透 / 政策关联),用 Neo4j 免费版 + 50 条数据建个最小图谱,一天就能跑通。
2. 从你手头现有的 Excel/数据库中,哪些数据最适合先导入图谱?优先级如何排?
3. 最小验证目标是什么?例如"用 Cypher 一条语句完成原来需要 3 张表 JOIN 的查询"。

感谢聆听

LLM + 知识图谱 = 既能聊天,又不胡说八道

“Creativity is just connecting things.”

创造力只是把事物联系起来。

-- Steve Jobs

“I think it’s important to reason from first principles rather than by analogy.”

我认为从第一性原理出发思考,而不是类比推理,这一点很重要。

-- Elon Musk

Survey & Feedback
评估二维码
扫码填写调研反馈
知识图谱系列培训 -- 第一节 · 扫码签到 + 反馈评价
Q&A 时间 · 欢迎提问
知识图谱系列培训 S1 财税多智能体平台 -- 内部技术分享