计算机系统设计

场景	关键指标	图数据价值
实时推荐	双十一每秒新增25万商品节点，传统方案需每2小时全图重训练，GMV损失预估达15亿/天	跨品类推荐GMV ↑ 27% （相当于日均增收4.3亿） (CSDN)
30 亿节点社交图谱	1.8 EB 邻接矩阵 → 采样后 14 min 训练	GraphSAGE 归纳式学习，新用户 0.3 s 生成嵌入 (CSDN)
团伙欺诈	亿级边，10 层传播路径	3 跳环检测 50 倍提速，欺诈率 ↓50 % (计算机学报)

威胁	传统方案	图数据方案
账户匿名化	单点特征失效	子图匹配 97 % 去匿名化准确率 (计算机学报)
洗钱环路	SQL 5 跳超时	图查询 5 跳 < 100 ms，环路发现 ↑50 倍
恶意软件家族	MD5 黑名单滞后	函数调用图嵌入，变种检出率 ↑35 %

场景	传统方式	图数据方式
全国基站拓扑	15 分钟人工定位	图算法 2 秒根因定位，故障影响面 ↓80 %
30 天话单溯源	批处理 6 h	图数据库 3 跳查询 < 200 ms
腾讯怀来瑞北云 DC	告警风暴需人工逐条分析	图计算+物模型秒级收敛，自动定位准确率 99 %

场景	传统方式	图数据方式
海南疫时接触者追踪	人工电话 48 h/人	图数据库 10 万条记录中秒级锁定 10 871 名接触者
密接判定	纸质问卷易遗漏	3 跳关系网络挖出 378 名密接 & 高风险场所
隔离决策	经验驱动	数据驱动 1 名确诊即隔离，R0 由 3.2 → 0.8

关键词	具体表现
通用框架缺位	无专用图引擎，先用 MapReduce 硬跑：邻表 → 迭代 → 磁盘 → 再迭代
单节点内存版	研究者把 < 1 GB 的 Web 图强行塞进单机内存，写 200 行 C++ 即发 SIGMOD
BSP 原型	在 MPI 上手工实现 3 步超步，验证 PageRank 收敛即可登上高分论文
磁盘为王	2008 年单机能把 10M 顶点 / 100M 边的图在 SATA 盘上跑通就算“可扩展”

概念	早期论文里的原话 & 今天对应术语
Vertex-centric	“Think like a vertex” (Pregel, 2010) → 今日 GNN 消息传递前身
Bulk Synchronous Parallel	“Super-step makes global sync easy” → 今日 BSP/ASP/SSP 全家桶
Edge-cuts vs Vertex-cuts	“Min-cut graph partitioning” → 今日 Balanced & Streaming Partition
Graph-centric Storage	“Adjacency lists stored in column blocks” → 今日 CSR/CSC/Compressed Adj. List

Name	Type	Nodes	Edges	Communities	Description
com-LiveJournal	Undirected, Communities	3,997,962	34,681,189	287,512	LiveJournal online social network
com-Friendster	Undirected, Communities	65,608,366	1,806,067,135	957,154	Friendster online social network
com-Orkut	Undirected, Communities	3,072,441	117,185,083	6,288,363	Orkut online social network
com-Youtube	Undirected, Communities	1,134,890	2,987,624	8,385	Youtube online social network
com-DBLP	Undirected, Communities	317,080	1,049,866	13,477	DBLP collaboration network
com-Amazon	Undirected, Communities	334,863	925,872	75,149	Amazon product network
email-Eu-core	Directed, Communities	1,005	25,571	42	E-mail network
wiki-topcats	Directed, Communities	1,791,489	28,511,807	17,364	Wikipedia hyperlinks

类别	代表方法	特点
基于矩阵分解	LLE(Science'00), Laplacian Eigenmaps(NIPS'01), HOPE(SIGKDD'16), STRAP(KDD’19), ProNE(ICAJI’19)	时间和空间开销大、依赖相似矩阵的选择
基于随机游走	DeepWalk(KDD'14), LINE(KDD'15), Node2Vec(KDD'16), Struct2Vec(KDD’17), DiaRW(FGCS’19)	扩展性更好（时间和空间）、适应性更强

模型	嵌入空间	评分函数	对称性	反对称性	逆关系	组合性	一对多
TransE	ℝ^d	−‖h + r − t‖	✗	✓	✓	✓	✗
TransR	ℝ^d → ℝ^k	−‖M_r h + r − M_r t‖	✓	✓	✓	✓	✓
DistMult	ℝ^d	⟨h, r, t⟩	✓	✗	✗	✗	✓
ComplEx	ℂ^d	Re(⟨h, r, t⟩)	✓	✓	✓	✗	✓
RotatE	ℂ^d	−‖h ∘ r − t‖	✓	✓	✓	✓	✗（弱支持）

技术路径	核心机制	对LLM的要求	优点	缺点/挑战	代表性工作
基于数据集微调	利用包含推理路径的特定领域数据集对LLM进行微调，将知识内化到模型参数中。	需要访问模型参数并进行训练。	推理速度快（无需实时检索）；能深度整合领域知识。	知识更新困难，需要重新训练；训练成本高；可能过拟合特定数据集。	MedReason, JKEM
基于提示工程与检索增强	在推理时，从KG中检索相关知识，并将其作为上下文（Prompt）的一部分输入给LLM。	无需修改模型参数，可应用于任何LLM。	灵活、高效，知识可实时更新；实现相对简单。	受限于上下文窗口长度；检索质量直接影响性能；可能引入无关噪声。	DR.KNOWS
基于推理路径探索与验证	将LLM作为智能体，在KG上动态探索、生成并评估多条推理路径，选择最优路径作为答案依据。	需要LLM具备强大的零样本或少样本推理和评估能力。	可解释性强，能提供完整的推理链条；无需训练，通用性好。	推理过程复杂，计算开销大；路径探索的效率和准确性是关键。	RwT, REKG-MCTS

Method	AQuA	GSM8K	...	Average
Zero-shot-CoT	43.4	78.3	...	72.4
Manual-CoT	54.3	85.8	...	77.3
PS	50.1	82.8	...	75.2
CoT-RAG	65.7	94.7	...	89.1

GMV（Gross Merchandise Volume，商品交易总额）指在一定时间段内，平台上所有已付款订单的金额总和，不含优惠券、退款及任何形式的手续费。在电商大促场景中，它是衡量平台成交规模和业务增长的核心指标。

以面向对象的物模型（Device-Model）描述数据中心内所有可被监控的实体（供配电、暖通、安防、服务器、虚拟机、容器、告警事件等），并将实体之间的拓扑依赖自动转化为图模型；利用实时图计算引擎对流式告警进行秒级收敛、根因定位与影响面分析。换言之，“物模型” 就是 IDC 运维场景下的设备数字化模型，把每个物理或逻辑对象抽象为带属性、带关系的节点；图计算引擎在这些节点/边上运行连通性、最短路径、子图匹配等算法，实现秒级故障定位。

密接（Close Contact）的判定基于时空重叠度，具体定义如下：如果两个人在同一场所（同一小区、同一超市、同一交通工具等）且时间差 ≤ 30 分钟，则在该有向图上建立一条 “可能接触” 边，并标记接触时长与空间距离两个属性。当接触时长 ≥ 10 分钟且距离 ≤ 1 米时，该边被进一步升级为 “密切接触” 边，视为需要隔离的高风险关系。文章随后利用图数据库的 3 跳查询，一次性把满足上述条件的所有密切接触者和场所全部拉出，用于后续精准隔离与流调。

正如知名的Hadoop系统，其实是MapReduce框架的开源实现，其上构建的Spark GraphX也是Pregel的重视复现

系统内以属性图的形式，通过规范化的编程框架来实现复杂的图应用

比方说这个用来找寻维基百科热门社区的应用，里面就包含了两路并行的图分析过程

作为高校的科研成果，GraphLab则更强调处理的范式，结合Pregel的顶点中心计算框架，提出了GAS模型

专攻图数据处理的系统，还专门分支出了一个门类，如今被归类为一种NoSQL的图数据库，曾经风光一时，但是其中最具标志意义的创业公司Neo4j的发展却颇为坎坷，最近倒是又有新的契机闪过，即KG与LLM的合作

这里指代的就是前面提到的 Pregel 系统以及 GraphChi。

为了深入认识这些图处理系统背后的设计方法，有必要回顾一下我们以往学习的计算机系统相关知识

这就是一个典型的并行处理结构，试问其并行任务工作在什么级别呢？

这里则是一个典型的层次存储结构，试问其出现的动机又是什么呢？

趁着刚刚重温了相关概念，这里审视一下目标应用的特点，首先点个题，图应用最突出的存储器访问特点在于这两者：偏斜性和随机性，两者分别是分布式处理和分层存储架构的大敌

上次我们谈到图这种特点鲜明，价值深远的应用，其构造具有偏斜性，行为具有随机性，而支撑其运转的系统，则仰赖各个层级的并行性，以及塑造层次存储的局部性，然而这里面涌现出天然的矛盾，构成了我们面前的第一重挑战

从这个问题开始，我们演示一下作为一名研究生，大致的学习过程应该是怎样的首先，之前学习的记忆里，告诉我们局部性这样一个概念，我们很自然的希望从如今的实验环境中找出来当时课本上是一个什么样的表述呢？我们少许回顾一下

不过，不同阶段，重点可不一样，前面更关注活跃数据的主流，后面则更关注不活跃数据的淘汰

启发式随机游走：HuGE+采用混合属性启发式随机游走（HRW），它在每一步随机游走中考虑了节点的公共邻居数量和节点信息内容，从而更有效地捕捉节点特征，减少了对计算资源的需求。自适应游走长度：HuGE+使用启发式方法来确定随机游走的长度，而不是采用固定的游走长度。这种方法通过观察信息熵的变化来决定何时停止游走，从而避免了生成过多冗余信息，提高了计算效率。自适应游走次数：HuGE+还提出了一种方法来决定每个节点的游走次数，它通过计算相对熵（即Kullback-Leibler散度）来评估生成的语料库与图的度分布之间的差异，从而确定合适的游走次数，以确保语料库的质量和效率。内存占用优化：HuGE+显著减少了内存占用，平均减少了68.9%。这是通过优化游走策略和减少生成的语料库大小实现的，从而使得方法能够扩展到更大规模的图。并行化处理：HuGE+的设计允许并行化执行，这意味着它可以利用多核处理器来同时处理多个任务，从而进一步提高处理大规模图的速度。线性运行时间：在合成图上的实验表明，HuGE+的运行时间与图的大小呈线性关系，这表明它能够以可控的方式处理大规模图。高效的训练方法：HuGE+使用Skip-Gram模型来训练节点的嵌入向量，并通过负采样等技术优化了训练过程，减少了计算和存储开销。

**三阶段设计 (Three-Stage Design)** **Stage 1: 知识图谱驱动的CoT生成 (Knowledge Graph-driven CoT Generation)** * **专家介入:** 领域专家构建一次性的、粗粒度的**决策树 (DT)**，封装领域推理逻辑。 * **LLM转化:** LLM将DT分解并转化为结构清晰、高度透明的**知识图谱 (KG)**。 * **KG节点:** 每个实体包含 `Sub-question`, `Sub-case`, `Sub-description`, `Answer` 属性。 * **优势:** 增强可控性、可靠性与领域适应性。 **Stage 2: 可学习的知识案例感知RAG (Learnable Knowledge Case-aware RAG)** * **LLM驱动的检索:** （非传统向量检索）利用LLM从用户长查询描述中，为KG中的每个实体精准提取对应的 `Sub-description`。 * **动态更新:** 新的用户查询可以反过来动态更新DT中的 `Knowledge case`，使知识图谱持续进化。 **Stage 3: 伪程序提示执行 (Pseudo-Program Prompting Execution)** * **执行方式:** LLM将KG表示为**伪程序知识图谱 (PKG)** 并逐步执行。 * **优势:** * **兼具NL与Code优点:** 像代码一样逻辑严谨，又如自然语言一般易于理解和通用。 * **无需外部解释器:** 摆脱对Python解释器等环境的依赖。 * **可扩展性强:** 可适配C++, Java等语言风格（见附录）。

面向图应用的系统设计

参考资料

参考书

内容大纲

影响深远的图应用

图有着广泛的应用

经典图算法——最短路径

经典图算法——网页排名

经典图算法——子图匹配

人工提取属性

动态图分析

社交网络：关联即生产力

信息安全：攻防新战场

基础设施：秒级排障，绿色运维

卫生健康：图追踪阻断新冠传播

追求高效的图系统

经典图系统

早期形态（2005–2010）

影响后续图系统设计的基本概念

回顾经典系统结构

并行结构

层次存储

图应用访存特点

偏斜性

SNAP真实图数据集

统计度分布

随机性

重温CacheLab

实验准备

经典BFS算法：两个关键数据结构，两重循环体

CSR构造

尝试哪些布局？

怎样使布局亲和架构？

系统怎么设计？

系统怎么设计？……

分布式架构

分布式架构…

分层式架构

分层式架构…

分布式、分层架构

图处理系统发展

反思重排

两个都要

预判活跃顶点：中介中心性

汇聚不活跃顶点：直接邻居

如何高效时空检索？

研究背景

现有存储模型及其局限

一系列动态图系统研究

LSM-Subgraph

基于PMA的邻接数组

变化感知的快照创建

日志合并方法

系统设计

实验效果

表示学习与随机游走

图表示学习

图抽样方法

怎样优化表示学习系统

发挥传统分级存储优势

知识图谱

异构图与知识图谱基础

知识图谱嵌入（KG Embedding）

基本思想

常见的KG嵌入模型

模型特点与适用场景

实际建议

大语言模型和知识图谱

知识图谱帮助思维链

关键问题

实验设置

主要结果

提升通用任务

适配垂直领域

实践作业

知识图谱案例实验

实验背景

实验内容

实验要求

时间安排