数据中心技术

领域	应用案例	效益
智能制造	无人车/云电脑	出货量年增40%
智慧农业	无人机作物监测	产量精准预测
AI+监管	考场违规行为实时识别	保障考试公平
算力超市	上海AI企业算力按需采购	成本降低50%

	Company	Market share	Headquarters
1	Equinix	11.1 %	Redwood City, California
2	Digital Realty Trust	7.6 %	Austin, Texas
3	China Telecom	6.1 %	Beijing, China
4	NTT GDC	4.3 %	Tokyo, Japan
5	China Unicom	4.2 %	Beijing, China
6	China Mobile	2.1 %	Beijing, China
7	CyrusOne	1.9 %	Dallas, Texas
8	KDDI Telehouse	1.9 %	Tokyo, Japan
9	GDS	1.6 %	Shanghai, China
10	Global Switch	1.4 %	London, UK
11	21Vianet	1.4 %	Beijing, China
12	CoreSite	1.3 %	Denver, Colorado
13	Cyxtera	1.2 %	Coral Gables, Florida
14	Lumen (CenturyLink)	1.1 %	Monroe, Louisiana
15	Flexential	1.1 %	Charlotte, North Carolina

特征	Google搜索	KIMI推理	抖音短视频
类型	只读、低延迟	高内存、低延迟	高写入、高吞吐
并行性	请求级并行	模型并行	数据并行
容错性	副本冗余	模型重启成本高	任务可重试

维度	Google	KIMI	抖音
调度	Borg	弹性GPU调度	边缘+中心协同
存储	GFS/Colossus	模型分层存储	视频冷热分层
网络	数据中心内高速网络	高带宽低延迟	CDN+边缘节点

维度	Google	华为鲲鹏
架构	x86为主	ARM架构
CPU	自研/Intel	鲲鹏920
特点	成本优化、标准化	多核高并发、自主可控
应用	搜索、广告、AI	云原生、政企、金融

维度	Google TPU	寒武纪MLU
架构	专用ASIC	深度学习处理器DLP
场景	训练+推理	训练+推理+边缘
特点	高吞吐、低延迟	多精度支持、Chiplet设计
互联	TPU-Link	MLU-Link

维度	Google GFS/Colossus	阿里盘古
类型	分布式文件系统	分布式存储系统
特点	大文件、顺序读写	小文件优化、冷热分层
一致性	弱一致性	最终一致性
应用	搜索索引、日志	淘宝、天猫、菜鸟

等级	可用性	冗余	维护能力
I	99.67%	无	需停机
II	99.75%	N+1	部分可维护
III	99.98%	N+1	可并发维护
IV	99.995%	2N	容错+可维护

项目	AC供电	DC供电
效率	85–94%	94–99%
组件	多（逆变器、变压器）	少（省略逆变）
成本	低（成熟）	高（设备贵）
应用	主流	Google、Facebook试点

类型	特点	适用场景
风冷（CRAC）	成本低、易维护	中低密度
行间冷却	散热效率高	高密度机架
液冷（冷板）	散热强、节能	AI/超算
自然冷却	利用外部低温	寒冷地区

环节	典型损失	优化方向
UPS	6–15 %	高效/旁路/48V DC
PDU & 线缆	1–3 %	缩短路径、提高电压
制冷	10–30 %	自然冷却、液冷
服务器电源	10–20 %	80Plus Titanium

组件	低负载优化	示例
CPU	深睡眠状态 (C-states)	Intel C1E, AMD CC6
内存	频率/电压缩放	DDR5 LPDDR
磁盘	多速盘/磁盘休眠	MAID 架构
网络	能效以太网 (EEE)	802.3az

GPU	TDP (W)	TFLOPS (Training)	Over V100	TOPS (Inference)	Over V100
V100 SXM2 32GB	300	15.7	1X	62	1X
A100 SXM 80GB	400	156	9.9X	624	10.1X
H100 SXM 80GB	700	500	31.8X	2,000	32.3X

Schneider Electric estimate	2023	2028
Total data center workload	54 GW	90 GW
AI workload	4.3 GW	13.5-20 GW
AI workload (% of total)	8%	15-20%
AI workload (Training vs Inference)	20% Training, 80% Inference	15% Training, 85% Inference
AI workload (Central vs Edge)	95% Central, 5% Edge	50% Central, 50% Edge

维度	传统视角（2020前）	AI时代新现实（2025）
瓶颈	PUE、散热	电力准入、并网时延
交付周期	6–12个月（数据中心）	3–5年（500 MW电站）
投资决策	以芯片采购为核心	以电力锁定为核心
资产闲置	少见	H100成排积灰

项目	单位成本	备注
数据中心	$9 / W	含电力、冷却、建筑
服务器	$8 / W	$4000 / 500 W 服务器
网络 & 其他	$1–2 / W	交换机、布线等
加速器	+$0.05/W/月	含NRE摊销（例：TPU）

项目	单位成本	备注
电费	$0.05 / W /月	6¢/kWh × PUE1.5 × 75% 利用率
运维 & 维修	$0.04 / W /月	安保、巡检、备件
人力	隐性	1人/千台（Google SRE模式）
贷款利息	8% 年利率	按CapEx比例折算

模式	3年总成本	备注
自建（案例A）	$7.8k	100% 利用率
公有云 On-Demand	$20k	仅30% 时间运行
公有云 3年预留	$9k	与自建接近，免运维

级别	描述	举例	用户感知
损坏	数据丢失或损坏	磁盘坏块、内存位翻转	是
不可达	服务完全不可用	服务器宕机、网络断	是
降级	服务性能下降	搜索少一个分片	部分
屏蔽	故障被完全隐藏	副本切换成功	无

组件	年故障率	备注
磁盘	2–4%	比厂商标称高3×
内存	1/3机器/年（可纠正）	ECC有效
电源	1–2%	通常伴随宕机
网络端口	0.1–0.5%	多路径可屏蔽

操作	用时
L1 cache reference	0.5 ns
Branch mispredict	5 ns
L2 cache reference	7 ns			14x L1 cache
Mutex lock/unlock	25 ns
Main memory reference	100 ns			20x L2 cache, 200x L1 cache
Compress 1K bytes with Zippy	3,000 ns	3 us
Send 1K bytes over 1 Gbps network	10,000 ns	10 us
Read 4K randomly from SSD*	150,000 ns	150 us		~1GB/sec SSD
Read 1 MB sequentially from memory	250,000 ns	250 us
Round trip within same datacenter	500,000 ns	500 us
Read 1 MB sequentially from SSD*	1,000,000 ns	1,000 us	1 ms	~1GB/sec SSD, 4X memory
Disk seek	10,000,000 ns	10,000 us	10 ms	20x datacenter roundtrip
Read 1 MB sequentially from disk	20,000,000 ns	20,000 us	20 ms	80x memory, 20X SSD
Send packet CA->Netherlands->CA	150,000,000 ns	150,000 us	150 ms

A100：A100拥有6912个CUDA核心和432个Tensor核心，理论最大半精度（FP16）算力为19.5 TFLOPS（每秒浮点运算次数），理论最大AI计算性能为624 TFLOPS（结合FP16、FP32和INT8等计算精度）。 H100：H100的CUDA核心数减少到5120个，但Tensor核心数增加到640个。在算力方面，H100的FP64算力为60 TFLOPS，FP16算力为2000 TFLOPS，TF32算力为1000 TFLOPS，而针对AI任务优化的FP8精度算力更是高达4000 TFLOPS，是A100的六倍。

其实早期UPS和备用电池的使用已经埋下伏笔

想想看还有什么特别的冷却方法？北欧的壁炉式"数据中心"

后面将配合PUE能效指标进一步讨论

报告显示，2018年数据中心的总用电量约为205太瓦时，约占全球用电总量的1%（该领域通常引用的统计值为2%，可以看出数据中心实际耗能远低于此）。205太瓦时的功耗相较于2010年的数值增长了6%，但是同一时期全球数据处理中心计算量却增加了550%。更确切地说，在计算量大幅增加的同时，能耗基本保持了稳定。文中列举了许多原因。首先，硬件电源效率得到了极大的提高。数据处理向虚拟服务器端迁移，这使得在仅6%的能耗增长下，计算量增加了6倍。得益于更快、更节能的端口技术，虽然数据中心的IP流量增长了10倍，但是网络设备的能耗增长却十分有限。该报告还指出，超大规模数据中心技术的兴起和使用也帮助减少了能耗。超大型数据中心和云数据中心通常比企业数据中心具有更高的能源效率，因为高效的能源利用对于它们更为重要。像亚马逊、微软、谷歌这样的公司，在处理数据方面需要的电能越少，利润空间就会越大。超大规模数据中心非常注重使用更为便宜的大量可再生能源，如水电和风能。因此，如果某个公司将本身效率低下的老旧数据中心换成AWS（亚马逊网络服务）或者Google Cloud（谷歌云），那么整个数据中心的总功耗将会下降。 https://www.fx361.com/page/2020/0503/6626362.shtml

具体可以怎么实现？下面有几个范例参考

全国数据中心能效水平不断提升。根据 CDCC 统计分析，2021 年度全国数据中心平均 PUE 为 1.49，相较于 2019 年全国平均 PUE 近 1.6，全国数据中心 PUE 已有所提升。其中华北、华东的数据中心平均 PUE 接近 1.40，处于相对较优水平。华中、华南地区受地理位置、上架率及其他多种因素的影响，数据中心平均 PUE 值接近 1.6，存在较大的提升空间。

随着多个省市实际要求设计 PUE 不高于 1.2，液冷等新技术嵌入加速普及。“东数西算”政策明确要求到 2025 年，东部枢纽节点数据中心 PUE＜1.25，西部枢纽节点数据中心 PUE＜1.2，实际上目前很多省份数据中心项目可研审批均要求在设计 PUE 在1.2以下。同时在各大节点绿色节能示范工程实施推动下，数据中心建设低碳化进程有望进一步加快。按照赛迪顾问相关数据测算，液冷渗透率预计在 2025 年达到 20%。同时，在氟泵变频技术、热管多联技术、间接蒸发却机组（AHU 一体化机组）、智慧机房运维（AI 调优等）等其他新技术也在快速推广开来，数据中心能效优化空间有望进一步扩大。

做研究要多思考背后因素

系统结构课堂应该从另外一个角度谈过这个范例

算力 2.0 时代到来，算力由基础算力向智能算力发展，异构算力需求崛起。数字经济高质量发展诉求推动算力由 1.0 向 2.0 演进，单纯数据中心转向数算一体服务，并由基础算力向智算等高阶算力演化。算力 1.0 主要提供数据存储、分发服务，传统数据中心相当于一个算力“仓库”，对数据大规模处理和提供高性能计算（智算/超算）能力有限。算力 2.0 由新型数据中心提供大规模数据处理和高性能计算能力，具有互通性、智能性、融合性、绿色性、安全中立性等五大特征，自 2020 年“新基建”概念提出以后，国家着重开始规划新型算力中心，例如在 2020 年 4 月，国家发改委明确提出要推进新型算力设施规划。

据 IDC、Gartner、中国通服数字基建产业研究院等多方机构测算，2020 年我国算力总规模达到 135EFlops，全球占比约为 31%，同比增长 55%，进一步缩小与美国等发达国家差距。其中，基础算力规模（FP32）达到 77EFlops，全球同类占比约为 26%，美国占比 43%；智能算力规模（换算为 FP32）达到 20EFlops，全球同类占比约为 19%，美国占比 52%，中美差距较大；超算算力规模（换算为 FP32）约为 2EFlops，全球同类占比约为 20%，美国占比 31%。

算力对数字经济乃至经济社会数字化转型发展具有明显带动作用，是新发展格局下衡量经济状况的“晴雨表”和“助推器”。统计分析显示，计算力指数的水平，与国家GDP的发展水平，与数字经济的发展水平呈现出明显的正相关的关系。根据分析结果，在15个国家里，算力指数每提高1%，数字经济和GDP将分别增长3.5‰和1.8‰。

数据中心技术简介

历史和现状

历史起源

标准规范

发展阶段

发展阶段…

现实业务需求

随之而来的数据洪流

从侧面观察这股洪流

新基建倡议

AI产业的强劲发展

AI进一步给数据中心的发展演化提速

算力规模全球领先

国家枢纽工程

绿色革命与产业赋能

西部绿色实践

产业深度应用

创新业态与未来趋势

算力驱动新经济

未来发展趋势

数据中心经典案例

“十大”

ACC7

Tahoe Reno 1

Range International Information Group

瑞士诺克斯地堡 (Swiss Fort Knox)

NSA在用什么？

Utah Data Center 犹他数据中心

谷歌

亚马逊

微软

AWS, Azure and Google Cloud

AWS, Azure and Google Cloud …

国内情况

细分类型

地域分布

阿里

腾讯

T-Block

身旁的范例

巨无霸背后的巨无霸

智算中心

南京智算中心

上海“新一代人工智能计算与赋能平台”

张北超级智算中心

xAI Colossus

平台软件与负载特性

Google WSC 软件架构概览

平台层与集群层基础设施

应用层与典型工作负载

新兴工作负载：大模型推理（以KIMI为例）

KIMI的WSC适配策略

新兴工作负载：短视频UGC（以抖音为例）

抖音的WSC适配策略

对比分析（1）——工作负载特征

对比分析（2）——系统优化策略

架构启示

本章小结

基础硬件与设计取舍

Google WSC 硬件架构概览

服务器设计对比概览

华为鲲鹏服务器

AI加速器对比概览

寒武纪MLU架构

AI加速器系统级设计

存储系统对比概览

阿里盘古存储系统详解

系统级优化趋势

本章小结

供电和冷却

数据中心分级（Tier I–IV）

供电系统架构

AC vs DC 供电对比

冷却系统原理

冷却系统设计类型

Google案例——天花板冷却系统

系统级优化与趋势

小结与启示

集中供能和效率优势

惊人的能耗