数据中心技术

施展,童薇,胡燏翀,谭支鹏
武汉光电国家研究中心,计算机学院
2025-11-12 至 2026-01-02

授课教师

基本信息

计算机系统结构延伸

仓储级计算机

Before the onset of the current pandemic, some of us may have underappreciated how important computing technology and cloud-based services have become to our society. In this last year, these technologies have allowed many of us to continue to work, to connect with loved ones, and to support each other. I am grateful to all of those at Google and everywhere in our industry who have built such essential technologies, and I am inspired to be working in a field with still so much potential to improve people’s lives.

一台机器一个数据中心

在《The Datacenter as a Computer》中,谷歌工程师提出了一个革命性视角:将数万台服务器组成的整个数据中心,视为一台统一的"仓储级计算机"

这不仅仅是规模的扩张,更是根本性的范式转移:

  • 硬件协同:通过网络化将分散的算力单元整合成强大引擎
  • 软件定义:通过全局调度系统让数万芯片如臂使指
  • 容错设计:接受部分组件故障,确保整体服务永续

这个理念,正是我们今天理解算力革命的思想基石。

思想的缘起

Barroso was born in Brazil and had a bachelor’s and master’s degree in electrical engineering from the Pontifical Catholic University of Rio de Janeiro.

In the United States, he did a doctorate in computer engineering at the University of Southern California and worked with processors at Compaq and Digital Equipment Corporation. In 2001, he joined Google as a software engineer.

According to an article in Wired, Barroso had never designed a datacenter until he received this request from Google. He came up with the concept of "datacenter as a computer", building data centres with low-cost components, as we know them today.

He comments that the lack of experience in datacenter design may have been an advantage, as we questioned almost every aspect of how these facilities were designed. Perhaps the most important thing was having the opportunity to look at the entire design, from the cooling towers to the compilers, and this quickly revealed important opportunities for improvement. Barroso’s idea quickly spread throughout Silicon Valley, among the datacenters of other Internet giants.

当今的战略

现在,把镜头拉远——如果单个数据中心可以是一台计算机,那么将全国的数据中心联网,不就构成了一台史无前例的"国家计算机"吗?

这就是中国算力网的宏伟蓝图:

  • "拧成一股绳":将东部的前沿推理与西部的庞大训练算力无缝衔接
  • 统一调度:像操作系统管理内存那样,在亿级用户间动态分配资源
  • 标准协议:建立跨地域的"机器语言",让异构算力顺畅对话

在国家尺度上,实践"数据中心作为计算机"的核心哲学

扬体制所长

通过东数西算工程,将"软硬协同"的思想提升到地理维度:

  • 东部"前端":在北京、上海、深圳部署低延迟计算,如同计算机的"缓存"
  • 西部"后端":在贵州、内蒙古等地建设大规模算力集群,如同"硬盘阵列"
  • 网络"总线":通过高速光纤网络,构建国家级的"数据总线系统"

这恰如一台精密的计算机——不同部件各司其职,又通过高效互联成就整体性能。

授课目标

  • 工程实践方面
  • 学术探索方面
    • 相关领域研讨前沿技术与进展
      • 数据中心扩展性、性能、服务质量、可靠性……
    • 建立独立研究技能解决问题
      • 选题汇报与研讨、应用实践与检验……

评分构成

  • 论文研讨 30%
    • 制作胶片汇报一篇相关论文
      • 第一周确认计划安排,40位同学每人选择1篇Paper准备汇报(具体要求见后
      • 每位同学有10分钟汇报和2~3分钟问答
        • 请严格守时(开PPT排练计时,超时扣分)
    • 做一些贡献,积累一些经验:模拟Rebuttal
  • 实验作业 30%
  • 开卷考试 40%
    • TBA

研讨论文列表

扫码在线填表

关于论文选择

本次课堂仅做前述范围限定,同学们也可以自选在前面课堂中讨论过的,自己已经比较熟悉的论文进行汇报,学习重点在于研讨过程

选择举例FAST24

  • Distributed Storage(这个分论坛就属于课堂主题相关,其中论文优先挑选)
  • Session Chair: Raju Rangaswami, Florida International University
    • TeRM: Extending RDMA-Attached Memory with SSD
    • Combining Buffered I/O and Direct I/O in Distributed File Systems
    • OmniCache: Collaborative Caching for Near-storage Accelerators

初学者参考

首先明确:读论文不是读课文

如何读论文【论文精读·1】, 2021-10-06

【论文干货】 顶级AI专家吴恩达教你:如何有效读论文?研究生必看!-CS230/人工智能论文/机器学习, 2023-10-17

务必有了基础认识之后,再来找AI配合

不过……

在读论文之前

  • 传统教育模式的颠覆:自2022年11月ChatGPT发布以来,基于LLM的AI工具在各种考试中表现出色,能够即时生成与学术研究人员撰写的论文相媲美的内容,学生可以轻松完成作业。
  • 作弊启示录:ChatGPT的出现使得传统的评估模式变得过时,因为学生的成绩可能不再反映他们的真实能力。
  • 作弊的本质:当任务被视为外在的、与个人身份无关时,使用工具完成任务并不被视为作弊。
  • 前进之路:为了适应人工智能时代,大学教育需要从以教学为中心转变为以学习为中心,利用人工智能作为实时、自适应的导师、辅导员和助手。
  • 个性化辅导:ChatGPT可以作为个性化辅导工具,帮助学生提高(非母语)写作和其他学术技能。

人工智能时代的大学教学变革中国教育网络 2024年8月刊
来源:美国高等教育信息化协会 EDUCAUSE
作者:丹·萨罗菲安-布廷
编译:李想
责编:项阳

方向调研工具推荐

玻尔 | 全球科学家的 AI for Science 空间站 https://www.bohrium.com/

SciMaster | Towards General-Purpose Scientific AI Agents https://scimaster.bohrium.com/chat,学术码: 3ixmffnr

内建MCP负责Survey,适合于快速摸索新方向

要学会站在AI的肩膀上
而不是靠着TA

现实问题

读多了论文头晕

导师只给了大方向

学长着做实验

项目只是堆材料

开题在即,问题在哪里

如何批判性的锻炼批判性思维

尝试唤醒自己的工具

提示词 baseline:

"请从实际应用落地的可行性、核心工作的代价和收益矛盾、实验场景和负载的代表性这几个方面,对这项工作提出质疑"

常用模型:DeepSeek、KIMI、豆包、文心、ChatGPT ……

交叉评价:

注意:提示词不要太长,建议100字以内,否则就不是引导模型质疑,而是用户在主导质疑了

参与贡献: https://github.com/cs-course/SocraticInquirer

课程计划

讲座主题 日期 地点
1 数据中心技术概述 11-12(周三5-6) 11-14(周五5-6) C12-S207
2 对象存储系统与尾延迟问题 11-19, 11-21 C12-S207
3 数据中心固态存储技术 (童老师) 11-26, 11-28 C12-S207
4 数据中心磁盘故障预测技术 (谭老师) 12-03, 12-05 C12-S207
5 数据中心可靠性保障技术 (胡老师) 12-10, 12-12 C12-S207
6 论文研讨* 12-17, 12-19 C12-S207
7 论文研讨 12-24, 12-26 C12-S207
8 论文研讨 12-31, 01-02 C12-S207

* 每周13名同学

数据中心技术总体介绍

同学们刚刚重温过的计算机系统结构课,其自然延伸,自第五版起纳入数据中心一章,第六版引入的是DSA领域专属结构,即加速器

从指令集并行、数据级并行、线程级并行到请求级并行

对于越大规模的系统来说,其内生复杂性的重要性就越高

计算机体系结构最高奖Eckert-Mauchly奖,上一年奖项还是颁给那位提出强制、容量和冲突缺失,也就是3C缺失的科学家,就是计算机系统结构课本里面的内容,这次的,也要被写进课本里了,就是最新版的计算机系统结构课本 First awarded in 1979, it was named for John Presper Eckert and John William Mauchly, who between 1943 and 1946 collaborated on the design and construction of the first large scale electronic computing machine, known as ENIAC, the Electronic Numerical Integrator and Computer.

- 综合应用题x4(**2024-01-10**晚**18:30-21:00**,**西五楼220**)

日常赛作为入门学习,学有余力可以遍寻各大竞赛平台PVP收获成就

所以,今年开始的论文研讨学习,我们不再要求提交综述,实验部分也不再要求复刻代码,前者要聚焦研讨,后者要面向实际问题,聚焦实验设计与数据分析