数据中心技术

文件存储 (File Storage)	块存储 (Block Storage)
组织结构：层次化：目录和文件名，形成树状文件系统	组织结构：扁平化：数据以固定大小的块存放，直接通过块地址访问
访问方式：通过文件路径和文件名进行访问，使用标准文件操作（打开、读取、写入、关闭）	访问方式：通过块编号直接访问，使用底层块设备操作（读块、写块）
管理层级：由文件系统管理层处理，提供命名、权限控制和目录管理功能	管理层级：在更接近硬件的层级操作，通常由设备驱动程序管理
抽象级别：提供高级抽象，用户通过文件名与数据交互，隐藏底层存储细节	抽象级别：提供原始存储访问，不包含文件系统语义，呈现为原始磁盘卷
典型应用：传统硬盘文件系统（如NTFS、ext4）、网络附加存储(NAS)	典型应用：直接连接存储、存储区域网络(SAN)卷，表现为服务器本地磁盘
适用场景：适合通用应用程序，提供易于理解的文件管理方式	适用场景：适用于对性能要求高的应用，如数据库和虚拟机磁盘

文件存储 (File Storage)

块存储 (Block Storage)

组织结构：层次化：目录和文件名，形成树状文件系统

组织结构：扁平化：数据以固定大小的块存放，直接通过块地址访问

访问方式：通过文件路径和文件名进行访问，使用标准文件操作（打开、读取、写入、关闭）

访问方式：通过块编号直接访问，使用底层块设备操作（读块、写块）

管理层级：由文件系统管理层处理，提供命名、权限控制和目录管理功能

管理层级：在更接近硬件的层级操作，通常由设备驱动程序管理

抽象级别：提供高级抽象，用户通过文件名与数据交互，隐藏底层存储细节

抽象级别：提供原始存储访问，不包含文件系统语义，呈现为原始磁盘卷

典型应用：传统硬盘文件系统（如NTFS、ext4）、网络附加存储(NAS)

典型应用：直接连接存储、存储区域网络(SAN)卷，表现为服务器本地磁盘

适用场景：适合通用应用程序，提供易于理解的文件管理方式

适用场景：适用于对性能要求高的应用，如数据库和虚拟机磁盘

规模	种类

Source: http://sancluster.com/scale-out-file-system/	Source: http://storagegaga.com/the-future-is-intelligent-objects/

规模

种类

Source: http://sancluster.com/scale-out-file-system/

Source: http://storagegaga.com/the-future-is-intelligent-objects/

规模	种类

找位置	找内容

规模

种类

找位置

找内容

Object	File	Block	Archive
Object Storage	NAS	SAN	Tape
Videos, photos serving streaming	All kinds of file	Attach to server	The file needs to be saved permanently
Read (download) data regularly	Read data regularly, install as a network drive	Run data directly on Storage	Rarely to download
High upload / download speed	High upload / download speed	Very High upload / download speed	High upload speed, slow download
Use with CDN	Many usage scenarios	Use with server (VM)	Use independently

Object

File

Block

Host:X.X.X.X	3 副本Switch Read	2 副本 Hedged Read	3 副本 Hedged Read	3 副本 Fast Switch Read（优化）
读取时长 p999	977 ms	549 ms	192 ms	128 ms
最长读取时间	300 s	125 s	60 s	15.5 s
长尾出现次数（大于 500ms）	238 次/天	75 次/天	15 次/天	3 次/天
长尾出现次数（大于 1000ms）	196 次/天	64 次/天	6 次/天	3 次/天

Workload	Domain	Sample size	Total size	I/O stress pattern
3D-UNet	Biomedical	100–150 MB (NPZ)	0.1–2 TB	Bandwidth + moderate metadata
ImageNet	Computer vision	~200 KB (JPEG)	150 GB	Many small reads + metadata
CosmoFlow	Cosmology	8–64 MB (HDF5) 2MB tfrecord	0.5–8 TB	Large contiguous reads, high BW
DeepCAM	Climate science	200–300 MB (netCDF/HDF5)	1 TB	Bandwidth -intensive
FFN	neuroscience EM,	16–64 MB (HDF5 or tfrecord)	TB - PB	Bandwidth (sub-volume access)
LLM training	Language	1–4 KB tokens (Binary index / text)	1–20 TB	Many small random reads
LLM Checkpoint	Language	Entire model (torch tensor)	1 GB – 16 TB	Large sequential writes

对象存储系统专题

内容大纲

对象存储背景

总量日益增长

类型日益丰富

AI加速驱动

挑战一：扩展

存储的两种形式

扩展的两个方面

元数据的职责

对象存储系统的提出

和传统存储系统的比较

传统存储系统

对象、文件、块和归档存储

定义

特性

特性…

标准化

Amazon S3 REST API

更进一步的扩展

主动对象存储

存算一体化

存算一体化…

典型对象存储系统

OpenStack

OpenStack Swift

Ceph as a research project

Ceph

Minio

动手了解对象存储系统

参考文献

挑战二：长尾

对系统来说……

那么代价是……

『不起眼』的事件将一直存在

归纳起来

实际系统组件异常情况繁复

虽然各有预案

仍然难免短板

容错

容滞

站在应用的角度上

经典观测很可能忽视

可是影响其实显著

量化描述尾延迟

横向扩展与尾延迟

纵向扩展与尾延迟

如何应对？

如何应对？…

经典应对策略

主要方法分类

案例1：HDFS

案例2：MongoDB

案例3：字节跳动HDFS改

长尾延迟的观测和预防

参考文献…

挑战三：预测

重温阿姆达尔定律

尾延迟与阿姆达尔定律

初步尝试——排队论模型

现实的系统没有简单的队列

研究背景

主要挑战

关键创新

化繁为简 —— 联合操作抽象

抓住关键 —— accept()等待时间建模

实验效果

实验设置

预测精度

模型贡献

更多的问题

用预测提高缓存算法效率

用预测协调缓存和调度公平性

用预测改善服务质量保障

建立模型预测性能指标

扩展阅读

如何做得更好？

负载特征分析的必要性

大数据存储负载

需求：为系统设计与优化提供依据