微信号:infoqchina

介绍:有内容的技术社区媒体

存储系统设计中的二八定律

2015-01-08 12:19 InfoQ


二八定律又名帕累托法则、不平衡原则等,它是一种不均匀分布的理论,已被广泛应用于社会学、企业管理学以及经济学中等。同样,该定律也适应于计算机科学领域,如应用负载、磁盘访问、存储系统设计等也都是不均匀的随机分布。近日,存储服务初创公司Coho Data的联合创始人兼CTO Andy Warfield发表了一篇关于在存储系统设计中二八定律应用的博文。在博文中,Andy Warfield对二八定律进行了介绍,并指出Facebook为大规模的应用程序而设计的存储系统也利用了这种原理。


Andy Warfield指出他们首先对最近11个开发者的台式机存储数据进行了为期一年的跟踪记录,这些记录包括大概76亿次的IO操作和在5TB存储数据上进行的超过28TB传输量。Andy Warfield通过初始容量与时间比例分析发现,这些数据很不均匀,如11台台式机上共存储有5.1TB的数据,这其中还有627GB(大约21%)的数据在一个月内很少被访问,3.1TB的数据在整整一年中没有被访问,如下图所示:


通过以上分析结果图,作者还得出了以下两个新观点:


首先,使用LRU(最近最少使用算法)作为一个填充快速内存的模型能够估算来自服务(或缓存)的请求比例。另外,随着将快速存储介质添加到系统中,访问命中率也在增长。


其次,通过该图还可以计算出基于访问的标准成本,而不是基于每GB的存储成本。伴随着缓存的不停增加,访问命中率却在下降。要实现100%的命中率所花费的金钱是最初使用最小高速缓存而实现35%命中率所花费的11倍多。因此,数据访问的成本将会变得更加昂贵。


关于如何解决分布不均匀的问题,Andy认为不应该把资金花费在提高冷数据的访问性能上,而应该将资金花费在如何提高热数据的访问性能上。


Andy认为当前的存储领域也发生了巨大变化,固态存储已不单单有SATA/SAS SSD、PCIe/NVMe和NVDIMM三种选择,且每个选择的成本和性能都有很大的差别。因此,即使没有磁盘,存储系统仍需要混合介质,只有通过混合形式才可以实现高性能与卓越的价值。一个混合存储系统仍然需要使用磁盘,且应该把热数据存储在高性能的内存中。同样,一个全闪存阵列AFA可能由三个甚至更多的不同类型的混合存储介质。为了最大程度地提高混合存储的性能,Andy还研究了一个新算法


最后,Andy还指出不均匀分布的广泛性以及正因为二八定律才使得系统设计能够服务于最受关注的事物上(如高速公路和农村公路、核心互联网路由器、中心城市交通运输系统等的设计),并提供高性能的服务。对于存储系统的设计也不例外,构建存储系统尤其需要细心地对工作负载进行响应式分析,以确定存储规模并满足实际应用的需要。



 
InfoQ 更多文章 Facebook如何实现PB级别数据库自动化备份 学术派Google软件工程师Matt Welsh谈移动开发趋势 Spotify为什么要使用一些“无聊”的技术? 妹纸们放假了,汉纸们做啥? 大多数重构可以避免
猜您喜欢 Ceph管理节点故障mds迁移到存储节点 冬至 —— 你咋过的? 一种基于Lucene的实时搜索方案 Diving into Doze Mode for Developers java基础语法