微信号:dellemc_tech

介绍:为戴尔易安信客户提供技术支持服务,为广大IT行业用户分享技术文章与行业信息。

这些硬盘参数你都懂吗?(下)-监控选型与系统设计

2016-06-30 17:42 唐僧
点击上方“企业存储技术”可以订阅哦


在之前的《这些硬盘参数你都懂吗?(上)-从案例引发的讨论》一文中,我们从用户实际需求出发,围绕下面2个表格对不同硬盘的性能和可靠性差距展开了部分讨论。其中包括但不限于这几个要点:

1. 振动对硬盘的影响及防范
2. 可靠性前提条件和NL硬盘的由来
 -  小知识:硬盘读写负载与SSD擦写寿命
3. 环境规格——温湿度范围
4. MTBF不是虚标:换算出年均故障率


前文补充与续篇展望


在上篇发布之后,有专家朋友对硬盘振动部分给出了很好的补充——“这里面涉及的因素主要有硬盘的转速、数量以及箱体结构设计。应该再加一个,机箱内风扇(包括电源风扇)的整体设计考虑

 

另外还有一点,硬盘Carrier(支架/托架)的设计,举个简单例子,在一些偏消费级的机箱上您可能见过硬盘固定螺钉部位的减震橡圈,企业级产品考虑的情况要更复杂一些。

 

其实我也正好想起多年前与同行讨论磁盘阵列机箱的风扇转速,比如支持5400RPM7200RPM两种转速的硬盘,散热风扇则应该避开这两个点,以免形成共振。我进一步回忆,机箱里的活动机械部件除了硬盘就是各种风扇了,不过实际上能够产生振动甚至发出声音的还不止这些——比如电路板上的某些元件——有同行朋友已经知道了吧:)当然这个与本文主题无关,留到下一篇有时间再闲扯。

 

还有朋友问到了实际应用中UEBR(不可恢复读错误)与理论值是否相符?我在下文中会有讨论,但只是理论对比分析,受篇幅所限还是决定把进一步的思考单独再写一篇。其实软盘和光盘在常规介质容错上采用的技术有共通之处。


还是先回到本文的主题上来。


理想很丰满,现实有时却骨感
在谈到MTBF(平均无故障时间)和AFR(年均故障率)两个指标时, 也许有的读者会说:“我使用的硬盘比这个故障率要高啊?”这种现象确实存在的不少,比如我国南方空气湿度偏高,电子设备受到氧化、腐蚀的速度会加快。硬盘厂商给出统一的数字,是要在 推荐的环境范围内,并且系统设计(特别是机箱结构设计)要达标。

这里我又想起10年前参加过的一次 Intel ESDC(服务器系统设计峰会), 工程师在上面讲针对一款机箱振动的验证测试,印象中是2U 12个1500转3.5英寸硬盘。结果台下另一位Intel其他部门的同事就提出疑问,表示 实际共振情况没有这么理想,随机访问性能会下降20%。据此大家就不难理解我在中引用“15K硬盘能够达到21 rad/sec/sec”的用意了吧?

要想把硬盘用好,获得理想的性能和可靠性,还有许多要注意的问题。接下来我们再此列出《上篇》中的表格,并继续之前的讨论。


5
视频监控写入负载是否会超标?
我们根据硬盘每年的读写负载,计算出550/300/180/55TB对应到平均每天就是1.51/0.83/0.49/0.15TB,平均每秒大约17.5/9.6/5.67/1.74MB。 回到本文上篇中那个数据备份的需求,每天写入不到1TB的数据,使用Enterprise Capacity这个档次的Nearline硬盘比较合适。

戴尔、惠普等一线品牌服务器和企业级存储阵列,选配的7200转大容量硬盘一般都是Nearline系列。上图引用了《戴尔SCv2000:入门级阵列硬件设计功力》一文中样机上安装的Constellation ES.3 4TB SAS硬盘,希捷从这一代之后的V4改用Enterprise Capacity系列名称。

这里我还有一点疑问: 视频监控应用是比较典型的多流写入,而且7x24小时连续工作,在一个系统中为了应对单盘故障RAID保护又是有必要的。首先,年负载55TB的桌面硬盘很容易超标;其次, 如果有高清监控且需要保留时间较短的场合,每块硬盘平均写入速度超过5.67MB/s,是否将年负载180TB的监控盘换成550TB的Nearline硬盘更合适呢?

我也曾咨询过硬盘厂商的工程师, 如果超出建议负载较多其故障率会高于标称的AFR(监控盘为0.88%),而且Enterprise Capacity(ES)的AFR设计标准本身就低至0.44(8TB)~0.63%,可以降低后期维护的成本和数据丢失风险。

至于“云盘”,其平均故障率监控盘还要高些,只要不在意也可以用吧?

当然这里面还有成本的因素,Enterprise Capacity的公开报价是7200转盘里面比较高的。由于视频监控在国内的市场巨大,像海康、大华这样的厂商在监控硬盘上估计有较大的议价能力。

6
盘位数支持与箱体结构要求
在每个机箱支持的盘位数上,最新资料4TB及以上写的都是“8+”,而我们在另一份早些的希捷监控硬盘资料中看到了这样的描述:
上图截自
《Seagate Surveillance +SRS HDD Product Manual, Rev. E》

在视频监控环境中, 非RAID应用顺序(I/O)使用模型下盘数不限。(取决于箱体结构)而监控硬盘在RAID应用中建议≤16盘位。究其原因,如果做了RAID,硬盘磁头容易按照同样的轨迹来运动。这时共振的影响应该会有所加大。

回到我们引用的那个英文表格, Enterprise Capacity系列硬盘支持大于8盘位的部署,在有的机箱中甚至支持84、90这样的盘位。

扩展阅读:《高密度盘柜难点:评戴尔SCv2080结构设计》

戴尔SCv2080、PS6610高密度双控制器阵列、SC280/SC180 JBOD扩展柜,其5U机箱支持84个3.5英寸SAS硬盘驱动器,通过上下2个“抽屉”来安装/更换硬盘,结构设计比较巧妙。

根 据我的理解,ENAS系列虽然抗旋转振动能力与Enterprise Capacity相同,但由于其主要定位中小型设备,只建议配置不超过16盘位,对机箱结构要求相应放松。经济型Constellation CS主要针对互联网等大型分布式环境,其中定制系统相对偏多,需要适应各种不同需求,因此抗旋转振动也达到了12.5 rad/sec/sec。

7
不可恢复读错误:NL盘表现居中
不可恢复读错误可以理解为 介质上静态数据损坏的比率,由于这个数值比较固定, 随着单盘容量增大在一块盘上遇到错误的几率也越来越高。我们注意到,Enterprise Capacity和ENAS的该项指标比10K、15K高转速SAS硬盘高一个数量级,但比桌面和其它“准企业级”硬盘还是要低一个数量级的。

对于监控硬盘,资料显示目前只有8TB型号可以达到1 per 10E15。由于目前桌面硬盘的容量只达到6TB,那么 8TB监控盘有可能与Enterprise Capacity出自同一平台。

由于不可恢复读错误可能在RAID Rebuild时才暴露出来, RAID卡、磁盘阵列控制器普遍设计了后台介质扫描的功能,而有些廉价视频监控设备使用的软RAID就不好说了。此外,EMC等存储厂商还使用非标准扇区(从传统512byte增大到520byte)加入校验实现容错。

8
NL-SAS并不只是“假SAS”硬盘
主机接口方面, 7200转硬盘中只有Nearline(Enterprise Capacity)系列具备SAS版本。除了SCSI协议的完整性之外,最重要的是提供 双端口支持,在那些双控磁盘阵列中SATA驱动器还得加个转接板就不划算了。而且,也只有SAS接口硬盘才能 兼容520/528这些非标准扇区大小。

在质保年限上,桌面硬盘目前执行2年;Enterprise Capacity、NAS与高转速SAS同为5年;表格里对比的其它7200转硬盘基本上是3年。根据经验, 质保5年的硬盘设计寿命一般在8-10年,如果超出5年使用故障率会提高;同理,普通7200转硬盘的设计寿命通常也有5年,缩短保修时间也有降低服务成本的考虑。

至此,我们看出ENAS系列应该是由Enterprise Capacity近线硬盘“降级”而来,它们之间的定位可以从开头表格中的组件级差别上看出来。比如:两者都使用了相对较好的 高通量密度音圈磁头,而 读写头和盘片ENAS为Performance而Enterprise Capacity采用High Performance等级。总之结构决定性质,只是我们在本文中并不都需要深挖。

9
性能增强新技术:Flash缓存、掉电保护
在硬盘上添加少量闪存的固态混合硬盘(SSHD),希捷最早推出消费级产品,并于后来引入到企业级市场(只限10K高转速SAS盘)。客观地说其市场空间不大,因为在混合阵列上可以做SSD+HDD之间的分层存储,混合硬盘用于服务器也要看应用能否发挥其优势。

不过加入Flash之后带来了另外一个用途——掉电保护。我们知道早期硬盘上DRAM缓存中的数据断电就会丢失,所以对数据一致性要求高的应用通常会选择在RAID卡/阵列控制器上关闭硬盘自身的写缓存。如今则可以 利用电容和盘片旋转的势能将DRAM写缓存区的数据写到闪存中。

对于没有Flash缓存的Enterprise Capacity,希捷在最新一代8TB型号上 内置了2MB NOR闪存,用于掉电时备份写缓存数据,因此可以打开WCE(Write Cache Enable),大幅提升随机写性能——IOPS 342明显超出读IOPS 164(队列深度16)。

据了解, HGST企业级硬盘采用了另一种技术来达到同样的目的—— 开辟一小块磁道做为将随机写I/O变成顺序写入的缓冲区。

10
硬盘厂商怎么说?
上表引用自希捷文档《安全和智能的监控硬盘选择指南》

其实希捷官方也做了监控专用硬盘和企业级3.5寸海量盘的对比。首先,监控盘“划算”就是在谈它的性价比;而性能、节电模式/响应时间、写入负载、抗振动、SAS接口支持和质保期限上Enterprise Capacity都更胜一筹,具体的技术我们都已讨论过。

11
更多选购要点:系统设计和兼容性

以上写了这么多硬盘自身的特性,其实同样的盘用在不同系统上其可靠性表现也可能会有不小的差距。


比如散热设计,我认为正规一些的服务器、存储厂商,测试 每个盘位上承载最大功耗硬盘时的满负载工作温度,应该是比较基本的要求。对于一线品牌, 安装各种转速硬盘时产生的线性、旋转振动值是否超标,估计也在结构方面的测试项目中。用软件仿真和实测可以做为互补,通过这些评估工作可以看出 机箱、硬盘托架等有无改良空间,能够支持的硬盘范围等。

戴尔DSS 7000高密度存储服务器,在4U空间内提供了90个3.5英寸热插拔硬盘位(扩展阅读:《DEF2015:4U 90盘位双节点Xeon E5服务器解析》)

举例来说,像4U 60盘位及更高密度的机箱,我看各家基本都不支持15K高转速硬盘。如果支持2.5寸10K硬盘,在这里也是 不应该按经验“拍脑袋”决定的。

再比如前几年,某公司进入企业存储领域时间尚短,其硬盘故障率偏高,也是投入了不少资源来改善。

另一方面,从EMC、戴尔等厂商采购的硬盘,与渠道市场中的相同型号也有些区别。定制的Firmware版本只是一个表象, 兼容性测试也是很重要的工作。因此大家 最好还是按照系统厂商的建议来选购硬盘,如果一时贪图便宜导致数据丢失就得不偿失了。

我们建议, 如果您没有条件计算读写负载,或者不确定服务器/存储机箱本身消减振动的能力,选择一款规格较高、有裕量的硬盘相对比较保险。比如本文对比中的Nearline硬盘Enterprise Capacity(ES)系列或者其他品牌的同级产品。

终于到了这两篇的结尾,我想说一句:“写硬盘很累”,而硬盘读写数据也是有一个“疲劳磨损”的过程,希望能够引起人们对可靠性的关注。尽管这是我熟悉并关注近20年的领域,为撰写本文还是查阅、整理了大量资料。总之希望对大家有所帮助,同时也欢迎各路高人批评指正!



:本文只代表作者个人观点,与任何组织机构无关,如有错误和不足之处欢迎批评指正。进一步交流技术可以加我的QQ/微信:490834312

 

感谢您的阅读和支持!《企业存储技术》微信公众号:huangliang_storage


长按二维码可直接识别关注


点击下方“阅读原文”,查看更多历史文章
↓↓↓
 
戴尔易安信技术支持 更多文章 备份和归档的区别 云计算的三种模型:公有云、私有云和混合云 正确描述IO类型 【大咖讲网络】谁动了我的网络 浅析I/O处理过程与存储性能的关系
猜您喜欢 OSD中的日志、事务 课程丨Big Data Engineer直通车(火热招生中) 杨元庆的联想29年之痒 万国数据今日登陆纳斯达克 募资规模约为1.925亿美元 Prometheus进阶