微信号:dellemc_tech

介绍:为戴尔易安信客户提供技术支持服务,为广大IT行业用户分享技术文章与行业信息。

存储基础(二)

2016-08-07 12:29 张芸,万林涛

存储基础(一)



7. FC (Fibre Channel) & FCoE


光纤信道,是一种用光纤作为媒质的光传输通道,是一种高速网络技术标准。 在初期,FC主要是为高速局域网设计的,现在多用于SAN等存储网络中。光纤信道具有长距离、高速率、低延迟和低错误率等特点。在FC标准中,制定了三种标准的拓扑结构:点到点(Point-to-Point)、已裁定环路(ArbitratedLoop)和Fabric。在一个Fabric拓扑中,一般需要一个或多个光纤交换机将设备连接起来(见下图)。FC协议栈分为五层,从FC-0到FC-3最底层的四层规定了基础通讯技术规范,包括物理接口、传输格式和寻址等;最上层的FC-4则定义了如何将上层用户协议(UpperLayer Protocols, ULPs)映射到底层的光纤网络中。由于以太网的快速发展(千兆网和万兆网的出现和普及)以及存储网络、传输网络的不断融合,现在又出现了以太网光纤通道FCoE(FibreChannel over Ethernet)。FCoE将底层关于传输的协议层FC-0和FC-1完全用以太网协议取代,上面的几个协议层依然不变。FCoE的好处是不需要特殊的FC接口,从而减少了服务器上的网络接口数量,简化了管理配置和降低了功耗等。



8. Object-based storage device (OSD)


Object-based Storage Device (OSD) 即基于对象的存储设备,是一种计算机存储设备。它类似于磁盘存储但是工作在更高的层次上。不像一般的存储设备那样提供基于块的接口来存取固定大小的数据块,OSD将数据组织起来存放在可变大小的数据容器中,这个容器称为对象(objects)。每一个对象包括有数据(一段未解释序列的字节)和元数据(一组可变长的描述对象的属性)。OSD的命令接口包括创建和删除数据、向个别对象写入字节、从个别对象读取字节、设置和读取对象的属性。OSD承担管理存放对象和它们的元数据的存储的责任。同时OSD实现了一套安全机制来提供对于每一个对象和每一条命令的访问控制。


EMC的Atmos就是OSD的一个典型例子。




9. CAS (Content Addressed Storage)


内容寻址存储是由EMC于2002年4月份率先提出的针对固定内容(FixedContent)存储需求的网络存储技术—因此,CAS有时候也被称为固定内容存储(FCS, Fixed Content Storage) 。所谓固定内容,是指那些一旦生成就很少或从不再改变的数据,具有一次写入、多次读取(WORM– Write Once Read Many)的特点。典型的数据主要包括法律条文、标准和规范的电子文档、数字化医学信息、电子邮件及附件和卫星图像等。在CAS中,数据的存取是基于其内容寻址,而不是通过传统存储中所谓的路径和文件名。当存放数据时,首先计算其哈希值作为其数字指纹,然后根据该数字指纹来决定数据存放位置。因此CAS具有数据一经写入便无法修改的特点,从而可以满足法律对于某些企业特殊数据存储的规定和要求(比如,美国2002年通过的著名的萨班斯法案—从年份上不难看出这部法案和CAS的关系)。另外,CAS具有丰富的标签信息,还可以对数据的进行版本追踪,因此具有良好的可搜索性。EMC于2002年发布的Centera系列产品是典型的CAS存储系统。




10. Document Management System(DMS)


Document Management System(DMS)是文档管理系统,为应用程序提供服务。它采用多种方式处理和管理信息和数据。比如,它可以确保信息按照需求进行分类使用和存储。DMS也可以从不同的应用程序链接数据和信息,从而映射到完整的企业流程。比如,它可以将从EnterpriseResource Planning系统(ERP系统)收集来的数据和从关系数据库之上的文件系统收集来的数据进行结合。DMS还可以对数据进行索引并且存放由此得到的元数据到自己的数据库中。一个索引的例子是完整文本索引,它可以大大简化之后基于内容的信息搜索。DMS通常具有适用于搜索归档数据的应用程序。


据调查公司的数据显示,企业内部数据有80%是非结构化的内容,无法被数据库软件收录,这些文件绝大部分以文档、图片、报表、视频等类型存在,现代的数据存储技术能够真正让这些内容变为可用的信息。


EMC的Documentum产品就是这样一个DMS系统,可以提供以下功能:

  • 用完善的访问控制机制实现安全的内容共享

  • 提供一个安全而又对用户友好的工作环境

  • 在不影响生产效率的情况下确保幕后的保留期要求

  • 为快速、彻底的响应法律调查提供方便

  • 优化存储资源,同时满足SLA要求和降低成本



11. Backup & Archiving


数据备份和存档是数据存储领域的两大应用。备份是将业务数据复制、保存到其他存储介质上,以保障业务系统出现数据丢失时可以迅速进行数据恢复。存档则主要关注长时间地有效保存某些特殊的或者重要的数据。两者在很多方面都有相似的地方,因此很容易混淆。下面的表格简单地比较了两者的不同。



12. Storage Virtualization


存储网络中的存储虚拟化是为了简化大量数据的管理工作。存储虚拟化的最基本的概念是将存储的虚拟化功能从服务器和磁盘系统转移到存储网络。这样可以产生一个新的虚拟化实体,这个虚拟化实体在存储网络中的定位可以跨越所有的服务器和存储系统。这种存储网络中的新虚拟化可以使得存储网络被完全有效利用,还可以提高性能以及避免故障。




13. HSM (Hierarchical Storage Management)


分级存储管理,是一种实现数据在高成本、高性能的小容量存储介质和低成本、低性能的大容量存储介质间自动适时迁移的存储技术。比如,有些经常被访问的数据就需要放到性能较好的存储介质上,比如SSD等flash存储;而大量不常被访问的数据则需要被保存到硬盘,甚至磁带库中。HSM技术很好地解决了存储成本和存储性能之间的平衡问题。EMC产品中主要的HSM实现包括DiskXtender和FAST(FullyAutomated Storage Tiering)等。



14. Deduplication


数据deduplication是一种减少冗余数据的特殊数据压缩技术,该技术可以有效地提高存储的使用率。在deduplication的处理过程中,通过一个分析的过程,独一无二的数据块被识别并保存,其他的数据块经过分析,都将跟这个数据块进行比较,相同的数据块会采用一个指向已存在数据块的引用来代替。这样可以大大减少存储数据的数量。在这个分析的过程中,可能使用加密哈希(比如MD5或者SHA)来鉴别两个数据块是否相同。该deduplication过程必须为以存储的数据维护一个身份特性(比如加密哈希)的列表,同样该过程必须维护一个相同数据块的引用的列表。


根据deduplication的时间不同,可以将deduplication分为两种:in-line和post-process:

  • Post-process deduplication:在这种deduplication中,新来的数据首先保存在一个存储设备中,然后处理过程分析该数据并查找是否存在重复的数据。这种方式的优点是在存储数据之前不需要等待哈希计算和查找完成,这样可以保证数据存储的性能不会降低。实现提供基于策略的操作可以使用户推迟活跃文件的优化,或者根据类型和地址来处理文件。一个潜在的缺点是这个方法会在短时间内在存储系统中存储大量不需要的重复数据,可能引发存储系统满负荷。

  • In-line deduplication:在这种处理方法中,当数据进入到目标设备的同时,就会实时的在该目标设备上进行deduplication的哈希计算。如果该设备识别出某数据块已经在存储系统中保存,那么它就不会保存这个新的数据块,而只是引用已有的数据块。跟post-processdeduplication相比,in-linededuplication的好处是它需要的存储空间少,因为存入存储系统的数据是没有重复的。但是它的缺点是它需要频繁的运行,因为哈希计算和查找会耗费较长时间,可以说数据存储会变慢从而会降低设备的备份吞吐量。尽管如此,一些采用in-linededuplication的供应商可以证明他们的产品与post-processdeduplication竞争者具有类似的性能。


根据deduplication分割数据的方法,又可以将deduplication分为两种:固定长度片段和可变长度片段:

  • 固定长度片段(又称为块):这种方法的主要限制在于当数据在文件中有迁移时,比如对一个PowerPoint文档增加一页幻灯片之后,该文件中处于该位置之后的所有块都需要重写,并且有可能被当做与原文件中不相同的块而进行处理,这样压缩效率就会受到影响。这方面采用更小块的数据块切分会比大的带来的影响小,但是它会为计算重复数据带来更多的处理过程。

  • 可变长度片段:一个更加先进的方法是基于内部的数据格式采用可变长度的片段,它可以解决固定长度片段中可能发生的数据迁移问题。


EMC的DataDomain产品,就是一种提供了deduplication功能的备份产品。它采用一种独特的in-linededuplication和可变长度片段技术,可以达到高达8倍的存储比率。




15. Cloud Storage


云存储,是一种新型的网络在线存储。云存储的运营方为用户提供巨大的存储资源池,为用户提供数据存储服务;而用户只需要按需购买一定的存储容量和服务级别,便可以将数据存储到云存储的虚拟存储池中。所谓虚拟存储池,第一、用户并不需要关心数据的存放位置,利用云存储提供的接口或客户端可以随时存取数据;第二、用户不需要关系底层的存储设备和网络拓扑,省去了大量的配置、管理工作;第三、存储容量可以随需变化,用户也只需要按需付费,具有很好的弹性,可以很好地适应企业业务发展。典型的云存储系统包括Amazon的S3、Google的Blobstore和EMC的Atmos。



16. SNIA (Storage Networking Industry Association)


网络存储工业协会,是由全球300多家存储企业于1997年12月份联合倡议成立的,其主要目的是为了推进全球存储行业的技术发展和规范制定。为了解决存储行业内长期缺乏统一、规范的技术术语来描述存储产品体系架构,SNIA于2001年提出了共享存储模型(SharedStorage Model)的概念,希望该模型能像网络架构中OSI的七层模型在存储行业内发挥规范、引导的作用。下图展示了SNIA共享存储模型中几大重要的组件。随着SNIA的发展,其在存储行业内发挥的作用也越来越重要。



关于作者


张芸,EMC中国研究院云平台及应用实验室高级研究员,毕业于西安交通大学,主要关注云计算、存储虚拟化等领域。


万林涛,EMC中国研究院云基础架构实验室高级研究员,毕业于南京大学,主要关注于云计算、虚拟化、分布式计算等领域。



更多精彩内容,请点击阅读原文”进行查看!

如何每天都能收到如此精彩的文章?

①点击右上角点击查看官方账号”→点击关注

②长按并识别下图中的二维码,直接访问EMC中文支持论坛


 
戴尔易安信技术支持 更多文章 备份和归档的区别 云计算的三种模型:公有云、私有云和混合云 正确描述IO类型 【大咖讲网络】谁动了我的网络 浅析I/O处理过程与存储性能的关系
猜您喜欢 相约杭州云栖大会,希云和你不见不散! Python实现简易web服务器 Twitter Heron的深入解析(与Storm的比较) [S3-E442]JavaScript中的6种运算符总结 【追问杀人机器人】深度解析美警方改造拆弹机器人炸死嫌犯