空间不够怎么办

大家有没有发现,现在各种应用程序、照片、视频都越来//www.58yuanyou.com越大,虽然大家的手机、电脑存储空间也在升级,但总感觉哪天就会装满了。特别是随着5G时代的来临,需要存储的数据也是急剧增加。个人尚且如此,企业更不必说了。老邪今天就给大家简单介绍下三种数据缩减技术,不是IT领域的小伙伴们也可以简单了解下。

前言

为了因应企业IT数据量的持续暴涨,由重复数据删除与压缩构成的数据缩减技术(Data Reduction),在这两年有了重要的进展,不仅应用面向更宽广,从特定领域迈向通用环境,运作也更有效率,出现了一系列可帮助卸除数据缩减运算负担的硬件加速技术

Thin Provisioning(精简配置)是透过虚拟化的空间配置技术,先配置给主机一个虚拟容量的LUN或Volume,只有在前端主机实际向LUN或Volume写入数据时,系统才会实际配给与占用储存空间,如此可减少空间浪费,已成为当前几乎所有储存设备的基本功能。

空间不够怎么办

严格来说,3项基本的数据缩减技术——Thin Provisioning、压缩数据、重复数据删除,只有后两者才算是真正的数据缩减技术,实际提供了缩减数据容量的效果,但Thin Provisioning也能在某些情境中,达到节省空间耗用的效用。

Thin Provisioning

这是一种「智慧化」的区块储存空间配置技术,传统区块储存设备的LUN或Volume,容量是预先固定配置的,即使前端主机实际上只写入少许数据,其余未使用空间也无法回收使用,空间浪费相当大。

而Thin Provisioning则透过虚拟化的空间配置技术,先配置给主机一个虚拟容量的LUN或Volume,只有在前端主机实际向LUN或Volume写入数据时,系统才会实际配给与占用储存空间,如此可减少空间浪费。一些较先进的Thin Provisioning还能提供空间回收功能,将已删除数据的空间回收到储存池中,进而重新利用。

Thin Provisioning的着眼点是「减少空间浪费」,而不是直接缩减数据,但也由于不是直接对数据执行运算操作,耗用的系统资源相对也少,因而已成为当前几乎所有储存设备的基本功能。

压缩,以及重复数据删除

两者都是透过算法,比对、识别与去除数据中的冗余,从而达到缩减数据容量的目的,差别在于两者识别数据冗余的范围不同。

压缩技术处理数据的范围,是单一的档案,虽然需要较多的处理器运算资源,但由于一次只处理一个档案,需要的内存资源相对较少。

而重复数据删除处理数据的范围,则是跨整个储存区的所有档案,所以有些厂商又称之为「全局压缩(Global Compression)」,去除数据数据冗余的效果也比压缩更好,但也非常消耗资源。因而如何在不造成主机过大负担的情况下,运行重复数据删除运算作业,也成了当前储存数据缩减技术发展的一大课题。

另外,压缩与重复数据删除两种技术也可以并用,达到更大的数据缩减效果,例如,多数厂商的作法,是先执行重复数据删除,再进行压缩(如HPE 3PAR与VMware);也有厂商的方式是先压缩,再执行重复数据删除(例如NetApp ONTAP 8.x版)。

空间不够怎么办

重复数据删除的类型区分

虽然重复数据删除耗用的资源庞大,但提供的数据缩减效果,也是当前所有数据缩减技术中最好的,因而是这个领域的发展热点,并衍生出多种类型,各自具有不同的特性,我们可以从处理数据的型态,以及重复数据删除作业的程序,来检视重复数据删除技术的类型与特征。

档案级 vs. 区块级

从处理数据的型态来区分,重复数据删除技术可分为档案级与区块级,前者处理数据的单位是「档案」,后者则是以「区块」作为处理数据的单位。

其中档案级的重复数据删除,其实,就是以前所谓的「单实例储存(Single Instance Storage,SIS)」。SIS对于写入的数据,以档案为单位来求取与比对特征值,藉此判定重复与否,然后去除重复,而在整个储存区内,只保存一份档案实例。由于SIS比对数据的精细度只到「档案」层级,而不在更低的层级作业,所以消耗的系统资源较少,但识别数据冗余的能力也因此受限——因为两个档案就算只有少数区块不同(即使只有一个字符不同),S//www.58yuanyou.comIS仍会视为不同的档案,分别占用两份空间。

空间不够怎么办

复合式的资料删减运作架构:目前的资料缩减应用,大多都是多种技术并用,典型的作法是先跳过系统置换空间(Swap)的区块,然后进行重复数据删除,接下来,再对重复数据删除处理后的区块进行压缩。依据我们过往的测试经验,比起只使用重复数据删除,如果能同时使用重www.58yuanyou.com复数据删除技术与压缩技术,可提高大约原由网20%的数据缩减效果。

在线处理 vs. 后处理

相较之下,区块级重复数据删除是以JppAQZbsE更小的区块为单位,来计算与比对特征值,从而判断数据重复与否,去除数据冗余的效果远高于SIS,但消耗的资源也更大,也须使用更大的索引,来追踪储存区的所有区块。

从执行重复数据删除作业的程序来看,我们可以区分为下列两种基本架构:在线实时处理(inline),以及后处理(post-processing)。

其中的在线实时处理,指的是在数据写入后端储存媒体之前,在主机端或储存设备控制器端,就完成数据删减运算,所以写入储存媒体的数据是已缩减的,但会持续影响系统效能,冲击较大。

至于后处理架构,则是指数据在写入储存媒体后,再以指令或默认排程启动重复数据删除作业。由于数据写入储存媒体时,仍是未经缩减的原始型态,须待后续的重复数据删除作业启动与完成后,才能缩减占用空间,所以须耗用较大的「暂存」储存空间。不过另一方面,在后处理架构当中,可选择离峰时间再启动重复删除作业,对系统效能影响较小。

来源端 vs. 目标端

从执行重复数据作业的位置,可以区分为来源端与目标端等两种类型。

来源端的处理方式,是在产生原始数据的前端主机,透过代理程序部署重复数据删除引擎,这种架构会影响主机的效能,但优点是数据在送出主机、传送到储存网络之前,就已经是缩减后的状态,可减少传输带宽,许多备份软件都是采用这种架构。

目标端的处理方式,则由后端的储存设备、备份服务器等,来为前端主机统一执行重复数据删除。前端主机的数据传送到后端储存设备或备份服务器后,再集中执行数据比对与删减作业,虽不能节省网络带宽,但也不会因此耗用前端主机的资源,而是让重复数据删除的运算负担都集中到后端。

空间不够怎么办

内容版权声明:除非注明原创否则皆为转载,再次转载请注明出处。

文章标题: 空间不够怎么办

文章地址: www.58yuanyou.com/baike/327304.html

相关推荐