邮箱登陆

公告栏更多>
新闻动态更多>
关于联盟
  • 北京数字太和科技有限责任公司
  • 北京版银科技有限责任公司
  • 中国科学院自动化研究所
  • 北京同方易豪科技有限公司
  • 北京国泰信安科技有限公司
  • 中国人民大学
  • 北京泛亚精致传媒制作有限公司
  • 北京理工雷科电子信息技术有限公司
  • 北京云视天创网络科技有限公司
  • 北京亚细亚智业科技有限公司
  • 天柏宽带网络科技(北京)有限公司
  • 北京慧点东和信息技术有限公司
  • 北京星天下信息技术有限公司
  • 北京安顺知达网络技术有限公司
  • 北京纽曼腾飞科技有限公司
  • 东华软件股份公司
  • 富丽年华(北京)文化发展有限责任公司
  • 天津中科蓝鲸信息技术有限公司
  • 北京市中视朗域纪录片文化传播中心
  • C3D产业联盟公共服务中心
  • 清华大学深圳研究所院
技术创新展示当前位置:主页 > 技术创新展示 >

盘阵实时容灾存储方案

发布时间:2012-01-13 10:12  被阅览数:  来源:未知

盘阵实时容灾存储方案

典型场景
    系统可靠性和业务连续性需求最高的数字媒体应用,包括新闻网,播出网,综合后期制作网等。


传统的非编网络存储高可靠方案
    传统的高可靠性非编网络方案是FC SAN + SAN FS,通过适当的配置,包括磁盘RAID、双控制器、冗余交换机、双FC HBA卡、多路径软件、SAN FS MDC HA,可以实现文件存储系统没有单点故障。但在该方案中,由于数据最终是保存在光纤盘阵中,并且只有光纤盘阵是单体结构,当一台光纤盘阵整体出现故障,将会导致所有相关的前端应用中断,造成系统整体事故。尽管通常方案都会配置双控光纤盘阵,两个控制器同时出现故障的几率较小,但这种风险是存在的。


BWStor CSA盘阵实时容灾方案配置 
    BWStor CSA提供了盘阵冗余功能可选项,可以满足零数据丢失,零恢复时间的应用需求。。典型配置如下图,存储系统由多台盘阵组成,并由BWStor CSA统一管理。用户可以设定其中一部分盘阵为主盘阵,提供主要的数据服务;另外一部分盘阵设定为从盘阵,在主盘阵出现故障时代替主盘阵提供数据服务。开启BWStor CSA的盘阵冗余功能后,所有客户机写入系统的数据都会被实时镜像写入到主、从盘阵上,所以当任意一个盘阵出现故障时,应用程序可以立即通过另外一台盘阵访问数据。盘阵冗余功能完全由内置于BWStor CSASAN文件系统BWFS实现,所以对客户机及其上的应用完全透明,应用程序仍然以标准的文件系统访问接口,访问已经具备盘阵冗余功能的文件系统,不需要做任何改变。换言之,该功能对所有访问文件系统的应用都兼容。 

 

方案特点
    1、零业务中断:数据并行读写冗余盘阵,盘阵故障探测、切换完全由BWFS的盘阵冗余模块控制和实现,保证客户端应用程序数据读写在盘阵整体故障的情况下仍能持续进行,从而保障  用户业务不因盘阵整体故障出现任何中断,最大可能保证业务连续性。
    2、零数据丢失:有别于文件复制方案存储存在数据同步周期,BWFS的盘阵冗余功能能够保证写入冗余盘阵的数据实时同步,在一个盘阵出现整体故障后,其冗余盘阵中仍然保存有完整的数据镜像,所以数据没有任何丢失,最大可能保证数据安全性。
    3、对应用程序完全透明:盘阵冗余功能在BWFS内部实现,所以可以做到对外接口仍然使用标准的文件系统接口,应用程序仍然像访问普通的NFSCIFS一样来访问配置成盘阵冗余的BWFS,不需要做任何修改,最大可能保证应用兼容性。
    4、兼容第三方存储设备:BWFS盘阵冗余功能可以支持所有标准的FC SANIP SAN设备,功能的实现不依赖于具体的盘阵品牌和型号,最大可能节约方案成本。

 

应对盘阵整体故障现有方案的不足
    目前应对盘阵整体故障的问题,主要采用的方案是主备系统进行文件复制,即采用备用的光纤盘阵搭建一套备份文件系统,通过备份服务器将文件定期从主文件系统复制到备份文件系统中。当主盘阵出现故障主文件系统不能访问时,客户端mount起备份文件系统,应用程序切换到备份文件系统继续工作。这种基于文件复制的方案,解决了盘阵整体故障后数据彻底丢失不能访问的问题,但从应用容灾的角度看主要存在以下几方面的严重问题:
     1) 业务中断:文件复制方案中,盘阵故障导致的读写出错,以及后续的文件系统切换工作对应用不透明。在主盘阵出现故障不能访问后,主文件系统会对正在进行读写的前端非编和其他应用程序返回IO Error,从而导致这些程序报错退出,非编和相关业务必然中断,造成整体事故。
     2) 数据丢失:文件复制方案,因为有复制周期的存在,所以出现主盘阵故障后,从上次复制完后新编辑、添加、修改文件都未被复制到备份盘阵中,导致切换到备份盘阵后数据丢失。由于丢失的都是新近修改的文件,所以这很大程度上意味着会丢失最紧要的工作成果。
     3) 业务恢复时间长:主要是由于文件复制方案的业务恢复过程复杂和数据不一致这两方面的因素导致。对于文件复制方案,业务恢复过程是:第一步:确认盘阵整体故障;第二步:修改客户机上应用程序的数据磁盘设置,从主文件系统盘符切换到备份文件系统盘符,然后重新运行程序。这个步骤中,很可能需要重启客户机。对于大型非编网络,有几十甚至上百非编客户端或其他客户端,这种修改过程非常耗时。第三步:确认因为切换盘阵/文件系统丢失的数据造成的影响。最近一个复制周期内的所有工作都会丢失,至少需要花费同样的工作量才能恢复到业务中断时刻的状态。而且由于文件复制方案不能严格保证主备系统的数据一致性,所以可能会出现一些文件彻底损坏这种更严重的状况。通常,对于一个大型非编网络,文件复制方案在盘阵故障发生后,最好的情况也需要数小时才能恢复到故障发生时的状态。
    总之,传统的文件复制方案难以满足广电行业高标准盘阵容灾的要求,是一个有甚于无的方案。蓝鲸盘阵实时容灾存储方案出现,彻底解决这一问题。

 

盘阵实时容灾存储方案与其他方案对比的优势
     1、与传统基于文件复制的方案相比:
         a) 对应用完全透明,客户端只有单一盘符,故障发生后不需要显示在客户端切换盘符;
         b) 盘阵无缝切换,不需人工干预,业务没有中断;
         c) 盘阵间数据实时同步,没有文件复制窗口,没有任何数据丢失;
     2、与基于应用复制的方案相比:
         a) 基于应用的复制需要应用自己实现,难度大,成本高;
         b) 基于应用的复制方案没有办法修改文件系统,难以处理诸如缓存一致性的问题;
     3、与基于盘阵的复制方案相比:
         a) 盘阵复制是在设备底层服务,需要配置高端盘阵,并且盘阵型号必须一致,成本非常高;
         b) 在文件系统下层,所以在切换之前备用盘阵都不能使用,也无法确认文件是否一致;