双机热备软件
双机热备软件 对于日益承担企事业单位核心业务的NT网络来说,数据的高可用性和系统的连续运转能力极其重要,作为实时服器与数据保护解决方案,双机热备提供了数据的高可用性、运行系统的自动切换及最少的恢复时间。
在信息系统建设中充满安全危机,一个小小的硬件故障或误操作都有可能造成您的网络出现停滞或瘫痪,使您的业务蒙受损失。同时,信息系统建设的目标是对来自内外的业务信息、业务数据、重要信息、安全保密信息的综合有效的利用和管理,随着信息的膨胀、网络技术及产品的发展,安全性问题日趋严重,系统中断、信息的泄密、丢失、篡改、毁坏、盗用等等对所有的单位来说都是一种灾难。您可能将面对财政损失、人力、物力耗费、遗失机会、内部责任推诿、信誉下降等各种问题。
随着企事业不断完善和投入运营,如何管好用企事业,充分发挥其现代化基础设施的作用,成为最迫切的问题。数据畅通,访问及时道是各企事业运营管理的重要任务之一,工作正常运行直接影响到管理运作质量和管理的经济效益,双机热备成为了一个理想的选择。
一.PlusWell Cluster容错软件技术简介及其应用 (支持共享磁盘阵列方式)
(一) PlusWell Cluster Cluster容错软件原理
1、 PlusWell Cluster Cluster容错软件定义、特性、资源保护
PlusWell Cluster Cluster 容错软件提供了一个完全容错的软件解决方案,并提供数据、应用程序和通信资源的高度可用性。PlusWell Cluster容错软件不需要任何特别的容错硬件,并访问特定节点的配置数据。PlusWell Cluster容错软件会自动地提供错误检测和现场恢复。
在出现故障的情况下,PlusWell Cluster容错软件会将保护资源自动转换到一个根据预先设定好优先权的系统。在实际进行切换用户时, 会经历一个十分短暂的休眠,但是,当系统完成了切换操作后,PlusWell Cluster容错软件会在所选择的节点上自动地恢复操作。
可以被PlusWell Cluster容错软件保护起来的资源是:
卷(Volume)
IP 地址
共享文件
管理器服务器名称
应用程序
定义的用户
2、心跳故障检测Heartbeat
PlusWell Cluster容错软件在集群节点间保持着间歇的通信信号,也叫做心跳信号,是错误检测的一个机制。即通过每一个通信路径,在两个对等系统之间进行周期性的握手,如果连续没有收到的心跳信号到了一定的数目,PlusWell Cluster 容错软件就把这条路径标示为失效(红色)。
如果你只定义了一条通信路径,当PlusWell Cluster 容错软件把这唯一的一条通信路径标为失效时, PlusWell Cluster容错软件便立即开始恢复过程。然而,如果你有冗余路径, PlusWell Cluster容错软件能够通过第二条路径确定是系统故障还是只是通信路径有问题。如果PlusWell Cluster 容错软件开启优先级第二的通信路径并收到了心跳信号,它就不开始failover恢复,只需要把第一条通信路径标成红色(失效),作为信号告诉你需要修复有故障的路径。
一般情况下PlusWell Cluster容错软件 只在下列事件发生时,启动系统恢复功能:
所有的通信路径故障。如果所有节点都没能收到心跳信号, 把所有通信路径都标为失效, PlusWell Cluster 容错软件开始安全检查。
安全检查失败。当所有通信路径故障时,PlusWell Cluster容错软件向整个网络发出安全检查信号。如果信号指出配对系统还“活”着的时候,PlusWell Cluster容错软件不启动Failover。如果安全检查没从配对节点返回信号,PlusWell Cluster容错软件就开始Failover。
因而,为了减少由于潜在的通讯错误所引起的不必要的系统切换,建议您使用不同介质的多条通信路径。
3、 通信路径
PlusWell Cluster容错软件支持在节点之间和心跳通讯中,使用如下通讯路径:
(1) socket,即套接字。你使用任何的网络硬件接口,只要它能够支持TCP/IP的通讯协议。这样的硬件包括:以太网、快速以网。
(2)串行口 在PlusWell Cluster容错软件配置中, 你应当配置有一个串行口通信路径。串口通信路径需要利用RS232的拟调解线路来与PlusWell Cluster容错软件系统相连接。
PlusWell Cluster 容错软件假定当通过心跳信号检测其它服务器失败时,则认为此服务器是关闭的。因此,为了避免不必要的失效切换,最好建立两种以上独立的物理路径,使用至少两种心跳。
例如,如果两个服务器被一个串口连接起来,并且,从属服务器来的心跳信号无法被主服务器所检测到,则下面之一是可能引起这一现象的原因:
服务器的RS-232卡或者端口失败
电缆失效
主服务器暂时挂起
主服务器失败
失效切换只可能在最后一种情况下才发生。因此,节点间的多种通信路径可以帮助避免不必要的失效切换。
(二)PlusWell Cluster容错软件配置示范
软件、硬件配置
a、软件:PlusWell Cluster 容错软件。
b、硬件:服务器可以是任何Intel基础上的平台, Server的型号、配置不必一致,只需硬件平台能保证Windows NT/2K/Linux/Unix运行;磁盘阵列正常使用。
1、PlusWell Cluster容错软件运行机制
I、共享的SCSI 和PlusWell Cluster容错软件锁定
PlusWell Cluster容错软件锁定:PlusWell Cluster容错软件管理共享磁盘上的数据,以防止多个服务器在同一时间访问数据。PlusWell Cluster容错软件在逻辑设备级(卷)上控制对数据的访问,并让Windows/Linux软件或硬件RAID Controllers 管理物理级。有了PlusWell Cluster 容错软件来管理对共享数据的访问,用户就可以不必担心群中的其它服务器访问数据时, 可能会带来的数据访问冲突。PlusWell Cluster 容错软件自动在被应用程序定义为共享资源的磁盘卷上设置锁定。当被保护的应用程序由一个服务器被移动/转换到另一个服务器时, PlusWell Cluster 容错软件控制这些锁定,以保证激活服务器对共享卷的访问。
在主系统发生故障的情况下, 次节点系统将能够在磁盘上建立SCSI 锁定,并在备份的系统上将资源投入使用。
II、 Local Recovery(局部恢复)
PlusWell Cluster容错软件在应用软件的检测时间间隔执行预先定义的行为,以察看资源本身是否失效。如果快速检查和深入检查均局部告失败,系统将尝试局部恢复资源。如果尝试成功,资源将不会向下一优先级的节点进行失效切换(failover)。如果局部恢复尝试失败,系统将向下一优先级的节点进行失效切换。
III、 Failover(失效切换)
指定主要的节点或资源失败时,重新恢复资源的过程。一个失效切换通常是没有事先计划的,它将发生在一个被从属系统所检测到并确定为失败的情况下。
IV、 Switchback(可配置的迁回)
Configurable Switchback(CS )允许PlusWell Cluster容错软件管理员通过命令行或GUI界面来指定资源,其所在服务器发生故障而后又恢复正常,该资源将被自动地切换回到原来节点上。如果选择Auto Switchback,那么,一旦发生故障的节点回到服务状态时,被配置失效切换的层次都将被切换回到该节点上。如果策略没有选定Auto Switchback,即使当发生故障的节点回到服务状态时,被配置失效切换的层次也会留在它们被失效切换到的节点上,等待由管理员决定合适的时间进行切换。
V、 Switchover(正常切换)
指用一个有顺序的方式关闭资源,然后将它们恢复到一个备份系统的过程。这通常发生在当你处于维护或者测试模式中的情况下。这时,没有任何东西失败。
2、 工作方式
I、Active/Standby
在一个激活/备用对中, 主节点处于处理状态,从属节点处于备用状态,以防主节点上发生失败。备用系统可以是一个小一点、性能低一点的系统,但是,当主节点失败时,它必须有保证资源可达性的处理能力。例如,假设Server1是主“激活”节点,Server2是次“备用”节点。如果Server1发生故障了,它的被保护资源由Server2 节点来恢复。当节点Server1恢复后, 资源可以被Server1重新获得。然而,当Server2 节点失败时,Server2节点上并没有需要被Server1节点恢复的资源。
II、 Active/Active
在一个激活/激活对中, 两个节点都是激活的处理器,但是它们也可分别作为其对应节点上的资源和资源层次的从属节点。
在激活/激活的图表中,有两个主要应用:APPA 处于Volume w中,并且在Server1上激活。APPB存储在Volume M上,并且在Server2上激活。在这一配置中,Server1应该是Volume W:资源的主节点,Server2应该是Volume M:资源的主节点。
当Server2失败时, PlusWell Cluster容错软件应该将Volume M:转换到Server1上去。如果系统资源是足够的,这一转换不会影响到已经在Server1上运行的APPA,转换只是简单地将Server2上的被保护应用程序(APPB)加到Server1的运行负载上
二、PlusWell Mirror技术简介及其应用(支持非共享磁盘阵列的扩展方式)
(一) PlusWell Mirror原理
1、 PlusWell Mirror简介
PlusWell Mirror镜像是一种软件产品,专为Windows/Linux系统设计的客户/服务器环境下一种有效、高性能的高可用性解决方案。单独使用PlusWell Mirror镜像软件,无需较贵的RAID磁盘子系统,无需考虑小型计算机系统接口(SCSI)对缆线长度的限制,去除了单点故障(磁盘阵列子系统)。集群计算机环境所要考虑的主要问题是系统总开销,而使用PlusWell Mirror镜像软件的PlusWell Cluster 容错软件 是解决这个问题的首选方案。公司只需最小的硬件集成便可以得到低价、高可用性的方案。
PlusWell Mirror镜像软件在局域网的服务器之间提供完全基于软件的镜像。一个服务器被指定为主服务,另一个为从服务器。客户只能对主服务器上的镜像文件夹进行读或写,从服务器上相应的文件夹被锁定以防对数据的存取,除非在主服务器上检测到故障状态。这是实现一个高性能方案要考虑的一个重要问题,因为数据的完整性是主要因素。尽管PlusWell Mirror镜像软件可以单独使用,但是与PlusWell Cluster 容错软件 配合使用会显著增强它的功能。
2 PlusWell Mirror特性
在PlusWell Mirror镜像环境下,一个镜像是主服务器上的一个或多个文件夹,而不是整块硬盘或分区,其内容与从服务器上的相关磁盘通过LAN同步。PlusWell Mirror镜像软件使磁盘上的文件镜像的创建更为容易。
在文件镜像建立后,主服务器和从服务器上的文件夹已经同步,并且两个服务器都已启动运行,出现下面的事件:
*最初的镜像建立后,系统禁止所有用户存取从服务器的镜像文件,不允许对从服务器上的镜像文件读和写。主服务器镜像则可以进行读和写操作。
*无论何时主服务器收到一个写请求,系统首先决定这个请求是否针对某个镜像文件夹。如果不是,写操作可以完全正常的完成。
*当从系统返回一个成功状态时,主系统在自己的镜像文件夹中执行写操作,并返回到请求方。如果从系统执行镜像文件夹写操作时发生错误,那么从系统上的写操作将被中止,主系统结束自己的镜像文件夹写请求。
2、 PlusWell Mirror特性
(1) PlusWell Cluster提供的全系统检测功能与PlusWell Mirror的文件镜像功能相辅相成,使双机热备系统无需昂贵的磁盘阵列子系统。
(2) 使用PlusWell Mirror将数据由一个主机系统镜像到另一个主机系统,并与PlusWell Cluster相结合,可有效的避免磁盘阵列子系统中单点故障的可能性。
(3) 当主备服务器发生切换时。PlusWell Mirror开机后并不是以整盘再将备机数据分区或硬盘全部复制到主服务器,而是将备机中变化的数据部分复制到主服务器,如图所。减少了数据复制的时间,同时也增加了数据的安全性。
(4)具备远程的灾难复原能力
*PlusWell Mirror在服务器端的数据复制能力。
*PlusWell Mirror有在局域网和广域网的数据复制能力。
*所有PlusWell Mirror都可以配合蓝科泰达的Cluster HA软件,实现异地的数据备份功能。
使用带有PlusWell Cluster 镜像功能的PlusWell Cluster 容错软件 来进行配置,其中 Server1 是主服务器,Server2 是从服务器。
当一个客户向 Server1上的镜像文件夹发出写命令,PlusWell Cluster 镜像软件保证写命令通过网络送给 Server2,Server2上的写操作成功完成时,Server1上的写操作才能完成。因此,两处系统能够同时更新,因此主、从服务镜像文件夹中的数据一致性得以保证。
软件、硬件配置
1、软件:PlusWell Cluster 和PlusWell Mirror
2、硬件:服务器可以是任何INTEL基础上的平台,两台Server的型号、配置不必一致,只需硬件平台能保证系统运行
1、PlusWell Mirror运行机制
I、通讯路径
“Heartbeat”是服务器间发出的周期性检测信息,它允许PlusWell Cluster 容错软件决定服务器的状态。当一个服务器向另一处服务器发送一个“Heartbeat”消息,并且在规定时间段里没有得到任何回应时, 发送消息的服务器开始评测接收消息的服务器是否正在发生故障。多种“Heartbeat”检测信号保证故障检测的可靠性,以防止不必要的资源服务切换。PlusWell Cluster 容错软件为PlusWell Cluster镜像提供下列途径上的“Heartbeat”通信:
(1) Socket (TCP/IP )
(2) RS-232 TTY通信端口(Communications port )
PlusWell Cluster镜像软件消除了共享SCSI 的需要。
II、主服务器发生故障
客户向Server1上运行的一个程序发送一个请求,而Server1出现写错误时,使用带有PlusWell Cluster镜像功能的PlusWell Cluster 容错软件能够检测出系统失败。然后,PlusWell Cluster 容错软件 执行恢复规则,试图关闭Server1上的应用,并且在Server2上重新启动它们。Server2现在承担主服务器的角色,镜像文件夹地址从Server1转移到Server2上去,这个转换过程对用户来说是透明的,客户一般不会发现系统曾经发生这样的故障。
一旦系统发生的故障被被纠正过来,管理员必须重新同步镜像文件夹。重新同步这些文件夹并被锁定,目的是不接受任何客户的存取。在这个过程中,非镜像应用不会受到影响,因此这些应用可以毫无干扰的继续运行。系统管理员可以选择何时对镜像文件夹进行同步,通过提供选择时间的灵活性达到对整个系统的影响减为最小。
重新同步主服务器和从服务器上镜像的时间依赖于文件夹的大小。 一般情况下,在100MB 以太网上, 恢复1Gigabyte(GB)的数据只需要10分钟。
III、从服务器发生故障
当从系统发生故障时,受影响的镜像文件夹标志为Broken。有必要纠正这些故障,并重新同步有关的文件夹。当从系统发生故障时,任何写请求不会送给从系统。当从服务器发生故障后再次恢复时,镜像管理器用来重新同步主镜像文件夹和从镜像文件夹。
3、 工作方式
I、 Active/Standby
II、 Active/Active
PlusWell Mirror 具有以上两种工作方式,可支持两个Server系统。
4、PlusWell Mirror与其它镜像软件的根本区别
(1) 其它的镜像软件是基于卷或硬盘的数据复制。往往将硬盘的全体全部复制到备用服务器,无论这块硬盘有没有写满数据。PlusWell Mirror是以文件级的数据复制,数据库复制的大小由文件的大小决定而与硬盘的大小没有关系统。
(2) 当主备机发生切换时,或镜像发生中断后,主备机再次联结时还必须将硬盘的全体再复制一次到主服务器。从而增加了数据复制过程中的风险度。PlusWell Mirror在主备机发生切换时只将备机增加的数据复制回主机。
(3) 这种镜像限制了数据的复制大小,这种复制一般只能复制一到四个分区或一整块硬盘。限制了复制容量。对将来的数据扩容产生影响。PlusWell Mirror可以做到数据硬盘相对较大,同时可以灵活的改变数据复制的方式。
(4) 对复制的容量不易调整,往往一旦调整后需对HA软件重新进行配置。PlusWell Mirror可以从不同的硬盘,不同的分区,选择不同的文件夹进行复制,复制方法灵活简单。
三、PlusWell Cluster的关键特点
1. 不用增加任何额外硬件投资,纯软件方式实现双机容错,且对备机无硬件配置要求。
2. 可支持Notes、ExcClusternge、SQL Server、Sybase、Informix、Oracle 、SAP等多种系统的应用层热恢复。
3. 支持远程灾难备份。
4. 支持共享磁盘阵列柜和镜像两种方式,给用户提供了选择上的灵活性,同时也能适应各种机型、网络结构、软件平台及应用系统。
5. PlusWell Cluster容错软件在镜像或共享磁盘阵列任意方式下,均能实现两台服务器各自运行不同应用且相互热备份,即实现双Active运转模式。
6. 最大限度地保护用户端的应用连续性。用户的硬件资源(如网卡,软件资源如NT操作系统、数据库管理系统、数据库应用系统、电子邮件系统等)均能处于PlusWell Cluster容错软件的保护之下,当这些被保护资源出现技术故障时,PlusWell Cluster容错软件可随时实施系统资源切换。如此,PlusWell Cluster容错软件真正实现了用户硬件或是软件资源发生故障时系统及应用层上的在线热切换。
7. PlusWell Cluster容错软件占用系统资源极少,不增加网络负荷,且不打扰任何具体应用系统的任何操作。
8. PlusWell Cluster容错软件真正实现无人值守,全自动地实现应用资源切换,且图形界面操作,简单方便。
9. 自投入使用以来,已经历了大量交易高峰的实际考验,其执行效率很高且运行十分稳定可靠。
10. 目前PlusWell Cluster容错软件有Windows NT/2000/2003、SCO UNIX linux多
种版本。
在信息系统建设中充满安全危机,一个小小的硬件故障或误操作都有可能造成您的网络出现停滞或瘫痪,使您的业务蒙受损失。同时,信息系统建设的目标是对来自内外的业务信息、业务数据、重要信息、安全保密信息的综合有效的利用和管理,随着信息的膨胀、网络技术及产品的发展,安全性问题日趋严重,系统中断、信息的泄密、丢失、篡改、毁坏、盗用等等对所有的单位来说都是一种灾难。您可能将面对财政损失、人力、物力耗费、遗失机会、内部责任推诿、信誉下降等各种问题。
随着企事业不断完善和投入运营,如何管好用企事业,充分发挥其现代化基础设施的作用,成为最迫切的问题。数据畅通,访问及时道是各企事业运营管理的重要任务之一,工作正常运行直接影响到管理运作质量和管理的经济效益,双机热备成为了一个理想的选择。
一.PlusWell Cluster容错软件技术简介及其应用 (支持共享磁盘阵列方式)
(一) PlusWell Cluster Cluster容错软件原理
1、 PlusWell Cluster Cluster容错软件定义、特性、资源保护
PlusWell Cluster Cluster 容错软件提供了一个完全容错的软件解决方案,并提供数据、应用程序和通信资源的高度可用性。PlusWell Cluster容错软件不需要任何特别的容错硬件,并访问特定节点的配置数据。PlusWell Cluster容错软件会自动地提供错误检测和现场恢复。
在出现故障的情况下,PlusWell Cluster容错软件会将保护资源自动转换到一个根据预先设定好优先权的系统。在实际进行切换用户时, 会经历一个十分短暂的休眠,但是,当系统完成了切换操作后,PlusWell Cluster容错软件会在所选择的节点上自动地恢复操作。
可以被PlusWell Cluster容错软件保护起来的资源是:
卷(Volume)
IP 地址
共享文件
管理器服务器名称
应用程序
定义的用户
2、心跳故障检测Heartbeat
PlusWell Cluster容错软件在集群节点间保持着间歇的通信信号,也叫做心跳信号,是错误检测的一个机制。即通过每一个通信路径,在两个对等系统之间进行周期性的握手,如果连续没有收到的心跳信号到了一定的数目,PlusWell Cluster 容错软件就把这条路径标示为失效(红色)。
如果你只定义了一条通信路径,当PlusWell Cluster 容错软件把这唯一的一条通信路径标为失效时, PlusWell Cluster容错软件便立即开始恢复过程。然而,如果你有冗余路径, PlusWell Cluster容错软件能够通过第二条路径确定是系统故障还是只是通信路径有问题。如果PlusWell Cluster 容错软件开启优先级第二的通信路径并收到了心跳信号,它就不开始failover恢复,只需要把第一条通信路径标成红色(失效),作为信号告诉你需要修复有故障的路径。
一般情况下PlusWell Cluster容错软件 只在下列事件发生时,启动系统恢复功能:
所有的通信路径故障。如果所有节点都没能收到心跳信号, 把所有通信路径都标为失效, PlusWell Cluster 容错软件开始安全检查。
安全检查失败。当所有通信路径故障时,PlusWell Cluster容错软件向整个网络发出安全检查信号。如果信号指出配对系统还“活”着的时候,PlusWell Cluster容错软件不启动Failover。如果安全检查没从配对节点返回信号,PlusWell Cluster容错软件就开始Failover。
因而,为了减少由于潜在的通讯错误所引起的不必要的系统切换,建议您使用不同介质的多条通信路径。
3、 通信路径
PlusWell Cluster容错软件支持在节点之间和心跳通讯中,使用如下通讯路径:
(1) socket,即套接字。你使用任何的网络硬件接口,只要它能够支持TCP/IP的通讯协议。这样的硬件包括:以太网、快速以网。
(2)串行口 在PlusWell Cluster容错软件配置中, 你应当配置有一个串行口通信路径。串口通信路径需要利用RS232的拟调解线路来与PlusWell Cluster容错软件系统相连接。
PlusWell Cluster 容错软件假定当通过心跳信号检测其它服务器失败时,则认为此服务器是关闭的。因此,为了避免不必要的失效切换,最好建立两种以上独立的物理路径,使用至少两种心跳。
例如,如果两个服务器被一个串口连接起来,并且,从属服务器来的心跳信号无法被主服务器所检测到,则下面之一是可能引起这一现象的原因:
服务器的RS-232卡或者端口失败
电缆失效
主服务器暂时挂起
主服务器失败
失效切换只可能在最后一种情况下才发生。因此,节点间的多种通信路径可以帮助避免不必要的失效切换。
(二)PlusWell Cluster容错软件配置示范
软件、硬件配置
a、软件:PlusWell Cluster 容错软件。
b、硬件:服务器可以是任何Intel基础上的平台, Server的型号、配置不必一致,只需硬件平台能保证Windows NT/2K/Linux/Unix运行;磁盘阵列正常使用。
1、PlusWell Cluster容错软件运行机制
I、共享的SCSI 和PlusWell Cluster容错软件锁定
PlusWell Cluster容错软件锁定:PlusWell Cluster容错软件管理共享磁盘上的数据,以防止多个服务器在同一时间访问数据。PlusWell Cluster容错软件在逻辑设备级(卷)上控制对数据的访问,并让Windows/Linux软件或硬件RAID Controllers 管理物理级。有了PlusWell Cluster 容错软件来管理对共享数据的访问,用户就可以不必担心群中的其它服务器访问数据时, 可能会带来的数据访问冲突。PlusWell Cluster 容错软件自动在被应用程序定义为共享资源的磁盘卷上设置锁定。当被保护的应用程序由一个服务器被移动/转换到另一个服务器时, PlusWell Cluster 容错软件控制这些锁定,以保证激活服务器对共享卷的访问。
在主系统发生故障的情况下, 次节点系统将能够在磁盘上建立SCSI 锁定,并在备份的系统上将资源投入使用。
II、 Local Recovery(局部恢复)
PlusWell Cluster容错软件在应用软件的检测时间间隔执行预先定义的行为,以察看资源本身是否失效。如果快速检查和深入检查均局部告失败,系统将尝试局部恢复资源。如果尝试成功,资源将不会向下一优先级的节点进行失效切换(failover)。如果局部恢复尝试失败,系统将向下一优先级的节点进行失效切换。
III、 Failover(失效切换)
指定主要的节点或资源失败时,重新恢复资源的过程。一个失效切换通常是没有事先计划的,它将发生在一个被从属系统所检测到并确定为失败的情况下。
IV、 Switchback(可配置的迁回)
Configurable Switchback(CS )允许PlusWell Cluster容错软件管理员通过命令行或GUI界面来指定资源,其所在服务器发生故障而后又恢复正常,该资源将被自动地切换回到原来节点上。如果选择Auto Switchback,那么,一旦发生故障的节点回到服务状态时,被配置失效切换的层次都将被切换回到该节点上。如果策略没有选定Auto Switchback,即使当发生故障的节点回到服务状态时,被配置失效切换的层次也会留在它们被失效切换到的节点上,等待由管理员决定合适的时间进行切换。
V、 Switchover(正常切换)
指用一个有顺序的方式关闭资源,然后将它们恢复到一个备份系统的过程。这通常发生在当你处于维护或者测试模式中的情况下。这时,没有任何东西失败。
2、 工作方式
I、Active/Standby
在一个激活/备用对中, 主节点处于处理状态,从属节点处于备用状态,以防主节点上发生失败。备用系统可以是一个小一点、性能低一点的系统,但是,当主节点失败时,它必须有保证资源可达性的处理能力。例如,假设Server1是主“激活”节点,Server2是次“备用”节点。如果Server1发生故障了,它的被保护资源由Server2 节点来恢复。当节点Server1恢复后, 资源可以被Server1重新获得。然而,当Server2 节点失败时,Server2节点上并没有需要被Server1节点恢复的资源。
II、 Active/Active
在一个激活/激活对中, 两个节点都是激活的处理器,但是它们也可分别作为其对应节点上的资源和资源层次的从属节点。
在激活/激活的图表中,有两个主要应用:APPA 处于Volume w中,并且在Server1上激活。APPB存储在Volume M上,并且在Server2上激活。在这一配置中,Server1应该是Volume W:资源的主节点,Server2应该是Volume M:资源的主节点。
当Server2失败时, PlusWell Cluster容错软件应该将Volume M:转换到Server1上去。如果系统资源是足够的,这一转换不会影响到已经在Server1上运行的APPA,转换只是简单地将Server2上的被保护应用程序(APPB)加到Server1的运行负载上
二、PlusWell Mirror技术简介及其应用(支持非共享磁盘阵列的扩展方式)
(一) PlusWell Mirror原理
1、 PlusWell Mirror简介
PlusWell Mirror镜像是一种软件产品,专为Windows/Linux系统设计的客户/服务器环境下一种有效、高性能的高可用性解决方案。单独使用PlusWell Mirror镜像软件,无需较贵的RAID磁盘子系统,无需考虑小型计算机系统接口(SCSI)对缆线长度的限制,去除了单点故障(磁盘阵列子系统)。集群计算机环境所要考虑的主要问题是系统总开销,而使用PlusWell Mirror镜像软件的PlusWell Cluster 容错软件 是解决这个问题的首选方案。公司只需最小的硬件集成便可以得到低价、高可用性的方案。
PlusWell Mirror镜像软件在局域网的服务器之间提供完全基于软件的镜像。一个服务器被指定为主服务,另一个为从服务器。客户只能对主服务器上的镜像文件夹进行读或写,从服务器上相应的文件夹被锁定以防对数据的存取,除非在主服务器上检测到故障状态。这是实现一个高性能方案要考虑的一个重要问题,因为数据的完整性是主要因素。尽管PlusWell Mirror镜像软件可以单独使用,但是与PlusWell Cluster 容错软件 配合使用会显著增强它的功能。
2 PlusWell Mirror特性
在PlusWell Mirror镜像环境下,一个镜像是主服务器上的一个或多个文件夹,而不是整块硬盘或分区,其内容与从服务器上的相关磁盘通过LAN同步。PlusWell Mirror镜像软件使磁盘上的文件镜像的创建更为容易。
在文件镜像建立后,主服务器和从服务器上的文件夹已经同步,并且两个服务器都已启动运行,出现下面的事件:
*最初的镜像建立后,系统禁止所有用户存取从服务器的镜像文件,不允许对从服务器上的镜像文件读和写。主服务器镜像则可以进行读和写操作。
*无论何时主服务器收到一个写请求,系统首先决定这个请求是否针对某个镜像文件夹。如果不是,写操作可以完全正常的完成。
*当从系统返回一个成功状态时,主系统在自己的镜像文件夹中执行写操作,并返回到请求方。如果从系统执行镜像文件夹写操作时发生错误,那么从系统上的写操作将被中止,主系统结束自己的镜像文件夹写请求。
2、 PlusWell Mirror特性
(1) PlusWell Cluster提供的全系统检测功能与PlusWell Mirror的文件镜像功能相辅相成,使双机热备系统无需昂贵的磁盘阵列子系统。
(2) 使用PlusWell Mirror将数据由一个主机系统镜像到另一个主机系统,并与PlusWell Cluster相结合,可有效的避免磁盘阵列子系统中单点故障的可能性。
(3) 当主备服务器发生切换时。PlusWell Mirror开机后并不是以整盘再将备机数据分区或硬盘全部复制到主服务器,而是将备机中变化的数据部分复制到主服务器,如图所。减少了数据复制的时间,同时也增加了数据的安全性。
(4)具备远程的灾难复原能力
*PlusWell Mirror在服务器端的数据复制能力。
*PlusWell Mirror有在局域网和广域网的数据复制能力。
*所有PlusWell Mirror都可以配合蓝科泰达的Cluster HA软件,实现异地的数据备份功能。
使用带有PlusWell Cluster 镜像功能的PlusWell Cluster 容错软件 来进行配置,其中 Server1 是主服务器,Server2 是从服务器。
当一个客户向 Server1上的镜像文件夹发出写命令,PlusWell Cluster 镜像软件保证写命令通过网络送给 Server2,Server2上的写操作成功完成时,Server1上的写操作才能完成。因此,两处系统能够同时更新,因此主、从服务镜像文件夹中的数据一致性得以保证。
软件、硬件配置
1、软件:PlusWell Cluster 和PlusWell Mirror
2、硬件:服务器可以是任何INTEL基础上的平台,两台Server的型号、配置不必一致,只需硬件平台能保证系统运行
1、PlusWell Mirror运行机制
I、通讯路径
“Heartbeat”是服务器间发出的周期性检测信息,它允许PlusWell Cluster 容错软件决定服务器的状态。当一个服务器向另一处服务器发送一个“Heartbeat”消息,并且在规定时间段里没有得到任何回应时, 发送消息的服务器开始评测接收消息的服务器是否正在发生故障。多种“Heartbeat”检测信号保证故障检测的可靠性,以防止不必要的资源服务切换。PlusWell Cluster 容错软件为PlusWell Cluster镜像提供下列途径上的“Heartbeat”通信:
(1) Socket (TCP/IP )
(2) RS-232 TTY通信端口(Communications port )
PlusWell Cluster镜像软件消除了共享SCSI 的需要。
II、主服务器发生故障
客户向Server1上运行的一个程序发送一个请求,而Server1出现写错误时,使用带有PlusWell Cluster镜像功能的PlusWell Cluster 容错软件能够检测出系统失败。然后,PlusWell Cluster 容错软件 执行恢复规则,试图关闭Server1上的应用,并且在Server2上重新启动它们。Server2现在承担主服务器的角色,镜像文件夹地址从Server1转移到Server2上去,这个转换过程对用户来说是透明的,客户一般不会发现系统曾经发生这样的故障。
一旦系统发生的故障被被纠正过来,管理员必须重新同步镜像文件夹。重新同步这些文件夹并被锁定,目的是不接受任何客户的存取。在这个过程中,非镜像应用不会受到影响,因此这些应用可以毫无干扰的继续运行。系统管理员可以选择何时对镜像文件夹进行同步,通过提供选择时间的灵活性达到对整个系统的影响减为最小。
重新同步主服务器和从服务器上镜像的时间依赖于文件夹的大小。 一般情况下,在100MB 以太网上, 恢复1Gigabyte(GB)的数据只需要10分钟。
III、从服务器发生故障
当从系统发生故障时,受影响的镜像文件夹标志为Broken。有必要纠正这些故障,并重新同步有关的文件夹。当从系统发生故障时,任何写请求不会送给从系统。当从服务器发生故障后再次恢复时,镜像管理器用来重新同步主镜像文件夹和从镜像文件夹。
3、 工作方式
I、 Active/Standby
II、 Active/Active
PlusWell Mirror 具有以上两种工作方式,可支持两个Server系统。
4、PlusWell Mirror与其它镜像软件的根本区别
(1) 其它的镜像软件是基于卷或硬盘的数据复制。往往将硬盘的全体全部复制到备用服务器,无论这块硬盘有没有写满数据。PlusWell Mirror是以文件级的数据复制,数据库复制的大小由文件的大小决定而与硬盘的大小没有关系统。
(2) 当主备机发生切换时,或镜像发生中断后,主备机再次联结时还必须将硬盘的全体再复制一次到主服务器。从而增加了数据复制过程中的风险度。PlusWell Mirror在主备机发生切换时只将备机增加的数据复制回主机。
(3) 这种镜像限制了数据的复制大小,这种复制一般只能复制一到四个分区或一整块硬盘。限制了复制容量。对将来的数据扩容产生影响。PlusWell Mirror可以做到数据硬盘相对较大,同时可以灵活的改变数据复制的方式。
(4) 对复制的容量不易调整,往往一旦调整后需对HA软件重新进行配置。PlusWell Mirror可以从不同的硬盘,不同的分区,选择不同的文件夹进行复制,复制方法灵活简单。
三、PlusWell Cluster的关键特点
1. 不用增加任何额外硬件投资,纯软件方式实现双机容错,且对备机无硬件配置要求。
2. 可支持Notes、ExcClusternge、SQL Server、Sybase、Informix、Oracle 、SAP等多种系统的应用层热恢复。
3. 支持远程灾难备份。
4. 支持共享磁盘阵列柜和镜像两种方式,给用户提供了选择上的灵活性,同时也能适应各种机型、网络结构、软件平台及应用系统。
5. PlusWell Cluster容错软件在镜像或共享磁盘阵列任意方式下,均能实现两台服务器各自运行不同应用且相互热备份,即实现双Active运转模式。
6. 最大限度地保护用户端的应用连续性。用户的硬件资源(如网卡,软件资源如NT操作系统、数据库管理系统、数据库应用系统、电子邮件系统等)均能处于PlusWell Cluster容错软件的保护之下,当这些被保护资源出现技术故障时,PlusWell Cluster容错软件可随时实施系统资源切换。如此,PlusWell Cluster容错软件真正实现了用户硬件或是软件资源发生故障时系统及应用层上的在线热切换。
7. PlusWell Cluster容错软件占用系统资源极少,不增加网络负荷,且不打扰任何具体应用系统的任何操作。
8. PlusWell Cluster容错软件真正实现无人值守,全自动地实现应用资源切换,且图形界面操作,简单方便。
9. 自投入使用以来,已经历了大量交易高峰的实际考验,其执行效率很高且运行十分稳定可靠。
10. 目前PlusWell Cluster容错软件有Windows NT/2000/2003、SCO UNIX linux多
种版本。