用rsync对网站进行镜像备份

对系统管理员来说,平时的工作重心应该集中在维护系统正常运转,能够正常提供服务上,这里往往牵涉到一个数据备份的问题,在我所了解
的情况中,有80%的系统管理员不是太关心自己服务器的安全性,但往往对备分镜像的技术相当感兴趣,但由于商业产品的软硬件价格都相当高
昂,因此往往会选择自由软件。这里准备介绍的rsync就是这样的软件,它可以满足绝大多数要求不是特别高的备份需求。
一、特性简介
rsync是类unix系统下的数据镜像备份工具,从软件的命名上就可以看出来了——remote sync。它的特性如下:
1、可以镜像保存整个目录树和文件系统。
2、可以很容易做到保持原来文件的权限、时间、软硬链接等等。
3、无须特殊权限即可安装。
4、优化的流程,文件传输效率高。
5、可以使用rcp、ssh等方式来传输文件,当然也可以通过直接的socket连接。
6、支持匿名传输。

二、架设rsync服务器过程
架设rsync 服务器比较简单,写一个配置文件rsyncd.conf 。文件的书写也是有规则的,我们可以参照rsync.samba.org 上的文档来做;当然我们首先要安装好rsync 这个软件才行(可以从http://rsync.samba.org/rsync/获得最新版本)
1 rsync的安装
软件安装过于简单,现在Linux各大发行版都提供这个软件包,当然您也可以自己编译安装,在目前的情况下,我看没太大的必要
[root@linuxsir:beinan]$ sudo apt-get  install  rsync  注:在debian、ubuntu 等在线安装方法
[root@linuxsir:beinan]# slackpkg  install  rsync   注:Slackware 软件包在线安装
[root@linuxsir:beinan]# yum install rsync    注:Fedora、Redhat 等系统安装方法
其它Linux发行版,请用相应的软件包管理方法来安装;如果是源码包,也就是用下面的办法;
[root@linuxsir:/home/beinan]#tar xvf sync-xxxx.tar.gz 或sync-xxx.tar.bz2
[root@linuxsir:/home/beinan]#cd sync-xxx
[root@linuxsir:/home/beinan/sync-xxx]#./configure --prefix=/usr 
[root@linuxsir:/home/beinan/sync-xxx]#make
[root@linuxsir:/home/beinan/sync-xxx]#make install
注:在用源码包编译安装之前,您得安装gcc等编译开具才行
2 rsync服务器的配置文件rsyncd.conf ;
我们可以参照 rsyncd.conf.html。具体步骤如下
[root@linuxsir:~]#mkdir /etc/rsyncd 
注:在/etc目录下创建一个rsyncd的目录,我们用来存放rsyncd.conf 和rsyncd.secrets文件;
[root@linuxsir:~]#touch /etc/rsyncd/rsyncd.conf 
注:创建rsyncd.conf ,这是rsync服务器的配置文件;
[root@linuxsir:~]#touch /etc/rsyncd/rsyncd.secrets 
注:创建rsyncd.secrets ,这是用户密码文件;
[root@linuxsir:~]#chmod 600 /etc/rsyncd/rsyncd.secrets 
注:为了密码的安全性,我们把权限设为600;
[root@linuxsir:~]#ls -lh /etc/rsyncd/rsyncd.secrets
-rw------- 1 root root 14 2007-07-15 10:21 /etc/rsyncd/rsyncd.secrets
[root@linuxsir:~]#touch /etc/rsyncd/rsyncd.motd

下一就是我们修改 rsyncd.conf 和rsyncd.secrets 和rsyncd.motd 文件的时候了;

rsyncd.conf 是rsync服务器主要配置文件,我们来个简单的示例;比如我们要备份服务器上的 /home 和/opt ,在/home中,我想把beinan和samba目录排除在外;

# Distributed under the terms of the GNU General Public License v2
# Minimal configuration file for rsync daemon
# See rsync(1) and rsyncd.conf(5) man pages for help
# This line is required by the /etc/init.d/rsyncd script
pid file = /var/run/rsyncd.pid  
port = 873
address = 192.168.1.171 
#uid = nobody
#gid = nobody   
uid = root  
gid = root  
use chroot = yes 
read only = yes 
#limit access to private LANs
hosts allow=192.168.1.0/255.255.255.0 10.0.1.0/255.255.255.0 
hosts deny=*
max connections = 5
motd file = /etc/rsyncd/rsyncd.motd
#This will give you a separate log file
#log file = /var/log/rsync.log
#This will log every file transferred - up to 85,000+ per user, per sync
#transfer logging = yes
log format = %t %a %m %f %b
syslog facility = local3
timeout = 300
[linuxsirhome]  
path = /home   
list=yes
ignore errors
auth users = linuxsir
secrets file = /etc/rsyncd/rsyncd.secrets 
comment = linuxsir home 
exclude =   beinan/  samba/     
[beinan]
path = /opt
list=no
ignore errors
comment = optdir  
auth users = beinan
secrets file = /etc/rsyncd/rsyncd.secrets

注:关于 auth users 是必须在服务器上存在的真实的系统用户,如果你想用多个用户,那就以,号隔开;比如 auth users = beinan , linuxsir
密码文件:/etc/rsyncd/rsyncd.secrets的内容格式;
用户名:密码
而我们在例子中rsyncd.secrets的内容如下类似的;在文档中说,有些系统不支持长密码,自己尝试着设置一下吧。另外 rsyncd.secrets文件权限对其它用户组是不可读的。如果你设置错了,可能rsync不工作。
linuxsir:222222
beinan:333333

注:这里的密码值得注意,为了安全,你不能把系统用户的密码写在这里。比如你的系统用户 linuxsir 密码是 abcdefg ,为了安全,你可以让rsync 中的linuxsir 为 222222 。这和samba的用户认证的密码原理是差不多的;

rsyncd.motd 文件;
它是定义rysnc 服务器信息的,也就是用户登录信息。比如让用户知道这个服务器是谁提供的等;类似ftp服务器登录时,我们所看到的 linuxsir.org ftp ……。 当然这在全局定义变量时,并不是必须的,你可以用#号注掉,或删除;我在这里写了一个 rsyncd.motd的内容为:
+++++++++++++++++++++++++++
+ linuxsir.org  rsync  2002-2007 +
+++++++++++++++++++++++++++

三、架设rsync服务器的示例说明;
1 全局定义;
在rsync 服务器中,全局定义有几个比较关健的,根据我们前面所给的配置文件 rsyncd.conf 文件;
pid file = /var/run/rsyncd.pid   注:告诉进程写到 /var/run/rsyncd.pid 文件中;
port = 873  注:指定运行端口,默认是873,您可以自己指定;
address = 192.168.1.171  注:指定服务器IP地址;
uid = nobody 
gid = nobdoy 
注:服务器端传输文件时,要发哪个用户和用户组来执行,默认是nobody。 如果用nobody 用户和用户组,可能遇到权限问题,有些文件从服务器上拉不下来。所以我就偷懒,为了方便,用了root 。不过您可以在定义要同步的目录时定义的模块中指定用户来解决权限的问题。
use chroot = yes
注:用chroot,在传输文件之前,服务器守护程序在将chroot 到文件系统中的目录中,这样做的好处是可能保护系统被安装漏洞侵袭的可能。缺点是需要超级用户权限。另外对符号链接文件,将会排除在外。也就是说,你在 rsync服务器上,如果有符号链接,你在备份服务器上运行客户端的同步数据时,只会把符号链接名同步下来,并不会同步符号链接的内容;这个需要自己来尝试;
read only = yes
注:read only 是只读选择,也就是说,不让客户端上传文件到服务器上。还有一个 write only选项,自己尝试是做什么用的吧;
#limit access to private LANs
hosts allow=192.168.1.0/255.255.255.0 10.0.1.0/255.255.255.0
注:在您可以指定单个IP,也可以指定整个网段,能提高安全性。格式是ip 与ip 之间、ip和网段之间、网段和网段之间要用空格隔开;
max connections = 5  
注:客户端最多连接数;
motd file = /etc/rsyncd/rsyncd.motd
注:motd file 是定义服务器信息的,要自己写 rsyncd.motd 文件内容。当用户登录时会看到这个信息。比如我写的是:
+++++++++++++++++++++++++++
+ linuxsir.org  rsync  2002-2007 +
+++++++++++++++++++++++++++
log file = /var/log/rsync.log
注:rsync 服务器的日志;
transfer logging = yes
注:这是传输文件的日志;
log format = %t %a %m %f %b
syslog facility = local3
timeout = 300
2 模块定义;
模块定义什么呢?主要是定义服务器哪个目录要被同步。每个模块都要以[name]形式。这个名字就是在rsync 客户端看到的名字,其实有点象Samba服务器提供的共享名。而服务器真正同步的数据是通过 path 来指定的。我们可以根据自己的需要,来指定多个模块。每个模块要指定认证用户,密码文件、但排除并不是必须的;
下面前面配置文件模块的例子:
[linuxsirhome] 
注:模块,它为我们提供了一个链接的名字,链接到哪呢,在本模块中,链接到了/home目录;要用[name] 形式;
path = /home    注:指定文件目录所在位置,这是必须指定的;
auth users = linuxsir   注:认证用户是linuxsir  ,是必须在 服务器上存在的用户;
list=yes   注:list 意思是把rsync 服务器上提供同步数据的目录在服务器上模块是否显示列出来。默认是yes 。如果你不想列出来,就no ;如果是no是比较安全的,至少别人不知道你的服务器上提供了哪些目录。你自己知道就行了;
ignore errors  注:忽略IO错误,详细的请查文档;
secrets file = /etc/rsyncd/rsyncd.secrets   注:密码存在哪个文件;
comment = linuxsir home  data  注:注释可以自己定义,写什么都行,写点相关的内容就行;
exclude =   beinan/   samba/    
注:exclude 是排除的意思,也就是说,要把/home目录下的beinan和samba 排除在外; beinan/和samba/目录之间有空格分开 ;
[beinan]
path = /opt  注:指定文件目录所在位置;
list=no
comment = optdir 
auth users = beinan  注:是必段在服务器上存在的用户;
secrets file = /etc/rsyncd/rsyncd.secrets
ignore errors

四、启动rsync 服务器及防火墙的设置;
1 启动rsync服务器;
启动rsync 服务器相当简单,--daemon 是让rsync 以服务器模式运行;
[root@linuxsir:~]#/usr/bin/rsync --daemon  --config=/etc/rsyncd/rsyncd.conf
注: 如果你找不到rsync 命令,你应该知道rsync 是安装在哪了。比如rsync 可执行命令可能安装在了 /usr/local/bin目录;也就是如下的命令;
[root@linuxsir:~]#/usr/local/bin/rsync --daemon  --config=/etc/rsyncd/rsyncd.conf
当然您也可以写一个脚本来开机自动启动rysnc 服务器,你自己查查文档试试,这个简单。因为我用slackware 也有一个类似的脚本。我感觉不如直接手工运行方面,或者把这个命令写入rc.local文件中,这样也一样能自动运行;
2 rsync服务器和防火墙;
Linux 防火墙是用iptables,所以我们至少在服务器端要让你所定义的rsync 服务器端口通过,客户端上也应该让通过。
[root@linuxsir:~]#iptables -A INPUT -p tcp -m state --state NEW  -m tcp --dport 873 -j ACCEPT
[root@linuxsir:~]#iptables -L  查看一下防火墙是不是打开了 873端口;

五、通过rsync客户端来同步数据;
1 列出rsync 服务器上的所提供的同步内容;
首先:我们看看rsync服务器上提供了哪些可用的数据源;
[beinan@beinnaIBM:~]$ rsync  --list-only  linuxsir@linuxsir.org::
+++++++++++++++++++++++++++++++++
+++ linuxsir.org rsync  server ++
+++++++++++++++++++++++++++++++++
linuxsirhome    linuxsir  home data
注: 前面是rsync 所提供的数据源,也就是我们在rsyncd.conf 中所写的[linuxsirhome]模块。而“linuxsir home data”是由[linuxsirhome]模块中的 comment = linuxsir home data 提供的;为什么没有把beinan 数据源列出来呢?因为我们在[beinan]中已经把list=no了。
[beinan@beinnaIBM:~]$ rsync  --list-only  linuxsir@linuxsir.org::linuxsirhome
试试这个?
2 rsync 客户端同步数据;
[beinan@beinnaIBM:~]$ rsync -avzP linuxsir@linuxsir.org::linuxsirhome   linuxsirhome
Password: 这里要输入linuxsir的密码,是服务器端提供的,在前面的例子中,我们用的是 222222,输入的密码并不显示出来;输好后就回车;
注: 这个命令的意思就是说,用linuxsir 用户登录到服务器上,把linuxsirhome数据,同步到本地目录linuxsirhome上。当然本地的目录是可以你自己定义的,比如 linuxsir也是可以的;当你在客户端上,当前操作的目录下没有linuxsirhome这个目录时,系统会自动为你创建一个;当存在 linuxsirhome这个目录中,你要注意它的写权限。
说明:
-a 参数,相当于-rlptgoD
-r 是递归
-l 是链接文件,意思是拷贝链接文件
-p 表示保持文件原有权限
-t 保持文件原有时间
-g 保持文件原有用户组
-o 保持文件原有属主
-D 相当于块设备文件;
-z 传输时压缩;
-P 传输进度;
-v 传输时的进度等信息,和-P有点关系,自己试试。可以看文档;
[beinan@beinnaIBM:~]$ rsync -avzP  --delete linuxsir@linuxsir.org::linuxsirhome   linuxsirhome
这回我们引入一个 --delete 选项,表示客户端上的数据要与服务器端完全一致,如果 linuxsirhome目录中有服务器上不存在的文件,则删除。最终目的是让linuxsirhome目录上的数据完全与服务器上保持一致;用的时候要小心点,最好不要把已经有重要数所据的目录,当做本地更新目录,否则会把你的数据全部删除;
[beinan@beinnaIBM:~]$ rsync -avzP  --delete  --password-file=rsync.password  linuxsir@linuxsir.org::linuxsirhome   linuxsirhome
这次我们加了一个选项 --password-file=rsync.password ,这是当我们以linuxsir用户登录rsync服务器同步数据时,密码将读取 rsync.password 这个文件。这个文件内容只是linuxsir用户的密码。我们要如下做;
[beinan@beinnaIBM:~]$ touch rsync.password
[beinan@beinnaIBM:~]$ chmod 600 rsync.passwod
[beinan@beinnaIBM:~]$ echo "222222"> rsync.password
[beinan@beinnaIBM:~]$ rsync -avzP  --delete  --password-file=rsync.password  linuxsir@linuxsir.org::linuxsirhome   linuxsirhome
注: 这样就不需要密码了;其实这是比较重要的,因为服务器通过crond 计划任务还是有必要的;
3 让rsync 客户端自动与服务器同步数据;
服务器是重量级应用,所以数据的网络备份还是极为重要的。我们可以在生产型服务器上配置好rsync 服务器。我们可以把一台装有rysnc机器当做是备份服务器。让这台备份服务器,每天在早上4点开始同步服务器上的数据;并且每个备份都是完整备份。有时硬盘坏掉,或者服务器数据被删除,完整备份还是相当重要的。这种备份相当于每天为服务器的数据做一个镜像,当生产型服务器发生事故时,我们可以轻松恢复数据,能把数据损失降到最低;是不是这么回事??
第一步:创建同步脚本和密码文件
[beinan@beinnaIBM:~] mkdir   /etc/cron.daily.rsync
[beinan@beinnaIBM:~] cd  /etc/cron.daily.rsync
[beinan@beinnaIBM:~] touch linuxsir.sh  beinan.sh
[beinan@beinnaIBM:~] chmod 755 /etc/cron.daily.rsync/*.sh
[beinan@beinnaIBM:~] mkdir /etc/rsyncd/
[beinan@beinnaIBM:~] touch  /etc/rsyncd/rsynclinuxsir.password
[beinan@beinnaIBM:~] touch  /etc/rsyncd/rsyncbeinan.password
[beinan@beinnaIBM:~] chmod 600  /etc/rsyncd/rsyncbeinan.*
注: 我们在 /etc/cron.daily/ 中创建了两个文件beinan.sh和linuxsir.sh ,并且是权限是 755的。创建了两个密码文件,linuxsir用户用的是 rsynclinuxsir.password ,而beinan用户用的是 rsyncbeinan.password ,权限是600;
我们编辑linuxsir.sh,内容是如下的:
#!/bin/sh
#linuxsir.org home backup
/usr/bin/rsync   -avzP  --password-file=/etc/rsyncd/rsynclinuxsir.password   linuxsir@192.168.1.171::linuxsirhome   /home/linuxsirhome/$(date +'%m-%d-%y')
我们编辑 beinan.sh ,内容是:
#!/bin/sh
#linuxsir.org beinan home backup
/usr/bin/rsync   -avzP  --password-file=/etc/rsyncd/rsyncbeinan.password   linuxsir@192.168.1.171::beinan   /home/beinanhome/$(date +'%m-%d-%y')
注:你可以把linuxsir.sh 和beinan.sh 的内容合并到一个文件中,比如都写到 linuxsir.sh 中;
接着我们修改 /etc/rsyncd/rsynclinuxsir.password 和 rsyncbeinan.password的内容;
[beinan@beinnaIBM:~] echo "222222" > /etc/rsyncd/rsynclinuxsir.password
[beinan@beinnaIBM:~] echo "333333"> /etc/rsyncd/rsyncbeinan.password
然后我们再/home目录下创建linuxsirhome 和beinanhome两个目录,意思是服务器端的linuxsirhome数据同步到备份服务器上的/home/linuxsirhome 下,beinan数据同步到 /home/beinanhome/目录下。并按年月日归档创建目录;每天备份都存档;
[beinan@beinnaIBM:~] mkdir /home/linuxsirhome
[beinan@beinnaIBM:~] mkdir /home/beinanhome
第二步:修改crond服务器的配置文件
[beinan@beinnaIBM:~] crontab  -e
加入下面的内容:
# Run daily cron jobs at 4:10 every day  backup linuxsir data:
10 4 * * * /usr/bin/run-parts   /etc/cron.daily.rsync    1> /dev/null
注:
第一行是注释,是说明内容,这样能自己记住。
第二行表示在每天早上4点10分的时候,运行 /etc/cron.daily.rsync 下的可执行脚本任务;
第三步:重启crond服务器;
配置好后,要重启crond 服务器;
[beinan@beinnaIBM:~]# killall crond    注:杀死crond 服务器的进程;
[beinan@beinnaIBM:~]# ps aux |grep crond  注:查看一下是否被杀死;
[beinan@beinnaIBM:~]# /usr/sbin/crond    注:启动 crond 服务器;
[beinan@beinnaIBM:~]# ps aux  |grep crond  注:查看一下是否启动了?
root      3815  0.0  0.0   1860   664 ?  S    14:44   0:00 /usr/sbin/crond
root      3819  0.0  0.0   2188   808 pts/1    S+   14:45   0:00 grep crond

六、FAQ
Q:如何通过ssh进行rsync,而且无须输入密码?
A:可以通过以下几个步骤

1. 通过ssh-keygen在server A上建立SSH keys,不要指定密码,你会在~/.ssh下看到identity和identity.pub文件
2. 在server B上的home目录建立子目录.ssh
3. 将A的identity.pub拷贝到server B上
4. 将identity.pub加到~[user b]/.ssh/authorized_keys
5. 于是server A上的A用户,可通过下面命令以用户B ssh到server B上了
                e.g. ssh -l userB serverB
这样就使server A上的用户A就可以ssh以用户B的身份无需密码登陆到server B上了。

Q:如何通过在不危害安全的情况下通过防火墙使用rsync?
A:解答如下:

这通常有两种情况,一种是服务器在防火墙内,一种是服务器在防火墙外。
无论哪种情况,通常还是使用ssh,这时最好新建一个备份用户,并且配置sshd仅允许这个用户通过RSA认证方式进入。
如果服务器在防火墙内,则最好限定客户端的IP地址,拒绝其它所有连接。
如果客户机在防火墙内,则可以简单允许防火墙打开TCP端口22的ssh外发连接就ok了。

Q:我能将更改过或者删除的文件也备份上来吗?
A:当然可以:

你可以使用如:rsync -other -options -backupdir = ./backup-2000-2-13  ...这样的命令来实现。
这样如果源文件:/path/to/some/file.c改变了,那么旧的文件就会被移到./backup-2000-2-13/path/to/some/file.c,这里这个目录需要自己

手工建立起来

Q:我需要在防火墙上开放哪些端口以适应rsync?
A:视情况而定

rsync可以直接通过873端口的tcp连接传文件,也可以通过22端口的ssh来进行文件传递,但你也可以通过下列命令改变它的端口:

rsync --port 8730 otherhost::
或者
rsync -e 'ssh -p 2002' otherhost:

Q:我如何通过rsync只复制目录结构,忽略掉文件呢?
A:rsync -av --include '*/' --exclude '*' source-dir dest-dir

Q:为什么我总会出现"Read-only file system"的错误呢?
A:看看是否忘了设"read only = no"了

Q:为什么我会出现'@ERROR: invalid gid'的错误呢?
A:rsync使用时默认是用uid=nobody;gid=nobody来运行的,如果你的系统不存在nobody组的话,就会出现这样的错误,可以试试gid =nogroup或者其它

Q:绑定端口873失败是怎么回事?
A:如果你不是以root权限运行这一守护进程的话,因为1024端口以下是特权端口,会出现这样的错误。你可以用--port参数来改变。

Q:为什么我认证失败?
A:从你的命令行看来:
你用的是:
> bash$ rsync -a 144.16.251.213::test test
> Password:
> @ERROR: auth failed on module test
>
> I dont understand this. Can somebody explain as to how to acomplish this.
> All suggestions are welcome.

应该是没有以你的用户名登陆导致的问题,试试rsync -a max@144.16.251.213::test test

七、一些可借鉴的脚本
这里这些脚本都是rsync网站上的例子:
1、每隔七天将数据往中心服务器做增量备份
#!/bin/sh
# This script does personal backups to a rsync backup server. You will end up
# with a 7 day rotating incremental backup. The incrementals will go
# into subdirectories named after the day of the week, and the current
# full backup goes into a directory called "current"
# tridge@linuxcare.com
# directory to backup
BDIR=/home/$USER
# excludes file - this contains a wildcard pattern per line of files to exclude
EXCLUDES=$HOME/cron/excludes
# the name of the backup machine
BSERVER=owl
# your password on the backup server
export RSYNC_PASSWORD=XXXXXX
########################################################################
BACKUPDIR=date +%A
OPTS="--force --ignore-errors --delete-excluded --exclude-from=$EXCLUDES
      --delete --backup --backup-dir=/$BACKUPDIR -a"

export PATH=$PATH:/bin:/usr/bin:/usr/local/bin
# the following line clears the last weeks incremental directory
[ -d $HOME/emptydir ] || mkdir $HOME/emptydir
rsync --delete -a $HOME/emptydir/ $BSERVER::$USER/$BACKUPDIR/
rmdir $HOME/emptydir
# now the actual transfer
rsync $OPTS $BDIR $BSERVER::$USER/current
2、备份至一个空闲的硬盘
#!/bin/sh
export PATH=/usr/local/bin:/usr/bin:/bin
LIST="rootfs usr data data2"
for d in $LIST; do
    mount /backup/$d
    rsync -ax --exclude fstab --delete /$d/ /backup/$d/
    umount /backup/$d
done
DAY=date "+%A"
rsync -a --delete /usr/local/apache /data2/backups/$DAY
rsync -a --delete /data/solid /data2/backups/$DAY
3、对vger.rutgers.edu的cvs树进行镜像
#!/bin/bash
cd /var/www/cvs/vger/
PATH=/usr/local/bin:/usr/freeware/bin:/usr/bin:/bin
RUN=lps x | grep rsync | grep -v grep | wc -l
if [ "$RUN" -gt 0 ]; then
    echo already running
    exit 1
fi
rsync -az vger.rutgers.edu::cvs/CVSROOT/ChangeLog $HOME/ChangeLog
sum1=sum $HOME/ChangeLog
sum2=sum /var/www/cvs/vger/CVSROOT/ChangeLog
if [ "$sum1" = "$sum2" ]; then
    echo nothing to do
    exit 0
fi
rsync -az --delete --force vger.rutgers.edu::cvs/ /var/www/cvs/vger/
exit 0
4、利用find的一种巧妙方式
rsync -avR remote:'find /home -name "*.[ch]"' /tmp/
可以用这种方法列出需要备份的文件列表——这种方法似乎比较少人用到。

发表评论