MySQL之一致性检测及数据同步
前言
當(dāng)MySQL數(shù)據(jù)庫架構(gòu)使用主從時,由于事務(wù)創(chuàng)建和提交的順序并不一致。例如我們先創(chuàng)建A事務(wù),在創(chuàng)建B事務(wù),但我們在提交的時候可能先提交B事務(wù),在提交A事務(wù)。此時我們從服務(wù)在重放二進(jìn)制日志時,會先執(zhí)行B,再執(zhí)行A。這樣就會導(dǎo)致最終主從數(shù)據(jù)不一致。在一些對數(shù)據(jù)一致性要求高的場景下,我們就需要檢測主從數(shù)據(jù)的一致性。接下來我們將會介紹percona工具包中的pt-table-checksum做一致性檢測,以及pt-table-sync同步數(shù)據(jù)。
一. 部署percona tookit
下載安裝包
~]# wget https://www.percona.com/downloads/percona-toolkit/3.0.5/binary/redhat/7/x86_64/percona-toolkit-3.0.5-1.el7.x86_64.rpm
~]# yum install percona-toolkit-3.0.5-1.el7.x86_64.rpm
二. 一致性檢測工具pt-table-checksum
1. 一致性檢測原理
pt-table-checksum是percona-toolkit系列工具中的一個,用于檢測主從數(shù)據(jù)庫中的一致性。一次只工作在一張表上,會將主庫上的表切割成一個一個的chunk,這種切割要依賴于表上的index。所以在檢測時不需要大量的內(nèi)存和前期工作,而且還可以在數(shù)據(jù)尖峰是通過指數(shù)衰減算法,快速選擇適合的chunk大小,減輕服務(wù)器壓力。將表切割成一個一個的chunk接下來會對chunk進(jìn)行checksum,并記錄下來。并對比從庫上的checksum是否一致,從而判斷數(shù)據(jù)是否一致。并且在檢測過程中會自動判斷master負(fù)載,以及slave延遲,一旦超過閾值就會停止下來。對于線上的環(huán)境影響不大。而且他還可以隨時停止,只需在重啟時加入--resume就會從上次的檢測重新開始。接下來介紹其詳細(xì)過程。
1) 表結(jié)構(gòu)的檢查
表結(jié)構(gòu)的檢查也稱之為單行數(shù)據(jù)checksum值的計算,并獲取每一列的數(shù)據(jù)類型,把所有數(shù)據(jù)類型都轉(zhuǎn)化為字符串,然后用concat_ws()函數(shù)進(jìn)行連接,由此計算出該行的checksum值。checksum默認(rèn)采用crc32計算。
2) 數(shù)據(jù)塊checksum的計算
pt-table-sync會智能分析表上的索引,然后把表的數(shù)據(jù)split成若干個chunk,計算的時候以chunk為單位。可以理解為把chunk內(nèi)所有行的數(shù)據(jù)拼接起來,再計算crc32的值,即得到該chunk的checksum值。所以它把checksum結(jié)果存儲到統(tǒng)計表,然后把執(zhí)行過的sql語句記錄到binlog中,任務(wù)就算完成。然后從服務(wù)器會讀取到binlog的SQL語句依次執(zhí)行,并將checksum保存在表中。
2. 校驗
1)授權(quán)
Create database pt CHARACTER SET utf8;
GRANT UPDATE,INSERT,DELETE,SELECT, PROCESS, SUPER, REPLICATION SLAVE ON . TO 'checksums'@'192.168.239.135' identified by 'check_pass';
GRANT ALL ON pt.* TO 'checksums'@'192.168.%';
在這里我們創(chuàng)建了一個數(shù)據(jù)庫,用于存儲一致性檢測生成的數(shù)據(jù)。主從同步工具pt-table-sync根據(jù)此數(shù)據(jù)庫中的數(shù)據(jù)查找有不一致的數(shù)據(jù),并同步。其中135為主,136為從。
2)校驗(Master服務(wù)器運(yùn)行)
pt-table-checksum --nocheck-binlog-format --nocheck-plan --nocheck-replication-filters --replicate=pt.checksums --set-vars innodb_lock_wait_timeout=120 --databases newtable -u'checksums' -p'checksums' -h192.168.239.135
#-h -u -p -P -S -d 連接信息
#--nocheck-replication-filters 檢測中忽略mysql 配置參數(shù)binlog_ignore_db等。
#--nocheck-binlog-format 不檢測日志格式,默認(rèn)是使用statement 格式,如果binlog的日志與默認(rèn)不同將會檢測失敗。所以我們會關(guān)閉binlog格式的檢測
#--replicate 指定checksum 存儲的db和表, 如test.checksum
#--chunk-size, --chunk-size-limit 用于指定檢測塊的大小。 可控性更強(qiáng),Number of rows to select for each checksum query。默認(rèn)是1000。對于--chunk-size-limit來說,他可以避免當(dāng)主服務(wù)器為空,而從服務(wù)數(shù)據(jù)很大時造成的從延時過大。
#--lock-wait-timeout innodb 鎖的超時設(shè)定, 默認(rèn)為1
#--max-load : Examine SHOW GLOBAL STATUS after every chunk, and pause if any status variables are higher than their thresholds
#--replicate-check-only 只輸出數(shù)據(jù)不一致的信息。
#--resume: pt-table-checksum停止后,使用此參數(shù)可以接著停止的地方開始。
注意:
pt-table-checksum前提假設(shè)主從的表和表結(jié)構(gòu)是一致的,如果不一致pt-table-checksum會失敗
三. 數(shù)據(jù)同步工具pt-table-sync
pt-table-sync是MySQL數(shù)據(jù)同步工具,并不僅僅是同步主從數(shù)據(jù),任意主機(jī)上的表都可以同步。
pt-table-checksum只是校驗,所以它把checksum結(jié)果存儲到統(tǒng)計表,然后把執(zhí)行過的sql語句記錄到binlog中,任務(wù)就算完成。
pt-table-sync則不同,工作流程如下:
- a) 連接到主庫:pt工具連接到主庫,然后自動發(fā)現(xiàn)主庫的所有從庫。默認(rèn)采用show full processlist來查找從庫,但是這只有在主從實例端口相同的情況下才有效
- b) 在主庫上對每一個chunk,在校驗時加上for update鎖。一旦獲得鎖,就記錄下當(dāng)前主庫的show master status值。在從庫上執(zhí)行select master_pos_wait()函數(shù),等待從庫sql線程執(zhí)行到show master status得到的位置。以此保證,主從上關(guān)于這個chunk的內(nèi)容均不再改變。
- c) 對這個chunk執(zhí)行checksum,然后與主庫的checksum進(jìn)行比較
- d) 如果checksum相同,說明主從數(shù)據(jù)一致,就繼續(xù)下一個chunk
- e) 如果checksum不同,說明該chunk有不一致。深入chunk內(nèi)部,逐行計算checksum并比較
- f) 如果發(fā)現(xiàn)某行不一致,則標(biāo)記下來。繼續(xù)檢測剩余行,直到這個chunk結(jié)束
- g) 對找到的主從不一致的行,采用replace into(如果數(shù)據(jù)不存在則插入,存在則更新,避免了主鍵約束)語句,在主庫執(zhí)行一遍以生成該行全量的binlog,并同步到從庫,這會以主庫數(shù)據(jù)為基準(zhǔn)來修復(fù)從庫;對于主庫有的行而從庫沒有的行,采用replace在主庫上插入(必須不能是insert);于從庫有而主庫沒有的行,通過在主庫執(zhí)行delete來刪除(pt-table-sync強(qiáng)烈建議所有的數(shù)據(jù)修復(fù)都只在主庫進(jìn)行,而不建議直接修改從庫數(shù)據(jù);但是也有特例,后面會講到)。
- h) 直到修復(fù)該chunk所有不一致的行。繼續(xù)檢查和修復(fù)下一個chunk
- i) 直到這個從庫上所有的表修復(fù)結(jié)束。開始修復(fù)下一個從庫
四. 實驗示例
1. 實驗環(huán)境
- 主機(jī)IP : 192.168.239.135 192.168.239.136
- 主機(jī)系統(tǒng) : centos7.2
- MySQL版本 : 5.5.56
兩臺主機(jī)已經(jīng)配置好主從,其中135為主,136為從
2. 主從數(shù)據(jù)一致性檢查
- 1)授權(quán)(master主機(jī)上)
mysql> CREATE DATABASE pt; #創(chuàng)建數(shù)據(jù)庫pt用于存放checksum的值
mysql> GRANT UPDATE,INSERT,SELECT,PROCESS,SUPER,REPLICATION SLAVE ON . 'checksum'@'192.168.%' IDENTIFIED BY "check_pass"; #創(chuàng)建checksum用戶用于執(zhí)行檢測,以及分配檢測時要用的權(quán)限。
mysql> GRANT ALL ON pt.* TO checksum@'192.168.%'; #checksum用戶要將checksum的值寫入pt數(shù)據(jù)庫中所以需要分配權(quán)限給checksum用戶。
權(quán)限解釋: select //查看所有庫的表,原理可加 explain選項查看 process //show processlist super //set binlog_format='statement' replication slave //show slave hosts注意 : 在master上執(zhí)行一致性檢測時,master會通過show processlist查看slave主機(jī),并通過連接master的賬號和密碼連接slave,所以master上一致性檢測的賬號在slave上一定要有。
- 2)在master上執(zhí)行一致性檢測
首先我們需要人為創(chuàng)造不一致,在slave中刪除一條記錄
執(zhí)行一致性檢測(主從上都可執(zhí)行)
~]# pt-table-checksum --nocheck-binlog-format --nocheck-plan --nocheck-replication-filters --replicate=pt.checksums --databases=hellodb -u 'checksum' -p 'check_pass' -h 192.168.239.135 TS ERRORS DIFFS ROWS CHUNKS SKIPPED TIME TABLE 03-14T16:25:21 0 1 8 1 0 0.011 hellodb.classes 03-14T16:25:21 0 0 14 1 0 0.017 hellodb.coc 03-14T16:25:21 0 0 7 1 0 0.032 hellodb.courses 03-14T16:25:21 0 0 15 1 0 0.015 hellodb.scores 03-14T16:25:21 0 0 25 1 0 0.016 hellodb.students 03-14T16:25:21 0 0 4 1 0 0.018 hellodb.teachers 03-14T16:25:21 0 0 0 1 0 0.016 hellodb.toc顯示數(shù)據(jù)解釋
TS : 完成檢測表時的時間,不顯示年份。
ERRORS : 在checksum時發(fā)生的錯誤和警告的次數(shù)
DIFFS : 主從之間chunk不同的個數(shù),如果不為0,表明主從數(shù)據(jù)有不一致的。
ROWS : 檢測表時一個chunk有多少行。如果使用了-where選項,一個表中的chunk可能不同
CHUNKS : 表被切割成了多少個chunk
SKIPPED : 由于某種原因跳過檢測chunk的數(shù)量
TIME : checksum此表所花的時間。
TABLE : 被checksum的表明
由上可知classes表中有數(shù)據(jù)不一致。
3. 主從同步
主從實現(xiàn)同步,往往都是借助pt-table-checksum產(chǎn)生的checksum表來說實現(xiàn)數(shù)據(jù)同步。
1)手動同步
~]# pt-table-sync --print --sync-to-master h=192.168.239.136,u=checksum,p=check_pass --databases=hellodb --replicate=pt.checksums
h=192.168.239.136,u=checksum,p=check_pass 指明需要同步的slave主機(jī),以及登錄的用戶名和密碼
--databases=hellodb:指明同步的數(shù)據(jù)
--replicate=pt.checksums:同步時使用的checksum數(shù)據(jù)庫。
--sync-to-master:會通過show slave status去自動找主服務(wù)器同步數(shù)據(jù),如果沒有此參數(shù),我們需要通過h p u同時指明master和slave,即兩組h p u。
--print:主從不同的數(shù)據(jù)僅打印出來,并不在從上執(zhí)行。
此命令在主從上都可執(zhí)行。輸出信息如下:
我們只需在從服務(wù)器上執(zhí)行REPLACE INTO hellodb.classes(classid, class, numofstu) VALUES ('1', 'Shaolin Pai', '10')這條sql語句即可
2)自動同步
~]# pt-table-sync --execute --sync-to-master h=192.168.239.136,u=checksum,p=check_pass --databases=hellodb --replicate=pt.checksums
--execute:自動修復(fù)主從不同的數(shù)據(jù)
自動同步出現(xiàn)如下錯誤:
pt-table-sync在實現(xiàn)同時時并不會直接在slave上進(jìn)行操作,都是在master上執(zhí)行命令,進(jìn)而影響slave,這種修改數(shù)據(jù)的方式更加安全。所以master需要在slave上有對應(yīng)的權(quán)限。
上圖顯示master在slave上沒有delete權(quán)限,查看slave分配的權(quán)限,如下圖可知確實沒有delete權(quán)限,只需在master上將checksum用戶添加delete權(quán)限即可
在master上修改checksum的權(quán)限,由于主從同步,slave也會修改對應(yīng)用戶權(quán)限
mysql GRANT UPDATE,INSERT,SELECT,DELETE,PROCESS,SUPER,REPLICATION SLAVE ON . TO 'checksum'@'192.168.%';
執(zhí)行數(shù)據(jù)同步,再次執(zhí)行checksum檢測,可以看到?jīng)]有不同,而且查看slave中classes數(shù)據(jù)發(fā)現(xiàn)刪除的數(shù)據(jù)又出現(xiàn)了
參考
https://www.percona.com/doc/percona-toolkit/3.0/pt-table-sync.html
https://www.percona.com/doc/percona-toolkit/3.0/pt-table-checksum.html
轉(zhuǎn)載于:https://blog.51cto.com/13589448/2086866
總結(jié)
以上是生活随笔為你收集整理的MySQL之一致性检测及数据同步的全部內(nèi)容,希望文章能夠幫你解決所遇到的問題。