mysql htap 开源_基于开源应用快速构建HTAP系统
原標(biāo)題:基于開(kāi)源應(yīng)用快速構(gòu)建HTAP系統(tǒng)
利用ProxySQL、MySQL、ClickHouse快速構(gòu)建HTAP系統(tǒng)1. 關(guān)于ClickHouse
企業(yè)里隨著數(shù)據(jù)量的增加,以及日趨復(fù)雜的分析性業(yè)務(wù)需求,主要適用于OLTP場(chǎng)景的MySQL壓力越來(lái)越大。多年前還能免費(fèi)試用的infobright社區(qū)版也早就銷(xiāo)聲匿跡,infinidb被MariaDB收入囊中之后改頭換面變成ColumnStore,但最近幾年發(fā)展的平平淡淡,都不是理想的OLAP方案。
戰(zhàn)斗民族出品的ClickHouse這幾年則是風(fēng)頭正勁,國(guó)內(nèi)用戶也越來(lái)越多,幾大公有云上也提供相應(yīng)的產(chǎn)品服務(wù),是目前市面上最快的OLAP數(shù)據(jù)庫(kù),性能遠(yuǎn)超Vertica、Sybase IQ等。關(guān)于ClickHouse的性能也可以關(guān)注我以前的一份測(cè)試報(bào)告: ClickHouse性能測(cè)試 。
ClickHouse對(duì)MySQL的兼容性也很好,除了很多語(yǔ)法相同或接近外,甚至還可以利用MySQL客戶端(協(xié)議)連接到ClickHouse。
ClickHouse 可以掛載為 MySQL 的一個(gè)從庫(kù) ,先全量再增量的實(shí)時(shí)同步 MySQL 數(shù)據(jù),這個(gè)功能可以說(shuō)是今年最亮眼、最剛需的功能,基于它我們可以輕松的打造一套企業(yè)級(jí)解決方案,讓 OLTP 和 OLAP 的融合從此不再頭疼。目前支持 MySQL 5.6/5.7/8.0 版本,兼容 Delete/Update 語(yǔ)句,及大部分常用的 DDL 操作。只需要安裝最新版本的ClickHouse就可以體驗(yàn)到這個(gè)新特性了,不過(guò)該特性還處于experimental階段,還在不斷完善中。
2. 關(guān)于ProxySQL
ProxySQL是一款強(qiáng)大的中間件為MySQL的架構(gòu)提供了有力的支持,支持傳統(tǒng)主從復(fù)制、半同步復(fù)制、MGR、PXC等多種MySQL架構(gòu),還支持故障自動(dòng)檢測(cè)和切換、連接池、讀寫(xiě)分離、日志記錄、監(jiān)控、集群部署等多項(xiàng)實(shí)用功能。當(dāng)然了,ProxySQL最大的缺點(diǎn)是性能損失較大,預(yù)計(jì)至少有20% ~ 30%的性能損失,因此如果是在高性能場(chǎng)景下可能不太合適。不過(guò)可以考慮通過(guò)分庫(kù)分表等方式降低單節(jié)點(diǎn)壓力,充分發(fā)揮ProxySQL的集群功能。
3. 構(gòu)建HTAP系統(tǒng)
ClickHouse和ProxySQL的安裝本文不再贅述,直接開(kāi)始動(dòng)手構(gòu)建HTAP系統(tǒng)。下面是整體架構(gòu)示意圖
3.1 將ClickHouse配置成為MySQL的從庫(kù)
登入ClickHouse后,執(zhí)行下面的命令啟用新特性:
clickhouse :) SET allow_experimental_database_materialize_mysql = 1;
在ClickHouse中,創(chuàng)建一個(gè)復(fù)制通道,即可構(gòu)建一個(gè)MySQL復(fù)制從庫(kù),例如:
clickhouse :) CREATE DATABASE testENGINE = MaterializeMySQL( '172.24.10.10:3306', 'test', 'repl', 'repl');
clickhouse :) use test;
clickhouse :) show tables;
┌─name─────┐
│ sbtest1 │
│ sbtest10 │
│ sbtest11 │
...
32 rows inset. Elapsed: 0.006 sec.
首次創(chuàng)建復(fù)制通道后,ClickHouse會(huì)快速?gòu)腗ySQL主庫(kù)讀取所有數(shù)據(jù)并應(yīng)用,可以查看數(shù)據(jù)復(fù)制的進(jìn)度:
[root@yejr.run] # cat metadata/sbtest/.metadata
Version: 2
Binlog File: binlog.001496
Executed GTID: 097ee9f2-2ded-11eb-9211-e4434ba52b50:1-952676723
Binlog Position: 789663343
Data Version: 2
提醒:在這里,我設(shè)置的是主從復(fù)制專(zhuān)用賬號(hào)。相對(duì)于普通的主從復(fù)制賬號(hào),用于ClickHouse從庫(kù)的賬號(hào)至少還要加上只讀權(quán)限,例如:
[root@yejr.run]> show grants forrepl;
+--------------------------------------------------------------------------+
| Grants forrepl@% |
+--------------------------------------------------------------------------+
| GRANT RELOAD, REPLICATION SLAVE, REPLICATION CLIENT ON *.* TO `repl`@`%` |
| GRANT SELECT ON ` test`.* TO `repl`@`%` |
+--------------------------------------------------------------------------+
ClickHouse的MaterializeMySQL引擎從MySQL復(fù)制數(shù)據(jù)的速度非常之快,甚至比MySQL原生的從庫(kù)還要更快,大家可以親身感受體驗(yàn)下。
接下來(lái),再在ClickHouse中創(chuàng)建一個(gè)業(yè)務(wù)賬號(hào),以及一個(gè)服務(wù)監(jiān)控賬號(hào)(用于ProxySQL對(duì)后端服務(wù)的監(jiān)控)。編輯ClickHouse的配置文件 users.xml,增加兩個(gè)用戶:
app_user
::/0
default
default
monitor
::/0
default
default
我只設(shè)置了簡(jiǎn)單密碼,也沒(méi)有修改其權(quán)限和quota模式,僅演示用,線上生產(chǎn)環(huán)境請(qǐng)自行調(diào)整以合規(guī)。
3.2 配置ProxySQL
配置mysql_servers表,增加兩條記錄,并使配置生效:
proxysql> insert into mysql_servers(hostgroup_id, hostname, port) values( '0', '172.24.10.10', '3306');
proxysql> insert into mysql_servers(hostgroup_id, hostname, port) values( '1', '172.24.10.11', '9004');
proxysql> save mysql servers to disk; load mysql servers to run;
其中,172.24.10.10:3306 是MySQL主庫(kù),172.24.10.11:9004是ClickHouse從庫(kù),9004端口是ClickHouse里給MySQL客戶端連接專(zhuān)用的,可以用MySQL客戶端(協(xié)議)連接進(jìn)來(lái)執(zhí)行各種操作。
hostgroup分別為0和1, 0用于讀寫(xiě)組,1用于只讀組。
配置mysql_users表,加入業(yè)務(wù)賬號(hào)和監(jiān)控賬號(hào):
proxysql> select username,password,active from mysql_users;
+-----------+----------+--------+
| username | password | active |
+-----------+----------+--------+
| app_user | app_user | 1 |
| monitor | monitor | 1 |
+-----------+----------+--------+
proxysql> save mysql users to disk; load mysql users to runtime;
配置mysql_query_rules表,這個(gè)是關(guān)鍵,用于判斷將哪些SQL轉(zhuǎn)發(fā)到MySQL主庫(kù),哪些轉(zhuǎn)發(fā)到ClickHouse:
proxysql> select rule_id, active, match_pattern,destination_hostgroup from mysql_query_rules;
+---------+--------+-------------------------+-----------------------+
| rule_id | active | match_pattern | destination_hostgroup |
+---------+--------+-------------------------+-----------------------+
| 1 | 1 | ^SELECT.*+CLICKHOUSE.* | 1 |
+---------+--------+-------------------------+-----------------------+
proxysql> save mysql query rules to disk; load mysql query rules to run;
上述規(guī)則的意思是,當(dāng)SELECT語(yǔ)句中包含 "+CLICKHOUSE" 關(guān)鍵字時(shí),就會(huì)自動(dòng)轉(zhuǎn)發(fā)到 ClickHouse 后端去處理,其余的都發(fā)送到MySQL后端處理。例如下面這兩條SQL就會(huì)分別轉(zhuǎn)發(fā)到MySQL和ClickHouse后端:
#SQL #1
[root@yejr.run]> SELECT * FROM sbtest1 WHERE id=1;
#SQL #2
[root@yejr.run]> SELECT /*+CLICKHOUSE*/ * FROM sbtest1 WHERE id=1;
第二條SQL利用MySQL的注釋語(yǔ)法巧妙地實(shí)現(xiàn)規(guī)則HINT。
查詢 stats_mysql_query_digest 表的結(jié)果予以確認(rèn):
proxysql> select hostgroup, schemaname, username, digest, digest_text from stats_mysql_query_digest;
+-----------+------------+----------+--------------------+----------------------------------+
| hostgroup | schemaname | username | digest | digest_text |
+-----------+------------+----------+--------------------+----------------------------------+
| 0 | sbtest | app_user | 0x5662D7CF0442E794 | select * from sbtest1 whereid=? |
| 1 | sbtest | app_user | 0x5662D7CF0442E794 | select * from sbtest1 whereid=? |
+-----------+------------+----------+--------------------+----------------------------------+
可以看到,兩條SQL看起來(lái)一樣,但分別轉(zhuǎn)發(fā)到不同的hostgroup了。
最后配置ProxySQL的監(jiān)控服務(wù)(可選,非必須):
proxysql> setmysql-monitor_enabled= "true";
proxysql> setmysql-monitor_username= "monitor";
proxysql> setmysql-monitor_password= "monitor";
proxysql> save mysql variables to disk; load mysql variables to runtime;
至此,一個(gè)全部基于開(kāi)源應(yīng)用的簡(jiǎn)易HTAP系統(tǒng)就構(gòu)建好了。
4. 性能對(duì)比
在這里,我選用ClickHouse官方提供的benchmark方案:Star Schema Benchmark。
編譯完成后先是利用ssb-dbgen生成測(cè)試數(shù)據(jù)(指定參數(shù) -s 50):
./dbgen -s 50 -T c &
./dbgen -s 50 -T l &
./dbgen -s 50 -T p &
./dbgen -s 50 -T s &
./dbgen -s 50 -T d &
再創(chuàng)建幾個(gè)測(cè)試庫(kù)表,自行修改建表的DDL以適應(yīng)MySQL語(yǔ)法。而后導(dǎo)入測(cè)試數(shù)據(jù),最后根據(jù)文檔并生成 lineorder_flat 表。
[root@yejr.run]> show table status;
+----------------+--------+---------+------------+-----------+----------------+--------------+
| Name | Engine | Version | Row_format | Rows | Avg_row_length | Data_length |
+----------------+--------+---------+------------+-----------+----------------+--------------+
| customer | InnoDB | 10 | Dynamic | 1378209 | 120 | 166363136 |
| lineorder | InnoDB | 10 | Dynamic | 297927870 | 100 | 29871833088 |
| lineorder_flat | InnoDB | 10 | Dynamic | 292584926 | 430 | 125952851968 |
| part | InnoDB | 10 | Dynamic | 1192880 | 111 | 132792320 |
| supplier | InnoDB | 10 | Dynamic | 99730 | 110 | 11026432 |
+----------------+--------+---------+------------+-----------+----------------+--------------+
數(shù)據(jù)全部加載完畢后,再在ClickHouse中創(chuàng)建MaterializeMySQL復(fù)制通道:
clickhouse :) CREATE DATABASE ssb ENGINE = MaterializeMySQL( '172.24.10.10:3380', 'ssb', 'repl', 'repl');
數(shù)據(jù)量比較大,耐心靜待它復(fù)制完成即可。
然后連接 ProxySQL,先簡(jiǎn)單執(zhí)行大表count(*),觀察耗時(shí)的不同:
#直接執(zhí)行count(*),會(huì)轉(zhuǎn)發(fā)到后端 MySQL 實(shí)例
[root@yejr.run]> select count(*) from lineorder_flat;
+-----------+
| count(*) |
+-----------+
| 300005811 |
+-----------+
1 row inset(3 min 2.14 sec)
#加上HINT規(guī)則,會(huì)轉(zhuǎn)發(fā)到后端 ClickHouse 實(shí)例
[root@yejr.run]> select /*+CLICKHOUSE*/ count(*) from lineorder_flat;
+-----------+
| count(*) |
+-----------+
| 300005811 |
+-----------+
1 row inset(5.67 sec)
光是 count(*) 就差了好多倍。
再選取其中前4個(gè)SQL測(cè)試,記錄的耗時(shí)如下:
Query
MySQL
ClickHouse(從庫(kù))
ClickHouse(原生)
Q1.1
308.388684
0.149
0.107
Q1.2
320.373203
0.280
0.027
Q1.3
279.673361
0.346
0.030
Q2.1
286.451062
1.246
0.489
很明顯,直接在MySQL上查詢的效率實(shí)在太低了,而作為從庫(kù)的MaterializeMySQL和ClickHouse原生的MergeTree表雖然也有一定差距,但相差也沒(méi)那么大了,還算是很快的。
4. 其他說(shuō)明
ClickHouse的MaterializeMySQL中 不支持 create like 語(yǔ)法。例如執(zhí)行 create table db2.a like db1.a,其中db1是要復(fù)制到ClickHouse的,而db2是留在MySQL端,即便這樣也會(huì)導(dǎo)致ClickHouse端復(fù)制報(bào)錯(cuò),需要重啟才行。
ClickHouse的MaterializeMySQL中也 不支持函數(shù)索引。
偶爾發(fā)現(xiàn)ProxySQL的監(jiān)控模塊連接到ClickHouse后,會(huì)發(fā)送 SET wait_timeout=N 命令,會(huì)導(dǎo)致ClickHouse報(bào)錯(cuò),但不影響正常使用。 重啟ProxySQL,或者重啟監(jiān)控開(kāi)關(guān)都可以解決。
Enjoy it :)
責(zé)任編輯:
總結(jié)
以上是生活随笔為你收集整理的mysql htap 开源_基于开源应用快速构建HTAP系统的全部?jī)?nèi)容,希望文章能夠幫你解決所遇到的問(wèn)題。
- 上一篇: regedit及电脑死机可能因原
- 下一篇: 卸载了PL/SQL Developer,