淘宝内部分享:MySQL MariaDB性能优化
淘寶內部分享:MySQL & MariaDB性能優化
摘要:MySQL是目前使用最多的開源數據庫,但是MySQL數據庫的默認設置性能非常的差,必須進行不斷的優化,而優化是一個復雜的任務,本文描述淘寶數據庫團隊針對MySQL相關的數據庫優化方案。
編者按:MySQL是目前使用最多的開源數據庫,但是MySQL數據庫的默認設置性能非常的差,必須進行不斷的優化,而優化是一個復雜的任務,本文描述淘寶數據庫團隊針對MySQL數據庫Metadata Lock子系統的優化,hash_scan 算法的實現解析的性能優化,TokuDB·版本優化,以及MariaDB·的性能優化。本文來自淘寶團隊內部經驗分享。
往期文章:淘寶內部分享:怎么跳出MySQL的10個大坑
MySQL· 5.7優化·Metadata Lock子系統的優化
背景
引入MDL鎖的目的,最初是為了解決著名的bug#989,在MySQL 5.1及之前的版本,事務執行過程中并不維護涉及到的所有表的Metatdata 鎖,極易出現復制中斷,例如如下執行序列:
Session 1: BEGIN;Session 1: INSERT INTO t1 VALUES (1);
Session 2: Drop table t1; --------SQL寫入BINLOG
Session 1: COMMIT; -----事務寫入BINLOG
在備庫重放 binlog時,會先執行DROP TABLE,再INSERT數據,從而導致復制中斷。
在MySQL 5.5版本里,引入了MDL, 在事務過程中涉及到的所有表的MDL鎖,直到事務結束才釋放。這意味著上述序列的DROP TABLE 操作將被Session 1阻塞住直到其提交。
不過用過5.5的人都知道,MDL實在是個讓人討厭的東西,相信不少人肯定遇到過在使用mysqldump做邏輯備份時,由于需要執行FLUSH TABLES WITH READ LOCK (以下用FTWRL縮寫代替)來獲取全局GLOBAL的MDL鎖,因此經常可以看到“wait for global read lock”之類的信息。如果備庫存在大查詢,或者復制線程正在執行比較漫長的DDL,并且FTWRL被block住,那么隨后的QUERY都會被block住,導致業務不可用引發故障。
為了解決這個問題,Facebook為MySQL增加新的接口替換掉FTWRL 只創建一個read view ,并返回與read view一致的binlog位點;另外Percona Server也實現了一種類似的辦法來繞過FTWRL,具體點擊文檔連接以及percona的博客,不展開闡述。
MDL解決了bug#989,卻引入了一個新的熱點,所有的MDL鎖對象被維護在一個hash對象中;對于熱點,最正常的想法當然是對其進行分區來分散熱點,不過這也是Facebook的大神Mark Callaghan在report了bug#66473后才加入的,當時Mark觀察到MDL_map::mutex的鎖競爭非常高,進而推動官方改變。因此在MySQL 5.6.8及之后的版本中,引入了新參數metadata_locks_hash_instances來控制對mdl hash的分區數(Rev:4350);
不過故事還沒結束,后面的測試又發現哈希函數有問題,somedb. someprefix1 … .somedb .someprefix8 的hash key值相同,都被hash到同一個桶下面了,相當于hash分區沒生效。這屬于hash算法的問題,喜歡考古的同學可以閱讀下bug#66473后面Dmitry Lenev的分析。
Mark進一步的測試發現Innodb的hash計算算法比my_hash_sort_bin要更高效, Oracle的開發人員重開了個bug#68487來跟蹤該問題,并在MySQL5.6.15對hash key計算函數進行優化,包括fix 上面說的hash計算問題(Rev:5459),使用MurmurHash3算法來計算mdl key的hash值。
MySQL 5.7 對MDL鎖的優化
在MySQL 5.7里對MDL子系統做了更為徹底的優化。主要從以下幾點出發:
第一,盡管對MDL HASH進行了分區,但由于是以表名+庫名的方式作為key值進行分區,如果查詢或者DML都集中在同一張表上,就會hash到相同的分區,引起明顯的MDL HASH上的鎖競爭。
針對這一點,引入了LOCK-FREE的HASH來存儲MDL_lock,LF_HASH無鎖算法基于論文"Split-Ordered Lists: Lock-Free Extensible Hash Tables",實現還比較復雜。 注:實際上LF_HASH很早就被應用于Performance Schema,算是比較成熟的代碼模塊。由于引入了LF_HASH,MDL HASH分區特性自然直接被廢除了 。對應WL#7305, PATCH(Rev:7249)
第二,從廣泛使用的實際場景來看,DML/SELECT相比DDL等高級別MDL鎖類型,是更為普遍的,因此可以針對性的降低DML和SELECT操作的MDL開銷。
為了實現對DML/SELECT的快速加鎖,使用了類似LOCK-WORD的加鎖方式,稱之為FAST-PATH,如果FAST-PATH加鎖失敗,則走SLOW-PATH來進行加鎖。
每個MDL鎖對象(MDL_lock)都維持了一個long long類型的狀態值來標示當前的加鎖狀態,變量名為MDL_lock::m_fast_path_state 舉個簡單的例子:(初始在sbtest1表上對應MDL_lock::m_fast_path_state值為0)
Session 1: BEGIN;Session 1: SELECT * FROM sbtest1 WHERE id =1; //m_fast_path_state = 1048576, MDL ticket 不加MDL_lock::m_granted隊列
Session 2: BEGIN;
Session 2: SELECT * FROM sbtest1 WHERE id =2; //m_fast_path_state=1048576+1048576=2097152,同上,走FAST PATH
Session 3: ALTER TABLE sbtest1 ENGINE = INNODB; //DDL請求加的MDL_SHARED_UPGRADABLE類型鎖被視為unobtrusive lock,可以認為這個是比上述SQL的MDL鎖級別更高的鎖,并且不相容,因此被強制走slow path。而slow path是需要加MDL_lock::m_rwlock的寫鎖。m_fast_path_state = m_fast_path_state | MDL_lock::HAS_SLOW_PATH | MDL_lock::HAS_OBTRUSIVE
注:DDL還會獲得庫級別的意向排他MDL鎖或者表級別的共享可升級鎖,但為了表述方便,這里直接忽略了,只考慮涉及的同一個MDL_lock鎖對象。
Session 4: SELECT * FROM sbtest1 WHERE id =3; // 檢查m_fast_path_state &HAS_OBTRUSIVE,如果DDL還沒跑完,就會走slow path。
從上面的描述可以看出,MDL子系統顯式的對鎖類型進行了區分(OBTRUSIVE or UNOBTRUSIVE),存儲在數組矩陣m_unobtrusive_lock_increment。 因此對于相容類型的MDL鎖類型,例如DML/SELECT,加鎖操作幾乎沒有任何讀寫鎖或MUTEX開銷。對應WL#7304,?WL#7306?, PATCH(Rev:7067,Rev:7129)(Rev:7586)
第三,由于引入了MDL鎖,實際上早期版本用于控制Server和引擎層表級并發的THR_LOCK 對于Innodb而言已經有些冗余了,因此Innodb表完全可以忽略這部分的開銷。
不過在已有的邏輯中,Innodb依然依賴THR_LOCK來實現LOCK TABLE tbname READ,因此增加了新的MDL鎖類型來代替這種實現。實際上代碼的大部分修改都是為了處理新的MDL類型,Innodb的改動只有幾行代碼。對應WL#6671,PATCH(Rev:8232)
第四,Server層的用戶鎖(通過GET_LOCK函數獲取)使用MDL來重新實現。
用戶可以通過GET_LOCK()來同時獲取多個用戶鎖,同時由于使用MDL來實現,可以借助MDL子系統實現死鎖的檢測。注意由于該變化,導致用戶鎖的命名必須小于64字節,這是受MDL子系統的限制導致。對應WL#1159, PATCH(Rev:8356)
MySQL·性能優化·hash_scan 算法的實現解析
問題描述
首先,我們執行下面的TestCase:
[js] view plaincopyprint?[js] view plaincopyprint?
如何解決問題:
hash_scan 的實現方法:
簡單的講,在 apply rows_log_event時,會將 log_event 中對行的更新緩存在兩個結構中,分別是:m_hash, m_distinct_key_list。 m_hash:主要用來緩存更新的行記錄的起始位置,是一個hash表; m_distinct_key_list:如果有索引,則將索引的值push 到m_distinct_key_list,如果表沒有索引,則不使用這個List結構; 其中預掃描整個調用過程如下: Log_event::apply_event
[js] view plaincopyprint?執行 stack 如下:
執行過程說明:
Rows_log_event::do_scan_and_update
[js] view plaincopyprint?hash_scan 的一個 bug
bug詳情:http://bugs.mysql.com/bug.php?id=72788bug原因:m_distinct_key_list 中的index key 不是唯一的,所以存在著對已經刪除了的記錄重復刪除的問題。
bug修復:http://bazaar.launchpad.net/~mysql/mysql-server/5.7/revision/8494
問題擴展:
- 在沒有索引的情況下,是不是把 hash_scan 打開就能提高效率,降低延遲呢?不一定,如果每次更新操作只一條記錄,此時仍然需要全表掃描,并且由于entry 的開銷,應該會有后退的情況;
- 一個event中能包含多少條記錄的更新呢?這個和表結構以及記錄的數據大小有關,一個event 的大小不會超過9000 bytes, 沒有參數可以控制這個size;
- hash_scan 有沒有限制呢?hash_scan 只會對更新、刪除操作有效,對于binlog_format=statement 產生的 Query_log_event 或者binlog_format=row 時產生的 Write_rows_log_event 不起作用;
TokuDB·版本優化·7.5.0
TokuDB 7.5.0大版本已發布,是一個里程碑的版本,這里談幾點優化,以饗存儲引擎愛好者們。
a) shutdown加速
有用戶反饋TokuDB在shutdown的時候,半個小時還沒完事,非常不可接受。在shutdown的時候,TokuDB在干什么呢?在做checkpoint,把內存中的節點數據序列化并壓縮到磁盤。
那為什么如此耗時呢?如果tokudb_cache_size開的比較大,內存中的節點會非常多,在shutdown的時候,大家都排隊等著被壓縮到磁盤(串行的)。
在7.5.0版本,TokuDB官方針對此問題進行了優化,使多個節點并行壓縮來縮短時間。
BTW: TokuDB在早期設計的時候已保留并行接口,只是一直未開啟。
b) 內節點讀取加速
在內存中,TokuDB內節點(internal node)的每個message buffer都有2個重要數據結構:
1) FIFO結構,保存{key, value}?2) OMT結構,保存{key, FIFO-offset}
由于FIFO不具備快速查找特性,就利用OMT來做快速查找(根據key查到value)。這樣,當內節點發生cache miss的時候,索引層需要做:
1) 從磁盤讀取節點內容到內存?2) 構造FIFO結構
?3) 根據FIFO構造OMT結構(做排序)
由于TokuDB內部有不少性能探(ji)針(shu),他們發現步驟3)是個不小的性能消耗點,因為每次都要把message buffer做下排序構造出OMT,于是在7.5.0版本,把OMT的FIFO-offset(已排序)也持久化到磁盤,這樣排序的損耗就沒了。
c) 順序寫加速
當寫發生的時候,會根據當前的key在pivots里查找(二分)當前寫要落入哪個mesage buffer,如果寫是順序(或局部順序,數據走向為最右邊路徑)的,就可以避免由"查找"帶來的額外開銷。
如何判斷是順序寫呢?TokuDB使用了一種簡單的啟發式方法(heurstic):seqinsert_score積分式。如果:
1) 當前寫入落入最右節點,對seqinsert_score加一分(原子)2) 當前寫入落入非最右節點,對seqinsert_score清零(原子) 當seqinsert_score大于100的時候,就可以認為是順序寫,當下次寫操作發生時,首先與最右的節點pivot進行對比判斷,如果確實為順序寫,則會被寫到該節點,省去不少compare開銷。方法簡單而有效。
MariaDB· 性能優化·filesort with small LIMIT optimization
從MySQL 5.6.2/MariaDB 10.0.0版本開始,MySQL/MariaDB針對"ORDER BY ...LIMIT n"語句實現了一種新的優化策略。當n足夠小的時候,優化器會采用一個容積為n的優先隊列來進行排序,而不是排序所有數據然后取出前n條。 這個新算法可以這么描述:(假設是ASC排序)
這樣的算法,時間復雜度為m*log(n),m為索引過濾后的行數,n為LIMIT的行數。而原始的全排序算法,時間復雜度為m*log(m)。只要n遠小于m,這個算法就會很有效。
不過在MySQL 5.6中,除了optimizer_trace,沒有好的方法來看到這個新的執行計劃到底起了多少作用。MariaDB 10.013開始,提供一個系統狀態,可以查看新執行計劃調用的次數:
Sort_priority_queue_sorts?描述: 通過優先隊列實現排序的次數。(總排序次數=Sort_range+Sort_scan)
?范圍: Global, Session
?數據類型: numeric
?引入版本: MariaDB 10.0.13 此外,MariaDB還將此信息打入了Slow Log中。只要指定 log_slow_verbosity=query_plan,就可以在Slow Log中看到這樣的記錄:
[js] view plaincopyprint?
本文轉載自MySQL.taobao.org ,感謝淘寶數據庫項目組丁奇、鳴嵩、彭立勛、皓庭、項仲、劍川、武藏、祁奚、褚霸、一工。審校:劉亞瓊
總結
以上是生活随笔為你收集整理的淘宝内部分享:MySQL MariaDB性能优化的全部內容,希望文章能夠幫你解決所遇到的問題。
- 上一篇: 周鸿祎对企业的深刻反思,太有借鉴意义了!
- 下一篇: 2015年240个数据库引擎排名参考