日韩性视频-久久久蜜桃-www中文字幕-在线中文字幕av-亚洲欧美一区二区三区四区-撸久久-香蕉视频一区-久久无码精品丰满人妻-国产高潮av-激情福利社-日韩av网址大全-国产精品久久999-日本五十路在线-性欧美在线-久久99精品波多结衣一区-男女午夜免费视频-黑人极品ⅴideos精品欧美棵-人人妻人人澡人人爽精品欧美一区-日韩一区在线看-欧美a级在线免费观看

歡迎訪問 生活随笔!

生活随笔

當(dāng)前位置: 首頁 > 运维知识 > 数据库 >内容正文

数据库

面试必会系列 - 2.1 MySQL知识点大汇总(基本架构,存储引擎,锁,事务,索引,B+树等等)

發(fā)布時(shí)間:2024/2/28 数据库 34 豆豆
生活随笔 收集整理的這篇文章主要介紹了 面试必会系列 - 2.1 MySQL知识点大汇总(基本架构,存储引擎,锁,事务,索引,B+树等等) 小編覺得挺不錯(cuò)的,現(xiàn)在分享給大家,幫大家做個(gè)參考.

本文已收錄至 Github(MD-Notes),若博客中圖片模糊或打不開,可以來我的 Github 倉庫,包含了完整圖文:https://github.com/HanquanHq/MD-Notes,涵蓋了互聯(lián)網(wǎng)大廠面試必問的知識(shí)點(diǎn),講解透徹,長期更新中,歡迎一起學(xué)習(xí)探討 ~

更多內(nèi)容,可以訪問:

面試必會(huì)系列專欄:https://blog.csdn.net/sinat_42483341/category_10300357.html
操作系統(tǒng)系列專欄:https://blog.csdn.net/sinat_42483341/category_10519484.html


目錄

  • MySQL
      • MySQL 基本架構(gòu)
          • 連接器
          • 查詢緩存
          • 分析器
          • 優(yōu)化器
          • 執(zhí)行器
          • 存儲(chǔ)引擎
      • 零碎知識(shí)點(diǎn)
        • 局部性原理
          • 時(shí)間、空間局部性
          • 磁盤預(yù)讀
        • MySQL 日志有多少種?
          • Undolog 回滾日志
          • Redolog 物理日志
        • undolog 的原理?是否需要落盤?
        • MySQL有多少種鎖?
        • 使用自定義變量
        • 分區(qū)表
      • 存儲(chǔ)引擎
      • 事務(wù)
      • 事務(wù)的 ACID
        • 事務(wù)的實(shí)現(xiàn)原理
        • Atomicity 原子性:undolog
        • Consistency 一致性(數(shù)據(jù)庫的根本追求)
        • Isolation 隔離性
        • Durability 持久性:redolog + binlog
          • 思想:WAL日志(Write Ahead Log,預(yù)寫日志)
          • 采用 redo log 的好處?
        • 三種數(shù)據(jù)溢寫到磁盤的過程
        • 數(shù)據(jù)更新的流程?redo的兩階段提交
          • 數(shù)據(jù)更新的執(zhí)行流程
        • MyIsam
        • Innodb
      • OLTP,OLAP
      • MySQL 索引實(shí)現(xiàn)原理
        • 不同存儲(chǔ)引擎的數(shù)據(jù)文件
        • 聚簇索引就是主鍵索引嗎?
        • Innodb 采用自適應(yīng)哈希:
        • 擾動(dòng)函數(shù)(Java HashMap相關(guān)的,自己看一下吧)
      • MySQL B+ 樹數(shù)據(jù)結(jié)構(gòu)推導(dǎo)
        • 哈希表
        • 普通二叉樹
        • BST Tree(二叉排序樹)
        • AVL 樹(二叉平衡樹)
        • RBTree (紅黑樹)
        • 為什么使用 B / B+ 樹?
        • 為什么推薦使用自增的 int 類型作為主鍵?
        • 不同存儲(chǔ)引擎的數(shù)據(jù)結(jié)構(gòu)
        • B 樹
        • B+ 樹
      • 索引分類
        • 1、按照索引的存儲(chǔ)來劃分:簇族索引、非簇族索引
        • 2、按照使用來分:
      • 回表 & 覆蓋索引
      • 索引下推
        • 1、沒有索引下推的情況
        • 2、有索引下推的情況
        • 3、總結(jié)


MySQL

MySQL 基本架構(gòu)

連接器
  • 負(fù)責(zé)和客戶端建立連接,獲取權(quán)限,維持和管理連接

    • 用戶名密碼驗(yàn)證
    • 查詢權(quán)限信息,分配對(duì)應(yīng)的權(quán)限
    • 可以使用show processlist查看現(xiàn)有的連接
    • wait_timeout默認(rèn)8小時(shí),超時(shí)會(huì)斷開連接
  • 連接分為兩類

    • 長連接:推薦使用,但是要周期性的斷開長連接
    • 短鏈接:一次執(zhí)行完畢就關(guān)閉,比較消耗資源
  • 查詢緩存
  • 當(dāng)執(zhí)行查詢語句的時(shí)候,會(huì)先去查看緩存中的結(jié)果,之前執(zhí)行過的SQL語句會(huì)以類似于key-value的形式存在緩存中,如果能找到就返回,找不到繼續(xù)執(zhí)行。
  • 不推薦使用緩存:
    • 查詢緩存失效比較頻繁,只要表更新,緩存就會(huì)清空
    • 緩存對(duì)應(yīng)更新的市局命中率低
  • 分析器
  • 詞法分析:Mysql需要把輸入的字符串進(jìn)行識(shí)別和翻譯
  • 語法分析:語法解析,并判斷是否符合規(guī)范
  • 優(yōu)化器
  • 執(zhí)行具體的SQL之前先進(jìn)行優(yōu)化

    • 索引優(yōu)化
    • 條件順序優(yōu)化
    • 關(guān)聯(lián)表順序優(yōu)化
  • 不同的執(zhí)行方式對(duì)效率影響很大

    • RBO:基于規(guī)則的優(yōu)化
    • CBO:基于成本的優(yōu)化
  • 執(zhí)行器

    操作引擎,返回結(jié)果

    存儲(chǔ)引擎

    存儲(chǔ)數(shù)據(jù),提供讀寫接口

    零碎知識(shí)點(diǎn)

    局部性原理

    時(shí)間、空間局部性

    數(shù)據(jù)和程序的存儲(chǔ),都有聚集成群的傾向,相關(guān)關(guān)聯(lián)的數(shù)據(jù)可能被放在一起。同時(shí),之前查詢過的數(shù)據(jù),短時(shí)間內(nèi)可能再次被查詢。

    磁盤預(yù)讀

    當(dāng)內(nèi)存和磁盤發(fā)生交互的時(shí)候,是以一個(gè)邏輯單元 “頁” 為單位進(jìn)行交互的,“頁”是磁盤和內(nèi)存交互的最小單位,一般是 4k 或 8k。讀取的時(shí)候可以以頁為單位,也可以是頁的整數(shù)倍。

    SSD 4K 對(duì)齊,能夠加快查詢效率

    MySQL 日志有多少種?

    binlog, undolog, redolog, relaylog(主從復(fù)制), errorlog, slowlog 等

    • 所有存儲(chǔ)引擎,都有 binlog,errorlog,relaylog,slowlog

    • Innodb 存儲(chǔ)引擎,有 binlog, undolog, redolog

    • MyISAM 不支持事務(wù),沒有 undolog, redolog,只有 binlog

    Undolog 回滾日志
    Redolog 物理日志

    innodb存儲(chǔ)引擎的日志文件。

    • redolog是物理日志,記錄的是在某個(gè)數(shù)據(jù)頁上做了什么修改

    • 當(dāng)發(fā)生數(shù)據(jù)修改的時(shí)候,innodb存儲(chǔ)引擎會(huì)先將記錄寫到redo_log中,并更新內(nèi)存,此時(shí)更新就算是完成了,同時(shí)INNODB會(huì)在合適的時(shí)機(jī)將記錄存儲(chǔ)操做到磁盤中。
    • redo_log是由固定大小的,是一個(gè)循環(huán)寫的過程
    • 有了redo_log之后,innodb可以保證數(shù)據(jù)庫異常之后重啟,之前的數(shù)據(jù)記錄不會(huì)丟失,叫做crash-safe
    • binlog是邏輯日志,記錄的是這個(gè)語句的原始邏輯,比如給ID=2這一行的c字段加1;

    有且僅有兩個(gè)文件,是一個(gè)循環(huán)寫的過程。

    不知道你是否記得《孔乙己》這篇文章,酒店掌柜有一個(gè)粉板,專門記錄客人的賒賬記錄。如果賒賬的人不多,他可以將賒賬的人姓名和賬目寫在板上,但是如果賒賬的人太多,粉板總會(huì)有記不下的時(shí)候,這時(shí)候掌柜還有一個(gè)專門記錄賒賬的賬本。

    如果有人要賒賬或者還賬的時(shí)候,掌柜一般有兩種方法:

    1、一種直接將賬本翻出來,把這次賬加上或者刪除

    2、先在粉板上記下這次賬,等打烊后再把賬本翻出來核算

    在生意很忙時(shí),掌柜應(yīng)該選擇后者,第一種方法實(shí)在太麻煩了,極大的影響工作效率。

    同樣,在MySQL里也有這個(gè)問題,如果每一次更新操作都寫進(jìn)磁盤,然后磁盤找到對(duì)應(yīng)的那條記錄,然后再更新,整個(gè)過程的IO成本,查找成本都很高。為了解決這個(gè)問題,MySQL的設(shè)計(jì)者就用了類似酒店掌柜粉板的思路來提升工作效率。

    粉板和賬本配合的過程,其實(shí)就是MySQL里面經(jīng)常說到的WAL技術(shù),WAL技術(shù)全稱是Write-Ahead Logging.他的關(guān)鍵點(diǎn)就是先寫日志,再寫磁盤。

    具體來說,當(dāng)有一條日志需要更新的時(shí)候。InnoDB 會(huì)先把日志寫到 redo log(粉板)中,并更新內(nèi)存,這個(gè)時(shí)候更新就算完成了。同時(shí),InnoDB 會(huì)在適當(dāng)?shù)臅r(shí)候?qū)⑦@個(gè)操作記錄到磁盤中,這個(gè)更新往往實(shí)在系統(tǒng)比較空閑的時(shí)候,這就像打樣以后掌柜做的事。

    如果今天賒賬的不多,掌柜可以打烊后再整理,但是某天賒賬的非常多,粉板寫滿了,又怎么辦呢?這個(gè)時(shí)候掌柜只好放下手中的事,將粉板上的賬整理到賬本上,再將粉板擦掉,為記錄新的賒賬騰出空間。

    與此類似,InnoDB 的 redo log 是固定大小的,比如可以配置為一組四個(gè)文件,每個(gè)文件的大小是1G,那么這塊粉板共有4G的空間。從頭開始寫,寫到末尾又回到開頭循環(huán)寫,如下圖所示:

    write pos 是當(dāng)前記錄的位置,一邊寫一邊后移,寫到第3號(hào)文件的末尾就回到0號(hào)文件開頭。checkpoint 是當(dāng)前要擦除的位置,也是往后推移并且魂環(huán)的,擦除記錄前要將記錄更新到數(shù)據(jù)文件。

    wirte 和 checkpoint 之間是粉板空著的部分,可以用來記錄新的操作。如果 write pos 追上 checkpoint,表示粉板滿了,這個(gè)時(shí)候就不能執(zhí)行新的更新操作,要先停下來擦掉一些記錄,把checkpoint推進(jìn)一下。

    有了redo-log,InnoDB就可以保證即使數(shù)據(jù)庫發(fā)生異常重啟,之前提交的記錄就不會(huì)丟失。這個(gè)能力成為crash-safe。

    要理解crash-safe這個(gè)概念,可以想想賒賬的例子。只要賒賬記錄記在粉板上或者寫在賬本上,之后即使掌柜忘記了,比如停業(yè)幾天,恢復(fù)生意后依然可以通過賬本和粉板上的數(shù)據(jù)明確賒賬數(shù)目。

    undolog 的原理?是否需要落盤?

    innodb通過force log at commit機(jī)制實(shí)現(xiàn)事務(wù)的持久性,即在事務(wù)提交的時(shí)候,必須先將該事務(wù)的所有事務(wù)日志寫入到磁盤上的 redo log file 和 undo log file 中,進(jìn)行持久化。

    undo日志會(huì)記錄事務(wù)執(zhí)行過程中,每次修改的數(shù)據(jù)的原始值。

    x = 5, y = 8 t1 begin:// undo日志記錄x=5x = x - 1;// undo日志記錄y=8y = y - 2;// 事務(wù)執(zhí)行臨近結(jié)束,將 undolog 寫入到磁盤// 將數(shù)據(jù)寫入到磁盤 commit

    每次進(jìn)行事務(wù)修改之前,把未修改之前的值存儲(chǔ)到 undo 日志中,提交的時(shí)候,先將 undo 寫到磁盤,再把修改后的數(shù)據(jù)寫到磁盤

    若undo寫入磁盤之前發(fā)生了異常,根本就不需要做任何操作,這時(shí)候事務(wù)是被認(rèn)為執(zhí)行失敗的,也不需要回滾,因?yàn)閡ndo日志沒有寫入磁盤,數(shù)據(jù)庫被認(rèn)為處于沒有執(zhí)行事務(wù)的狀態(tài)。

    MySQL有多少種鎖?

    共享鎖,排它鎖,獨(dú)占鎖,間隙鎖,臨鍵鎖,自增鎖,意向鎖

    MVCC:multi version concurrency control 多版本并發(fā)控制,通過保存數(shù)據(jù)在某個(gè)時(shí)間點(diǎn)的快照來實(shí)現(xiàn)的。在同一個(gè)事務(wù)里能夠看到數(shù)據(jù)一致的視圖。

    排它鎖怎么加?query for update

    共享鎖怎么加?lock in share mode

    WAL:Write Ahead Log 溢寫日志

    使用自定義變量

    在給一個(gè)變量賦值的同時(shí),使用這個(gè)變量

    select actor_id, @rounum:=@rownum+1 as rownum from actor limit 10;

    分區(qū)表

    創(chuàng)建表時(shí)使用 partition by 子句定義每個(gè)分區(qū)存放的數(shù)據(jù),在執(zhí)行查詢的時(shí)候,優(yōu)化器會(huì)根據(jù)分區(qū)定義過濾那些沒有我們需要數(shù)據(jù)的分區(qū),這樣查詢就無須掃描所有分區(qū)。

    存儲(chǔ)引擎

    • innodb
      • 有 redolog, undolog
      • 簇族索引
    • myisam
      • 非簇族索引
      • 不支持事務(wù)
    • memory
      • 數(shù)據(jù)在內(nèi)存中,有持久化文件
      • 默認(rèn)使用哈希索引

    事務(wù)

    • 數(shù)據(jù)庫事務(wù)
    • spring 聲明式事務(wù):spring 提供了一個(gè)類,由這個(gè)類以 AOP 的方式管理,只需要@Transactional即可
    • 分布式事務(wù)

    事務(wù)的 ACID

    事務(wù)的實(shí)現(xiàn)原理

    事務(wù)的原子性,是通過 undo log 來實(shí)現(xiàn)的

    事務(wù)的持久性,是通過 redo log 來實(shí)現(xiàn)的

    事務(wù)的隔離性,是通過 (讀寫鎖+MVCC)來實(shí)現(xiàn)的

    事務(wù)的一致性,是通過原子性,持久性,隔離性來實(shí)現(xiàn)的!!!

    Atomicity 原子性:undolog

    innodb 默認(rèn)頁 16k

    • 事務(wù)中的所有操作作為一個(gè)整體,像原子一樣不可分割(原子性),要么全部執(zhí)行成功,要么全部失敗

    • 使用 undolog 邏輯日志實(shí)現(xiàn)回滾

      • Undo Log 是為了實(shí)現(xiàn)事務(wù)的原子性,在 MySQL 數(shù)據(jù)庫 InnoDB 存儲(chǔ)引擎中,還用 Undo Log 來實(shí)現(xiàn) MVCC 多版本并發(fā)控制,記錄原來數(shù)據(jù)的歷史版本

      • 在操作任何數(shù)據(jù)之前,首先將數(shù)據(jù)備份到一個(gè)地方(這個(gè)存儲(chǔ)數(shù)據(jù)備份的地方稱為Undo Log)。然后進(jìn)行數(shù)據(jù)的修改。如果出現(xiàn)了錯(cuò)誤或者用戶執(zhí)行了ROLLBACK語句,系統(tǒng)可以利用Undo Log中的備份將數(shù)據(jù)恢復(fù)到事務(wù)開始之前的狀態(tài)

        注意:undo log 是邏輯日志,可以理解為(僅理解,實(shí)際并不是這樣的):
        (區(qū)分邏輯日志、物理日志,只需要看頁是否被修改。邏輯日志 是只對(duì)當(dāng)前的 sql 語句做一條記錄,而 物理日志 是對(duì)日志所在物理頁 page 做修改)

        當(dāng)delete一條記錄時(shí),undo log中會(huì)記錄一條對(duì)應(yīng)的insert記錄
        當(dāng)insert一條記錄時(shí),undo log中會(huì)記錄一條對(duì)應(yīng)的delete記錄
        當(dāng)update一條記錄時(shí),它記錄一條對(duì)應(yīng)相反的update記錄

        如果某一次操作失敗了,就去執(zhí)行這些相反的邏輯語句,將數(shù)據(jù)恢復(fù)到上一次的一致性狀態(tài)。

    Consistency 一致性(數(shù)據(jù)庫的根本追求)

    一致性分類:強(qiáng)一致性、弱一致性、最終一致性

    在事務(wù)的四個(gè)特點(diǎn)中,一致性是事務(wù)的根本追求。事務(wù)執(zhí)行的結(jié)果必須使數(shù)據(jù)庫從 一個(gè)永久的一致性狀態(tài) 轉(zhuǎn)變到 另一個(gè)永久的一致性狀態(tài)。如果事務(wù)被迫中斷,不應(yīng)該有一部分被寫入物理數(shù)據(jù)庫。例如,轉(zhuǎn)賬前后,兩個(gè)賬戶的總金額應(yīng)該保持不變。而在某些情況下,會(huì)對(duì)事務(wù)的一致性造成破壞:

    • 事務(wù)的并發(fā)執(zhí)行

    • 事務(wù)故障或系統(tǒng)故障

    數(shù)據(jù)庫系統(tǒng)通過并發(fā)控制技術(shù)日志恢復(fù)技術(shù),來避免這種情況的發(fā)生

    • 并發(fā)控制技術(shù)保證了事務(wù)的隔離性,使數(shù)據(jù)庫的一致性狀態(tài)不會(huì)因?yàn)椴l(fā)執(zhí)行的操作被破壞。

    • 日志恢復(fù)技術(shù)保證了事務(wù)的原子性,使一致性狀態(tài)不會(huì)因事務(wù)或系統(tǒng)故障被破壞。同時(shí)使已提交的對(duì)數(shù)據(jù)庫的修改不會(huì)因系統(tǒng)崩潰而丟失,保證了事務(wù)的持久性。

    Isolation 隔離性

    • 使用 鎖機(jī)制 實(shí)現(xiàn)

    • 并發(fā)環(huán)境中,并發(fā)的事務(wù)是相互隔離的,并發(fā)執(zhí)行的事務(wù)之間不能相互干擾

    • 隔離級(jí)別:假設(shè) A,B 都開啟了事務(wù)

      • 讀未提交(未授權(quán)讀取):即使A事務(wù)未提交,B事務(wù)也能看到A的修改
      • 讀已提交(授權(quán)讀取):A事務(wù)提交后,B事務(wù)中才能看到A的修改
      • 可重復(fù)讀:無論A怎么修改,事務(wù)B在事務(wù)期間都不會(huì)看到A的修改
      • 串行化:所有事物只能一個(gè)接一個(gè)處理,不能并發(fā)執(zhí)行

      (要能夠模擬臟讀、幻讀、不可重復(fù)讀的情況)

    Durability 持久性:redolog + binlog

    我們知道,寫數(shù)據(jù)的時(shí)候,數(shù)據(jù)會(huì)先存在用戶空間內(nèi)存中,然后由操作系統(tǒng)內(nèi)核調(diào)用 fsync,才真正寫入到磁盤。如果此時(shí)突然宕機(jī),內(nèi)存中的數(shù)據(jù)就會(huì)丟失。怎么解決這個(gè)問題?

    事務(wù)提交前直接把數(shù)據(jù)寫入磁盤就行啊。這么做有什么問題?只修改一個(gè)頁面里的一個(gè)字節(jié),就要將整個(gè)頁面刷入磁盤,太浪費(fèi)資源了。畢竟一個(gè)頁面16kb大小,你只改其中一點(diǎn)點(diǎn)東西,就要將16kb的內(nèi)容刷入磁盤,聽著也不合理。畢竟一個(gè)事務(wù)里的SQL可能牽涉到多個(gè)數(shù)據(jù)頁的修改,而這些數(shù)據(jù)頁可能不是相鄰的,也就是屬于隨機(jī)IO。顯然操作隨機(jī)IO,速度會(huì)比較慢。

    思想:WAL日志(Write Ahead Log,預(yù)寫日志)

    采用 redo log 解決上面的問題。當(dāng)做數(shù)據(jù)修改的時(shí)候,不僅在內(nèi)存中操作,還會(huì)在redo log中記錄這次操作。當(dāng)事務(wù)提交的時(shí)候,將redo log日志進(jìn)行刷盤持久化即可(redo log一部分在內(nèi)存中,一部分在磁盤上),不需要將數(shù)據(jù)持久化。當(dāng)數(shù)據(jù)庫宕機(jī)重啟的時(shí)候,雖然數(shù)據(jù)沒有持久化,但是可以根據(jù) redo log 中的內(nèi)容,將數(shù)據(jù)恢復(fù)到數(shù)據(jù)庫中,再根據(jù) undo log 和 binlog 內(nèi)容決定回滾數(shù)據(jù)還是提交數(shù)據(jù)。

    采用 redo log 的好處?

    redo log 進(jìn)行刷盤比對(duì)數(shù)據(jù)頁刷盤效率高

    • redo log體積小,畢竟只記錄了哪一頁修改了啥,因此體積小,刷盤快。
    • redo log是一直往末尾進(jìn)行追加,屬于順序IO。效率顯然比隨機(jī)IO來的快。

    • 事務(wù)一旦提交,數(shù)據(jù)必須永久保存。即使宕機(jī),重啟后也能恢復(fù)到事務(wù)成功結(jié)束時(shí)的狀態(tài)
    • 使用 redolog 兩階段提交實(shí)現(xiàn)。事務(wù)提交前,需要將 redolog 持久化。系統(tǒng)崩潰時(shí),雖然數(shù)據(jù)沒有持久化,但是可以根據(jù) redolog 的內(nèi)容,將數(shù)據(jù)恢復(fù)到最新的狀態(tài)。
    • redolog 大小是固定的,相當(dāng)于一個(gè)增量存儲(chǔ),redolog 滿了之后,會(huì)進(jìn)行持久化的同步歸檔。然后將redolog清空。

    三種數(shù)據(jù)溢寫到磁盤的過程

  • 效率最高。只要 redolog 寫成功了,斷電也沒關(guān)系
  • 最安全
  • 與 1 相比更安全,如果 MySQL 進(jìn)程掛了,數(shù)據(jù)不會(huì)丟失,操作系統(tǒng)會(huì)繼續(xù)處理寫數(shù)據(jù)
  • 數(shù)據(jù)更新的流程?redo的兩階段提交

    事實(shí)分析先寫redolog后寫binlog和先寫binlog后寫redolog都會(huì)有數(shù)據(jù)不一致的風(fēng)險(xiǎn)。
    因此,采用兩階段提交,具體流程如下:

    數(shù)據(jù)更新的執(zhí)行流程

  • 執(zhí)行器先從存儲(chǔ)引擎找到數(shù)據(jù),如果在內(nèi)存中直接返回,不在內(nèi)存中查詢返回

  • 執(zhí)行器拿到數(shù)據(jù)后會(huì)先修改數(shù)據(jù),然后調(diào)用引擎接口重新吸入數(shù)據(jù)

  • 引擎將數(shù)據(jù)更新到內(nèi)存,同時(shí)寫數(shù)據(jù)到redo中,此時(shí)處于prepare階段,并通知執(zhí)行器執(zhí)行完成

  • 執(zhí)行器生成這個(gè)操作的binlog

  • 執(zhí)行器調(diào)用引擎的事務(wù)提交接口,引擎把剛寫完的redo改為commit狀態(tài)

  • 更新完成

  • 使用 兩階段提交的優(yōu)勢(shì) 是:可以保證 binlog 和 redolog 的數(shù)據(jù)一致(先寫 redolog 或者先寫 binlog 都無法保證突然宕機(jī)時(shí)的數(shù)據(jù)一致性)。如果數(shù)據(jù)庫發(fā)生了意外情況,宕機(jī)、斷點(diǎn)、重啟等等,可以保證使用 BinLog 恢復(fù)數(shù)據(jù)和當(dāng)時(shí)數(shù)據(jù)狀態(tài)一致。具體情況下的策略如下:

    • binlog有記錄,redolog狀態(tài)commit:正常完成的事務(wù),不需要恢復(fù)
    • binlog有記錄,redolog狀態(tài)prepare:在binlog寫完提交事務(wù)之前的crash,恢復(fù)操作:提交事務(wù)
    • binlog無記錄,redolog狀態(tài)prepare:在binlog寫完之前的crash,恢復(fù)操作:回滾事務(wù)
    • binlog無記錄,redolog無記錄:在redolog寫之前crash,恢復(fù)操作:回滾事務(wù)

    • 共享鎖
    • 排它鎖
    • 獨(dú)占鎖
    • 臨鍵鎖
    • 間隙鎖
    • 自增鎖
    • 意向鎖

    MyIsam

    只能鎖表

    • 共享讀鎖
    • 獨(dú)占寫鎖

    Innodb

    支持表鎖,行鎖。實(shí)質(zhì)上鎖的是索引,如果沒有索引的話,退化成為表鎖。

    • 共享鎖(s),又稱讀鎖
    • 排它鎖(x),又稱寫鎖

    OLTP,OLAP

    OLTP:聯(lián)機(jī)事務(wù)處理,在盡可能短的時(shí)間內(nèi)返回對(duì)應(yīng)的結(jié)果值。例如我們常用的關(guān)系型數(shù)據(jù)庫。

    OLAP:聯(lián)機(jī)分析處理,Hive,主要是對(duì)歷史數(shù)據(jù)的分析,用于做出決策;常用于數(shù)據(jù)倉庫。不支持范圍查詢,插入新數(shù)據(jù)要重排?

    區(qū)別在于時(shí)效性,在很短的時(shí)間內(nèi)返回結(jié)果。

    MySQL 索引實(shí)現(xiàn)原理

    索引是和存儲(chǔ)引擎相關(guān)聯(lián)的。所謂存儲(chǔ)引擎,指的是數(shù)據(jù)在磁盤上的不同組織形式。

    Memory 存儲(chǔ)引擎使用 Hash 索引。

    不同存儲(chǔ)引擎的數(shù)據(jù)文件

    I nnodb:包括 frm(表結(jié)構(gòu)),ibd(索引+數(shù)據(jù)放在一起,聚簇索引) 文件

    MyISAM:包括 frm,myd,myi 文件,非聚簇索引

    聚簇索引就是主鍵索引嗎?

    不一定是。

    • 如果你建表時(shí)不指定主鍵,innodb會(huì)選擇 唯一鍵 創(chuàng)建索引。
    • 如果沒有唯一鍵的話,會(huì)生成一個(gè) 6 字節(jié)的 row_id 作為主鍵。

    Innodb 采用自適應(yīng)哈希:

    當(dāng)給 colA 建 立B+tree 索引的時(shí)候,這棵 B+ tree 會(huì)有個(gè)三四層,通過 colA = ‘xxx’ 會(huì)在樹里查詢 3、4 次才能查到,所以這里如果開啟了自適應(yīng)索引,就利用 buffer pool 來給 colA 建立一個(gè)哈希索引,這樣就只用在哈希索引里查 1 次,不用在 B+ tree 里查詢 3、4 次,加快了速度。

    擾動(dòng)函數(shù)(Java HashMap相關(guān)的,自己看一下吧)

    static final int hash(Object key) {int h;return (key == null) ? 0 : (h = key.hashCode()) ^ (h >>> 16); }

    目的是為了減少hash沖突。

    MySQL B+ 樹數(shù)據(jù)結(jié)構(gòu)推導(dǎo)

    哈希表

    哈希算法應(yīng)該你可能多的案列,讓數(shù)據(jù)分布均勻,使用擾動(dòng)函數(shù),減少hash沖突;對(duì)內(nèi)存占用比較高;檢索時(shí)無法進(jìn)行范圍查詢,如果范圍查詢,必須逐個(gè)對(duì)比,相當(dāng)耗費(fèi)時(shí)間。

    MySQL用到了哈希表嗎?Memory 存儲(chǔ)引擎使用的索引數(shù)據(jù)結(jié)構(gòu)就是哈希表;Innodb使用自適應(yīng)哈希。

    普通二叉樹

    查詢效率太低,需要遍歷整個(gè)樹

    BST Tree(二叉排序樹)

    有序,左子樹<根節(jié)點(diǎn)<右子樹,遞增插入會(huì)退化成鏈表,是因?yàn)闃洳粔蚱胶?/p>

    AVL 樹(二叉平衡樹)

    最短子樹和最長子樹高度之差不能超過1,是嚴(yán)格意義上的平衡樹,在插入數(shù)據(jù)的時(shí)候要進(jìn)行旋轉(zhuǎn)操作來保證平衡,會(huì)損失部分插入性能,從而帶來查詢性能的提升

    RBTree (紅黑樹)

    非嚴(yán)格的平衡樹,最長路徑不超過最短路徑的兩倍。近似取得了插入和查詢性能的平衡。

    為什么使用 B / B+ 樹?

    以上的“二叉”樹都會(huì)越來越深,每一個(gè)節(jié)點(diǎn)中只能存一個(gè)元素。如果數(shù)據(jù)節(jié)點(diǎn)很多,查找的時(shí)候,需要進(jìn)行多次 IO 交互。應(yīng)該盡量在 4k 中存儲(chǔ)盡可能多的數(shù)據(jù)節(jié)點(diǎn)。

    B / B+ 樹的每一個(gè)節(jié)點(diǎn)中可以有多個(gè)元素,采用有序、多分支的方式,解決二叉樹的這些弊端。

    為什么推薦使用自增的 int 類型作為主鍵?

    int 類型 相比 varchar,占用的索引空間比較小

    自增可以直接追加在最后面,減少樹的頁分裂、合并帶來的維護(hù)成本

    不同存儲(chǔ)引擎的數(shù)據(jù)結(jié)構(gòu)

    Innodb 默認(rèn)使用 B-tree,根據(jù)官網(wǎng)文檔,Memory tables 也支持哈希索引。

    Hash劣勢(shì):rehash,哈希沖突問題。不好的hash算法導(dǎo)致散列不均勻,浪費(fèi)磁盤空間。

    jdk 1.8 的哈希函數(shù)算法使用了擾動(dòng)函數(shù),也是為了讓散列更均勻

    索引MyISAM引擎InnoDB引擎Memory引擎
    B-Tree索引支持支持支持
    HASH索引不支持不支持支持
    R-Tree索引支持不支持不支持
    Full-text索引支持不支持不支持

    B 樹

    實(shí)例圖說明:

    B+ 樹

    每個(gè)節(jié)點(diǎn)可以包含多個(gè)元素,有 n 棵子樹的節(jié)點(diǎn)中含有 n 個(gè)關(guān)鍵字。每個(gè)關(guān)鍵字不保存數(shù)據(jù),只用來索引。

    非葉子結(jié)點(diǎn)只存儲(chǔ) key,不存儲(chǔ)數(shù)據(jù)。所有 數(shù)據(jù)都放在葉子結(jié)點(diǎn) 中存儲(chǔ)。是為文件系統(tǒng)而生的。

    B+Tree是在B Tree的基礎(chǔ)之上做的一種優(yōu)化,變化如下:

  • B+Tree每個(gè)節(jié)點(diǎn)可以包含更多的節(jié)點(diǎn),這么做的原因有兩個(gè),一個(gè)原因是為了降低樹的高度,第二個(gè)原因是將數(shù)據(jù)范圍變?yōu)槎鄠€(gè)區(qū)間,區(qū)間越多,數(shù)據(jù)檢索越快
  • 非葉子節(jié)點(diǎn)存儲(chǔ)key,葉子節(jié)點(diǎn)存儲(chǔ)key和數(shù)據(jù)
  • 葉子節(jié)點(diǎn)兩兩指針相互連接(符合磁盤預(yù)讀性),順序查詢性能更高
  • 索引分類

    1、按照索引的存儲(chǔ)來劃分:簇族索引、非簇族索引

    聚簇索引:innodb 數(shù)據(jù)和索引放在一起。如果不設(shè)主鍵,innodb 會(huì)選擇一個(gè)唯一鍵,如果沒有唯一鍵,innodb會(huì)生成一個(gè) 6 字節(jié)的 rowid 存儲(chǔ),對(duì)用戶是不可見的。因此,聚簇索引不一定是主鍵索引。

    非聚簇索引:數(shù)據(jù)和索引不放在一起,myisam

    2、按照使用來分:

    主鍵索引:主鍵所關(guān)聯(lián)的數(shù)據(jù)

    唯一索引:mysql 默認(rèn)會(huì)給唯一鍵添加索引

    普通索引:用來加速數(shù)據(jù)訪問速度而建立的索引。多建立在經(jīng)常出現(xiàn)在查詢條件的字段和經(jīng)常用于排序的字段。普通索引是非聚簇索引,葉子存放的是對(duì)應(yīng)主鍵id值。

    另外,如果主鍵是創(chuàng)建表之后才添加的,新建立的主鍵的索引使用的不是主鍵索引,而是在葉子上去關(guān)聯(lián)原來默認(rèn)的 rowid。因此,innodb 的主鍵索引也不一定是聚簇索引。

    回表 & 覆蓋索引

    回表:通過普通索引去樹中查找,會(huì) 返回主鍵值,再 **根據(jù)主鍵 **去索引樹查找數(shù)據(jù)。

    select id, age from test where name = '張三';

    覆蓋索引:執(zhí)行計(jì)劃能看到 using index。通過檢索索引就可以讀取想要的數(shù)據(jù),那就不需要再到數(shù)據(jù)表中讀取行了。也就是不需要回表。

    select id, name from test where name = '張三';

    索引下推

    假設(shè)有這么個(gè)需求,查詢表中“名字第一個(gè)字是張,性別男,年齡為10歲的所有記錄”。那么,查詢語句是這么寫的:

    mysq> select * from tuser where name like '張%' and age=10 and ismale=1;

    根據(jù)前面說的“最左前綴原則”,該語句在搜索索引樹的時(shí)候,只能匹配到名字第一個(gè)字是‘張’的記錄(即記錄ID3),接下來是怎么處理的呢?當(dāng)然就是從ID3開始,逐個(gè)回表,到主鍵索引上找出相應(yīng)的記錄,再比對(duì)age和ismale這兩個(gè)字段的值是否符合。

    但是!MySQL 5.6引入了索引下推優(yōu)化,可以在索引遍歷過程中,對(duì)索引中包含的字段先做判斷,過濾掉不符合條件的記錄,減少回表字?jǐn)?shù)

    1、沒有索引下推的情況

    圖 1 中,在 (name,age) 索引里面,我特意去掉了 age 的值,因?yàn)?這個(gè)過程 InnoDB 并不會(huì)去看 age 的值,只是按順序把“name 第一個(gè)字是’張’”的記錄一條條取出來回表。因此,需要回表 4 次。

    2、有索引下推的情況

    圖 2 跟圖 1 的區(qū)別是,InnoDB 在 (name,age) 索引內(nèi)部就判斷了 age 是否等于 10,對(duì)于不等于 10 的記錄,直接判斷并跳過。在我們的這個(gè)例子中,只需要對(duì) ID4、ID5 這兩條記錄回表取數(shù)據(jù)判斷,就只需要回表 2 次。

    3、總結(jié)

    如果沒有索引下推優(yōu)化(或稱ICP優(yōu)化),當(dāng)進(jìn)行索引查詢時(shí),首先根據(jù)索引來查找記錄,然后再根據(jù)where條件來過濾記錄;在支持ICP優(yōu)化后,MySQL會(huì)在取出索引的同時(shí),判斷是否可以進(jìn)行where條件過濾再進(jìn)行索引查詢,也就是說提前執(zhí)行where的部分過濾操作,在某些場(chǎng)景下,可以大大減少回表次數(shù),從而提升整體性能。

    總結(jié)

    以上是生活随笔為你收集整理的面试必会系列 - 2.1 MySQL知识点大汇总(基本架构,存储引擎,锁,事务,索引,B+树等等)的全部內(nèi)容,希望文章能夠幫你解決所遇到的問題。

    如果覺得生活随笔網(wǎng)站內(nèi)容還不錯(cuò),歡迎將生活随笔推薦給好友。