當(dāng)前位置：首頁 > 编程资源 > 编程问答 >内容正文

编程问答

聚集索引和非聚集索引- -

發(fā)布時間：2025/7/14 编程问答 24 豆豆

生活随笔收集整理的這篇文章主要介紹了聚集索引和非聚集索引- - 小編覺得挺不錯的,現(xiàn)在分享給大家,幫大家做個參考.

聚集索引和非聚集索引- -

??????????????????????????????????????

此文章引自http://www.vckbase.com/document/viewdoc/?id=1307

1、什么是聚集索引和非聚集索引

SQL SERVER提供了兩種索引：聚集索引（clustered index，也稱聚類索引、簇集索引）和非聚集索引（nonclustered index，也稱非聚類索引、非簇集索引）。

其實，我們的漢語字典的正文本身就是一個聚集索引。比如，我們要查“安”字，就會很自然地翻開字典的前幾頁，因為“安”的拼音是“an”，而按照拼音排序漢字的字典是以英文字母“a”開頭并以“z”結(jié)尾的，那么“安”字就自然地排在字典的前部。如果您翻完了所有以“a”開頭的部分仍然找不到這個字，那么就說明您的字典中沒有這個字；同樣的，如果查“張”字，那您也會將您的字典翻到最后部分，因為“張”的拼音是“zhang”。也就是說，字典的正文部分本身就是一個目錄，您不需要再去查其他目錄來找到您需要找的內(nèi)容。我們把這種正文內(nèi)容本身就是一種按照一定規(guī)則排列的目錄稱為“聚集索引”。
　　如果您認(rèn)識某個字，您可以快速地從自動中查到這個字。但您也可能會遇到您不認(rèn)識的字，不知道它的發(fā)音，這時候，您就不能按照剛才的方法找到您要查的字，而需要去根據(jù)“偏旁部首”查到您要找的字，然后根據(jù)這個字后的頁碼直接翻到某頁來找到您要找的字。但您結(jié)合“部首目錄”和“檢字表”而查到的字的排序并不是真正的正文的排序方法，比如您查“張”字，我們可以看到在查部首之后的檢字表中“張”的頁碼是672頁，檢字表中“張”的上面是“馳”字，但頁碼卻是63頁，“張”的下面是“弩”字，頁面是390頁。很顯然，這些字并不是真正的分別位于“張”字的上下方，現(xiàn)在您看到的連續(xù)的“馳、張、弩”三字實際上就是他們在非聚集索引中的排序，是字典正文中的字在非聚集索引中的映射。我們可以通過這種方式來找到您所需要的字，但它需要兩個過程，先找到目錄中的結(jié)果，然后再翻到您所需要的頁碼。我們把這種目錄純粹是目錄，正文純粹是正文的排序方式稱為“非聚集索引”。
　　通過以上例子，我們可以理解到什么是“聚集索引”和“非聚集索引”。進(jìn)一步引申一下，我們可以很容易的理解：每個表只能有一個聚集索引，因為目錄只能按照一種方法進(jìn)行排序。

2、何時使用聚集索引或非聚集索引
下面的表總結(jié)了何時使用聚集索引或非聚集索引（很重要）：

動作描述

使用聚集索引

使用非聚集索引

列經(jīng)常被分組排序

應(yīng)

返回某范圍內(nèi)的數(shù)據(jù)

應(yīng)

不應(yīng)

一個或極少不同值

不應(yīng)

小數(shù)目的不同值

應(yīng)

不應(yīng)

大數(shù)目的不同值

不應(yīng)

應(yīng)

頻繁更新的列

不應(yīng)

應(yīng)

外鍵列

應(yīng)

主鍵列

應(yīng)

頻繁修改索引列

不應(yīng)

應(yīng)

　　事實上，我們可以通過前面聚集索引和非聚集索引的定義的例子來理解上表。如：返回某范圍內(nèi)的數(shù)據(jù)一項。比如您的某個表有一個時間列，恰好您把聚合索引建立在了該列，這時您查詢2004年1月1日至2004年10月1日之間的全部數(shù)據(jù)時，這個速度就將是很快的，因為您的這本字典正文是按日期進(jìn)行排序的，聚類索引只需要找到要檢索的所有數(shù)據(jù)中的開頭和結(jié)尾數(shù)據(jù)即可；而不像非聚集索引，必須先查到目錄中查到每一項數(shù)據(jù)對應(yīng)的頁碼，然后再根據(jù)頁碼查到具體內(nèi)容。

3、索引是如何工作的？改善SQL語句

　　很多人不知道SQL語句在SQL SERVER中是如何執(zhí)行的，他們擔(dān)心自己所寫的SQL語句會被SQL SERVER誤解。比如：

select * from table1 where name=''zhangsan'' and tID > 10000

和執(zhí)行:

select * from table1 where tID > 10000 and name=''zhangsan''

　　一些人不知道以上兩條語句的執(zhí)行效率是否一樣，因為如果簡單的從語句先后上看，這兩個語句的確是不一樣，如果tID是一個聚合索引，那么后一句僅僅從表的10000條以后的記錄中查找就行了；而前一句則要先從全表中查找看有幾個name=''zhangsan''的，而后再根據(jù)限制條件條件tID>10000來提出查詢結(jié)果。
　　事實上，這樣的擔(dān)心是不必要的。SQL SERVER中有一個“查詢分析優(yōu)化器”，它可以計算出where子句中的搜索條件并確定哪個索引能縮小表掃描的搜索空間，也就是說，它能實現(xiàn)自動優(yōu)化。
　　雖然查詢優(yōu)化器可以根據(jù)where子句自動的進(jìn)行查詢優(yōu)化，但大家仍然有必要了解一下“查詢優(yōu)化器”的工作原理，如非這樣，有時查詢優(yōu)化器就會不按照您的本意進(jìn)行快速查詢。
　　在查詢分析階段，查詢優(yōu)化器查看查詢的每個階段并決定限制需要掃描的數(shù)據(jù)量是否有用。如果一個階段可以被用作一個掃描參數(shù)（SARG），那么就稱之為可優(yōu)化的，并且可以利用索引快速獲得所需數(shù)據(jù)。
　　SARG的定義：用于限制搜索的一個操作，因為它通常是指一個特定的匹配，一個值得范圍內(nèi)的匹配或者兩個以上條件的AND連接。形式如下：

列名操作符 <常數(shù) 或變量>

或

<常數(shù) 或變量> 操作符列名

列名可以出現(xiàn)在操作符的一邊，而常數(shù)或變量出現(xiàn)在操作符的另一邊。如：

Name=’張三’

價格>5000

5000<價格

Name=’張三’ and 價格>5000

　　如果一個表達(dá)式不能滿足SARG的形式，那它就無法限制搜索的范圍了，也就是SQL SERVER必須對每一行都判斷它是否滿足WHERE子句中的所有條件。所以一個索引對于不滿足SARG形式的表達(dá)式來說是無用的。
　　介紹完SARG后，我們來總結(jié)一下使用SARG以及在實踐中遇到的和某些資料上結(jié)論不同的經(jīng)驗：

1、Like語句是否屬于SARG取決于所使用的通配符的類型

如：name like ‘張%’ ，這就屬于SARG

而：name like ‘%張’ ,就不屬于SARG。

原因是通配符%在字符串的開通使得索引無法使用。

2、or 會引起全表掃描
　　Name=’張三’ and 價格>5000 符號SARG，而：Name=’張三’ or 價格>5000 則不符合SARG。使用or會引起全表掃描。

3、非操作符、函數(shù)引起的不滿足SARG形式的語句
　　不滿足SARG形式的語句最典型的情況就是包括非操作符的語句，如：NOT、!=、<>、!<、!>、NOT EXISTS、NOT IN、NOT LIKE等，另外還有函數(shù)。下面就是幾個不滿足SARG形式的例子：

ABS(價格)<5000

Name like ‘%三’

有些表達(dá)式，如：

WHERE 價格*2>5000

SQL SERVER也會認(rèn)為是SARG，SQL SERVER會將此式轉(zhuǎn)化為：

WHERE 價格>2500/2

但我們不推薦這樣使用，因為有時SQL SERVER不能保證這種轉(zhuǎn)化與原始表達(dá)式是完全等價的。

4、IN 的作用相當(dāng)與OR

語句：

Select * from table1 where tid in (2,3)

和

Select * from table1 where tid=2 or tid=3

是一樣的，都會引起全表掃描，如果tid上有索引，其索引也會失效。

5、盡量少用NOT

6、exists 和 in 的執(zhí)行效率是一樣的
　　很多資料上都顯示說，exists要比in的執(zhí)行效率要高，同時應(yīng)盡可能的用not exists來代替not in。但事實上，我試驗了一下，發(fā)現(xiàn)二者無論是前面帶不帶not，二者之間的執(zhí)行效率都是一樣的。因為涉及子查詢，我們試驗這次用SQL SERVER自帶的pubs數(shù)據(jù)庫。運(yùn)行前我們可以把SQL SERVER的statistics I/O狀態(tài)打開：

（1）select title,price from titles where title_id in (select title_id from sales where qty>30)

該句的執(zhí)行結(jié)果為：

表 ''sales''。掃描計數(shù) 18，邏輯讀 56 次，物理讀 0 次，預(yù)讀 0 次。
表 ''titles''。掃描計數(shù) 1，邏輯讀 2 次，物理讀 0 次，預(yù)讀 0 次。

（2）select title,price from titles

　　　　　　　where exists (select * from sales

　　　　　　　where sales.title_id=titles.title_id and qty>30)

第二句的執(zhí)行結(jié)果為：

表 ''sales''。掃描計數(shù) 18，邏輯讀 56 次，物理讀 0 次，預(yù)讀 0 次。
表 ''titles''。掃描計數(shù) 1，邏輯讀 2 次，物理讀 0 次，預(yù)讀 0 次。

我們從此可以看到用exists和用in的執(zhí)行效率是一樣的。

7、用函數(shù)charindex()和前面加通配符%的LIKE執(zhí)行效率一樣
　　前面，我們談到，如果在LIKE前面加上通配符%，那么將會引起全表掃描，所以其執(zhí)行效率是低下的。但有的資料介紹說，用函數(shù)charindex()來代替LIKE速度會有大的提升，經(jīng)我試驗，發(fā)現(xiàn)這種說明也是錯誤的：
　

select gid,title,fariqi,reader from tgongwen

　　　　　　　　　where charindex(''刑偵支隊'',reader)>0 and fariqi>''2004-5-5''

用時：7秒，另外：掃描計數(shù) 4，邏輯讀 7155 次，物理讀 0 次，預(yù)讀 0 次。

select gid,title,fariqi,reader from tgongwen

　　　　　　　　　where reader like ''%'' + ''刑偵支隊'' + ''%'' and fariqi>''2004-5-5''

用時：7秒，另外：掃描計數(shù) 4，邏輯讀 7155 次，物理讀 0 次，預(yù)讀 0 次。

8、union并不絕對比or的執(zhí)行效率高
　　我們前面已經(jīng)談到了在where子句中使用or會引起全表掃描，一般的，我所見過的資料都是推薦這里用union來代替or。事實證明，這種說法對于大部分都是適用的。

select gid,fariqi,neibuyonghu,reader,title from Tgongwen

　　　　　　　　　　where fariqi=''2004-9-16'' or gid>9990000

用時：68秒。掃描計數(shù) 1，邏輯讀 404008 次，物理讀 283 次，預(yù)讀 392163 次。

select gid,fariqi,neibuyonghu,reader,title from Tgongwen where fariqi=''2004-9-16''

union

select gid,fariqi,neibuyonghu,reader,title from Tgongwen where gid>9990000

用時：9秒。掃描計數(shù) 8，邏輯讀 67489 次，物理讀 216 次，預(yù)讀 7499 次。

看來，用union在通常情況下比用or的效率要高的多。

　　但經(jīng)過試驗，筆者發(fā)現(xiàn)如果or兩邊的查詢列是一樣的話，那么用union則反倒和用or的執(zhí)行速度差很多，雖然這里union掃描的是索引，而or掃描的是全表。
　

select gid,fariqi,neibuyonghu,reader,title from Tgongwen

　　　　　　　　　　where fariqi=''2004-9-16'' or fariqi=''2004-2-5''

用時：6423毫秒。掃描計數(shù) 2，邏輯讀 14726 次，物理讀 1 次，預(yù)讀 7176 次。

select gid,fariqi,neibuyonghu,reader,title from Tgongwen where fariqi=''2004-9-16''

union

select gid,fariqi,neibuyonghu,reader,title from Tgongwen where fariqi=''2004-2-5''

用時：11640毫秒。掃描計數(shù) 8，邏輯讀 14806 次，物理讀 108 次，預(yù)讀 1144 次。

9、字段提取要按照“需多少、提多少”的原則，避免“select *”
　　我們來做一個試驗：

select top 10000 gid,fariqi,reader,title from tgongwen order by gid desc

用時：4673毫秒

select top 10000 gid,fariqi,title from tgongwen order by gid desc

用時：1376毫秒

select top 10000 gid,fariqi from tgongwen order by gid desc

用時：80毫秒

　　由此看來，我們每少提取一個字段，數(shù)據(jù)的提取速度就會有相應(yīng)的提升。提升的速度還要看您舍棄的字段的大小來判斷。

10、count(*)不比count(字段)慢
　　某些資料上說：用*會統(tǒng)計所有列，顯然要比一個世界的列名效率低。這種說法其實是沒有根據(jù)的。我們來看：

select count(*) from Tgongwen

用時：1500毫秒

select count(gid) from Tgongwen

用時：1483毫秒

select count(fariqi) from Tgongwen

用時：3140毫秒

select count(title) from Tgongwen

用時：52050毫秒

　　從以上可以看出，如果用count(*)和用count(主鍵)的速度是相當(dāng)?shù)?#xff0c;而count(*)卻比其他任何除主鍵以外的字段匯總速度要快，而且字段越長，匯總的速度就越慢。我想，如果用count(*)， SQL SERVER可能會自動查找最小字段來匯總的。當(dāng)然，如果您直接寫count(主鍵)將會來的更直接些。

11、order by按聚集索引列排序效率最高
　　我們來看：（gid是主鍵，fariqi是聚合索引列）：

select top 10000 gid,fariqi,reader,title from tgongwen

用時：196 毫秒。掃描計數(shù) 1，邏輯讀 289 次，物理讀 1 次，預(yù)讀 1527 次。

select top 10000 gid,fariqi,reader,title from tgongwen order by gid asc

用時：4720毫秒。掃描計數(shù) 1，邏輯讀 41956 次，物理讀 0 次，預(yù)讀 1287 次。

select top 10000 gid,fariqi,reader,title from tgongwen order by gid desc

用時：4736毫秒。掃描計數(shù) 1，邏輯讀 55350 次，物理讀 10 次，預(yù)讀 775 次。

select top 10000 gid,fariqi,reader,title from tgongwen order by fariqi asc

用時：173毫秒。掃描計數(shù) 1，邏輯讀 290 次，物理讀 0 次，預(yù)讀 0 次。

select top 10000 gid,fariqi,reader,title from tgongwen order by fariqi desc

用時：156毫秒。掃描計數(shù) 1，邏輯讀 289 次，物理讀 0 次，預(yù)讀 0 次。

　　從以上我們可以看出，不排序的速度以及邏輯讀次數(shù)都是和“order by 聚集索引列” 的速度是相當(dāng)?shù)?#xff0c;但這些都比“order by 非聚集索引列”的查詢速度是快得多的。
　　同時，按照某個字段進(jìn)行排序的時候，無論是正序還是倒序，速度是基本相當(dāng)?shù)摹?span lang="en-us">

12、高效的TOP
　　事實上，在查詢和提取超大容量的數(shù)據(jù)集時，影響數(shù)據(jù)庫響應(yīng)時間的最大因素不是數(shù)據(jù)查找，而是物理的I/0操作。如：

select top 10 * from (

select top 10000 gid,fariqi,title from tgongwen

where neibuyonghu=''辦公室''

order by gid desc) as a

order by gid asc

　　這條語句，從理論上講，整條語句的執(zhí)行時間應(yīng)該比子句的執(zhí)行時間長，但事實相反。因為，子句執(zhí)行后返回的是10000條記錄，而整條語句僅返回10條語句，所以影響數(shù)據(jù)庫響應(yīng)時間最大的因素是物理I/O操作。而限制物理I/O操作此處的最有效方法之一就是使用TOP關(guān)鍵詞了。TOP關(guān)鍵詞是SQL SERVER中經(jīng)過系統(tǒng)優(yōu)化過的一個用來提取前幾條或前幾個百分比數(shù)據(jù)的詞。經(jīng)筆者在實踐中的應(yīng)用，發(fā)現(xiàn)TOP確實很好用，效率也很高。但這個詞在另外一個大型數(shù)據(jù)庫ORACLE中卻沒有，這不能說不是一個遺憾，雖然在ORACLE中可以用其他方法（如：rownumber）來解決。在以后的關(guān)于“實現(xiàn)千萬級數(shù)據(jù)的分頁顯示存儲過程”的討論中，我們就將用到TOP這個關(guān)鍵詞。
　　到此為止，我們上面討論了如何實現(xiàn)從大容量的數(shù)據(jù)庫中快速地查詢出您所需要的數(shù)據(jù)方法。當(dāng)然，我們介紹的這些方法都是“軟”方法，在實踐中，我們還要考慮各種“硬”因素，如：網(wǎng)絡(luò)性能、服務(wù)器的性能、操作系統(tǒng)的性能，甚至網(wǎng)卡、交換機(jī)等。

轉(zhuǎn)載于:https://www.cnblogs.com/Spring/archive/2006/02/14/330493.html

總結(jié)

以上是生活随笔為你收集整理的聚集索引和非聚集索引- -的全部內(nèi)容，希望文章能夠幫你解決所遇到的問題。

如果覺得生活随笔網(wǎng)站內(nèi)容還不錯，歡迎將生活随笔推薦給好友。

索引

上一篇： LeetCode.961-2N数组中N次
下一篇： python去噪算法