揭密Oracle之 七种武器
生活随笔
收集整理的這篇文章主要介紹了
揭密Oracle之 七种武器
小編覺(jué)得挺不錯(cuò)的,現(xiàn)在分享給大家,幫大家做個(gè)參考.
揭密Oracle之 七種武器 第一章 搭建測(cè)試環(huán)境
vage揭密Oracle之 七種武器 ?第一章 搭建測(cè)試環(huán)境
(揭密Oracle之七種武器第二章地址:DTrace語(yǔ)法:跟蹤物理IO
http://www.itpub.net/thread-1609235-1-1.html
揭密Oracle之七種武器之三:破譯古老的謎題---共享CBC Latch的秘密
http://www.itpub.net/thread-1617245-1-1.html)
第一章 ?測(cè)試環(huán)境的搭建
面對(duì)越來(lái)越封閉的Oracle,你想揭開(kāi)它神秘的面紗嗎。
奇奇怪怪的問(wèn)題,總是查不出原因,你想揭開(kāi)它背后的秘密嗎。
還等什么,DTrace+GDB,
有必要說(shuō)明下,雖然我們只能在Solaris測(cè)試,但Oracle的工作原理,在
大部分平臺(tái)下,是一樣的 ?(可能Windows會(huì)有點(diǎn)不同吧)。我們用Dtrace分析Oracle的原理,比如在什么時(shí)候
、加什么樣的鎖、Pin、Latch或Mutex,加到什么操作為至釋放,會(huì)以怎樣的形式阻塞,等等,用這個(gè)原理,去
診斷其他平臺(tái)的問(wèn)題。
1、安裝Solaris
首先你要有個(gè)測(cè)試環(huán)境,DTrace只有Solaris下有,我們就搭個(gè)Solaris的測(cè)試平臺(tái)吧。到Oracle官網(wǎng)上下個(gè)
Solaris,現(xiàn)在已經(jīng)有11了,我下的是10,這是10的
鏈接:http://www.oracle.com/technetwork/server-storage/solaris10/overview/index.html 。如果你想用
11,當(dāng)然也可以。對(duì)于我們測(cè)試Oracle,10和11差別不大的。
下載的文件,是個(gè)ISO文件,直接加載到虛擬機(jī)里安裝就可以了,安裝過(guò)程我不再說(shuō)了,非常簡(jiǎn)單。考慮到以后
我還要裝Oracle、建庫(kù),磁盤(pán)最好搞大點(diǎn),20G吧
。對(duì)了,我的虛擬機(jī)是VMWare 8.0.0 build-471780。你也可以選擇其他版本,或其他虛擬機(jī)。
2、安裝Oracle
(1)、下載Oracle
我們最好裝兩個(gè)版本,10GR2和11GR2。10G現(xiàn)在用的還比較多,而且10G相關(guān)DTrace和GDB的資料更多些,因?yàn)槲?
一直在用DTrace+GDB研究10G,后面我會(huì)逐步總結(jié)
一些我的研究結(jié)果。11GR2作為未來(lái)必定會(huì)流行的版本,有必要早做準(zhǔn)備。
注意,11GR2在Solaris平臺(tái),只有64位版本的。要求你的電腦要是64位才行。
groupadd dba
groupadd oinstall
useradd -g oinstall -G dba -d /export/home/lhb -m oracle
編輯/etc/system文件,增加如下行:
set shmsys:shminfo_shmmax=10737418240
set shmsys:shminfo_shmmin=1048576?
set shmsys:shminfo_shmseg=1000?
set shmsys:shminfo_shmmni=100?
set semsys:seminfo_semmns=700?
set semsys:seminfo_semmni=100
set semsys:seminfo_semmsl=256
我10G、11G都是這樣寫(xiě)的。
我的.profile只有這些內(nèi)容:
ORACLE_BASE=/export/home/oracle/opt/?
ORACLE_HOME=$ORACLE_BASE/product/10.2.0/?
LD_LIBRARY_PATH=$LD_LIBRARY_PATH:$ORACLE_HOME/lib:/usr/lib?
PATH=$PATH:/usr/ccs/bin:$ORACLE_HOME/bin
ORACLE_SID=h1
export ORACLE_BASE
export ORACLE_HOME
export LD_LIBRARY_PATH?
export PATH
export ORACLE_SID
解壓下載的Oracle安裝文件,開(kāi)始安裝。
11G安裝畫(huà)面變了很多,但過(guò)程和10G大致上相差無(wú)幾。我安裝11GR2的時(shí)候,在環(huán)境檢查時(shí),報(bào)swap和tmp不夠
大,直接忽略過(guò)去就行了。還有,在安裝的83%時(shí),停了很
久。到底多久不知道,因?yàn)榈攘颂?#xff0c;都晚點(diǎn)12點(diǎn)多來(lái),我一直有早睡早起的習(xí)慣,直接去睡了,第二天早上
起來(lái)一看,已經(jīng)裝好了。
庫(kù)你怎么建都行,我一般是手動(dòng)建,你當(dāng)然可以選擇在安裝的時(shí)候一起建,這些基本的我就不再說(shuō)了。
到http://www.sunfreeware.com中,下載GDB的庫(kù),我下載了這五個(gè)庫(kù):
expat-2.0.1-sol10-x86-local.gz ? ?
gdb-6.8-sol10-x86-local.gz ? ?
libiconv-1.14-sol10-x86-local.gz ?
libintl-3.4.0-sol10-x86-local.gz
ncurses-5.7-sol10-x86-local.gz
用如下命令,依次安裝5個(gè)庫(kù)。注意,最好安照我上面的順序安裝,
gunzip expat-2.0.1-sol10-x86-local.gz?
pkgadd -d expat-2.0.1-sol10-x86-local.gz
安裝完后,將gdb的路徑,加入到/etc/profile中:
在/etc/profile中增加如下行:
PATH=$PATH:/usr/sfw/bin:/usr/local/bin
LD_LIBRARY_PATH=/usr/sfw/lib
export LD_LIBRARY_PATH
export PATH
好了,等測(cè)試環(huán)境建好后,我們來(lái)一步一步,用DTrace+GDB,刀劍合璧,讓Oracle沒(méi)有秘密。
========
揭密Oracle之七種武器二:DTrace語(yǔ)法:跟蹤物理IO
vage揭密Oracle之七種武器二:DTrace語(yǔ)法:跟蹤物理IO
(第一章地址:
揭密Oracle之 七種武器 ?第一章 搭建測(cè)試環(huán)境
http://www.itpub.net/thread-1605241-1-1.html?
或參考我的BLOG www.MythData.com
揭密Oracle之七種武器之三:破譯古老的謎題---共享CBC Latch的秘密
http://www.itpub.net/thread-1617245-1-1.html
)
? ? ? ? 其實(shí)本章是以物理IO為例,介紹DTrace的基本語(yǔ)法。本篇內(nèi)容還是比較多的,應(yīng)該足夠有興趣的朋友
學(xué)習(xí)一周了。下周,再推出我的第三章。
? ? ? ? ?另外說(shuō)明一下,我并不是DTrace專(zhuān)家,我用DTrace主要目的是研究Oracle。我們不會(huì)對(duì)DTrace作過(guò)多
深入的介紹(不過(guò)DTrace本身也沒(méi)有深入的東西,調(diào)試工具嗎,復(fù)雜的是要調(diào)試的目標(biāo)),我們的主要內(nèi)容,
還是逐步深入,介紹如何用DTrace分析、研究Oracle方法。
? ? ? ? 授人以魚(yú),不如授人以漁。我相信,方法比結(jié)果重要。
? ? ? ? 本篇內(nèi)容會(huì)用到一本書(shū),Solaris 動(dòng)態(tài)跟蹤指南,可以到這里下載。 ? D語(yǔ)言全面介紹.pdf (1.83?
MB, 下載次數(shù): 1840) 這個(gè)是Solaris官方提供的文檔,而且是中文的。當(dāng)字典來(lái)查,非常不錯(cuò)。
第二章 ?DTrace語(yǔ)法:跟蹤物理IO
第一節(jié) ?Hello World
? ? ? ? DTrace是什么,這個(gè)問(wèn)題很容易回答:調(diào)試工具。具體我們可以這樣理解,Solaris在其內(nèi)部,增加了
N多的觸發(fā)器,這些觸發(fā)器平時(shí)是Disable的,對(duì)性能沒(méi)有任
何影響。你可以通過(guò)DTrace,Enable某些觸發(fā)器。并且,在Enable的同時(shí),還可以為這些觸發(fā)器指定動(dòng)作。
? ? ? ? 比如,有一個(gè)I/O觸發(fā)器,你用DTrace Enable了它,同時(shí),你定義動(dòng)作,“每次發(fā)生I/O時(shí),顯示出
I/O大小”。當(dāng)然,還可以定義更復(fù)雜的動(dòng)作,顯示I/O的內(nèi)容
、甚至修改I/O數(shù)據(jù)。進(jìn)程想往磁盤(pán)中寫(xiě)個(gè)A,你可以用DTrace,將A換成B。當(dāng)然,我們調(diào)試進(jìn)程,一般不需要
修改,只需要觀察。
? ? ? ? 換成DTrace中的術(shù)語(yǔ),觸發(fā)器就是Probe,可以譯為探針。探針并時(shí)都是關(guān)閉的,也就是Disable的。
我們可以使用DTrace,打開(kāi)探針,并為探針指定動(dòng)作。當(dāng)探針
被觸發(fā),你通過(guò)DTrace為探針定義的動(dòng)作,就會(huì)被執(zhí)行。
? ? ? ? 好,閑言少敘,試試我們的第一個(gè)DTrace程序吧。讓我們也來(lái)個(gè)DTrace版的“Hello World
”吧。
? ? ? ? 在root下,vi test1.d,輸入如下命令:
BEGIN
{
? ? printf("hello world,www.MythData.com ";
? ? exit(0);
}
如下執(zhí)行此腳本:
# dtrace -s test1.d
結(jié)果顯示:
dtrace: script 'test1.d' matched 1 probe
CPU ? ? ID ? ? ? ? ? ? ? ? ? ?FUNCTION:NAME
? 3 ? ? ?1 ? ? ? ? ? ? ? ? ? ? ? ? ? :BEGIN hello world,www.MythData.com?
? ? ? ? 在此加上我的BLOG地址,我的那篇突然35歲,雖然被轉(zhuǎn)載的到處都是,但被截掉了我的BLOG地址。唉
。如果有人轉(zhuǎn)載的話,應(yīng)該也會(huì)有人截掉的。
? ? ? ? 閑言少敘,上面就是顯示結(jié)果了。對(duì)于我的程序和輸出結(jié)果,略加說(shuō)明。
? ? ? ? 1、BEGIN:它是DTrace的探針之一。也是最簡(jiǎn)單的探針。它不和操作系統(tǒng)任何操作關(guān)聯(lián),一般它用來(lái)
做DTrace程序運(yùn)行的初始化工作。BEGIN探針中的代碼,會(huì)在
DTrace程序開(kāi)始時(shí)運(yùn)行。
? ? ? ? 2、大括號(hào):如我們所見(jiàn),探針名之下,就是大括號(hào)。這足以說(shuō)明DTrace的設(shè)計(jì)者是C語(yǔ)言迷,將C語(yǔ)言
的格式帶入到了DTrace中來(lái)。
? ? ? ? 3、大括號(hào)中間的語(yǔ)句:這就是我們?yōu)锽EGIN探針定義的動(dòng)作了。包含兩條語(yǔ)句,顯示和退出。每條語(yǔ)
句之后以;號(hào)結(jié)尾。
? ? ? ? 4、關(guān)于這兩條語(yǔ)句,我就不再多說(shuō)了,printf,在此的使用方法,完全和C語(yǔ)言一樣。
? ? ? ? 5、兩注意事項(xiàng),(1)、大小寫(xiě)是敏感的。(2)、如果不加exit(0)的話,此程序運(yùn)行完將不會(huì)退出
。可以手工Ctrl+C退出。
? ? ? ? 輸出結(jié)果的話:
? ? ? ? 1、CPU列為3,說(shuō)明此DTrace程序在運(yùn)行時(shí),剛好在3號(hào)CPU上執(zhí)行命令。
? ? ? ? 2、ID列是探針編號(hào)。
? ? ? ? 3、FUNCTION:NAME,:BEGIN,探針名相關(guān)信息,這個(gè)后面再詳細(xì)說(shuō)。
? ? ? ? 4、最后無(wú)列名的部分,hello world,www.MythData.com,就是我們程序的輸出結(jié)果了。
? ? ? ? 最后,每次運(yùn)行此程序時(shí),都要dtrace -s,太麻繁了。我們可以添加一個(gè)#!/usr/sbin/dtrace -s在
程序頭,如下所示:
#!/usr/sbin/dtrace -s
BEGIN
{
? ? printf("hello world,www.MythData.com ";
? ? exit(0);
}
? ? ? ? 保存,使用chmod 755 test1.d,賦上去可執(zhí)行權(quán)限,如下方式執(zhí)行:
# ./test1.d
dtrace: script './test1.d' matched 1 probe
CPU ? ? ID ? ? ? ? ? ? ? ? ? ?FUNCTION:NAME
? 0 ? ? ?1 ? ? ? ? ? ? ? ? ? ? ? ? ? :BEGIN hello world,www.MythData.com?
第二節(jié) ?詳述探針(Probe)
? ? ? ? 完整的探針描述符,絕對(duì)不至上節(jié)我們遇到的BEGIN這么簡(jiǎn)單。它包括PROVIDER(提供器),MODULE(
模塊名),FUNCTION(函數(shù)名)和NAME(探針名稱(chēng))四部分
。BEGIN只是最簡(jiǎn)單的一個(gè)特例。
? ? ? ? PROVIDER是最上層的稱(chēng)號(hào),比如有IO PROVIDER,進(jìn)程PROVIDER,等等。每種PROVIDER根據(jù)其包含的探
針不同,又分為N種MODULE。MODULE之中又包含各種FUNCTION
,最后的NAME是探針名,通常是進(jìn)入、開(kāi)始、退出、完成這些東西,在進(jìn)入一個(gè)FUNCTION(函數(shù))、退出函數(shù)、
完成函數(shù)等等動(dòng)作發(fā)生時(shí)被觸發(fā)。
? ? ? ? 我們以IO為例,這應(yīng)該是我們最關(guān)心的話題。操作系統(tǒng)中大部分IO事件的開(kāi)始處,有這樣一個(gè)探針:
io:genunix:bdev_strategy:start
? ? ? ? io是PROVIDER,genunix是MODULE。bdev_strategy是FUNCTION,所有串行磁盤(pán)I/O事件將調(diào)用
bdev_strategy函數(shù)完成。最后一個(gè),start,bdev_strategy函數(shù)入口
處的探針。
? ? ? ? 我們可以這樣稱(chēng)呼它,io提供器下的genunix模塊中的bdev_strategy函數(shù)上的start探針。我們可以理
解為某數(shù)據(jù)庫(kù)下某Schema中的某個(gè)表上的某某觸發(fā)器。一個(gè)
探針的稱(chēng)呼其實(shí)無(wú)所謂。了解Solaris一供為我們提供了什么PROVIDER(提供器),這些提供器下都有什么
MODULE(模塊),這些模塊中都有什么FUNCTION(函數(shù)),以及
這些函數(shù)上都有什么探針,這才是重要的。關(guān)于這點(diǎn),我們可以參考《Solaris 動(dòng)態(tài)跟蹤指南》,這是本書(shū)像
一本字典,詳細(xì)介紹了所有的提供器、模塊等等。
? ? ? ? 好,先以io:genunix:bdev_strategy:start為例子,測(cè)試一下吧:
vi test2.d
#!/usr/sbin/dtrace -s
BEGIN
{
? ? i=0;
}
io:genunix:bdev_strategy:start
{
? ? printf("%d number physio IO",i);
? ? i++;
}
保存,chmod 755 test2.d,這是執(zhí)行的結(jié)果:
# ./test2.d
dtrace: script './test2.d' matched 2 probes
CPU ? ? ID ? ? ? ? ? ? ? ? ? ?FUNCTION:NAME
? 1 ? ?781 ? ? ? ? ? ? ?bdev_strategy:start 0 number physio IO
? 1 ? ?781 ? ? ? ? ? ? ?bdev_strategy:start 1 number physio IO
? 1 ? ?781 ? ? ? ? ? ? ?bdev_strategy:start 2 number physio IO
? 1 ? ?781 ? ? ? ? ? ? ?bdev_strategy:start 3 number physio IO
? 1 ? ?781 ? ? ? ? ? ? ?bdev_strategy:start 4 number physio IO
? 1 ? ?781 ? ? ? ? ? ? ?bdev_strategy:start 5 number physio IO
……………………
? ? ? ? 每有一次IO,程序會(huì)都會(huì)顯示一行,“ ?1 ? ?781 ? ? ? ? ? ? ?bdev_strategy:star”,這一部分
是固定輸出,這一部分其實(shí)可以用一個(gè)參數(shù)關(guān)掉。參數(shù)我們以
后再說(shuō)。后面“ 0 number physio IO”,是我們程序的輸出結(jié)果。
? ? ? ? 如果我們不按Ctrl+C,程序會(huì)一直顯示下去。每有一次串行IO發(fā)生,準(zhǔn)確說(shuō)是每調(diào)用一次
bdev_strategy函數(shù),探針被觸發(fā)一次,就會(huì)顯示一行。
? ? ? ? 只顯示IO的次數(shù),也沒(méi)啥意義。其實(shí)我們可以顯示更多的東西。但要對(duì)IO類(lèi)探針進(jìn)一步了解些。
? ? ? ? bdev_strategy既然被叫作函數(shù),是函數(shù)的話,當(dāng)然有參數(shù)。它一共有3個(gè)參數(shù),參數(shù)1是bufinfo_t型
的結(jié)構(gòu),參數(shù)2是devinfo_t型結(jié)構(gòu),參數(shù)3是fileinfo_t型結(jié)
構(gòu)。可以參見(jiàn)《Solaris 動(dòng)態(tài)跟蹤指南》 356頁(yè)。
? ? ? ? 另外,結(jié)構(gòu),Struct,C語(yǔ)言的基本東西。不會(huì)的話,去看看潭浩強(qiáng)的C語(yǔ)言吧。二級(jí)C語(yǔ)言,我想我們
都應(yīng)該沒(méi)啥問(wèn)題吧。確定寫(xiě)DTrace腳本,連二級(jí)C都不需要,
只需要對(duì)C語(yǔ)言有最基本的了解即可。
? ? ? ? 這三個(gè)結(jié)構(gòu)當(dāng)中,fileinfo_t包含的有I/O所針對(duì)的文件名,請(qǐng)?jiān)试S我粘一段《Solaris 動(dòng)態(tài)跟蹤指南
》 359頁(yè)的內(nèi)容,fileinfo_t結(jié)構(gòu)的定義:
typedef struct fileinfo?
{
? ? ? ? string fi_name; ? ? ? ? /* name (basename of fi_pathname) */
? ? ? ? string fi_dirname; ? ? ? ? /* directory (dirname of fi_pathname) */
? ? ? ? string fi_pathname; ? ? ? ? /* full pathname */
? ? ? ? offset_t fi_offset; ? ? ? ? /* offset within file */
? ? ? ? string fi_fs; ? ? ? ? ? ? ? ? /* filesystem */
? ? ? ? string fi_mount; ? ? ? ? /* mount point of file system */
} fileinfo_t;
? ? ? ? 在此,照顧一下不會(huì)C語(yǔ)言的人,簡(jiǎn)單說(shuō)明一下,如果我們要訪問(wèn)結(jié)構(gòu)中的內(nèi)容,格式是“結(jié)構(gòu)名.域
”,或者“結(jié)構(gòu)指針->域”。在DTrace中,我們得到的一般都
是指針。
? ? ? ? 好,下面我們改一下腳本程序:
io:genunix:bdev_strategy:start
{
? ? printf("%s",args[2]->fi_pathname);
}
? ? ? ? args[2],是bdev_strategy函數(shù)的第三個(gè)參數(shù),這是Dtrace中的固定用法。DTrace中還會(huì)有一些類(lèi)似
的固定用法,可以參考《Solaris 動(dòng)態(tài)跟蹤指南》P68頁(yè),內(nèi)
置變量。我們以后還會(huì)用到一些其他的。
? ? ? ? 在bdev_strategy函數(shù)中,第三個(gè)參數(shù)是fileinfo_t型的指針,也就是說(shuō),我們可以用“args[2]->域
”的格式,訪問(wèn)fileinfo_t型結(jié)構(gòu)中的域。我們此外訪問(wèn)的域
是fi_pathname,也就是文件的完整路徑加名字,形式就是如上面所示:args[2]->fi_pathname。
這是我執(zhí)行后的結(jié)果:
# ./test2.d
dtrace: script './test2.d' matched 2 probes
CPU ? ? ID ? ? ? ? ? ? ? ? ? ?FUNCTION:NAME
? 2 ? ?781 ? ? ? ? ? ? ?bdev_strategy:start /export/home/oracle/opt/dbdata/h1/control01.ctl
? 2 ? ?781 ? ? ? ? ? ? ?bdev_strategy:start /export/home/oracle/opt/dbdata/h1/control01.ctl
? 0 ? ?781 ? ? ? ? ? ? ?bdev_strategy:start /export/home/oracle/opt/dbdata/h1/control01.ctl
? 0 ? ?781 ? ? ? ? ? ? ?bdev_strategy:start /export/home/oracle/opt/dbdata/h1/control01.ctl
? 1 ? ?781 ? ? ? ? ? ? ?bdev_strategy:start <none>
? 1 ? ?781 ? ? ? ? ? ? ?bdev_strategy:start <none>
? 1 ? ?781 ? ? ? ? ? ? ?bdev_strategy:start <none>
? 1 ? ?781 ? ? ? ? ? ? ?bdev_strategy:start <none>
? 1 ? ?781 ? ? ? ? ? ? ?bdev_strategy:start /export/home/oracle/opt/dbdata/h1/control01.ctl
? 1 ? ?781 ? ? ? ? ? ? ?bdev_strategy:start /export/home/oracle/opt/dbdata/h1/control01.ctl
? 1 ? ?781 ? ? ? ? ? ? ?bdev_strategy:start /export/home/oracle/opt/dbdata/h1/control01.ctl
? ? ? ? 可以看到,有很多控制文件的寫(xiě)。隨帶說(shuō)一下,我這個(gè)測(cè)試庫(kù)很閑,沒(méi)有任何操作。但你可以看著表
統(tǒng)計(jì)一下,不超過(guò)3秒,肯定會(huì)有一次控制文件的IO操作。原
因是什么,我就不用再說(shuō)了吧。
? ? ? ? 再進(jìn)一步的,Oracle每次控制文件的IO是多大呢? IO的大小在bufinfo_t結(jié)構(gòu)中的b_bcount域,你可
以查看《Solaris 動(dòng)態(tài)跟蹤指南》 356頁(yè),為了節(jié)省篇幅,我
就不再粘過(guò)來(lái)了。bufinfo_t結(jié)構(gòu)的指針,是bdev_strategy的第一個(gè)參數(shù),也就是args[0]。因此,我們可以如
下再次修改代碼:
io:genunix:bdev_strategy:start
{
? ? printf("%s %d",args[2]->fi_pathname,args[0]->b_bcount);
}
這是我的執(zhí)行結(jié)果:
? 1 ? ?781 ? ? ? ? ? ? ?bdev_strategy:start /export/home/oracle/opt/dbdata/h1/control01.ctl 8192
? 2 ? ?781 ? ? ? ? ? ? ?bdev_strategy:start /var/tmp/Exwla4xc 8192
? 2 ? ?781 ? ? ? ? ? ? ?bdev_strategy:start /export/home/oracle/opt/dbdata/h1/redo03 4096
? 1 ? ?781 ? ? ? ? ? ? ?bdev_strategy:start /export/home/oracle/opt/dbdata/h1/control01.ctl 8192
? 1 ? ?781 ? ? ? ? ? ? ?bdev_strategy:start /export/home/oracle/opt/dbdata/h1/control01.ctl 8192
? 1 ? ?781 ? ? ? ? ? ? ?bdev_strategy:start /export/home/oracle/opt/dbdata/h1/control01.ctl 8192
? ? ? ? 控制文件的IO大小,很整齊的都是8192字節(jié),8K,控制文件的塊大小。出乎我意料的是,有一個(gè)Redo
文件:redo03,它的IO大小是4096。我以前一直以為,應(yīng)該是
512才對(duì),因?yàn)镾olaris下,Redo的塊大小就是512字節(jié)啊(我碰到的系統(tǒng),好像只有HP的不是512)。
? ? ? ? 不急,我們還沒(méi)有搞清楚這些IO是讀還是寫(xiě)呢,說(shuō)不定是歸檔的讀Redo IO呢。還是bufinfo_t結(jié)構(gòu),
b_flags域,說(shuō)明了IO類(lèi)型。關(guān)于這個(gè)域,在操作系統(tǒng)內(nèi)部定
義了幾個(gè)標(biāo)志(就是用#define 定義的),B_WRITE代表IO是寫(xiě),B_READ代表是讀,還有些其他的,自己到357
頁(yè)查吧。
? ? ? ? 我將代碼修改如下,添加上去IO類(lèi)別的判斷:
io:genunix:bdev_strategy:start
{
? ? printf("%s %d %s",args[2]->fi_pathname,args[0]->b_bcount,args[0]->b_flags&B_READ?"R":"W" );
}
? ? ? ? args[0]->b_flags&B_READ?"R":"W",這種使用形式,條件表達(dá)式,是我們以后常用的形式,因?yàn)?
DTrace中沒(méi)有if、while等流程控制語(yǔ)句,所以條件表達(dá)式將是if
的常用替代者,但它必竟替代不了復(fù)雜的控制語(yǔ)句。
? ? ? ? 仍然是為了程序不太好的人,介紹一下這個(gè)條件表達(dá)式:“條件?值1?值2”,將條件為T(mén)rue,值1為
整個(gè)條件表達(dá)式的值。否則,值2為整個(gè)條件表達(dá)式的值。
這是執(zhí)行結(jié)果:
? 3 ? ?781 ? ? ? ? ? ? ?bdev_strategy:start /export/home/oracle/opt/dbdata/h1/control01.ctl 8192?
W
? 3 ? ?781 ? ? ? ? ? ? ?bdev_strategy:start /export/home/oracle/opt/dbdata/h1/control01.ctl 8192?
W
? 2 ? ?781 ? ? ? ? ? ? ?bdev_strategy:start /export/home/oracle/opt/dbdata/h1/redo01 4096 W
? 1 ? ?781 ? ? ? ? ? ? ?bdev_strategy:start /export/home/oracle/opt/dbdata/h1/control01.ctl 8192?
W
? 1 ? ?781 ? ? ? ? ? ? ?bdev_strategy:start /export/home/oracle/opt/dbdata/h1/control01.ctl 8192?
W
………………
? ? ? ? 控制文件IO也全是寫(xiě),還有,中間的Redo文件IO,是我專(zhuān)門(mén)修改1行,Commit一下產(chǎn)生的,IO大小是
4096字節(jié),而且是寫(xiě)IO。看來(lái),的確是LGWR在寫(xiě)Redo01。我們
可以觀察一會(huì)兒,不會(huì)發(fā)現(xiàn)Redo文件有512字節(jié)IO,這也說(shuō)明了一個(gè)我之前一直忽視的問(wèn)題,先賣(mài)個(gè)關(guān)子,我們
待會(huì)再討論。
? ? ? ??
? ? ? ? 我們?yōu)閕o:genunix:bdev_strategy:start處的探針定義了動(dòng)作,當(dāng)運(yùn)行此DTrace腳本時(shí),我們就開(kāi)啟
了探針io:genunix:bdev_strategy:start。但有些IO,并不是
通過(guò)bdev_strategy函數(shù)完成的,探針io:genunix:bdev_strategy:start捕獲不得這些IO。為了開(kāi)啟更多的探針
、捕獲更多的IO操作,在完整的探針描述符中,我們可以確
實(shí)部分內(nèi)容,下面,如下修改程序:
io:genunix::start
{
? ? printf("%s %d %s",args[2]->fi_pathname,args[0]->b_bcount,args[0]->b_flags&B_READ?"R":"W" );
}
腳本程序運(yùn)行后的提示:
# ./test2.d
dtrace: script './test2.d' matched 4 probes
CPU ? ? ID ? ? ? ? ? ? ? ? ? ?FUNCTION:NAME
? 2 ? ?782 ? ? ? ? ? ? ?bdev_strategy:start cmdk0 /export/home/oracle/opt/dbdata/h1/control01.ctl?
8192 W
? 2 ? ?782 ? ? ? ? ? ? ?bdev_strategy:start cmdk0 /export/home/oracle/opt/dbdata/h1/control01.ctl?
8192 W
? 2 ? ?782 ? ? ? ? ? ? ?bdev_strategy:start cmdk0 /export/home/oracle/opt/dbdata/h1/control01.ctl?
8192 W
? ? ? ? 其中,第一行“dtrace: script './test2.d' matched 4 probes”,說(shuō)明一共開(kāi)啟了4個(gè)探針,比之
前的測(cè)試,多開(kāi)啟了兩個(gè)探針。
? ? ? ? 我們還可以進(jìn)一步省略,io:::start,這將開(kāi)啟7個(gè)探針。我就不再測(cè)試了。但我們不能寫(xiě)成:::start
,或io:::這樣的形式。
? ? ? ? 我們還可以使用通配符,如“i*:::start”,這就是打開(kāi)所有i開(kāi)頭的提供器中的所有模塊、所有函數(shù)
的Start探針。當(dāng)然,我們也可以在模塊、函數(shù)名中,使用通
配符,但不能在探針名中使用通配符。比如,這樣將是錯(cuò)誤的:“io:::st*”。通配符還可以是問(wèn)號(hào),比如:
“i?:::start”。 * 號(hào)代表所有字符,一個(gè) ? 號(hào),只能代表
一個(gè)字符。
? ? ? ? 探針的使用,說(shuō)的也就差不多了,最后再來(lái)一個(gè)總結(jié),我們?nèi)绾沃繱olaris有哪些探針,當(dāng)然,我們
可以查看《Solaris 動(dòng)態(tài)跟蹤指南》。除了這個(gè)之外,
dtrace -l 命令可以查看所有的探針:
# dtrace -l|wc -l
? ?51805
? ? ? ? 我使用的Solaris中,一共有5萬(wàn)多個(gè)探針。
? ? ? ? 我們還可以顯示某一個(gè)提供器下所有探針,這樣更有針對(duì)性,比如,顯示io提供器下有什么模塊、函
數(shù)、探針:
# dtrace -lP io
? ?ID ? PROVIDER ? ? ? ? ? ?MODULE ? ? ? ? ? ? ? ? ? ? ? ? ?FUNCTION NAME
? 767 ? ? ? ? io ? ? ? ? ? genunix ? ? ? ? ? ? ? ? ? ? ? ? ? biodone done
? 768 ? ? ? ? io ? ? ? ? ? genunix ? ? ? ? ? ? ? ? ? ? ? ? ? biowait wait-done
? 769 ? ? ? ? io ? ? ? ? ? genunix ? ? ? ? ? ? ? ? ? ? ? ? ? biowait wait-start
? 780 ? ? ? ? io ? ? ? ? ? genunix ? ? ? ? ? ? ? ? ? ?default_physio start
? 781 ? ? ? ? io ? ? ? ? ? genunix ? ? ? ? ? ? ? ? ? ? bdev_strategy start
? 782 ? ? ? ? io ? ? ? ? ? genunix ? ? ? ? ? ? ? ? ? ? ? ? ? aphysio start
2530 ? ? ? ? io ? ? ? ? ? ? ? nfs ? ? ? ? ? ? ? ? ? ? ? ? ?nfs4_bio done
2531 ? ? ? ? io ? ? ? ? ? ? ? nfs ? ? ? ? ? ? ? ? ? ? ? ? ?nfs3_bio done
2532 ? ? ? ? io ? ? ? ? ? ? ? nfs ? ? ? ? ? ? ? ? ? ? ? ? ? nfs_bio done
2533 ? ? ? ? io ? ? ? ? ? ? ? nfs ? ? ? ? ? ? ? ? ? ? ? ? ?nfs4_bio start
2534 ? ? ? ? io ? ? ? ? ? ? ? nfs ? ? ? ? ? ? ? ? ? ? ? ? ?nfs3_bio start
2535 ? ? ? ? io ? ? ? ? ? ? ? nfs ? ? ? ? ? ? ? ? ? ? ? ? ? nfs_bio start
? ? ? ? 不多,io提供器下,只有13個(gè)探針。
? ? ? ? 好了,探針的內(nèi)容我們就說(shuō)到這兒,下面,下一項(xiàng)內(nèi)容:謂詞。
第三節(jié) 謂詞
? ? ? ? 謂詞其實(shí)就是條件語(yǔ)句,減化版的條件語(yǔ)句。比如,我們繼續(xù)前面的例子,我只想觀察一下針對(duì)Redo
文件的IO,我們可以這樣做,先用如下命令確認(rèn)一下當(dāng)前Redo
文件是誰(shuí):
set linesize 10000
select * from v$log;
? ? GROUP# ? ?THREAD# ?SEQUENCE# ? ? ?BYTES ? ?MEMBERS ARC STATUS ? ? ? ? ? FIRST_CHANGE#?
FIRST_TIM
---------- ---------- ---------- ---------- ---------- --- ---------------- -------------?
---------
? ? ? ? ?1 ? ? ? ? ?1 ? ? ? ?470 ? 62914560 ? ? ? ? ?1 YES ACTIVE ? ? ? ? ? ? ? ? 9387236 05-
MAY-12
? ? ? ? ?2 ? ? ? ? ?1 ? ? ? ?471 ? 62914560 ? ? ? ? ?1 NO ?CURRENT ? ? ? ? ? ? ? ?9388037 05-
MAY-12
? ? ? ? ?3 ? ? ? ? ?1 ? ? ? ?469 ? 62914560 ? ? ? ? ?1 YES INACTIVE ? ? ? ? ? ? ? 9386469 05-
MAY-12
2號(hào)Redo文件是當(dāng)前Redo文件,再如下確認(rèn)一下2號(hào)Redo文件是誰(shuí):
select member from v$logfile where group#=2;
MEMBER
-------------------------------------------------------------------------------------------------
-----------------------------------------------------
/export/home/oracle/opt/dbdata/h1/redo2.log
? ? ? ? 好,如下修改腳本:
io:::start
/ args[2]->fi_pathname=="/export/home/oracle/opt/dbdata/h1/redo2.log" /
{
? ? ? ? printf("%s %s %d %s\n",args[1]->dev_statname,args[2]->fi_pathname,args[0]->b_bcount,args
[0]->b_flags&B_READ?"R":"W" );
}
? ? ? ? 探針描述符我簡(jiǎn)寫(xiě)為:io:::start,我開(kāi)啟了所有IO開(kāi)始處的探針,攔截io提供器下所有的IO函數(shù)調(diào)
用。在探針描述符之下的 / ………… / ,就是本節(jié)所要介紹
的謂詞。簡(jiǎn)單點(diǎn)說(shuō),就是條件。當(dāng)探針被觸發(fā)后,只有滿足謂詞條件,才會(huì)執(zhí)行探針下的動(dòng)作。
? ? ? ? 結(jié)合上面的程序,也就是當(dāng)有IO發(fā)生時(shí),只有當(dāng)IO是針對(duì)redo2.log這個(gè)文件的,才會(huì)執(zhí)行下面的
Printf命令。
? ? ? ? 開(kāi)一個(gè)數(shù)據(jù)庫(kù)會(huì)話,使用update命令更新一行,觀察一下行針對(duì)Redo的IO。
? ? ? ? 我針對(duì)一個(gè)很小的表,執(zhí)行如下命令:
SQL> update a1 set id=id+0 where id=1;
1 row updated.
SQL> commit;
Commit complete.
? ? ? ? 觀察結(jié)果, update a1 set id=id+0 where id=1時(shí),并沒(méi)有Redo的IO,這是因?yàn)樵谌碌腎MU模式下
,Redo機(jī)制Oracle做了很大調(diào)整,DML語(yǔ)句執(zhí)行時(shí),只要沒(méi)有
超過(guò)private strand大小,日志不會(huì)被寫(xiě)進(jìn)Log Buffer。關(guān)于這些內(nèi)容,后面我們專(zhuān)門(mén)開(kāi)個(gè)帖子詳細(xì)討論吧。
在Commit時(shí),就有了如下輸出:
# ./test2.d
dtrace: script './test2.d' matched 7 probes
CPU ? ? ID ? ? ? ? ? ? ? ? ? ?FUNCTION:NAME
? 2 ? ?782 ? ? ? ? ? ? ?bdev_strategy:start cmdk0 /export/home/oracle/opt/dbdata/h1/redo2.log?
4096 W
? ? ? ? 有4096字節(jié)的針對(duì)Redo2.log的寫(xiě)IO。但是,注意,并不是每次提交時(shí),都會(huì)有IO。下面是我做的一個(gè)
完整測(cè)試,我一共執(zhí)行了上面的Update、commit命令共10次
,有6次commit時(shí)有IO:
# ./test2.d
dtrace: script './test2.d' matched 7 probes
CPU ? ? ID ? ? ? ? ? ? ? ? ? ?FUNCTION:NAME
? 2 ? ?782 ? ? ? ? ? ? ?bdev_strategy:start cmdk0 /export/home/oracle/opt/dbdata/h1/redo3.log?
4096 W
? 2 ? ?782 ? ? ? ? ? ? ?bdev_strategy:start cmdk0 /export/home/oracle/opt/dbdata/h1/redo3.log?
4096 W
? 3 ? ?782 ? ? ? ? ? ? ?bdev_strategy:start cmdk0 /export/home/oracle/opt/dbdata/h1/redo3.log?
4096 W
? 1 ? ?782 ? ? ? ? ? ? ?bdev_strategy:start cmdk0 /export/home/oracle/opt/dbdata/h1/redo3.log?
4096 W
? 3 ? ?782 ? ? ? ? ? ? ?bdev_strategy:start cmdk0 /export/home/oracle/opt/dbdata/h1/redo3.log?
4096 W
? 2 ? ?782 ? ? ? ? ? ? ?bdev_strategy:start cmdk0 /export/home/oracle/opt/dbdata/h1/redo3.log?
4096 W
? ? ? ? 我們可以用truss 跟蹤一下lgwr進(jìn)程,每次提交時(shí),lgwr都會(huì)調(diào)用pwrite64函數(shù),寫(xiě)Redo文件。寫(xiě)的
大小不等,最小時(shí)會(huì)是512字節(jié)。而且,每次提交時(shí),都會(huì)寫(xiě)
Redo文件。這就是Oracle的運(yùn)行法則之一嗎,提交時(shí),一定會(huì)寫(xiě)Redo文件。但是,如果你使用的是文件系統(tǒng),
對(duì)日志文件的寫(xiě),操作系統(tǒng)有可能只是暫時(shí)先寫(xiě)進(jìn)主機(jī)的緩存
當(dāng)中。
? ? ? ? 當(dāng)然,在Solaris下,我們可以mount -o directio 這樣Mount磁盤(pán),所有IO都將是直接IO了。
? ? ? ? 使用文件系統(tǒng)是危險(xiǎn)的。我只了解Oracle,不了解各種文件系統(tǒng)。嚴(yán)謹(jǐn)點(diǎn)的說(shuō)法,使用某些文件系統(tǒng)
存放Redo文件是危險(xiǎn)的。有可能造成提交后的數(shù)據(jù)丟失。如果
你決定使用文件系統(tǒng),一定要詳細(xì)了解下你的文件系統(tǒng),針對(duì)Redo文件,是否是直接IO,或者在突然當(dāng)機(jī)后的
處理,有沒(méi)有類(lèi)似Oracle的實(shí)例恢復(fù)機(jī)制。
? ? ? ? 我們可以測(cè)試一下,做一個(gè)DML操作,提交,然后馬上關(guān)掉主機(jī)電源(我是Power Off掉虛擬機(jī)的電源
),再重新啟動(dòng)虛擬機(jī)、數(shù)據(jù)庫(kù),查看剛才已經(jīng)提交DML的結(jié)
果,你會(huì)發(fā)現(xiàn),有時(shí)DML的結(jié)果會(huì)丟失掉的。注意,是已提交的DML結(jié)果會(huì)丟失。
? ? ? ? 在謂詞中,我們可以使用常見(jiàn)的||、&&、!,就是或、與、非。比如,我共有三個(gè)日志文件,上面的
謂詞我捕獲一個(gè)日志文件redo2.log的IO,為了三個(gè)文件都捕
獲,可以如下改寫(xiě):
io:::start
/ args[2]->fi_pathname=="/export/home/oracle/opt/dbdata/h1/redo1.log" ||?
? args[2]->fi_pathname=="/export/home/oracle/opt/dbdata/h1/redo2.log" ||
? args[2]->fi_pathname=="/export/home/oracle/opt/dbdata/h1/redo3.log" /
{
? ? ? ? printf("%s %s %d %s\n",args[1]->dev_statname,args[2]->fi_pathname,args[0]->b_bcount,args
[0]->b_flags&B_READ?"R":"W" );
}
? ? ? ? 謂詞中我使用兩個(gè)||符號(hào),也就是“或”,將三個(gè)條件連接起來(lái)。只要有任意一個(gè)條件滿足,都會(huì)執(zhí)
行下面的printf命令。這樣,無(wú)論日志怎么切換,我們都可以
觀察Redo的IO情況了。
? ? ? ? 那么,ASM會(huì)不會(huì)有這樣的情況呢,我們可以測(cè)試下。
? ? ? ? 首先,配置ASM。我們先在10G下測(cè)試吧,10G的ASM配置比較簡(jiǎn)單,網(wǎng)上資料也比較多。11GR2的,我們
以后再配置、觀察。
(1)、配置ASM
# export ORACLE_HOME=/export/home/oracle/opt//product/10.2.0/
# cd $ORACLE_HOME/bin
# ./localconfig add
(2)、準(zhǔn)備ASM參數(shù)文件
$ cat asmpfile.ora
instance_type=asm
cluster_database=false
asm_diskgroups=dg1
asm_diskstring='/dev/rdsk/c*'
processes=200
remote_login_passwordfile=exclusive
core_dump_dest=/export/home/oracle/opt/admin/myasm/cdump
user_dump_dest=/export/home/oracle/opt/admin/myasm/udump
background_dump_dest=/export/home/oracle/opt/admin/myasm/bdump
(3)、啟動(dòng)ASM實(shí)例
? ? ? ? 先要保證參數(shù)文件中background_dump_dest幾個(gè)參數(shù)中所指定的位置是有的,如下啟動(dòng)ASM實(shí)例即可:
ORACLE_SID=myasm
sqlplus / as sysdba
create spfile from pfile='/export/home/oracle/asmpfile.ora';
startup nomount;
? ? ? ? 在我博客上有一篇文章,專(zhuān)門(mén)講如何配置ASM的:http://space.itpub.net/321157/viewspace-718805
(4)、給虛擬機(jī)添加新的磁盤(pán)。
? ? ? ? 這個(gè)我就不多說(shuō)了,要先關(guān)掉虛擬機(jī),添加完磁盤(pán)再重啟。先添加兩塊吧,大小不用太大。
(5)、格式化
? ? ? ? 格式化的步驟比較長(zhǎng),我寫(xiě)的詳細(xì)些:
# format ? ?<----------------------------------format ,格式化命令。
Searching for disks...done
AVAILABLE DISK SELECTIONS:
? ? ? ?0. c0d1 <DEFAULT cyl 2085 alt 2 hd 255 sec 63>
? ? ? ? ? [url=]/pci@0,0/pci-ide@7,1/ide@1/cmdk@1,0[/url]
? ? ? ?1. c1t1d0 <DEFAULT cyl 98 alt 2 hd 64 sec 32>
? ? ? ? ? [url=]/pci@0,0/pci15ad,1976@10/sd@1,0[/url]
? ? ? ?2. c1t3d0 <DEFAULT cyl 98 alt 2 hd 64 sec 32>
? ? ? ? ? [url=]/pci@0,0/pci15ad,1976@10/sd@3,0[/url]
? ? ? ?3. c2t0d0 <DEFAULT cyl 98 alt 2 hd 64 sec 32>
? ? ? ? ? [url=]/pci@0,0/pci15ad,790@11/pci15ad,1976@3/sd@0,0[/url]
? ? ? ?4. c2t1d0 <DEFAULT cyl 98 alt 2 hd 64 sec 32>
? ? ? ? ? [url=]/pci@0,0/pci15ad,790@11/pci15ad,1976@3/sd@1,0[/url]
Specify disk (enter its number):1 ? ?<-------------------------除了c0d1是我安裝系統(tǒng)時(shí),原始創(chuàng)建的
磁盤(pán)外,剩下四個(gè)是后面添加的。此處我選擇1號(hào)磁盤(pán),
c1t1d0。
selecting c1t1d0
[disk formatted]
FORMAT MENU:
? ? ? ? disk ? ? ? - select a disk
? ? ? ? type ? ? ? - select (define) a disk type
? ? ? ? partition ?- select (define) a partition table
? ? ? ? current ? ?- describe the current disk
? ? ? ? format ? ? - format and analyze the disk
? ? ? ? fdisk ? ? ?- run the fdisk program
? ? ? ? repair ? ? - repair a defective sector
? ? ? ? label ? ? ?- write label to the disk
? ? ? ? analyze ? ?- surface analysis
? ? ? ? defect ? ? - defect list management
? ? ? ? backup ? ? - search for backup labels
? ? ? ? verify ? ? - read and display labels
? ? ? ? save ? ? ? - save new disk/partition definitions
? ? ? ? inquiry ? ?- show vendor, product and revision
? ? ? ? volname ? ?- set 8-character volume name
? ? ? ? !<cmd> ? ? - execute <cmd>, then return
? ? ? ? quit
format> fdisk ? ?<------------------------應(yīng)該先f(wàn)disk一下
No fdisk table exists. The default partition for the disk is:
? a 100% "SOLARIS System" partition
Type "y" to accept the default partition, ?otherwise type "n" to edit the
partition table.
y <-----------------------------此處輸入y
format> partition ? <---------------------進(jìn)入分區(qū)命令
PARTITION MENU:
? ? ? ? 0 ? ? ?- change `0' partition
? ? ? ? 1 ? ? ?- change `1' partition
? ? ? ? 2 ? ? ?- change `2' partition
? ? ? ? 3 ? ? ?- change `3' partition
? ? ? ? 4 ? ? ?- change `4' partition
? ? ? ? 5 ? ? ?- change `5' partition
? ? ? ? 6 ? ? ?- change `6' partition
? ? ? ? 7 ? ? ?- change `7' partition
? ? ? ? select - select a predefined table
? ? ? ? modify - modify a predefined partition table
? ? ? ? name ? - name the current table
? ? ? ? print ?- display the current table
? ? ? ? label ?- write partition map and label to the disk
? ? ? ? !<cmd> - execute <cmd>, then return
? ? ? ? quit
partition> print ? ? ?<-------------------查看分區(qū)狀態(tài)
Current partition table (original):
Total disk cylinders available: 98 + 2 (reserved cylinders)
Part ? ? ?Tag ? ?Flag ? ? Cylinders ? ? ?Size ? ? ? ? ? ?Blocks
? 0 unassigned ? ?wm ? ? ? 0 ? ? ? ? ? ? 0 ? ? ? ? (0/0/0) ? ? ? 0
? 1 unassigned ? ?wm ? ? ? 0 ? ? ? ? ? ? 0 ? ? ? ? (0/0/0) ? ? ? 0
? 2 ? ? backup ? ?wu ? ? ? 0 - 97 ? ? ? 98.00MB ? ?(98/0/0) 200704 ?<-------2號(hào)分區(qū)已經(jīng)被系統(tǒng)使用
? 3 unassigned ? ?wm ? ? ? 0 ? ? ? ? ? ? 0 ? ? ? ? (0/0/0) ? ? ? 0
? 4 unassigned ? ?wm ? ? ? 0 ? ? ? ? ? ? 0 ? ? ? ? (0/0/0) ? ? ? 0
? 5 unassigned ? ?wm ? ? ? 0 ? ? ? ? ? ? 0 ? ? ? ? (0/0/0) ? ? ? 0
? 6 unassigned ? ?wm ? ? ? 0 ? ? ? ? ? ? 0 ? ? ? ? (0/0/0) ? ? ? 0
? 7 unassigned ? ?wm ? ? ? 0 ? ? ? ? ? ? 0 ? ? ? ? (0/0/0) ? ? ? 0
? 8 ? ? ? boot ? ?wu ? ? ? 0 - ?0 ? ? ? ?1.00MB ? ?(1/0/0) ? ?2048 ?<-------8號(hào)分區(qū)也已經(jīng)被系統(tǒng)使
用
? 9 unassigned ? ?wm ? ? ? 0 ? ? ? ? ? ? 0 ? ? ? ? (0/0/0) ? ? ? 0
partition> 0 ? <--------------------------------------選擇第0號(hào)分區(qū),也可以選擇1號(hào)、3號(hào)或其他的,
但不能選擇2號(hào)、8號(hào)這兩個(gè)已經(jīng)占用的。
Part ? ? ?Tag ? ?Flag ? ? Cylinders ? ? ?Size ? ? ? ? ? ?Blocks
? 0 unassigned ? ?wm ? ? ? 0 ? ? ? ? ? ? 0 ? ? ? ? (0/0/0) ? ? ? 0
Enter partition id tag[unassigned]: ? ?<-------- 缺省,直接回車(chē)
Enter partition permission flags[wm]: ?<-------- 缺省,直接回車(chē)
Enter new starting cyl[0]:1 ? ? ? ? ? ?<-------- 如果要用ASM,此處要從1開(kāi)始,否則可以從0開(kāi)始
Enter partition size[0b, 0c, 0e, 0.00mb, 0.00gb]: 95mb ?<-------- 輸入大小
partition> label ? <-------------設(shè)置label
Ready to label disk, continue? y ?<------------輸入y
partition> quit ? ?<-------------退出partition,回到Format
FORMAT MENU:
? ? ? ? disk ? ? ? - select a disk
? ? ? ? type ? ? ? - select (define) a disk type
? ? ? ? partition ?- select (define) a partition table
? ? ? ? current ? ?- describe the current disk
? ? ? ? format ? ? - format and analyze the disk
? ? ? ? fdisk ? ? ?- run the fdisk program
? ? ? ? repair ? ? - repair a defective sector
? ? ? ? label ? ? ?- write label to the disk
? ? ? ? analyze ? ?- surface analysis
? ? ? ? defect ? ? - defect list management
? ? ? ? backup ? ? - search for backup labels
? ? ? ? verify ? ? - read and display labels
? ? ? ? save ? ? ? - save new disk/partition definitions
? ? ? ? inquiry ? ?- show vendor, product and revision
? ? ? ? volname ? ?- set 8-character volume name
? ? ? ? !<cmd> ? ? - execute <cmd>, then return
? ? ? ? quit
format> type ? ? ? ? ?<----------------------------選擇類(lèi)型
AVAILABLE DRIVE TYPES:
? ? ? ? 0. Auto configure
? ? ? ? 1. DEFAULT
? ? ? ? 2. other
Specify disk type (enter its number)[1]: 1 ? ?<---------------------此處選DEFAULT
selecting c1t1d0
[disk formatted]
format> save ? ? ? ? ? ? ? ? ? <-----------------------------此處,輸入save,保存剛才做的所有工作
Saving new disk and partition definitions
Enter file name["./format.dat"]: ? ? ? ?<-----------------------此處直接回車(chē)
format> quit ? ? ? ? ? ? <---------------------退出
#
? ? ? ? 然后到剛才啟動(dòng)的ASM實(shí)例中,確定asm_diskstring參數(shù)的值為/dev/rdsk/c*:
SQL> show parameter string
NAME ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? TYPE ? ? ? ?VALUE
------------------------------------ ----------- ------------------------------
asm_diskstring ? ? ? ? ? ? ? ? ? ? ? string ? ? ?/dev/rdsk/c*
? ? ? ? 查看我們剛才Format的磁盤(pán):
SQL> select path from v$asm_disk;
PATH
--------------------------------------------------------------------------------
/dev/rdsk/c0d1s0
/dev/rdsk/c0d1s1
/dev/rdsk/c0d1s7
/dev/rdsk/c0d1s9
/dev/rdsk/c1t1d0s0
? ? ? ? /dev/rdsk/c1t1d0s0,即為我們剛才Format的磁盤(pán)。c0d1s9這些不是,這些是裝系統(tǒng)時(shí)建的盤(pán)。
? ? ? ? 說(shuō)到這兒,補(bǔ)充一下Solaris下磁盤(pán)名的格式:
/dev/[r]dsk/cXtXdXsX
c:邏輯控制器號(hào)(邏輯控制器)
t:物理總線目標(biāo)號(hào)
d:磁盤(pán)或邏輯單元號(hào)(LUN)
s:分區(qū)號(hào)
如c1t1d0s0表示1號(hào)控制器,1號(hào)磁盤(pán),0號(hào)LUN,0號(hào)分區(qū)。
? ? ? ??
? ? ? ? 分完區(qū)后,不需要設(shè)置屬主,ASM就可以自動(dòng)識(shí)別到了。再把其他的盤(pán)也Format一下,讓ASM可以識(shí)別
到。
? ? ? ? 我最終選擇了這兩塊盤(pán)創(chuàng)建DG:
SQL> create diskgroup dg1 external redundancy disk '/dev/rdsk/c2t1d0s3','/dev/rdsk/c1t3d0s3';
Diskgroup created.
? ? ? ??
? ? ? ? 然后我們把Redo挪到ASM的dg1中,我在asmcmd中,在DG1里面建了一個(gè)redo目錄,然后到數(shù)據(jù)庫(kù)實(shí)例中
,將組2、組3挪進(jìn)了ASM。在刪除組1、再添加組1到ASM中時(shí)
,報(bào)ASM空間不足。算了,我的磁盤(pán)太小了。
alter database drop logfile group 2;
alter database add logfile group 2 ('+DG1/redo/redo2.log') size 60m reuse;
alter database drop logfile group 3;
alter database add logfile group 3 ('+DG1/redo/redo3.log') size 60m reuse;
alter database drop logfile group 1;
? ? ? ? 現(xiàn)在我只有兩組日志,都在ASM中,對(duì)于我們測(cè)試來(lái)說(shuō),兩組已經(jīng)夠了:
SQL> select * from v$log;
? ? GROUP# ? ?THREAD# ?SEQUENCE# ? ? ?BYTES ? ?MEMBERS ARC STATUS ? ? ? ? ? FIRST_CHANGE#?
FIRST_TIM
---------- ---------- ---------- ---------- ---------- --- ---------------- -------------?
---------
? ? ? ? ?2 ? ? ? ? ?1 ? ? ? ?489 ? 62914560 ? ? ? ? ?1 NO ?CURRENT ? ? ? ? ? ? ? ?9400623 07-
MAY-12
? ? ? ? ?3 ? ? ? ? ?1 ? ? ? ? ?0 ? 62914560 ? ? ? ? ?1 YES UNUSED ? ? ? ? ? ? ? ? ? ? ? 0
? ? ? ? 好了,開(kāi)始我們的測(cè)試吧。修改一下腳本:
io:::start
{
? ? ? ? printf("%s %s %d %s\n",args[1]->dev_statname,args[2]->fi_pathname,args[0]->b_bcount,args
[0]->b_flags&B_READ?"R":"W" );
}
? ? ? ? 將上面所加的args[2]->fi_pathname=="/export/home/oracle/opt/dbdata/h1/redo1.log" ? ? ? ?這
種謂詞去掉。
# ./test2.d
dtrace: script './test2.d' matched 7 probes
CPU ? ? ID ? ? ? ? ? ? ? ? ? ?FUNCTION:NAME
? 1 ? 3092 ? ? ? ? ? ? default_physio:start sd5 <none> 4096 W
? 1 ? 3092 ? ? ? ? ? ? default_physio:start sd2 <none> 4096 W
? 3 ? 3093 ? ? ? ? ? ? ?bdev_strategy:start cmdk0 /export/home/oracle/opt/dbdata/h1/control01.ctl?
8192 W
? 3 ? 3093 ? ? ? ? ? ? ?bdev_strategy:start cmdk0 /export/home/oracle/opt/dbdata/h1/control01.ctl?
8192 W
……………………………………
……………………………………
……………………………………
? ? ? ? 由于打開(kāi)了7個(gè)探針,所有IO開(kāi)始時(shí)的操作都會(huì)被我們捕獲,因此,輸出信息會(huì)比較多。
? ? ? ? 在Oracle 會(huì)話中,修改一行數(shù)據(jù),再提交,可以觀察到這樣的IO:
? 2 ? 3094 ? ? ? ? ? ? ? ? ? ?aphysio:start sd3?
[url=]/devices/pci@0,0/pci15ad,1976@10/sd@3,0:d,raw[/url] 1024 W
? ? ? ? [url=]/devices/pci@0,0/pci15ad,1976@10/sd@3,0:d,raw[/url],這一串東西是啥?只要顯示一下
ASM中的磁盤(pán)就明了了,我的ASM DG1 中包含這兩塊盤(pán)/dev/rdsk/c2t1d0s3,
/dev/rdsk/c1t3d0s3。
# ls -lFrt /dev/rdsk/c2t1d0s3
lrwxrwxrwx ? 1 root ? ? root ? ? ? ? ?64 Mar 17 10:03 /dev/rdsk/c2t1d0s3 ->?
../../devices/pci@0,0/pci15ad,790@11/pci15ad,1976@3/sd@1,0:d,raw*
# ls -lFrt /dev/rdsk/c1t3d0s3
lrwxrwxrwx ? 1 root ? ? root ? ? ? ? ?50 Mar 17 10:03 /dev/rdsk/c1t3d0s3 ->?
../../devices/pci@0,0/pci15ad,1976@10/sd@3,0:d,raw
? ? ? ? 經(jīng)過(guò)觀察,可以發(fā)現(xiàn),剛才的IO,其實(shí)是針對(duì)/dev/rdsk/c1t3d0s3的,這正是DG1中的一塊盤(pán)。接下來(lái)
我們?nèi)缦滦薷哪_本:
io:::start
/ args[2]->fi_pathname=="[url=]/devices/pci@0,0/pci15ad,1976@10/sd@3,0:d,raw[/url]" ||
? args[2]->fi_pathname=="[url=]/devices/pci@0,0/pci15ad,790@11/pci15ad,1976@3/sd@1,0:d,raw[/url]"?
/
{
? ? ? ? printf("%s %s %d %s\n",args[1]->dev_statname,args[2]->fi_pathname,args[0]->b_bcount,args
[0]->b_flags&B_READ?"R":"W" );
}
? ? ? ? 我們只觀察針對(duì)這兩個(gè)磁盤(pán)的IO。執(zhí)行一條簡(jiǎn)單的DML,修改一行,我執(zhí)行如下命令:
SQL> update a1 set id=id+0 where id=2;
1 row updated.
SQL> commit;
Commit complete.
? ? ? ? 在提交時(shí),可以發(fā)現(xiàn)會(huì)有如下的IO:
? 3 ? ?783 ? ? ? ? ? ? ? ? ? ?aphysio:start sd5?
[url=]/devices/pci@0,0/pci15ad,790@11/pci15ad,1976@3/sd@1,0:d,raw[/url] 1024 W
? ? ? ? 每次提交時(shí),都會(huì)有IO發(fā)生,這是和文件系統(tǒng)的最大區(qū)別。這樣的話,我們提交的數(shù)據(jù),就不會(huì)丟失
了。有時(shí),也可以觀察到512字節(jié)的IO。
? ? ? ? 再進(jìn)一步的,我們知道,在ASM中,AU的大小通常是1M,條帶大小也為1M。但Redo和控制文件Oracle會(huì)
將它們?cè)O(shè)置為“細(xì)粒度條帶”,條帶大小為128K。這個(gè)128K
,到底有什么意義呢? 為什么我上面一定要在ASM DG1中,至少搞兩塊磁盤(pán),就是為了觀察這個(gè)“細(xì)粒度條帶
”。我們繼續(xù)。
? ? ? ??
? ? ? ? 經(jīng)過(guò)觀察,我測(cè)試用的兩條命令,update a1 set id=id+0 where id=2;,commit,每次執(zhí)行,都會(huì)產(chǎn)
生1K的Redo。這種說(shuō)法也不太準(zhǔn)備,更準(zhǔn)確應(yīng)該是這兩條命
令,每次執(zhí)行會(huì)觸發(fā)Lgwr 執(zhí)行1K的IO寫(xiě)操作。其實(shí)這兩條語(yǔ)句產(chǎn)生的Redo只有700多字節(jié),但提交的時(shí)候,
LGWR寫(xiě)Redo數(shù)據(jù),只能以塊為單位去寫(xiě)。700多字節(jié),正好占兩
個(gè)日志塊,1K字節(jié)。
? ? ? ? 腳本再做一下修改,完整的腳本如下:
#!/usr/sbin/dtrace -s
BEGIN
{
? ? i=0;
}
io:::start
/ args[2]->fi_pathname=="[url=]/devices/pci@0,0/pci15ad,1976@10/sd@3,0:d,raw[/url]" ||
? args[2]->fi_pathname=="[url=]/devices/pci@0,0/pci15ad,790@11/pci15ad,1976@3/sd@1,0:d,raw[/url]"?
/
{
? ? ? ? printf("IO number:%d %s %s %d %s\n",i,args[1]->dev_statname,args[2]->fi_pathname,args
[0]->b_bcount,args[0]->b_flags&B_READ?"R":"W" );
? ? ? ? i++;
}
? ? ? ? 我把之前用過(guò)的i++加了進(jìn)來(lái),主要用來(lái)觀察IO的次數(shù)。好,運(yùn)行這個(gè)程序,然后反反復(fù)復(fù)的執(zhí)行上面
的DML和提交語(yǔ)句。
# ./test2.d
dtrace: script './test2.d' matched 7 probes
CPU ? ? ID ? ? ? ? ? ? ? ? ? ?FUNCTION:NAME
? 3 ? ?783 ? ? ? ? ? ? ? ? ? ?aphysio:start IO number:0 sd5?
[url=]/devices/pci@0,0/pci15ad,790@11/pci15ad,1976@3/sd@1,0:d,raw[/url] 1024 W
? 3 ? ?783 ? ? ? ? ? ? ? ? ? ?aphysio:start IO number:1 sd5?
[url=]/devices/pci@0,0/pci15ad,790@11/pci15ad,1976@3/sd@1,0:d,raw[/url] 1024 W
…………………………………………省略部分內(nèi)容…………………………………………
? 0 ? ?783 ? ? ? ? ? ? ? ? ? ?aphysio:start IO number:99 sd5?
[url=]/devices/pci@0,0/pci15ad,790@11/pci15ad,1976@3/sd@1,0:d,raw[/url] 1024 W
? 2 ? ?783 ? ? ? ? ? ? ? ? ? ?aphysio:start IO number:100 sd3?
[url=]/devices/pci@0,0/pci15ad,1976@10/sd@3,0:d,raw[/url] 1024 W
? 2 ? ?783 ? ? ? ? ? ? ? ? ? ?aphysio:start IO number:101 sd3?
[url=]/devices/pci@0,0/pci15ad,1976@10/sd@3,0:d,raw[/url] 1024 W
…………………………………………省略部分內(nèi)容…………………………………………
? 0 ? ?783 ? ? ? ? ? ? ? ? ? ?aphysio:start IO number:227 sd3?
[url=]/devices/pci@0,0/pci15ad,1976@10/sd@3,0:d,raw[/url] 1024 W
? 0 ? ?783 ? ? ? ? ? ? ? ? ? ?aphysio:start IO number:228 sd5?
[url=]/devices/pci@0,0/pci15ad,790@11/pci15ad,1976@3/sd@1,0:d,raw[/url] 1024 W
? 0 ? ?783 ? ? ? ? ? ? ? ? ? ?aphysio:start IO number:229 sd5?
[url=]/devices/pci@0,0/pci15ad,790@11/pci15ad,1976@3/sd@1,0:d,raw[/url] 1024 W
…………………………………………省略部分內(nèi)容…………………………………………
? 0 ? ?783 ? ? ? ? ? ? ? ? ? ?aphysio:start IO number:354 sd5?
[url=]/devices/pci@0,0/pci15ad,790@11/pci15ad,1976@3/sd@1,0:d,raw[/url] 1024 W
? 0 ? ?783 ? ? ? ? ? ? ? ? ? ?aphysio:start IO number:355 sd5?
[url=]/devices/pci@0,0/pci15ad,790@11/pci15ad,1976@3/sd@1,0:d,raw[/url] 1024 W
? 0 ? ?783 ? ? ? ? ? ? ? ? ? ?aphysio:start IO number:356 sd3?
[url=]/devices/pci@0,0/pci15ad,1976@10/sd@3,0:d,raw[/url] 1024 W
? 0 ? ?783 ? ? ? ? ? ? ? ? ? ?aphysio:start IO number:357 sd3?
[url=]/devices/pci@0,0/pci15ad,1976@10/sd@3,0:d,raw[/url] 1024 W
^C
? ? ? ? 上面的結(jié)果,注意IO number:0的值,從IO number:100到IO number:227為止,共128次1K的IO,都是
針對(duì),磁盤(pán)設(shè)
備“/devices/pci@0,0/pci15ad,1976@10/sd@3,0:d,raw”,從228次IO到355次IO,共128次1K IO,針對(duì)另一磁
盤(pán)設(shè)
備“/devices/pci@0,0/pci15ad,790@11/pci15ad,1976@3/sd@1,0:d,raw”。
? ? ? ? 這就是細(xì)粒度條帶的意義。雖然AU大小仍為1M,文件仍是按1M來(lái)分配空間。文件的第一個(gè)1M,在磁盤(pán)1
,第二個(gè)1M,在磁盤(pán)2,等等。但在使用空間的時(shí)候,卻是按
128K。先在磁盤(pán)1寫(xiě)128K,再在磁盤(pán)2中寫(xiě)128K,等等。
? ? ? ? 最后,還有一個(gè)問(wèn)題,比如第100和101次IO:
? 2 ? ?783 ? ? ? ? ? ? ? ? ? ?aphysio:start IO number:100 sd3?
[url=]/devices/pci@0,0/pci15ad,1976@10/sd@3,0:d,raw[/url] 1024 W
? 2 ? ?783 ? ? ? ? ? ? ? ? ? ?aphysio:start IO number:101 sd3?
[url=]/devices/pci@0,0/pci15ad,1976@10/sd@3,0:d,raw[/url] 1024 W
? ? ? ? 這是兩次IO,每次IO的大小是1K,但是,我們?nèi)绾未_定這兩次1K大小的IO,一共寫(xiě)了4個(gè)日志塊?有沒(méi)
有可能100次IO,寫(xiě)了1、2號(hào)日志塊,101次IO,寫(xiě)了2、3號(hào)
日志塊,兩次1K大小的IO,總共寫(xiě)了1.5K數(shù)據(jù)?
? ? ? ? 之所以有這樣的疑問(wèn),是因?yàn)槲业哪菞lDML加提交,產(chǎn)生的Redo量是700多字節(jié)。雖然要占兩個(gè)塊,但
是占不滿兩個(gè)塊。那么,接下來(lái)的一次針對(duì)Redo的IO,是從沒(méi)
占滿的塊繼續(xù)往下寫(xiě),還是新占一個(gè)塊?
? ? ? ? 在資料視圖中,有一個(gè)資料redo wastage,Redo浪費(fèi)空間。如果兩次IO每次各占兩個(gè)塊,redo?
wastage會(huì)不會(huì)有增加呢? 我用如下語(yǔ)句查了一下
SQL> col name for a20
SQL> select name,value from v$sesstat a,v$statname b where a.statistic#=b.statistic# and b.name?
in( 'redo size','redo wastage') and sid=855;
NAME ? ? ? ? ? ? ? ? ? ? ?VALUE
-------------------- ----------
redo size ? ? ? ? ? ? ? ?774092
redo wastage ? ? ? ? ? ? ? ? ?0
? ? ? ? 855號(hào)會(huì)話,就是我反反復(fù)復(fù)執(zhí)行那條DML、提交語(yǔ)句的會(huì)話。我們沒(méi)有觀察到這個(gè)會(huì)話中有Redo浪費(fèi)
。通過(guò)這個(gè)結(jié)果,我上面的測(cè)試,好像兩次相鄰的、1K大小的
IO,應(yīng)該并沒(méi)有產(chǎn)生共2K的Redo,應(yīng)該只有1.5K。
? ? ? ? 但是,如果是這樣的話,我們上面關(guān)于“細(xì)粒度條帶”的結(jié)論,就有問(wèn)題了。因?yàn)樗墙⒃谶B續(xù)128
次1K大小的IO,共寫(xiě)了128K Redo基本上的。或者說(shuō),是建立
在兩次相鄰的、1K大小的IO,一定會(huì)產(chǎn)生2K的Redo這個(gè)基礎(chǔ)上。但通過(guò)redo wastage分析的結(jié)果,好像應(yīng)該只
有1.5K才對(duì)。
? ? ? ? 到底結(jié)果如何,如果要確定的話,我們只能分析每次Redo IO的內(nèi)容了。請(qǐng)看下節(jié):“獲取進(jìn)程數(shù)據(jù)”
第四節(jié) ? 獲取進(jìn)程數(shù)據(jù)
? ? ? ? 不久前才看過(guò)一個(gè)笑話,從哪兒來(lái)的我也忘了。說(shuō)是一名生物學(xué)家研究螃蠏的聽(tīng)覺(jué)系統(tǒng),對(duì)著螃蠏大
吼一聲,螃蠏?cǎi)R上跑了。將螃蠏的腿截掉,對(duì)著螃蠏再次大吼
一聲,螃蠏沒(méi)有跑。因此證明螃蠏的聽(tīng)覺(jué)系統(tǒng)是在腿上。
? ? ? ? 我們做測(cè)試,千萬(wàn)不要無(wú)意中成為這名生物學(xué)家。用不嚴(yán)謹(jǐn)?shù)臏y(cè)試、得到錯(cuò)誤的結(jié)論,然后再用這個(gè)
結(jié)論去分析碰到的問(wèn)題,可想而知,這會(huì)是什么結(jié)果。
? ? ? ? 好,言歸正傳,繼續(xù)上節(jié)中的測(cè)試,為了得到準(zhǔn)確的結(jié)論,我們需要獲得IO的內(nèi)容。
? ? ? ? 繼續(xù)做這個(gè)分析,需要我們對(duì)Redo的塊格式,有簡(jiǎn)單的了解。
? ? ? ? 512字節(jié)的一個(gè)Redo塊,前16字節(jié),是塊頭。塊頭中第8到11字節(jié),是塊所屬于日志序列號(hào),第4到7字
節(jié),是塊編號(hào)。接下來(lái)要做的,在Start探針中,讀出塊頭,
將每次IO的日志序列號(hào)、塊號(hào)顯示出來(lái)。
? ? ? ? DTrace中,可以使用copyin,《Solaris 動(dòng)態(tài)跟蹤指南》P155頁(yè),有這個(gè)函數(shù)的介紹。P411頁(yè),還有
更詳細(xì)的介紹。
? ? ? ? 簡(jiǎn)單點(diǎn)說(shuō),某個(gè)進(jìn)程的數(shù)據(jù),我們不能直接顯示,要使用copyin拷貝到DTrace的緩存中,才能顯示。
如下修改我們的腳本:
#!/usr/sbin/dtrace -s
char *rd;
char bn[4];
char seq[4];
BEGIN
{
? ? i=0;
}
io:::start
/ args[2]->fi_pathname=="[url=]/devices/pci@0,0/pci15ad,1976@10/sd@3,0:d,raw[/url]" ||
? args[2]->fi_pathname=="[url=]/devices/pci@0,0/pci15ad,790@11/pci15ad,1976@3/sd@1,0:d,raw[/url]"?
/
{
? ? ? ? rd=copyin((uintptr_t )(args[0]->b_addr),16);
? ? ? ? bn[0]=rd[4];
? ? ? ? bn[1]=rd[5];
? ? ? ? bn[2]=rd[6];
? ? ? ? bn[3]=rd[7];
? ? ? ? seq[0]=rd[8];
? ? ? ? seq[1]=rd[9];
? ? ? ? seq[2]=rd[10];
? ? ? ? seq[3]=rd[11];
? ? ? ? printf("IO number:%d %s %s %d %s Seq:%d,Block:%d\n",i,args[1]->dev_statname,args[2]-
>fi_pathname,args[0]->b_bcount,args[0]-
>b_flags&B_READ?"R":"W",*((int *)&seq[0]),*((int *)&bn[0]));
? ? ? ? i++; ? ? ? ? ? ? ? ?
}
? ? ? ? 解釋一下這段腳本,首先,在開(kāi)頭的三個(gè)變量定義:
char *rd;
char bn[4];
char seq[4];
? ? ? ? 我們?cè)贐EGIN探針中,也用過(guò)變量:i。在io:::start探針中,還對(duì)i做了自增操作。這三個(gè)變量與i的區(qū)
別有兩點(diǎn),一它們是全局變量,二它們有類(lèi)型。
? ? ? ? 只有這樣的全局變量,才需要專(zhuān)門(mén)在程序開(kāi)頭定義,也只有它們,才可以有類(lèi)型。可以使用的類(lèi)型,
同C語(yǔ)言一樣。變量i我們沒(méi)有定義,直接就開(kāi)始使用。DTrace
根據(jù)它的值來(lái)決定它的類(lèi)型。
? ? ? ??
? ? ? ? 然后,這行是這個(gè)腳本程序的關(guān)鍵:
rd=copyin((uintptr_t )(args[0]->b_addr),16);
? ? ? ? (uintptr_t )(args[0]->b_addr),這是我們的地址,我們從這個(gè)地址中,考貝16個(gè)字節(jié),到rd中。rd
是一個(gè)字符型指針,它的空間在DTrace緩存中。args[0]-
>b_addr這個(gè)域的值,就是存放IO內(nèi)容的緩存區(qū)地址。我們?cè)谶@個(gè)地址前加一個(gè)(uintptr_t ),強(qiáng)制類(lèi)型轉(zhuǎn)換。
因?yàn)樵凇禨olaris 動(dòng)態(tài)跟蹤指南》P155頁(yè),我們可以看到:
void *copyin(uintptr_t addr, size_t size)
? ? ? ? copyin要求的地址類(lèi)型是uintptr_t型。但(args[0]->b_addr)的類(lèi)型并不是這個(gè),因此,我們需要加
個(gè)強(qiáng)制類(lèi)型轉(zhuǎn)換。將(args[0]->b_addr)轉(zhuǎn)成uintptr_t型。
? ? ? ? 在這里我拷貝了16個(gè)字節(jié),就是整個(gè)塊頭了。下面的賦值語(yǔ)句:
? ? ? ? bn[0]=rd[4];
? ? ? ? bn[1]=rd[5];
? ? ? ? bn[2]=rd[6];
? ? ? ? bn[3]=rd[7];
? ? ? ? seq[0]=rd[8];
? ? ? ? seq[1]=rd[9];
? ? ? ? seq[2]=rd[10];
? ? ? ? seq[3]=rd[11];
? ? ? ? 將塊頭中的4到7字節(jié),傳到bn中,這是塊號(hào)。將8到11字節(jié),傳到seq中,這是日志序列號(hào)。最后一步
輸出時(shí),是這樣操作bn和seq這兩個(gè)數(shù)組的:
…………,*((int *)&seq[0]),*((int *)&bn[0]);
? ? ? ? &seq[0],取出seq數(shù)組中0號(hào)元素的地址。(int *),將這個(gè)地址轉(zhuǎn)成整型,(int *)&seq[0],是一個(gè)
整型的地址,指向seq的開(kāi)頭。在它之前再加一個(gè)*,取出這個(gè)
整型地址中值。其實(shí)根本含意就是,將bn數(shù)組中的4個(gè)字節(jié),當(dāng)作一個(gè)整型變量輸出。這是C語(yǔ)言中指針的常見(jiàn)
玩法。在使用copyin時(shí),可能會(huì)用的比較多。
? ? ? ? 好了,運(yùn)行腳本,執(zhí)行DML+提交,觀察輸出結(jié)果:
……………………
? 3 ? ?783 ? ? ? ? ? ? ? ? ? ?aphysio:start IO number:93 sd3?
[url=]/devices/pci@0,0/pci15ad,1976@10/sd@3,0:d,raw[/url] 1024 W Seq:495,Block:513
? 3 ? ?783 ? ? ? ? ? ? ? ? ? ?aphysio:start IO number:94 sd3?
[url=]/devices/pci@0,0/pci15ad,1976@10/sd@3,0:d,raw[/url] 1024 W Seq:495,Block:515
? 3 ? ?783 ? ? ? ? ? ? ? ? ? ?aphysio:start IO number:95 sd3?
[url=]/devices/pci@0,0/pci15ad,1976@10/sd@3,0:d,raw[/url] 1024 W Seq:495,Block:517
? 3 ? ?783 ? ? ? ? ? ? ? ? ? ?aphysio:start IO number:96 sd3?
[url=]/devices/pci@0,0/pci15ad,1976@10/sd@3,0:d,raw[/url] 1024 W Seq:495,Block:519
……………………
? ? ? ? 可以看到第93次IO寫(xiě)的是495號(hào)日志第513號(hào)塊,大小1K。94次IO是495號(hào)日志515號(hào)塊,大小1K,等等
。
? ? ? ? 也就是說(shuō),兩次相鄰Commit觸發(fā)的IO,各自寫(xiě)各自的塊。兩次1K的IO,共寫(xiě)了4個(gè)塊。
? ? ? ? 也就是說(shuō),我們對(duì)“細(xì)粒度條帶”的分析是不錯(cuò)的。但redo wastage資料中的值就有問(wèn)題了,不知道
它衡量的是什么浪費(fèi)。我每次只產(chǎn)生700多字節(jié)Redo,用了
1024字節(jié)空間,但redo wastage的值為0。
? ? ? ? 好了,我們的揭密Oracle之七種武器之二,先到這里吧。第三章將繼續(xù)介紹DTrace語(yǔ)法,同時(shí)結(jié)合
Oracle的觀察結(jié)果。
? ? ? ? 用一句廣告語(yǔ):精彩繼續(xù),敬請(qǐng)期待。
========
揭密Oracle之七種武器之三:破譯古老的謎題---共享CBC Latch的秘密
vage揭密Oracle之七種武器之三:破譯古老的謎題---共享CBC Latch的秘密
(前兩章地址
揭密Oracle之 七種武器 ?第一章 搭建測(cè)試環(huán)境(目前已到第三章)
http://www.itpub.net/thread-1605241-1-1.html
揭密Oracle之七種武器二:DTrace語(yǔ)法:跟蹤物理IO
http://www.itpub.net/thread-1609235-1-1.html
)
? ? ? ? 從9iR2開(kāi)始,Cache Buffers Chain(以下簡(jiǎn)稱(chēng)CBC)Latch就變成共享Latch了。從那時(shí)開(kāi)始,我想當(dāng)
然的認(rèn)為,如果我只有讀操作,互相之間就不會(huì)阻
塞了。于是馬上測(cè)試:
declare
? myid number;
begin
? for i in 1..10000000 loop
? ? select id1 into myid from a2_70m where rowid='AAACYJAAEAAAAAUAAA';
? end loop;
end;
/
? ? ? ? 這段過(guò)程很簡(jiǎn)單,就是反復(fù)的邏輯讀某一行。將這段過(guò)程在兩個(gè)會(huì)話同時(shí)執(zhí)行,我天真的認(rèn)為,不會(huì)
再看到CBC Latch等待。但是,查看等待事件的結(jié)果
,令我深深的迷惑。為什么還是有等待呢?無(wú)論CBC 鏈還是數(shù)據(jù)塊,我都沒(méi)有修改,只是反復(fù)讀取,為什么共
享Latch不共享呢?從此,這個(gè)迷團(tuán)一直困繞著我。
? ? ? ? 當(dāng)然,還有其他一些謎團(tuán),比如唯一索引和非唯一索引在讀掃描時(shí)的區(qū)別。最普通的區(qū)別,是它們兩
個(gè)邏輯讀不一樣,唯一索引比非唯一少一個(gè)邏輯讀
。但其實(shí),它們兩個(gè)的區(qū)別非常大。具體的區(qū)別在哪里?這些區(qū)別對(duì)于我們的選擇,會(huì)有什么影響?
? ? ? ? 這些謎團(tuán)很長(zhǎng)一段時(shí)間內(nèi)沒(méi)有答案。
? ? ? ? 五、六年轉(zhuǎn)眼即過(guò),2011年初,因公司技術(shù)轉(zhuǎn)型,我被迫從頭學(xué)起GreenPlum。翻開(kāi)幾百頁(yè)的英文文檔
,我不禁倦意襲來(lái)。再看會(huì)Oracle的資料,又不禁
精神百倍。于是,我退意蒙生。但是,這段經(jīng)歷,讓我有一個(gè)意外的收獲。阿里的GreenPlum,都是跑在
Solaris下。接手GreenPlum運(yùn)維,必先學(xué)會(huì)Solaris。在
學(xué)習(xí)Solaris時(shí),看到有一本書(shū)用兩頁(yè)紙介紹了一個(gè)工具:DTrace語(yǔ)言,說(shuō)是可以跟蹤Solaris中的任何操作。
當(dāng)時(shí)我對(duì)Oracle的研究,也陷入了困境。能用的跟
蹤事件都用了,很多原理還是無(wú)法搞清楚,只能跟著別人,人云亦云一下,自我感覺(jué)對(duì)Oracle了解甚為深入,
已經(jīng)沒(méi)什么可以再學(xué)的了。但分析一些工作中奇怪
的問(wèn)題,就總感覺(jué)似是,而非。
? ? ? ? 這種感覺(jué)讓我想起來(lái)多年前,年青的時(shí)候我酷愛(ài)神秘文化。什么東西都信,曾在二月底初春時(shí)節(jié)跳入
溥冰覆蓋的河水中受洗,隨身攜帶一本荒漠甘泉。
在被女神無(wú)情拋棄后,獨(dú)自站在空曠的教堂祈禱:“仁慈的圣父啊,我知道這是您對(duì)我的庇護(hù)和煅煉,雖然您
的孩子此刻心如刀絞,但我仍然感謝您、愛(ài)您。哈
利路亞,阿門(mén)。”不久之后,下一位女神出現(xiàn),卻是信佛的。于是我又到家鄉(xiāng)著名的大相國(guó)寺,皈依佛祖,每
逢初一、十五,燒香誦經(jīng):“南無(wú)西方琉璃藥師佛
,南無(wú)……”。
? ? ? ? 在諸多雜學(xué)之中,我最精通的卻還是周易。剛剛參加工作哪會(huì),我為我們科室6個(gè)人占卦,算他們哪一
年結(jié)婚、哪一年有小孩,6個(gè)人,只有一個(gè)算錯(cuò)了
。83%的準(zhǔn)確率,很高了。但是,為什么有一次算錯(cuò)了呢?為什么其他的可以算對(duì)呢?這些問(wèn)題我都答不上來(lái),
我對(duì)周易的理解,始終似是,而非。
? ? ? ? 易經(jīng)這東西,真正的神人傳下來(lái)的,幾千年中,看懂的沒(méi)幾個(gè)。但是Oracle呢,我也無(wú)法真正的看“
懂”它嗎。對(duì)易經(jīng)的理解似是而非,這我服氣,但
對(duì)Oracle,我不想停留在似是而非的境界。 ? ? ? ?
? ? ? ? 當(dāng)看到這個(gè)DTrace后,我眼前頓時(shí)一亮,如果用DTrace跟蹤Oracle,又會(huì)有怎樣的效果呢?是否可以
打破“似是而非”的僵局呢?于是我馬上搜集資料
開(kāi)始學(xué)習(xí),這一下,沒(méi)想到豁然為我打開(kāi)一扇大門(mén)。于是我再也顧不得什么GreenPlum、什么KPI了。
? ? ? ? 好了,言歸正傳,這一節(jié),從一個(gè)重要的提供器開(kāi)始,PID進(jìn)程提供器。Solaris在進(jìn)程調(diào)用、退出每
個(gè)函數(shù)時(shí),都設(shè)置了Prob,進(jìn)程提供器的作用就是
打開(kāi)這些Prob。
? ? ? ? 我們可以寫(xiě)如下的腳本,打開(kāi)PID提供器所有調(diào)用函數(shù)時(shí)的探針:
pid1234:::entry
{?
? ? ?動(dòng)作;
}
? ? ? ? 這個(gè)腳本的作用是打開(kāi)1234進(jìn)程所有函數(shù)調(diào)用處的探針。簡(jiǎn)單點(diǎn)說(shuō),1234進(jìn)程每調(diào)一次函數(shù),都會(huì)被
觸發(fā)。這個(gè)腳本還可以進(jìn)一步改成這樣:
pid$1:::entry
{?
? ? ?動(dòng)作;
}
? ? ? ? 用$1代替了1234。$1,這種寫(xiě)法是來(lái)自于Shell腳本編程,第一個(gè)參數(shù)。當(dāng)然,我們也可以pid$2。
? ? ? ? 接下來(lái),我們可以定義什么動(dòng)作呢?當(dāng)然還是觀察了.
? ? ? ? 在我上傳的《Solaris 動(dòng)態(tài)跟蹤指南》書(shū)中,P68頁(yè),列出了全部的內(nèi)置變量,這次,我們使用這幾個(gè)
內(nèi)置變量:probeprov, probemod, probefunc,?
probename,arg0和arg1……
? ? ? ? probeprov:提供器名
? ? ? ? probemod : 模塊名
? ? ? ? probefunc:函數(shù)名,這是我們要查看的重點(diǎn)。
? ? ? ? probename:探針名,只有兩個(gè)。entry,return,一個(gè)進(jìn)入、一個(gè)是退出。
? ? ? ? arg0,arg1,…… :調(diào)用函數(shù)時(shí),傳遞給函數(shù)的參數(shù)。 ? ? ? ?
? ? ? ? 這些內(nèi)置變量,無(wú)需定義,可以直接使用。內(nèi)置變量中保存了很多重要的值,在上篇文章已經(jīng)有用到
過(guò)。
? ? ? ? 好,我們的最終腳本程序,是這個(gè)樣子:
? ? ? ? 這個(gè)探針的使用很簡(jiǎn)單,我們總的腳本如下:
#!/usr/sbin/dtrace -s -n
dtrace:::BEGIN
{
? ? ? ? i=1;
}
pid$1:::entry
{
? ? ? ? printf("i=%d PID::entry:==%s:%s:%s:%s %x %x %x %x %x %x",i, probeprov, probemod,?
probefunc, probename,arg0,arg1,arg2,arg3,arg4,arg5);
? ? ? ? i=i+1;
}
? ? ? ? 參數(shù)這塊,我們也不知道每個(gè)函數(shù)都有幾個(gè)參數(shù),好在多輸出參數(shù)DTrace并不會(huì)報(bào)錯(cuò),所以,我們就
多顯示幾個(gè)參數(shù),我顯示了前6個(gè):
arg0,arg1,arg2,arg3,arg4,arg5。都以%x,16進(jìn)程格式顯示。
? ? ? ? 將此腳本保存為all_func.d,授于執(zhí)行權(quán)限,開(kāi)始執(zhí)行。
? ? ? ? 對(duì)了,別忘了,本章的目的,是觀察CBC Latch。更進(jìn)一步的,觀察邏輯讀的CBC Latch。
? ? ? ? 打開(kāi)一個(gè)會(huì)話,查詢出它對(duì)應(yīng)的進(jìn)程號(hào):
SQL> select c.sid,spid,pid,a.SERIAL# from (select sid from v$mystat where rownum<=1) c,v$session?
a,v$process b where c.sid=a.sid and?
a.paddr=b.addr;
? ? ? ?SID SPID ? ? ? ? ? ? ? ?PID ? ?SERIAL#
---------- ------------ ---------- ----------
? ? ? ?863 970 ? ? ? ? ? ? ? ? ?22 ? ? ? ? ?1
? ? ? ? 我的進(jìn)程號(hào)是970。另外,在開(kāi)始觀察前,執(zhí)行幾次如下語(yǔ)句,讓讀是邏輯讀:
select * from a2_70m where rowid='AAACYJAAEAAAAAUAAA';
? ? ? ? 如下運(yùn)行腳本,觀察970號(hào)進(jìn)程:
# ./all_func.d 970 > logic_read1.log
dtrace: script './all_func.d' matched 124179 probes
? ? ? ? 根據(jù)顯示結(jié)果,共有124179個(gè)探針被打開(kāi)。十幾萬(wàn)個(gè)探針,說(shuō)明Oracle內(nèi)部,有十幾萬(wàn)個(gè)函數(shù)。C語(yǔ)言
中,程序代碼的復(fù)用,全靠函數(shù)了。C又被稱(chēng)為函
數(shù)語(yǔ)言嗎。不過(guò),Oracle內(nèi)部競(jìng)?cè)挥惺畮兹f(wàn)個(gè)函數(shù),還是出乎我的意料。不過(guò),函數(shù)分的越細(xì),對(duì)我們調(diào)試、
跟蹤越好。在沒(méi)有源代碼的情況下,我們只能跟蹤
到函數(shù)級(jí)別了。
? ? ? ??
? ? ? ? 跟蹤結(jié)果會(huì)很多,為了便于觀察,我將結(jié)果重定向到logic_read1.log文件中。
? ? ? ? 另外,由于會(huì)打開(kāi)太多探針,有可能會(huì)超出DTrace的限制,報(bào)出錯(cuò)誤,可以修
改/kernel/drv/fasttrap.conf中fastrap-max-probes設(shè)置,在我的測(cè)試環(huán)
境中,我設(shè)置為fastrap-max-probes=1000000。
? ? ? ? 另外,如果在970進(jìn)程執(zhí)行期間,all_func.d腳本報(bào)內(nèi)存不足,可以在腳本開(kāi)頭加上去內(nèi)存大小或刷新
頻率的設(shè)置:
#!/usr/sbin/dtrace -s -n -x switchrate=10hz -b 16m
? ? ? ? -x switchrate=10hz,設(shè)置刷新頻率。DTrace會(huì)結(jié)果發(fā)送到輸出終端,這個(gè)值可以理解為發(fā)送頻率。
在數(shù)據(jù)沒(méi)有發(fā)送到輸出終端前,DTrace會(huì)先保存到
自己的緩存中。因此,增加刷新頻率,可以減少內(nèi)存使用。
? ? ? ? -b 16m , 修改緩存大小。
? ? ? ? 好了,來(lái)看結(jié)果吧,在970進(jìn)程對(duì)應(yīng)的會(huì)話中,再執(zhí)行一次:
select * from a2_70m where rowid='AAACYJAAEAAAAAUAAA';
? ? ? ? 回到執(zhí)行DTrace命令的窗口,按Ctrl+C。然后查看結(jié)果,先看一下有多少行輸出吧:
# cat logic_read1.log|wc -l
? ? 1211
? ? ? ? 1211行,這是運(yùn)行一次軟軟解析,再加上對(duì)一個(gè)塊邏輯讀取出一行,Oracle所要調(diào)用的函數(shù)次數(shù)。這
也是我們最細(xì)粒度的跟蹤級(jí)別了。比10046等任何一
個(gè)Event,都要細(xì)致的多。除非你去看源碼,否則,不可能比這個(gè)更細(xì)、更深入了。
? ? ? ? 下面,讓我們來(lái)看看結(jié)果都是什么吧:
# cat logic_read1.log|more
CPU ? ? ID ? ? ? ? ? ? ? ? ? ?FUNCTION:NAME
? 3 172611 ? ? ? ? ? ? ? ? ? ? memcpy:entry i=1 PID::entry:==pid970:libc.so.1:memcpy:entry?
8047708 c0f2c28 1 c028934 c02a6dc 6
? 3 ?52316 ? ? ? ? ? ? ?kslwte_resmgr:entry i=2 PID::entry:==pid970racle:kslwte_resmgr:entry 100?
62657100 1 0 8047708 c028894
? 3 174943 ? ? ? ? ? ? ? ? ?gethrtime:entry i=3 PID::entry:==pid970:libc.so.1:gethrtime:entry?
c07ad01 80461e4 80461e4 8dd9467 100 62657100
? 3 ?52313 ? ? ? ? ? ? ? ? ?kslwte_tm:entry i=4 PID::entry:==pid970racle:kslwte_tm:entry 100?
62657100 1 0 cfacb398 1
? 3 111268 ? ? ? ? ? ? ? ? ?skgslnoop:entry i=5 PID::entry:==pid970racle:skgslnoop:entry c028934?
c02a6dc 0 8046130 c0e7078 b0fc070
? 3 ?86139 ? ? ? ? ? ? kews_idle_wait:entry i=6 PID::entry:==pid970racle:kews_idle_wait:entry?
8c9775bd 0 c028934 c02a6dc 0 8046130
? 3 174943 ? ? ? ? ? ? ? ? ?gethrtime:entry i=7 PID::entry:==pid970:libc.so.1:gethrtime:entry?
8f1e27a0 8f18c820 8c9775bd a9c0001 c07ad9c 80460f0
? 3 ?86061 ? ? ? ? ? kewe_trace_level:entry i=8 PID::entry:==pid970racle:kewe_trace_level:entry?
8f18c820 c028934 c02a6dc 0 8046130 c0e7078
? 3 ?52312 ? ? ? ? ? ksl_which_bucket:entry i=9 PID::entry:==pid970racle:ksl_which_bucket:entry?
2325dd c028934 c02a6dc 0 8046130 c0e7078
? 3 ?53333 ? ? ? ? ? ? ? ? ? kskthewt:entry i=10 PID::entry:==pid970racle:kskthewt:entry c07ad01?
80461e4 80461e4 8dd9467 100 62657100
? 3 172611 ? ? ? ? ? ? ? ? ? ? memcpy:entry i=11 PID::entry:==pid970:libc.so.1:memcpy:entry?
8047714 c0f2c29 2 101 c028890 c0e7120
? 3 104873 ? ? ? ? ? ? ? ? ? kpuhhmrk:entry i=12 PID::entry:==pid970racle:kpuhhmrk:entry c028850?
101 c028890 c0e7120 804773c 0
…………………………
…………………………
…………………………
? ? ? ? 以第一行為例,pid970:libc.so.1:memcpy:entry,pid970是提供器名,libc.so.1是模塊名,memcpy
是函數(shù)名,entry是探針名。
? ? ? ? 我摘出前十幾行,DTrace是能以很細(xì)的粒度跟蹤Oracle,細(xì)致程度遠(yuǎn)超10046,但問(wèn)題來(lái)了,我們?nèi)绾?
解讀跟蹤結(jié)果。這是一個(gè)很重要的問(wèn)題。
? ? ? ? 簡(jiǎn)單點(diǎn)說(shuō),這些函數(shù)都是干嗎的。不要指望誰(shuí)能告訴你,現(xiàn)在,進(jìn)行這種探索的,還非常非常少。這
方面的資料,就不要奢望了。來(lái)吧,Maoyeye教導(dǎo)我
們,自己動(dòng)手,豐衣足食。
? ? ? ? 我們不需要、也可能能搞清楚這每一行函數(shù)調(diào)用都是干嗎的。Oracle的代碼量哪么龐大,估計(jì)Oracle
的開(kāi)發(fā)人員,也不可能搞清楚這每一行全部的意義
。我們只需要搞清楚,我們自己關(guān)心的就行了。比如,我一開(kāi)始所說(shuō)的,Oracle在什么時(shí)候加什么的Mutex、
Latch、Pin、Lock,什么時(shí)候釋放,會(huì)以怎樣的形式
阻塞,等等。
? ? ? ? 我們今天,先以CBC Latch為例,說(shuō)一下研究它的思路。其他的也都類(lèi)似。我想做的,不是告訴你一個(gè)
結(jié)果,而是這結(jié)果是怎么來(lái)的,讓我們大家都可以
都可以用這種方式去研究。
? ? ? ? 每個(gè)Latch,都有一個(gè)地址,哪么,Oracle在調(diào)函數(shù)去獲得、獲放Latch時(shí),應(yīng)該會(huì)將此地址做為參數(shù)
。好,馬上,查找Latch的地址:
1、找出測(cè)試語(yǔ)句中ROWID在哪個(gè)文件哪個(gè)塊:
SQL> select dbms_rowid.ROWID_RELATIVE_FNO('AAACYJAAEAAAAAUAAA'),dbms_rowid.rowid_block_number
('AAACYJAAEAAAAAUAAA') from dual;
DBMS_ROWID.ROWID_RELATIVE_FNO('AAACYJAAEAAAAAUAAA') DBMS_ROWID.ROWID_BLOCK_NUMBER
('AAACYJAAEAAAAAUAAA')
---------------------------------------------------?
---------------------------------------------------
? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? 4 ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ??
? ?20
測(cè)試語(yǔ)句要查找的行在4號(hào)文件、20號(hào)塊
2、在x$BH中,找到此塊在哪個(gè)Latch的保護(hù)下:
SQL> select file#,dbablk,tch,lower(HLADDR) from x$bh where file#=4 and dbablk=20;
? ? ?FILE# ? ? DBABLK ? ? ? ?TCH LOWER(HL
---------- ---------- ---------- --------
? ? ? ? ?4 ? ? ? ? 20 ? ? ? ? ?3 8ea1d750
? ? ? ??
? ? ? ? 4號(hào)文件20號(hào)塊,是受地址為8ea1d750的Latch保護(hù)。
3、在跟蹤結(jié)果文件中查找相關(guān)的:
# cat logic_read1.log|grep 8ea1d750
? 3 111575 ? ? ? ? ? ? ? ? ?sskgslcas:entry i=517 PID::entry:==pid970racle:sskgslcas:entry?
8ea1d750 0 20000016 fdc3f1e4 fdc3f18c fdc3f1e4
? 3 111578 ? ? ? ? ? ? ? ? sskgsldecr:entry i=526 PID::entry:==pid970racle:sskgsldecr:entry?
8ea1d750 20000016 fdc3f1e4 fdc3f18c fdc3f1e4 804544c
? 3 111575 ? ? ? ? ? ? ? ? ?sskgslcas:entry i=552 PID::entry:==pid970racle:sskgslcas:entry?
8ea1d750 0 20000016 1 fdc3f17c 81e1c064
? 3 ?57740 ? ? ? ? ? ? ? ? ? ? kcbzar:entry i=557 PID::entry:==pid970racle:kcbzar:entry 8ef9a5b4?
8ea1d750 108000 8045368 1 fdc3f17c
? 3 101760 ? ? ? ? ? ? ? ? ? slmxnoop:entry i=558 PID::entry:==pid970racle:slmxnoop:entry?
81ff1de4 fdc3f1ec 8ea1d750 8045338 a9bdd25 c030d18
? 3 101760 ? ? ? ? ? ? ? ? ? slmxnoop:entry i=559 PID::entry:==pid970racle:slmxnoop:entry?
81ff1de4 fdc3f1ec 8ea1d750 8045338 a9bdd25 c030d18
? 3 101760 ? ? ? ? ? ? ? ? ? slmxnoop:entry i=560 PID::entry:==pid970racle:slmxnoop:entry?
81ff1de4 fdc3f1ec 8ea1d750 8045338 a9bdd25 c030d18
? 3 101760 ? ? ? ? ? ? ? ? ? slmxnoop:entry i=561 PID::entry:==pid970racle:slmxnoop:entry?
81ff1de4 fdc3f1ec 8ea1d750 8045338 a9bdd25 c030d18
? 3 101760 ? ? ? ? ? ? ? ? ? slmxnoop:entry i=562 PID::entry:==pid970racle:slmxnoop:entry?
81ff1de4 fdc3f1ec 8ea1d750 8045338 a9bdd25 c030d18
? 3 101760 ? ? ? ? ? ? ? ? ? slmxnoop:entry i=564 PID::entry:==pid970racle:slmxnoop:entry?
81ff1de4 fdc3f1ec 8ea1d750 8045338 a9bdd25 c030d18
? 3 111578 ? ? ? ? ? ? ? ? sskgsldecr:entry i=566 PID::entry:==pid970racle:sskgsldecr:entry?
8ea1d750 20000016 1 fdc3f17c 81e1c064 8045510
? 3 ?52568 ? ? ? ? ? ? ? ? ? ? kssrmf:entry i=568 PID::entry:==pid970racle:kssrmf:entry 8ef9a590?
8e94811c 81ff1de4 20000016 8ea1d750 8ef9a5b4
? ? ? ? 和這個(gè)地址相關(guān)的有這十幾行。在這里,有一點(diǎn)編程習(xí)慣再說(shuō)一下,要申請(qǐng)某一個(gè)地址處的Latch,這
個(gè)Latch的地址,是這個(gè)函數(shù)的最重要的參數(shù),因
此,Oracle會(huì)把它排在第一位,也就是說(shuō),以上這十幾行中,第一個(gè)參數(shù)不是8ea1d750的,基本可以排隊(duì)掉了
。
? ? ? ? 所以,我們只剩這些行需要關(guān)注:
# cat logic_read1.log|grep "entry 8ea1d750"
? 3 111575 ? ? ? ? ? ? ? ? ?sskgslcas:entry i=517 PID::entry:==pid970racle:sskgslcas:entry?
8ea1d750 0 20000016 fdc3f1e4 fdc3f18c fdc3f1e4
? 3 111578 ? ? ? ? ? ? ? ? sskgsldecr:entry i=526 PID::entry:==pid970racle:sskgsldecr:entry?
8ea1d750 20000016 fdc3f1e4 fdc3f18c fdc3f1e4 804544c
? 3 111575 ? ? ? ? ? ? ? ? ?sskgslcas:entry i=552 PID::entry:==pid970racle:sskgslcas:entry?
8ea1d750 0 20000016 1 fdc3f17c 81e1c064
? 3 111578 ? ? ? ? ? ? ? ? sskgsldecr:entry i=566 PID::entry:==pid970racle:sskgsldecr:entry?
8ea1d750 20000016 1 fdc3f17c 81e1c064 8045510
? ? ? ? 這四行,兩個(gè)函數(shù)調(diào)用,sskgslcas、sskgsldecr,第一個(gè)參數(shù)都是Latch的地址:8ea1d750。我相信
這不是巧合,它們肯定是申請(qǐng)、釋放Latch的函數(shù)。
? ? ? ? i=517這行,Oracle調(diào)用sskgslcas持有Latch,在i=526這行,調(diào)用sskgsldecr釋放,接下來(lái)在i=552又
一次調(diào)用sskgslcas持有Latch,在i=566處調(diào)用
sskgsldecr釋放。一次邏輯讀對(duì)應(yīng)兩次Latch調(diào)用。
? ? ? ? 結(jié)果是這樣嗎,讓我們繼續(xù)驗(yàn)證,Oracle的Oradebug可以調(diào)用某個(gè)Oracle自身的函數(shù),就有它來(lái)驗(yàn)證
吧:
SQL> oradebug setmypid
Statement processed.
SQL> oradebug call sskgslcas 0x8ea1d750 0 0x20000016 0xfdc3f1e4?
Function returned 1
SQL>?
? ? ? ? sskgslcas參數(shù)的取值,就是我們上面的跟蹤結(jié)果。我只用了4個(gè)參數(shù),其實(shí)應(yīng)該只有3個(gè)參數(shù)。但是,
用Oradebug時(shí),多傳了參數(shù)也無(wú)所謂。
? ? ? ? Function returned 1,這一行說(shuō)明我們的調(diào)用是成功的。
? ? ? ? 回到970進(jìn)程對(duì)應(yīng)的會(huì)話,再次執(zhí)行如下語(yǔ)句:
SQL> select * from a2_70m where rowid='AAACYJAAEAAAAAUAAA';
? ? ? ? 被Hang住了,在另一個(gè)會(huì)話中查看等待事件(970號(hào)進(jìn)程對(duì)應(yīng)的會(huì)話ID是863):
SQL> select sid,event,p1raw,p2 from v$session where sid=863;
? ? ? ?SID EVENT ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ?P1RAW ? ? ? ? ? ?P2
---------- ---------------------------------------------------------------- -------- ----------
? ? ? ?863 latch: cache buffers chains ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ?8EA1D750 ? ? ? ?122
? ? ? ? 863果然在等待CBC Latch,而且根據(jù)P1RAW列的值,所等的Latch就是8EA1D750。接著,sskgsldecr是
釋放Latch,繼續(xù)驗(yàn)證此點(diǎn),在剛才Oradebug的會(huì)話
中繼續(xù)執(zhí)行:
SQL> oradebug call sskgsldecr 0x8ea1d750 0x20000016?
Function returned 20000016
? ? ? ? 同樣,sskgsldecr 0x8ea1d750 0x20000016,這個(gè)函數(shù)的參數(shù)來(lái)自于我們的跟蹤文件。我們這樣手動(dòng)
調(diào)用結(jié)束,剛才被Hang的會(huì)話,已經(jīng)可以順利執(zhí)行
下去了。說(shuō)明Latch已經(jīng)被釋放。
? ? ? ? 看,我們很輕松就已經(jīng)找到了Oracle申請(qǐng)、釋放CBC Latch的函數(shù)。一切都是如此簡(jiǎn)單。
? ? ? ? 到這里,可能有人會(huì)有不同意見(jiàn)了。如果你看過(guò)其他一些牛人的書(shū),包括Oracle的DSI405,都說(shuō)到
Latch的調(diào)用、釋放,是用kslgetl(獨(dú)占)、
kslgetsl(共享)和kslfre,怎么我又說(shuō)申請(qǐng)、釋放Latch是另外的函數(shù)呢。
? ? ? ? 這很容易理解,DSI405是講9i的。其他牛人說(shuō)的也沒(méi)錯(cuò),kslgetl(獨(dú)占)、kslgetsl(共享)和
kslfre的確也是Latch相關(guān)的函數(shù)。物理讀一個(gè)塊時(shí),
Oracle也會(huì)用這三個(gè)函數(shù)來(lái)加、釋放CBC Latch,但邏輯讀不是。
? ? ? ? 這很容易理解,邏輯讀是最繁忙的操作,Oracle專(zhuān)門(mén)為它開(kāi)個(gè)小灶、做做優(yōu)化不是很正常嗎。而且,
提前說(shuō)一下,Mutex也是用sskgslcas申請(qǐng)的(釋放
不是用sskgsldecr),關(guān)于Mutex內(nèi)幕,我們到后幾章再詳細(xì)說(shuō),順便說(shuō)一句,要想揭開(kāi)Mutex內(nèi)幕,也只有D&G
(DTrace+GDB)了。
? ? ? ? 我們還要再接著研究。CBC Latch的地址是8ea1d750,在這個(gè)地址處,Oracle都放了什么呢。有兩種方
式可以觀察這個(gè),用Oradebug,或者,改寫(xiě)我們的
DTrace腳本。我用后一種方式吧,這種方式早晚要熟練掌握的,而且并不是每個(gè)要觀察的值,都可以用
Oradebug。
? ? ? ? 使用DTrace,如果參數(shù)是地址的話,將地址的址讀出來(lái),這種方法在上一章中已經(jīng)有描述了,如下修
改腳本程序:
#!/usr/sbin/dtrace -s -n?
char *memnr;
int latchaddr;
dtrace:::BEGIN
{
? ? ? ? i=1;
? ? ? ? latchaddr=0;
}
pid$1::sskgslcas:entry
{
? ? ? ? memnr=copyin(arg0,12);
? ? ? ? latchaddr=arg0;
? ? ? ? printf("[%2x%2x%2x%2x|%2x%2x%2x%2x|%2x%2x%2x%2x]",memnr[3],memnr[2],memnr[1],memnr
[0],memnr[7],memnr[6],memnr[5],memnr[4],memnr
[11],memnr[10],memnr[9],memnr[8]);
? ? ? ? printf("i=%d PID::entry:==%s:%s:%s:%s %x %x %x %x %x %x",i, probeprov, probemod,?
probefunc, probename,arg0,arg1,arg2,arg3,arg4,arg5);
? ? ? ? i=i+1;
}
pid$1::sskgslcas:return
{
? ? ? ? memnr=copyin(latchaddr,12);
? ? ? ? printf("[%2x%2x%2x%2x|%2x%2x%2x%2x|%2x%2x%2x%2x]",memnr[3],memnr[2],memnr[1],memnr
[0],memnr[7],memnr[6],memnr[5],memnr[4],memnr
[11],memnr[10],memnr[9],memnr[8]);
? ? ? ? printf("i=%d PID::entry:==%s:%s:%s:%s %x %x %x",i, probeprov, probemod, probefunc,?
probename,latchaddr,arg0,arg1);
? ? ? ? i=i+1;
}
? ? ? ? 在這個(gè)腳本中,我只觀察CBC的申請(qǐng)和釋放。copyin函數(shù)的使用,上一章有,不再重述。需要注意的時(shí)
,我在pid$1::sskgslcas:entry中,執(zhí)行了這樣一
行:latchaddr=arg0;目的是將Latch的地址保存到全局變量latchaddr中。然后,在sskgslcas申請(qǐng)Latch后,
再觀察一下此地址中的值。
? ? ? ? 看一下觀察結(jié)果吧:
# cat logic_read2.log|grep "8ea1d750"
? 0 111575 ? ? ? ? ? ? ? ? ?sskgslcas:entry [ 0 0 0 0| 0 0 291| 0 0 07a]i=3?
PID::entry:==pid970racle:sskgslcas:entry 8ea1d750 0 20000016 fdc1a2dc fdc1a284 fdc1a2dc
? 0 175725 ? ? ? ? ? ? ? ? sskgslcas:return [20 0 016| 0 0 291| 0 0 07a]i=4?
PID::entry:==pid970racle:sskgslcas:return 8ea1d750 16 1
? 0 111575 ? ? ? ? ? ? ? ? ?sskgslcas:entry [ 0 0 0 0| 0 0 292| 0 0 07a]i=5?
PID::entry:==pid970racle:sskgslcas:entry 8ea1d750 0 20000016 1?
fdc1a274 81e1c064
? 0 175725 ? ? ? ? ? ? ? ? sskgslcas:return [20 0 016| 0 0 292| 0 0 07a]i=6?
PID::entry:==pid970racle:sskgslcas:return 8ea1d750 16 1
? ? ? ? 我顯示了latch地址處的12個(gè)字節(jié),我將結(jié)果整理一下:
進(jìn)入sskgslcas函數(shù)時(shí):[ 0 0 0 0| 0 0 291| 0 0 07a]
從sskgslcas返回時(shí) ?:[20 0 016| 0 0 291| 0 0 07a]
進(jìn)入sskgslcas函數(shù)時(shí):[ 0 0 0 0| 0 0 292| 0 0 07a]
從sskgslcas返回時(shí) ?:[20 0 016| 0 0 292| 0 0 07a]
? ? ? ? 我一共顯示了12個(gè)字節(jié)。后4個(gè)節(jié)字,7A,10進(jìn)制是122。這個(gè)是Latch編號(hào)。中間4個(gè)字節(jié),291、292
,明顯是我訪問(wèn)的次數(shù)。這些可以從v
$latch_children視圖中得到。后4個(gè)字節(jié)是LATCH#列,中間4個(gè)字節(jié),就是GETS列了。
? ? ? ? 最前面4個(gè)字節(jié),20000016,正好是sskgslcas的第三個(gè)參數(shù)。我覺(jué)得這個(gè)應(yīng)該是模式。
? ? ? ? 看來(lái),sskgslcas的作用,應(yīng)該就是將第三個(gè)參數(shù)的值“20000016”交換到Latch 地址所指向的內(nèi)存中
。然后訪問(wèn)次數(shù)加1。
? ? ? ? 接下來(lái),該如何確定20000016是否是模式呢?這個(gè),從這里就看不出來(lái)了,我們要找個(gè)索引試試。
? ? ? ? 在我的測(cè)試表a2_70m,ID1列上有個(gè)索引,索引名是A2_70M_ID1。我使用如下測(cè)試語(yǔ)句:
SQL> select * from a2_70m where id1=1;
? ? ? ?ID1 ? ? ? ?ID2 CC1
---------- ---------- ------------------------------
? ? ? ? ?1 ? ? ? ? 10 A-----------------------------
? ? ? ? 以上語(yǔ)句,多執(zhí)行個(gè)幾次,在另一個(gè)會(huì)話中,查看索引的塊和Latch地址:
SQL> set pagesize 50000
SQL> set linesize 10000
SQL> select file#,dbablk,tch,ba,HLADDR from x$bh a,dba_objects b where a.obj=b.data_object_id and?
object_name='A2_70M_ID1' order by?
FILE#,DBABLK;
? ? ?FILE# ? ? DBABLK ? ? ? ?TCH BA ? ? ? HLADDR
---------- ---------- ---------- -------- --------
? ? ? ? ?5 ? ? ?23449 ? ? ? ? ?0 8189E000 8E98DAD4
? ? ? ? ?5 ? ? ?23450 ? ? ? ? ?0 81A74000 8EAF0390
? ? ? ? ?5 ? ? ?23451 ? ? ? ? ?0 8189C000 8EA150C8
? ? ? ? ?5 ? ? ?23452 ? ? ? ? ?3 81A78000 8EB77E00
? ? ? ? ?5 ? ? ?23453 ? ? ? ? ?3 81A76000 8EA9CB38
? ? ? ? ?5 ? ? ?23454 ? ? ? ? ?0 81A72000 8E9C13F4
? ? ? ? ?5 ? ? ?23455 ? ? ? ? ?0 8189A000 8EB2412C
? ? ? ? ?5 ? ? ?23456 ? ? ? ? ?0 81A70000 8EA48E64
? ? ? ? ?6 ? ? ? 5695 ? ? ? ? ?3 818A0000 8EACBC98
? ? ? ? 多執(zhí)行幾次測(cè)試語(yǔ)句,找出TCH值不斷在增加的,這些塊就是索引掃描時(shí)相關(guān)的塊了。我這里是5號(hào)文
件23452、23453塊,和6號(hào)文件5695塊。索引的root
塊,都是段頭的下一個(gè)塊,我們可以如下確認(rèn)一下:
SQL> select segment_name,header_file,header_block from dba_segments where segment_name=upper
('A2_70M_ID1');
SEGMENT_NAME ? ? ? ? ? ? ? ? ? HEADER_FILE HEADER_BLOCK
------------------------------ ----------- ------------
A2_70M_ID1 ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? 5 ? ? ? ?23451
? ? ? ? 段頭是23451塊,哪么23452就是root塊了。提一個(gè)注意事項(xiàng),索引掃描在10.2.0.2后是不用讀段頭的
,真接Root、枝、葉。但在10.2.0.1,有時(shí)還是需
要讀段頭的。
? ? ? ? 好,用我們剛才的腳本,開(kāi)始觀察吧。
先執(zhí)行腳本:
# ./all_func.d 970 > logic_read3.log
dtrace: script './all_func.d' matched 3 probes
? ? ? ? 再執(zhí)行測(cè)試SQL,顯示logic_read3.log內(nèi)容,觀察結(jié)果,先看根塊吧:
# cat logic_read3.log|grep 8eb77e00
? 1 111575 ? ? ? ? ? ? ? ? ?sskgslcas:entry [ 0 0 0 0| 0 0 721| 0 0 07a]i=3?
PID::entry:==pid970racle:sskgslcas:entry 8eb77e00 0 1 fdc1a3bc fdc1a3b4 fdc1a278
? 1 175725 ? ? ? ? ? ? ? ? sskgslcas:return [ 0 0 0 1| 0 0 721| 0 0 07a]i=4?
PID::entry:==pid970racle:sskgslcas:return 8eb77e00 16 1
? ? ? ? 根塊Latch的地址是8eb77e00,先只看一下根塊。注意第三個(gè)參數(shù),不是20000016,而是1。我們自己
調(diào)一下試試:
SQL> oradebug call sskgslcas 0x8eb77e00 0 1
Function returned 1
(釋放是:
SQL> oradebug call sskgsldecr 0x8eb77e00 1?
Function returned 1
)
? ? ? ? 再到另一個(gè)會(huì)話執(zhí)行測(cè)試SQL,不會(huì)被阻塞。看來(lái)這才是共享模式啊。再往下看跟蹤文件,8eacbc98是
root塊后接著申請(qǐng)的一個(gè)Latch,它對(duì)應(yīng)6號(hào)文件
5695號(hào)塊。看來(lái)它是枝塊了。
# cat logic_read3.log|grep 8eacbc98
? 2 111575 ? ? ? ? ? ? ? ? ?sskgslcas:entry [ 0 0 0 0| 0 0 784| 0 0 07a]i=5?
PID::entry:==pid970racle:sskgslcas:entry 8eacbc98 0 1 fdc3f2c4 fdc3f2bc fdc3f180
? 2 175725 ? ? ? ? ? ? ? ? sskgslcas:return [ 0 0 0 1| 0 0 784| 0 0 07a]i=6?
PID::entry:==pid970racle:sskgslcas:return 8eacbc98 16 1
? ? ? ? 枝塊獲得CBC Latch,也是共享的。
? ? ? ? 那么5號(hào)文件23453塊,它應(yīng)該是葉塊了,查看它的獲取Latch情況:
# cat logic_read3.log|grep 8ea9cb38
? 2 111575 ? ? ? ? ? ? ? ? ?sskgslcas:entry [ 0 0 0 0| 0 0 783| 0 0 07a]i=7?
PID::entry:==pid970racle:sskgslcas:entry 8ea9cb38 0 1 fdc3f2c4 fdc3f2bc fdc3f180
? 2 175725 ? ? ? ? ? ? ? ? sskgslcas:return [ 0 0 0 1| 0 0 783| 0 0 07a]i=8?
PID::entry:==pid970racle:sskgslcas:return 8ea9cb38 16 1
? 2 111575 ? ? ? ? ? ? ? ? ?sskgslcas:entry [ 0 0 0 0| 0 0 784| 0 0 07a]i=13?
PID::entry:==pid970racle:sskgslcas:entry 8ea9cb38 0 20000016 ffffffff fdc3f2c4 fdc3f17c
? 2 175725 ? ? ? ? ? ? ? ? sskgslcas:return [20 0 016| 0 0 784| 0 0 07a]i=14?
PID::entry:==pid970racle:sskgslcas:return 8ea9cb38 16 1
? 2 111575 ? ? ? ? ? ? ? ? ?sskgslcas:entry [ 0 0 0 0| 0 0 785| 0 0 07a]i=15?
PID::entry:==pid970racle:sskgslcas:entry 8ea9cb38 0 20000016 c030e14 fdc3f180 fdc3f2bc
? 2 175725 ? ? ? ? ? ? ? ? sskgslcas:return [20 0 016| 0 0 785| 0 0 07a]i=16?
PID::entry:==pid970racle:sskgslcas:return 8ea9cb38 16 1
? 2 111575 ? ? ? ? ? ? ? ? ?sskgslcas:entry [ 0 0 0 0| 0 0 786| 0 0 07a]i=17?
PID::entry:==pid970racle:sskgslcas:entry 8ea9cb38 0 20000016 0 fdc3f2c4 fdc3f2b8
? 2 175725 ? ? ? ? ? ? ? ? sskgslcas:return [20 0 016| 0 0 786| 0 0 07a]i=18?
PID::entry:==pid970racle:sskgslcas:return 8ea9cb38 16 1
? ? ? ? 它一共獲取了4次,第一次是共享的,后面三次,是獨(dú)占的。最后還可以再看一下表塊,表塊要獲得兩
次,都是獨(dú)占的。這樣看來(lái),索引葉塊的CBC?
Latch的爭(zhēng)用,要比表塊多啊。建議索引的PCTFREE可以調(diào)的比表高些,既能減少中間塊分裂的總次數(shù)。塊中行
更少,又能分散爭(zhēng)用。
? ? ? ? 但這樣做會(huì)使索引樹(shù)層數(shù)升高,增加索引訪問(wèn)時(shí)的邏輯讀。對(duì)于解決索引塊上的CBC Latch爭(zhēng)用,這樣
做還是非常值得的。因?yàn)橥瑯邮沁壿嬜x,消耗的資
源可是不以同日而語(yǔ)的。索引枝塊只需要一次CBC Latch,而且是共享的,并且,不需要把數(shù)據(jù)拷貝到PGA中,
只在Buffer Cache中比較一下Key值,取出下一層塊
的位置。這種邏輯讀,不會(huì)造成爭(zhēng)用,因?yàn)閺念^到尾,所有資源都是共享的,所耗資源比表塊邏輯讀也少的多
。而且大的PCTFree,還可以減少索引塊分裂次數(shù)。
因此,使用這種方式,減少索引葉塊的CBC Latch爭(zhēng)用,是可行的。
? ? ? ? 好,經(jīng)過(guò)上面的測(cè)試,本章開(kāi)頭提到第一個(gè)問(wèn)題,已經(jīng)有了答案。為什么共享的CBC Latch會(huì)有爭(zhēng)用,
答案是因?yàn)镺racle以獨(dú)占的方式持有了它。
? ? ? ??
? ? ? ? 在文章開(kāi)頭,我還提到過(guò)一個(gè)問(wèn)題,就是唯一索引和非唯一索引讀掃描時(shí)的區(qū)別,剛才我的測(cè)試索引
,不是非唯一的,我把它重建為唯一索引試試,我
們可以比較下,區(qū)別還是非常大的:
SQL> drop index a2_70m_id1;
Index dropped.
SQL> CREATE unique INDEX a2_70m_id1 on a2_70m(id1);
Index created.
? ? ? ? 我們的測(cè)試語(yǔ)句和剛才相同,只不過(guò)這次它的訪問(wèn)路徑是唯一索引掃描。
? ? ? ? 唯一索引的測(cè)試結(jié)果,和非唯一有很大不同:
# cat logic_read3.log
CPU ? ? ID ? ? ? ? ? ? ? ? ? ?FUNCTION:NAME
? 1 111575 ? ? ? ? ? ? ? ? ?sskgslcas:entry [ 0 0 0 0| 0 0 01d| 0 0 0 0]i=1?
PID::entry:==pid970racle:sskgslcas:entry 87d88194 0 35f0001 8886a9c8 87d88194 888f7c48
? 1 175725 ? ? ? ? ? ? ? ? sskgslcas:return [ 35f 0 1| 0 0 01d| 0 0 0 0]i=2?
PID::entry:==pid970racle:sskgslcas:return 87d88194 16 1
? 1 111575 ? ? ? ? ? ? ? ? ?sskgslcas:entry [ 0 0 0 0| 0 0 c67| 0 0 07a]i=3?
PID::entry:==pid970racle:sskgslcas:entry 8eb77e00 0 1 804520c 8045204 fda522f8
? 1 175725 ? ? ? ? ? ? ? ? sskgslcas:return [ 0 0 0 1| 0 0 c67| 0 0 07a]i=4?
PID::entry:==pid970racle:sskgslcas:return 8eb77e00 16 1
? 1 111575 ? ? ? ? ? ? ? ? ?sskgslcas:entry [ 0 0 0 0| 0 0 bc3| 0 0 07a]i=5?
PID::entry:==pid970racle:sskgslcas:entry 8eafa97c 0 1 804520c 8045204 fda522f8
? 1 175725 ? ? ? ? ? ? ? ? sskgslcas:return [ 0 0 0 1| 0 0 bc3| 0 0 07a]i=6?
PID::entry:==pid970racle:sskgslcas:return 8eafa97c 16 1
? 1 111575 ? ? ? ? ? ? ? ? ?sskgslcas:entry [ 0 0 0 0| 0 0 c38| 0 0 07a]i=7?
PID::entry:==pid970racle:sskgslcas:entry 8ea9cb38 0 1 804520c 8045204 fda522f8
? 1 175725 ? ? ? ? ? ? ? ? sskgslcas:return [ 0 0 0 1| 0 0 c38| 0 0 07a]i=8?
PID::entry:==pid970racle:sskgslcas:return 8ea9cb38 16 1
? 1 111575 ? ? ? ? ? ? ? ? ?sskgslcas:entry [ 0 0 0 0| 0 0 bdc| 0 0 07a]i=9?
PID::entry:==pid970racle:sskgslcas:entry 8ea1d750 0 1 fda52660 fda52658 fda52600
? 1 175725 ? ? ? ? ? ? ? ? sskgslcas:return [ 0 0 0 1| 0 0 bdc| 0 0 07a]i=10?
PID::entry:==pid970racle:sskgslcas:return 8ea1d750 16 1
? 1 111575 ? ? ? ? ? ? ? ? ?sskgslcas:entry [ 0 0 0 1| 0 0 01e| 0 0 0 0]i=11?
PID::entry:==pid970:oracle:sskgslcas:entry 87d88194 1 35f0000 c030d18 87d88194 888f7c48
? 1 175725 ? ? ? ? ? ? ? ? sskgslcas:return [ 35f 0 0| 0 0 01e| 0 0 0 0]i=12?
PID::entry:==pid970:oracle:sskgslcas:return 87d88194 16 1
? ? ? ? 索引還是占了同樣的數(shù)據(jù)塊,所以對(duì)應(yīng)的Latch不變。可以看到,從根塊到葉塊,再到數(shù)據(jù)塊,競(jìng)?cè)欢?
不是獨(dú)占的,全是共享的,而且都只需要申請(qǐng)一次
。可以用個(gè)匿名塊驗(yàn)證一下:
declare
? myid number;
begin
? for i in 1..10000000 loop
? ? select id1 into myid from a2_70m where id1=1;
? end loop;
end;
/
? ? ? ? 和最開(kāi)頭的存儲(chǔ)過(guò)程不同的是,select id1 into myid from a2_70m where id1=1 ,這條語(yǔ)句不再直
接用ROWID訪問(wèn),換成唯一索引。在兩個(gè)會(huì)話中分
別執(zhí)行此段過(guò)程,最終查看了一下:
SQL> select event from v$session_event where sid=862;
EVENT
---------------------------------------------
db file sequential read
cursor: pin S wait on X
SQL*Net message to client
SQL*Net message from client
SQL*Net break/reset to client
events in waitclass Other
6 rows selected.
? ? ? ? 果然沒(méi)有CBC Latch的競(jìng)爭(zhēng)。看到?jīng)],區(qū)別可是非常之大啊。如果不用DTrace分析,恐怕很難準(zhǔn)確的發(fā)
現(xiàn)這點(diǎn)。看來(lái)INDEX UNIQUE SCAN和INDEX RANGE?
SCAN,不同的訪問(wèn)路徑,Oracle實(shí)現(xiàn)起來(lái)的方法大相庭徑啊。而且,由不由的訪問(wèn)路徑起始,上層的操作也會(huì)
不一樣。
? ? ? ? 比如同樣是TABLE ACCESS BY INDEX ROWID,下層是INDEX UNIQUE SCAN的話,表塊將只有共享Latch。
下層是INDEX RANGE SCAN的話,表塊上將有獨(dú)占
Latch。
? ? ? ? 比較一下唯一索引和非唯一索引的區(qū)別:
? ? ? ? ?唯一 ? ? ? ? 非唯一
------ ?-------- ?----------------
? 根 ? ?1次共享 ? 1次共享?
? 枝 ? ?1次共享 ? 1次共享
? 葉 ? ?1次共享 ? 1次共享 3次獨(dú)占
表塊 ? 1次共享 ? ? ? ? ? 2次獨(dú)占
? ? ? ? 非唯一索引共需8次CBC Latch,其中5次是獨(dú)占。看來(lái),在讀遠(yuǎn)高于寫(xiě)的環(huán)境,想解決CBC Latch競(jìng)爭(zhēng)
問(wèn)題嗎,那就如果可能的話,使用唯一索引吧。
? ? ? ? (當(dāng)然,出現(xiàn)CBC Latch爭(zhēng)用,一般都是SQL惹的禍,調(diào)SQL即可。這個(gè)結(jié)論,是說(shuō)如何從宏觀上減少
CBC Latch爭(zhēng)用)
? ? ? ? 順便測(cè)一下DML,唯一索引時(shí),即使修改索引列,索引的訪問(wèn)不變,都是共享Latch。但表塊是獨(dú)占
Latch。其他UNDO塊、DUNO段頭了等等Latch的持有訪
問(wèn),我就不再演示了,有興趣自己測(cè)吧。
? ? ? ? 其實(shí)還有一個(gè)問(wèn)題,就是為什么用Rowid訪問(wèn)一個(gè)表塊,或者非唯一索引的葉塊、表塊,Oracle不會(huì)以
共享的方式獲得Latch呢?要解答這個(gè)問(wèn)題,先要
搞清楚一點(diǎn),為什么用ROWID的形式,訪問(wèn)表塊的時(shí)候,要申請(qǐng)2次CBC Latch。而根塊、枝塊只要一次,唯一索
引以INDEX UNIQUE SCAN形式訪問(wèn),所有塊都只需
要一次共享的CBC Latch。
? ? ? ? 這個(gè)問(wèn)題又可以寫(xiě)一篇很長(zhǎng)的文章分析了。不知道放在這里是否合適,因?yàn)檫@篇文章已經(jīng)有點(diǎn)長(zhǎng)了。
但我覺(jué)得,如果你掌握了今天我們所用的方法,繼
續(xù)這樣的分析難度不大。我先簡(jiǎn)單描述一下,后面再另起一章詳細(xì)解剖。可以使用我們第一個(gè)腳本:
#!/usr/sbin/dtrace -s -n
dtrace:::BEGIN
{
? ? ? ? i=1;
}
pid$1:::entry
{
? ? ? ? printf("i=%d PID::entry:==%s:%s:%s:%s %x %x %x %x %x %x",i, probeprov, probemod,?
probefunc, probename,arg0,arg1,arg2,arg3,arg4,arg5);
? ? ? ? i=i+1;
}
? ? ? ? 攔截所有操作,你可以發(fā)現(xiàn)通過(guò)ROWID訪問(wèn),形式如下:
1、調(diào)用sskgslcas獲得Latch
2、進(jìn)行一些未知操作
3、調(diào)用sskgsldecr釋放Latch
4、未知操作
5、memcpy拷貝內(nèi)存,從SGA向PGA
6、未知操作
7、調(diào)用sskgslcas獲得Latch
8、進(jìn)行一些未知操作
9、調(diào)用sskgsldecr釋放Latch
? ? ? ? 第5步拷貝內(nèi)存,其實(shí)就是真正的邏輯讀過(guò)程,把數(shù)據(jù)從SGA中的Buffer Cache,拷貝到PGA,我跟蹤出
的Memcpy函數(shù)形式如下:
? 2 172791 ? ? ? ? ? ? ? ? ? ? memcpy:entry i=663 PID::entry:==pid972:libc.so.1:memcpy:entry?
fdad1b10 82c61fde 1e fdad2f94 886f2bf8 8045478
? ? ? ??
? ? ? ? 第二個(gè)參數(shù)82c61fde , 是Buffer Cache中行的位置,我們可以如下確定:
SQL> select file#,dbablk,tch,lower(HLADDR),ba from x$bh where file#=4 and dbablk=20;
? ? ?FILE# ? ? DBABLK ? ? ? ?TCH LOWER(HL BA
---------- ---------- ---------- -------- --------
? ? ? ? ?4 ? ? ? ? 20 ? ? ? ? ?7 8ea1d750 82C60000
? ? ? ? BA列,82C60000開(kāi)始的8K,也就是從82C60000到82C62000,都是4號(hào)文件20號(hào)塊的Buffer。memcpy第二
個(gè)參數(shù)82c61fde,正是在這個(gè)范圍之間。證明是從
4號(hào)文件20號(hào)塊中拷貝數(shù)據(jù)。第一個(gè)參數(shù)地址fdad1b10,它不在任何內(nèi)存池地址空間范圍之內(nèi),它是進(jìn)程自身的
內(nèi)存,可以認(rèn)為是PGA。第三個(gè)參數(shù)1e,十進(jìn)制是
30,是拷貝數(shù)據(jù)的長(zhǎng)度。查看表的定義:
SQL> desc a2_70m;
Name ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ?Null? ? ?Type
----------------------------------------- -------- ----------------------------
ID1 ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ?NUMBER(38)
ID2 ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ?NUMBER(38)
CC1 ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ?VARCHAR2(30)
? ? ? ? 拷貝30個(gè)字節(jié),其實(shí)就是將CC1列的數(shù)據(jù)讀到PGA中。
? ? ? ? 另外,還有一點(diǎn),先說(shuō)明一下,到下一章再詳細(xì)講。上面步驟1至3中間的未知操作,和7至9中的未知
操作,其實(shí)是加Buffer Pin和釋放Buffer Pin。其
實(shí),上面那9個(gè)步驟,我們可以簡(jiǎn)化一下:
? ? ? ??
1、調(diào)用sskgslcas獲得獨(dú)占Latch
2、加Buffer Pin
3、調(diào)用sskgsldecr釋放Latch
5、memcpy拷貝內(nèi)存,從SGA向PGA
7、調(diào)用sskgslcas獲得獨(dú)占Latch
8、釋放Buffer Pin
9、調(diào)用sskgsldecr釋放Latch
? ? ? ? 但在唯一索引訪問(wèn)時(shí),形式是這樣的:
1、調(diào)用sskgslcas獲得共享Latch
2、memcpy拷貝內(nèi)存,從SGA向PGA
3、調(diào)用sskgsldecr釋放Latch
? ? ? ? 和ROWID訪問(wèn)的不同之處,沒(méi)有了Buffer Pin。一個(gè)CBC Latch,從邏輯讀開(kāi)始到邏輯讀結(jié)尾。
? ? ? ? 為什么索引Root塊、枝塊的訪問(wèn),只需要一次共享CBC Latch,葉塊、表塊需要多次獨(dú)占。這個(gè)問(wèn)題,
現(xiàn)在可以回答了。Oracle認(rèn)為根塊、枝塊不會(huì)經(jīng)常
修改,因?yàn)?#xff0c;用一個(gè)共享CBC Latch,保護(hù)邏輯讀所有操作。雖然Latch持有時(shí)間長(zhǎng),但由于是共享的,不會(huì)有
爭(zhēng)用。而對(duì)于葉塊和表塊,Oracle認(rèn)為有可能會(huì)頻
繁修改,所以,用獨(dú)占Latch保護(hù),獲得Buffer Pin,在Pin的保護(hù)下,讀取、修改Buffer數(shù)據(jù)。
? ? ? ? 而至于唯一索引,INDEX UNIQUE SCAN的訪問(wèn)路徑,Oracle單獨(dú)做了處理,也依照根塊、枝塊的方式訪
問(wèn)。這說(shuō)明如果是唯一索引,對(duì)表有大量讀寫(xiě)混合
的操作,那么CBC Latch競(jìng)爭(zhēng)會(huì)激烈些,因?yàn)闆](méi)有了Buffer Pin,讀持有CBC Latch的時(shí)間會(huì)較長(zhǎng)。但對(duì)于讀遠(yuǎn)
遠(yuǎn)多于寫(xiě)的環(huán)境,由于讀都是共享Latch,反而可以
大大減少CBC Latch的爭(zhēng)用。
? ? ? ? 好了,先到這里吧。已經(jīng)有點(diǎn)長(zhǎng)了。
? ? ? ? 本章內(nèi)容,難度稍高,有興趣的兄弟還是要好好測(cè)測(cè)。這章內(nèi)容是后面的基礎(chǔ),如果這一章沒(méi)問(wèn)題,
那后理解Mutex等等內(nèi)容就方便了。
? ? ? ? 由于本章長(zhǎng)度有限,有些問(wèn)題,比如Buffer Pin的問(wèn)題。我們交到以后解決,這里先提出來(lái),有興趣
可以自己動(dòng)手分析、測(cè)試下。
? ? ? ? 好,今天就到這里為止了,后續(xù)更精彩,敬請(qǐng)期待。
========
揭密buffer Cache中的鏈表補(bǔ)遺
vage揭密buffer Cache中的鏈表補(bǔ)遺:
(揭密Oracle之七種武器之四:揭密Buffer Cache中的鏈表
http://www.itpub.net/thread-1631537-1-1.html)
補(bǔ)充兩個(gè)問(wèn)題:
1、如果一個(gè)臟塊在CKPT-Q上,當(dāng)此臟塊被移到LRUW時(shí),會(huì)從CKPT-Q上去掉嗎?
回答:不會(huì)。直到從LRUW上被寫(xiě)到磁盤(pán)上后,才會(huì)從CKPT-Q上去掉。
測(cè)試過(guò)程很簡(jiǎn)單,搞一個(gè)臟塊,然后再運(yùn)行一個(gè)需要大量掃描LRU的操作,我是這樣的:
set autot trace
update a2_70m set id2=id2+0 where id1=1;
commit;
select * from a4_70m;
(測(cè)試環(huán)境和前面所述一致,Buffer Cache 100M,a4_70m 80M,但它被設(shè)為了Cache)
然后在另一會(huì)話中不停運(yùn)行如下幾條語(yǔ)句:
alter session set events 'immediate trace name SET_TSN_P1 level 5';
set pagesize 50000
set linesize 10000
select file#,dbablk,tch,lru_flag,ba,decode(state,0,'free',1,'xcur',2,'scur',3,'cr',?
4,'read',5,'mrec',6,'irec',7,'write',8,'pi', 9,'memory',10,'mwrite',11,'donated'),
decode(bitand(flag,1), 0, 'N', 'Y') dirty,NXT_REPL,PRV_REPL,WA_NXT,WA_PRV,ts#,HLADDR from x$bh a?
where file#=4 and dbablk=20
order by ? ? ?FILE# ?, ? DBABLK;
select CNUM_SET,CNUM_REPL,ANUM_REPL,CNUM_WRITE ,ANUM_WRITE ?from x$kcbwds where cnum_set>0;
alter session set events 'immediate trace name BUFFER level 0x01000014';
在DUMP結(jié)果中,可以找到如下內(nèi)容:
BH (7c3f497c) file#: 4 rdba: 0x01000014 (4/20) class: 1 ba: 7c298000
……………………(省略部分無(wú)意義內(nèi)容)…………………………………………………………
? hash: [8e96e068,8e96e068] lru: [80bf9cc8,7c7efffc]
? obj-flags: object_ckpt_list
? ckptq: [7bfe8140,7dfea5d0] fileq: [8ea707ec,8ea707ec] objq: [88c3d034,88c3d034]
……………………(省略部分無(wú)意義內(nèi)容)…………………………………………………………
Hex dump of block: st=0, typ_found=1
Dump of memory from 0x7C298000 to 0x7C29A000
……………………(省略部分無(wú)意義內(nèi)容)…………………………………………………………
BH (7c3f497c) file#: 4 rdba: 0x01000014 (4/20) class: 1 ba: 7c298000
……………………(省略部分無(wú)意義內(nèi)容)…………………………………………………………
? hash: [8e96e068,8e96e068] lru-write: [8ea63e58,7c7efffc]
? obj-flags: object_ckpt_list
? ckptq: [7bfe8140,7dfea5d0] fileq: [8ea707ec,8ea707ec] objq: [88c3d034,88c3d034]
……………………(省略部分無(wú)意義內(nèi)容)…………………………………………………………
上一次DUMP的時(shí)候,LRU鏈前后塊的指針為lru: [80bf9cc8,7c7efffc],下一次DUMP時(shí),已經(jīng)變成lru-write:?
[8ea63e58,7c7efffc],但檢查點(diǎn)隊(duì)列相關(guān)的信息沒(méi)變,都是ckptq: [7bfe8140,7dfea5d0]。
當(dāng)臟塊寫(xiě)完成時(shí),BH中信息變?yōu)檫@樣:
BH (7c3f497c) file#: 4 rdba: 0x01000014 (4/20) class: 1 ba: 7c298000
……………………(省略部分無(wú)意義內(nèi)容)…………………………………………………………
? hash: [8e96e068,8e96e068] lru: [7c7efffc,7c3f2f18]
? lru-flags: on_auxiliary_list
? ckptq: [NULL] fileq: [NULL] objq: [88c3d02c,88c3d02c]
……………………(省略部分無(wú)意義內(nèi)容)…………………………………………………………
從lru-write: [8ea63e58,7c7efffc],變?yōu)榱薼ru: [7c7efffc,7c3f2f18],從lru-flags可以看到,已經(jīng)被放到
輔助鏈表中了。同時(shí),ckptq已經(jīng)是NULL了。寫(xiě)磁盤(pán)完成時(shí),才從CKPT-Q上摘掉。
2、根據(jù)上面的測(cè)試結(jié)果,臟塊可能會(huì)同時(shí)存在于兩個(gè)鏈表:LRUW和CKPT-Q。塊從LRUW寫(xiě)磁盤(pán)后,會(huì)從CKPT-Q上
摘掉。但反過(guò)來(lái)呢?從CKPT-Q中寫(xiě)磁盤(pán),寫(xiě)完后會(huì)從LRUW上摘掉嗎?
答案是,會(huì)的。
如何驗(yàn)證呢?我是通過(guò)Latch的獲取來(lái)驗(yàn)證的。
臟塊通過(guò)CKPT-Q寫(xiě)到磁盤(pán)后,其所處的LRU位置不變,這一點(diǎn)我在前文中已經(jīng)提到過(guò),也很容易驗(yàn)證這點(diǎn),從x
$BH中的NXT_REPL,PRV_REPL兩列,就可以驗(yàn)證此點(diǎn)。也就是說(shuō),從CKPT-Q寫(xiě)臟塊,是和LRU鏈表無(wú)關(guān)的,也就是
不需要獲得LRU Latch。如果從CKPT-Q寫(xiě)臟塊申請(qǐng)了LRU Latch,哪一定和LRUW有關(guān)。
將檢查點(diǎn)超時(shí)參數(shù)設(shè)為很小的值,寫(xiě)個(gè)簡(jiǎn)單的DTrace腳本,跟蹤一下DBWR進(jìn)程Latch的獲得情況。發(fā)現(xiàn)每次從
CKPT-Q寫(xiě)臟塊時(shí),DBWR都要按如下順序申請(qǐng)Latch:
獲得cache buffers chains Latch
? 獲得LRU Latch
? 釋放LRU Latch
釋放cache buffers chains Latch
獲得checkpoint queue latch
釋放checkpoint queue latch
獲得cache buffers lru chain
釋放cache buffers lru chain
也就是說(shuō),從CKPT-Q寫(xiě)臟塊時(shí),不但要獲得checkpoint queue latch,還要LRU Latch。根據(jù)前面的分析,從
CKPT-Q寫(xiě)臟塊時(shí),獲取LRU Latch的目的,只能是為了訪問(wèn)LRUW,因?yàn)镃KPT-Q寫(xiě)不改變塊在LRU的位置,不必要
訪問(wèn)LRU。哪么,CKPT-Q寫(xiě)訪問(wèn)LRUW的目的是什么,可以推論,目的是為了檢查臟塊是否在LRUW、并摘掉它。
還有一點(diǎn),由于塊已經(jīng)從LUR移到了LURW,從CKPT-Q寫(xiě)完成后,雖然不是從LURW寫(xiě)的,塊應(yīng)該仍會(huì)被放入輔助
LRU,這個(gè)就是猜想了。我盡量找個(gè)測(cè)試實(shí)際驗(yàn)證下。
========
總結(jié)
以上是生活随笔為你收集整理的揭密Oracle之 七种武器的全部?jī)?nèi)容,希望文章能夠幫你解決所遇到的問(wèn)題。
- 上一篇: Oracle表空间离线在线切换和数据库关
- 下一篇: Oracle 表空间数据文件迁移图解