日韩性视频-久久久蜜桃-www中文字幕-在线中文字幕av-亚洲欧美一区二区三区四区-撸久久-香蕉视频一区-久久无码精品丰满人妻-国产高潮av-激情福利社-日韩av网址大全-国产精品久久999-日本五十路在线-性欧美在线-久久99精品波多结衣一区-男女午夜免费视频-黑人极品ⅴideos精品欧美棵-人人妻人人澡人人爽精品欧美一区-日韩一区在线看-欧美a级在线免费观看

歡迎訪(fǎng)問(wèn) 生活随笔!

生活随笔

當(dāng)前位置: 首頁(yè) > 人工智能 > ChatGpt >内容正文

ChatGpt

AIX 修 炼 之 路

發(fā)布時(shí)間:2025/7/25 ChatGpt 111 豆豆
生活随笔 收集整理的這篇文章主要介紹了 AIX 修 炼 之 路 小編覺(jué)得挺不錯(cuò)的,現(xiàn)在分享給大家,幫大家做個(gè)參考.

?

?????? AIXChina 論壇上看到了一個(gè)高人寫(xiě)的AIX 成長(zhǎng)過(guò)程,看了挺有感觸的。 出處現(xiàn)在無(wú)發(fā)查詢(xún), 全文如下:

?

修 煉 之 路

?

最近在朋友的推薦下看了熱播劇集《prison break》,確實(shí)精彩,片中無(wú)處不在的細(xì)節(jié)讓人不得不佩服男主人公的schedule實(shí)在是做得完美。感慨之余想起到相關(guān)論壇上看看大家的評(píng)論,這才發(fā)現(xiàn)很多我捕捉到的細(xì)節(jié)和心領(lǐng)神會(huì)的method居然沒(méi)幾個(gè)人看懂了。不由得讓我憑空多了一層念想,是自己也能夠適應(yīng)fox river那樣的牢獄生活,還是多年來(lái)AIX service的工作經(jīng)歷讓我已與往日不同。嘿嘿,我情愿相信是后者。

?

hacmp.棍子.靈異現(xiàn)象

???? hacmpIBMP系列服務(wù)器上使用的群集管理軟件,安裝配置很方便,在實(shí)際使用中可處理常見(jiàn)的系統(tǒng)單點(diǎn)故障,從而提高整套系統(tǒng)的可用性。但是使用hacmp的環(huán)境常常出現(xiàn)一些奇怪的現(xiàn)象,從而讓維護(hù)的技術(shù)人員頭疼不已,我們稱(chēng)之為“靈異現(xiàn)象”……

???? 2002年的夏天,湖南長(zhǎng)沙,XX醫(yī)院,hacmp互備。

???? 這個(gè)醫(yī)院的財(cái)務(wù)系統(tǒng)用的是IBM H85的雙機(jī),hacmp互備模式,DB2數(shù)據(jù)庫(kù),2臺(tái)機(jī)器分管住院部和門(mén)診部的財(cái)務(wù)系統(tǒng)。不知道從哪一天開(kāi)始,這套系統(tǒng)也碰上了讓人頭疼的“靈異”。醫(yī)院的系統(tǒng)管理員說(shuō)他們?cè)谡J褂弥邪l(fā)現(xiàn)住院部的財(cái)務(wù)系統(tǒng)運(yùn)行突然變慢了,經(jīng)檢查才發(fā)現(xiàn)住院部那臺(tái)機(jī)器已經(jīng)宕機(jī),住院部業(yè)務(wù)已經(jīng)由門(mén)診部那臺(tái)順利接管,只不過(guò)看起來(lái)由于系統(tǒng)資源緊張,所以才讓窗口的業(yè)務(wù)人員發(fā)現(xiàn)速度有異。接下來(lái),系管重新開(kāi)機(jī),重新啟動(dòng)hacmp,一套流程走下來(lái),住院部主機(jī)重新?lián)?fù)起了自己的任務(wù),業(yè)務(wù)窗口速度也恢復(fù)了正常。

看上去一切都挺好,系統(tǒng)環(huán)境又恢復(fù)了正常,只不過(guò)……

三天以后,住院部主機(jī)又掛了。再來(lái)一次恢復(fù)流程,住院部主機(jī)起死回生……

三天以后,“掛”就一個(gè)字……

如此反復(fù),這家醫(yī)院的系管已經(jīng)可以掐指算出住院部主機(jī)即將到來(lái)的“死亡時(shí)間”,誤差不超過(guò)3小時(shí)。在這家醫(yī)院信息部領(lǐng)導(dǎo)精神全面崩潰之前,他們找到了我所在的公司。

老板給我交代任務(wù)的時(shí)候,附帶告訴我在此之前已經(jīng)有資深的軟硬件工程師到現(xiàn)場(chǎng)全面檢查過(guò)了,每個(gè)人都是拍拍胸脯告訴可憐的系管自己這一塊絕對(duì)沒(méi)問(wèn)題然后以盡可能快的速度離開(kāi)了現(xiàn)場(chǎng),留下系管一人絕望的面對(duì)即將到來(lái)的宕機(jī)時(shí)間……死亡無(wú)法避免。

說(shuō)實(shí)話(huà),這附帶信息對(duì)當(dāng)時(shí)只有一年AIX經(jīng)驗(yàn)的我來(lái)說(shuō)不是什么很有用的消息,除了憑空多出許多壓力之外。

到了現(xiàn)場(chǎng),我一直在想一個(gè)問(wèn)題——系管的頭發(fā)是一直這么少,還是這段時(shí)間才發(fā)生了變化。問(wèn)題沒(méi)有答案,我只希望自己能夠幫到這個(gè)可憐的同行,看上去他雖然很熱情,但是和遍訪(fǎng)名醫(yī)的重癥病人家屬一樣,眼神中已經(jīng)失去了“求生”的信念。

排除雜念,對(duì)著住院部的主機(jī)我砍出三板斧——dferrptdiag。無(wú)效。一切看上去都很正常。細(xì)想想,這也正常,這三斧頭是個(gè)人就會(huì)砍。想必在我之前來(lái)的那些資深已經(jīng)都砍過(guò)三十幾斧頭了。再看看hacmp.out文件,頓時(shí)有了點(diǎn)不敢相信自己眼睛的感覺(jué)——已經(jīng)生成了近50MB的文本文件。原本想從里面找點(diǎn)信息的想法一瞬間也去了大洋對(duì)岸。難怪資深們都閃人了,我似乎有點(diǎn)明白了。

口中默念著高中班主任留給我的名人名言——“人啊!不能在一棵樹(shù)上吊死,讓我們一起來(lái)?yè)Q棵樹(shù)吧!”——我殺向門(mén)診部主機(jī)。

系管有些驚訝,但還是盡量委婉的告訴我:“嚴(yán)工,這臺(tái)機(jī)器是好的”。

“知道”,回應(yīng):“我看看”

同樣無(wú)效的三斧頭過(guò)后,總算hacmp.out給了我一線(xiàn)希望,這臺(tái)機(jī)器的hacmp.out相比較而言還算正常,雖然也過(guò)分的達(dá)到了11MB的大小。

在“盡量”仔細(xì)的閱讀hacmp.out之后,我開(kāi)始深刻理解資深們的難處了。巨量的事件腳本記錄給“閱讀”帶來(lái)了麻煩,2個(gè)小時(shí)的仔細(xì)閱讀之后,除了感覺(jué)眼睛有點(diǎn)疼,我暫時(shí)沒(méi)有別的新見(jiàn)解。

無(wú)奈中,我開(kāi)始快速翻屏,現(xiàn)在回想起來(lái),當(dāng)時(shí)這么做可能是潛意識(shí)中的什么元素起了作用。如《駭客帝國(guó)》中飛快滾動(dòng)的黑底綠字由下至上的掠過(guò)屏幕,除了更加不可閱讀之外,似乎沒(méi)有別的什么好處了。

等等……這是什么……

由于快速翻屏和每個(gè)事件紀(jì)錄長(zhǎng)度大致相等的2個(gè)重要因素,加上視覺(jué)暫留效應(yīng),我在屏幕上的特定位置看到了近乎穩(wěn)定的事件名稱(chēng)fail_standby_adapterjoin_standby_adapter。這兩個(gè)事件記錄名稱(chēng)如此顯眼的出現(xiàn)在我面前,確實(shí)讓我精神為之一振。這樣的情況下我還能看到這兩個(gè)事件,只能說(shuō)明這兩個(gè)事件出現(xiàn)的次數(shù)特別多。詳細(xì)檢查了這兩個(gè)事件發(fā)生的時(shí)間點(diǎn),得到了讓我開(kāi)始感覺(jué)興奮的消息——每秒鐘要發(fā)生45次的fail_standbyjoin_standby。這說(shuō)明有塊standby的網(wǎng)卡不斷的退出和加入到standby狀態(tài)。順著思路往下想,如此高頻率發(fā)生的事件記錄除了要寫(xiě)入本機(jī)的hacmp.out還要通過(guò)網(wǎng)絡(luò)寫(xiě)入到另外節(jié)點(diǎn)的hacmp.out,這樣會(huì)直接導(dǎo)致另外節(jié)點(diǎn)的hacmp.out處于持續(xù)打開(kāi)的狀態(tài),同時(shí)也會(huì)占用相當(dāng)大空間的file buffer且由于不斷的寫(xiě)入而不會(huì)釋放。物理實(shí)存用完之后開(kāi)始使用paging,加上業(yè)務(wù)壓力,paging用完之后,主機(jī)必死無(wú)疑。這樣一個(gè)內(nèi)存耗盡的過(guò)程,三天都算是撐得夠長(zhǎng)了。

帶著激動(dòng)的心情我檢查了不斷failjoinstandby網(wǎng)卡的物理位置——門(mén)診部主機(jī)的standby網(wǎng)卡,這就可以解釋為什么一旦住院部主機(jī)宕機(jī),門(mén)診部主機(jī)可以接管住院部業(yè)務(wù)除了速度慢之外而不會(huì)再宕機(jī)。因?yàn)檫@個(gè)接管時(shí)間點(diǎn)之后,原門(mén)診部主機(jī)standby網(wǎng)卡已經(jīng)接管了住院部主機(jī)的service地址,當(dāng)然也就不存在fail_standbyjoin_standby的事件發(fā)生了,取而代之的是住院部業(yè)務(wù)系統(tǒng)的service網(wǎng)卡有丟包——表現(xiàn)出來(lái)的現(xiàn)象就是住院部窗口業(yè)務(wù)運(yùn)行慢。

因?yàn)樽鲞^(guò)diag沒(méi)有發(fā)現(xiàn)網(wǎng)卡損壞,所以問(wèn)題發(fā)生的原因如果不是網(wǎng)線(xiàn)就是交換機(jī)端口。

等我告訴那個(gè)心灰意冷的人問(wèn)題原因就在一根網(wǎng)線(xiàn)上時(shí),你完全可以想象他當(dāng)時(shí)的表情。而我當(dāng)時(shí)腦海里出現(xiàn)的場(chǎng)景則是我父親當(dāng)年用一根木棍就修好了我母親廠(chǎng)里的巨型空調(diào)并且贏得了她的芳心,他只是用棍子敲了敲那臺(tái)不肯工作的機(jī)器一切就恢復(fù)了正常。多年以后,我父親每每提起此事,總是得意地告訴我“關(guān)鍵不在用什么棍子,在于你要知道敲哪里”

換過(guò)一根網(wǎng)線(xiàn),我在兩臺(tái)主機(jī)的hacmp.out里面沒(méi)有再發(fā)現(xiàn)不斷生成的事件記錄,此刻對(duì)我來(lái)說(shuō),問(wèn)題已經(jīng)解決了。而忐忑不安的系管估計(jì)要等到下次“死亡時(shí)間”之后才能放下心來(lái)了。

回顧整個(gè)過(guò)程,實(shí)際上hacmp的事件記錄文件hacmp.out已經(jīng)清晰而忠實(shí)地記錄了發(fā)生過(guò)的點(diǎn)點(diǎn)滴滴,如果你有足夠的耐心和方法,你肯定可以從中找到答案,肯定可以從中知道你手中的棍子要敲向哪里。仔細(xì)“閱讀”記錄文件,會(huì)使我們的PD過(guò)程更加順利。而且,你千萬(wàn)不要認(rèn)為看似正常運(yùn)行的設(shè)備一定沒(méi)有任何問(wèn)題。

離開(kāi)現(xiàn)場(chǎng),帶著我的“棍子”,開(kāi)心……

?

?

微碼.警察.跑路

?

???? 在做AIX service的這段日子里,我有個(gè)深刻的體會(huì)——“開(kāi)始因?yàn)槭裁炊疾粫?huì),所以膽小,慢慢的,知道了一些,膽子也變得大了起來(lái),其必然會(huì)導(dǎo)致出現(xiàn)一些大家都不想看到的結(jié)果,多經(jīng)歷幾次這樣的事情,膽子會(huì)慢慢的再度變小”。下面的故事就發(fā)生在我膽子好大的時(shí)候!

????? 2003年的春天,湖北武漢,市公安局,S70雙機(jī)。

????? 武漢市公安局信息科,S70雙機(jī),一臺(tái)是運(yùn)行戶(hù)政管理業(yè)務(wù),一臺(tái)是公安內(nèi)部信息平臺(tái)系統(tǒng)。因?yàn)檫@2臺(tái)S70買(mǎi)的時(shí)間比較早,所以配置相對(duì)不高,在業(yè)務(wù)運(yùn)行高峰期,常常會(huì)讓各個(gè)運(yùn)行終端的干警們心生郁悶。

為了更好的迎接第XX次人口普查,市局的領(lǐng)導(dǎo)們特意指示信息科要做好細(xì)致的準(zhǔn)備工作,不要發(fā)生意外拖前線(xiàn)干警的后腿。于是信息科領(lǐng)導(dǎo)將指令轉(zhuǎn)化成了一次S70間的配置調(diào)整——即暫停公安系統(tǒng)內(nèi)部消息平臺(tái)的運(yùn)行,將消息平臺(tái)主機(jī)上的內(nèi)存全部轉(zhuǎn)移到戶(hù)政管理主機(jī)上,以盡可能好的配置來(lái)迎接第XX次人口普查的到來(lái)。
???
任務(wù)交到我身上,在我這里則轉(zhuǎn)化成了具體的實(shí)施步驟“停機(jī)-拆內(nèi)存-加內(nèi)存-開(kāi)機(jī)”,看起來(lái)是件簡(jiǎn)單任務(wù)。至少,除了會(huì)渾身是灰之外,我沒(méi)想到還有什么麻煩事情會(huì)發(fā)生。

事實(shí)證明,通常膽大的人不一定會(huì)有好運(yùn)氣。

確認(rèn)過(guò)業(yè)務(wù)系統(tǒng)都已經(jīng)關(guān)閉的情況下,我開(kāi)始停機(jī)步驟,shutdown –F之后信息平臺(tái)主機(jī)乖乖的回到了OK狀態(tài)。但是戶(hù)政管理平臺(tái)主機(jī)則遲遲沒(méi)有出現(xiàn)halt complete的字樣。雖然覺(jué)得有什么地方有點(diǎn)不對(duì)勁,但在長(zhǎng)達(dá)10分鐘的等待之后,我還是直接關(guān)閉了這臺(tái)戶(hù)政管理S70主機(jī)的電源。

30分鐘后,內(nèi)存物理更換完成,依照service guide的指引我將新加入的內(nèi)存放在了他們應(yīng)該在的位置。

加電,開(kāi)機(jī),LCD上綠色的小字符開(kāi)始快樂(lè)的跳動(dòng)起來(lái)……

只是,跳到了XXXX代碼之后,LCD好像停止了動(dòng)靜,連OK字符都沒(méi)有出現(xiàn),LCD就停止了跳動(dòng)。

5分鐘之后,狀態(tài)依然,我開(kāi)始查service guide,看看這串代碼到底是什么含義。結(jié)果讓人暈厥——service guide上沒(méi)有這串字母的對(duì)應(yīng)描述,前后的字母串描述都有,唯獨(dú)少了這一串的解釋。

腦袋一片混亂的我開(kāi)始聯(lián)想,機(jī)器起不來(lái)——戶(hù)政管理業(yè)務(wù)起不來(lái)——全市派出所戶(hù)籍民警無(wú)法工作——全市人民不能上戶(hù)口,不能結(jié)婚,哪怕連死亡消戶(hù)口都不可以……

說(shuō)實(shí)話(huà),那一瞬間我跑路的心都有了……

定定神,打出場(chǎng)外求助電話(huà),電話(huà)打給的是IBM華中區(qū)的資深工程師吳炬,簡(jiǎn)短的交流之后,從他那里我得到了一個(gè)意外的答案——他告訴了我sevice guide中對(duì)這段字母含義的描述,可是,可是我明明看過(guò)service guide了呀!并沒(méi)有看到這串字母描述啊!在核對(duì)過(guò)書(shū)號(hào)和文件大小之后,我得到了當(dāng)天的第一個(gè)重要感受——針對(duì)每種機(jī)型的service guide經(jīng)常會(huì)有更新,所以會(huì)有很多的版本,保持經(jīng)常下載最新版本的service guide絕對(duì)是個(gè)好習(xí)慣

回到現(xiàn)場(chǎng),這串字母的含義是系統(tǒng)微碼損壞,需要用軟盤(pán)重新刷新微碼。

接下來(lái)的時(shí)間是在公司(下微碼,做升級(jí)軟盤(pán))和市局之間飛奔度過(guò)的……

刷完系統(tǒng)微碼,果然OK字符重現(xiàn),再世為人了……

系統(tǒng)順利起來(lái)之后我才發(fā)現(xiàn),原來(lái)errpt里面已經(jīng)記錄了183天之前微碼發(fā)生錯(cuò)誤的記錄,也就是說(shuō)不管是誰(shuí),只要關(guān)了機(jī)器,那么除非刷新系統(tǒng)微碼,否則就是局長(zhǎng)來(lái)了機(jī)器也會(huì)無(wú)法啟動(dòng),只不過(guò)這次我是在微碼損壞后第一個(gè)關(guān)機(jī)的“幸運(yùn)兒”。這讓我得到了當(dāng)天的第二個(gè)重要感受——設(shè)備總是有可能出現(xiàn)問(wèn)題的,哪怕關(guān)機(jī)之前看上去一切正常,所以在有任何動(dòng)作之前,仔細(xì)檢查errpt總歸是沒(méi)有壞處的。如果有可能,關(guān)機(jī)之后馬上啟動(dòng)一次是確保設(shè)備處于正常狀態(tài)的最好辦法。

出了市局,我突然發(fā)現(xiàn)不用跑路,可以回家的感覺(jué)真好……

?

?

Oracle..世界杯

四年一次的世界杯在2006年的夏天如約而至,在和平的年代,這幾乎就是世界大戰(zhàn)的代名詞,由于中國(guó)隊(duì)的一貫表現(xiàn),我不太關(guān)注這塊沒(méi)有硝煙的戰(zhàn)場(chǎng)。當(dāng)然,幾場(chǎng)梟雄之間的對(duì)決還是要親眼目睹的。那個(gè)早晨,帶著五星巴西竟然負(fù)于法國(guó)的疑問(wèn)我沉沉睡去,一個(gè)小時(shí)后,我被VIP客戶(hù)“電醒”……

2006年的夏天,上海,中國(guó)XX銀行數(shù)據(jù)中心,P590

在早上6點(diǎn)接到VIP客戶(hù)的電話(huà)通常意味著有地方“失火”了,在沒(méi)有了解情況之前我只是希望“火”不要燒得太大,但眼看我這次的衷心希望顯然沒(méi)有半分效果……

這家VIP客戶(hù)的一臺(tái)滿(mǎn)配置P590承載著該行全國(guó)法人信貸的業(yè)務(wù)系統(tǒng),在這個(gè)對(duì)于巴西人來(lái)說(shuō)顯然比較黑暗的早晨居然宕機(jī)了,我一邊念叨著“你跟巴西應(yīng)該沒(méi)什么關(guān)系吧?兄弟!”一邊暈乎乎的沖向VIP

“火”確實(shí)燒得有點(diǎn)大——系統(tǒng)重啟后,技術(shù)人員發(fā)現(xiàn)oracle沒(méi)法啟動(dòng),經(jīng)檢查發(fā)現(xiàn)oraclecode所在的目錄沒(méi)有mount上來(lái),手工mount后系統(tǒng)提示文件系統(tǒng)有問(wèn)題,需要做fsck。而fsck之后則是一喜接著一驚——喜的是該文件系統(tǒng)可以mount了,驚的是system.dbfuser.dbf消失了。O_Ob

OK,讓我們切到備機(jī)好了,恢復(fù)業(yè)務(wù)系統(tǒng)online是這個(gè)時(shí)候第一目標(biāo)……

二驚——用data guard保持?jǐn)?shù)據(jù)同步的備機(jī)在頭一天已經(jīng)切斷了數(shù)據(jù)同步狀態(tài)……

那么,讓我們用磁帶里的備份來(lái)恢復(fù)數(shù)據(jù)吧!該是那個(gè)小屋子大小的磁帶庫(kù)發(fā)揮作用的時(shí)候了……

三驚——該數(shù)據(jù)庫(kù)resetlogs在頭一天的凌晨已經(jīng)被重置了,而重置之后沒(méi)有重新做全備……

我已經(jīng)開(kāi)始考慮是不是有人急于下崗而沒(méi)有足夠的勇氣提出來(lái),想通過(guò)這樣的事件來(lái)促成自己的心愿。

之后的恢復(fù)步驟這里不再贅述,訓(xùn)練有素的X行技術(shù)人員啟動(dòng)應(yīng)急預(yù)案,在最短的時(shí)間內(nèi)恢復(fù)了這套涉及全國(guó)范圍的法人信貸系統(tǒng),只讓遍及全國(guó)的相關(guān)工作人員稍微休息了半天而已。

而我面臨的問(wèn)題則是要搞清楚是什么原因?qū)е逻@臺(tái)P590在明顯和巴西沒(méi)什么關(guān)系的情況下,會(huì)如此激動(dòng)的通過(guò)宕機(jī)來(lái)表達(dá)自己的情緒。

形勢(shì)似乎對(duì)我們不利,系統(tǒng)宕機(jī)——文件系統(tǒng)損壞——修復(fù)之后重要文件丟失……

當(dāng)年的三斧頭現(xiàn)在已經(jīng)升級(jí)成了snapPFEPSDB。揮舞完這三斧頭,我得到的信息是這個(gè)文件系統(tǒng)在宕機(jī)前30小時(shí)已經(jīng)出現(xiàn)了錯(cuò)誤的文件控制數(shù)據(jù),并且通過(guò)errpt提醒用戶(hù)需要做fsck進(jìn)行檢查,只不過(guò)可惜的是無(wú)人理會(huì)。同時(shí),二線(xiàn)技術(shù)支持人員告知我系統(tǒng)宕機(jī)的原因是AIX在對(duì)此文件系統(tǒng)B+樹(shù)掃描時(shí),發(fā)現(xiàn)此文件系統(tǒng)不一致信息過(guò)多,而采取的自動(dòng)重啟,從而在umount的狀態(tài)下對(duì)其進(jìn)行自動(dòng)fsck。這一點(diǎn)我也在alog里面得到了驗(yàn)證。

問(wèn)題已經(jīng)轉(zhuǎn)變成了文件系統(tǒng)為什么會(huì)損壞了?

詢(xún)問(wèn)過(guò)X行相關(guān)技術(shù)人員之后,我得到了重要的信息——宕機(jī)前32小時(shí),此應(yīng)用系統(tǒng)由于undo擴(kuò)展過(guò)快,所以DBA打開(kāi)了undoautoextend參數(shù)。而undo文件正好就放在和system.dbfuser.dbf同一個(gè)目錄中。參數(shù)修改了1個(gè)多小時(shí)之后,oracle突然crash了,oracle工程師到現(xiàn)場(chǎng)進(jìn)行了恢復(fù)動(dòng)作,在修復(fù)之后出于某種原因的考慮斷開(kāi)了data guard的數(shù)據(jù)同步鏈。

帶著這些重要信息,我在三方會(huì)議(X行,我們,oracle)召開(kāi)的頭一天夜里潛入“敵營(yíng)”——metalink,一邊翻騰一邊慶幸自己還擁有metalink的賬號(hào)……

會(huì)議正式開(kāi)始之前,我已是胸中有伏兵了,雖不敢有完勝的奢望,但已然不是之前的心中暗自理虧的狀態(tài)。在和team中的成員share了“敵營(yíng)”中的收獲之后,我特意的詢(xún)問(wèn)了leader關(guān)于這些殺手锏的使用時(shí)機(jī)問(wèn)題。他告訴我的原則簡(jiǎn)單明了——“看看oracle的態(tài)度再說(shuō)。”

會(huì)議開(kāi)始,oracle代表慢條斯理的扔出了一句話(huà)“oracle認(rèn)為,既然是操作系統(tǒng)發(fā)生文件系統(tǒng)損壞、無(wú)故宕機(jī),同時(shí)丟失了重要的數(shù)據(jù)文件,那么問(wèn)題的責(zé)任應(yīng)該在操作系統(tǒng)這里,如何檢查、修復(fù)也請(qǐng)操作系統(tǒng)這邊著手進(jìn)行。”

當(dāng)時(shí)我的腦袋里馬上回想起了周星星的那句“兄弟!球,不是這樣踢滴!”

雖然事實(shí)上我并不喜歡踢球,但是更加不喜歡人家把球踢到我們球門(mén)口。

“首先,問(wèn)題的起因在于undo文件被設(shè)置成了autoextend,但是并沒(méi)有設(shè)置maxsize,同時(shí)自動(dòng)擴(kuò)展的步進(jìn)參數(shù)next被設(shè)置成1MB。而max_tetention參數(shù)還是默認(rèn)的1080也就是3小時(shí)。從修改參數(shù)到文件系統(tǒng)被撐滿(mǎn)只用了1小時(shí)20分,undo文件擴(kuò)展了22GB。而在9i里面把undo設(shè)置成autoextend但并不設(shè)置maxsizeundo會(huì)一直增長(zhǎng)而不重用過(guò)期的回滾段,這是個(gè)地球人都知道的bugundo文件所在的目錄被撐爆只是個(gè)時(shí)間問(wèn)題而已”

我先扔出了在敵營(yíng)中的第一個(gè)發(fā)現(xiàn),立馬發(fā)現(xiàn)oracle工程師表情明顯變得有些呆滯。接著乘勝追擊……

“其次,讓我們來(lái)看看undo文件在這么短的時(shí)間內(nèi)擴(kuò)展了22GB是否正常?在metalink里,我找到了5個(gè)與undo文件在某些特定情況下會(huì)產(chǎn)生非正常的巨量增長(zhǎng)的相關(guān)補(bǔ)丁,由于我metalink賬號(hào)的權(quán)限不夠高,有些未公布的補(bǔ)丁我還看不到,所以我并不確定能夠修正undo文件產(chǎn)生巨量增長(zhǎng)的補(bǔ)丁只有5個(gè)。”

已經(jīng)發(fā)現(xiàn)剛才還慢條斯理的那人臉色有些發(fā)白,好,我們繼續(xù)……

“第三,在宕機(jī)前30小時(shí),操作系統(tǒng)已經(jīng)發(fā)現(xiàn)這個(gè)被撐爆的文件系統(tǒng)出現(xiàn)了錯(cuò)誤的文件系統(tǒng)控制數(shù)據(jù),同時(shí)建議馬上做fsck修復(fù)。當(dāng)時(shí)因?yàn)?/span>undo被撐爆,所以oracle crash了。在調(diào)整undo的文件位置的過(guò)程中,oracle重新成功啟動(dòng)關(guān)閉過(guò)多次,這個(gè)時(shí)間點(diǎn)的system.dbfuser.dbf還是完好而且可以訪(fǎng)問(wèn)的,否則oracle當(dāng)時(shí)就無(wú)法正常啟動(dòng)instance了。但是很遺憾的是當(dāng)時(shí)在場(chǎng)的oracle工程師沒(méi)有注意到alert.log中間的提示,所以沒(méi)做任何處理或者建議。”

不再觀(guān)察他的表情了,已經(jīng)不忍心看下去了,直接帶球到對(duì)方禁區(qū)好了……

“最重要的一點(diǎn)是,我們不理解為什么在oracle crash的應(yīng)急處理完成之后會(huì)因故斷開(kāi)data guard的數(shù)據(jù)同步鏈,這樣直接導(dǎo)致備份系統(tǒng)由于缺少一天的數(shù)據(jù),無(wú)法立刻online。而且,主系統(tǒng)的resetlogs也被重置,使從磁帶恢復(fù)丟失的文件也成為了不可能完成的任務(wù)”

帶球入禁區(qū)加上射門(mén),一氣呵成……

這場(chǎng)“球賽已經(jīng)沒(méi)有懸念了……

三方會(huì)議后,為分析此次“災(zāi)情”的原因和提出改進(jìn)建議方案,我提交了一份五千字的報(bào)告,鑒于是屬于公司密級(jí)的文檔,這里就不提供了,不然這“AIX與我”的故事就要破萬(wàn)字了。

回顧整個(gè)過(guò)程,給我最深的感受是想做好AIXservice,就不能夠只熟悉AIX,與其相關(guān)的方方面面最好都能有所涉及,一個(gè)全面的中場(chǎng)球員需要的是能攻能守,更重要的是全局觀(guān)。

?

馬上就要進(jìn)入AIX與我的第六個(gè)年頭了,回顧這段歷程,AIX讓我學(xué)會(huì)了耐心、讓我體會(huì)了關(guān)注細(xì)節(jié)的重要、讓我感受到了完美schedule的強(qiáng)大效力。以至于我希望如果有一天真的不幸蒙冤進(jìn)了fox river這樣的牢獄,但愿監(jiān)獄管理系統(tǒng)用的是IBM P系列,這樣我或許還能有逃出來(lái)的一線(xiàn)生機(jī)……

?

?

?

?

轉(zhuǎn)自AIX China 上的高人

------------------------------------------------------------------------------

Blog http://blog.csdn.net/tianlesoftware

網(wǎng)上資源: http://tianlesoftware.download.csdn.net

相關(guān)視頻:http://blog.csdn.net/tianlesoftware/archive/2009/11/27/4886500.aspx

DBA1 群:62697716(滿(mǎn)); DBA2 群:62697977(滿(mǎn))

DBA3 群:62697850?? DBA 超級(jí)群:63306533;????

聊天 群:40132017

--加群需要在備注說(shuō)明Oracle表空間和數(shù)據(jù)文件的關(guān)系,否則拒絕申請(qǐng)

?

?

轉(zhuǎn)載于:https://www.cnblogs.com/tianlesoftware/archive/2010/11/28/3609888.html

總結(jié)

以上是生活随笔為你收集整理的AIX 修 炼 之 路的全部?jī)?nèi)容,希望文章能夠幫你解決所遇到的問(wèn)題。

如果覺(jué)得生活随笔網(wǎng)站內(nèi)容還不錯(cuò),歡迎將生活随笔推薦給好友。