久久九九国产无码高清_人人做人人澡人人人爽_日本一区二区三区中文字幕_日韩无码性爱免费

Oracle數(shù)據(jù)庫無響應(yīng)故障處理方式

時間:2024-07-15 12:50:21 Oracle認(rèn)證 我要投稿
  • 相關(guān)推薦

Oracle數(shù)據(jù)庫無響應(yīng)故障處理方式

  Oracle數(shù)據(jù)庫無響應(yīng)故障,簡單地講就是數(shù)據(jù)庫實例不能響應(yīng)客戶端發(fā)起的請求,客戶端提交一個SQL后,就一直處于等待數(shù)據(jù)庫實例返回結(jié)果的狀態(tài)。更嚴(yán)重的現(xiàn)象是客戶端根本不能連接到數(shù)據(jù)庫,發(fā)起一個連接請求后,一直處于等待狀態(tài)。Oracle數(shù)據(jù)庫無響應(yīng)故障怎么處理呢?下面跟yjbys小編一起來學(xué)習(xí)Oracle數(shù)據(jù)庫無響應(yīng)故障的處理方法吧!

  無響應(yīng)的故障現(xiàn)象一般有以下幾種:

  1.Oracle的進(jìn)程在等待某個資源或事件

  這種現(xiàn)象一般可以從V$SESSION_WAT、V$LATCH、V$LATCHHOLDER等動態(tài)視圖中檢查進(jìn)程正在等待的資源或事件,而被等待的資源或事件,一直都不能被獲取,甚至是很長時間都不可獲得。如果這個正在等待的進(jìn)程持有了其他的資源,則會引起其他的進(jìn)程等待,這樣就很可能引起實例中大范圍的會話發(fā)生等待。由于進(jìn)程在等待資源或事件時,通常都處于SLEEP狀態(tài),消耗的CPU資源非常少(在等待latch時要稍微多消耗一些CPU資源),所以從OS來看,CPU的消耗并不高,甚至是非常低。

  這種因為等待而引起的個別進(jìn)程Hang,相對比較容易處理。

  2. OracleProcess Spins

  所謂Spin,就是指Oracle進(jìn)程中的代碼在執(zhí)行某個過程時,陷入了循環(huán)。在V$SESSION視圖中,往往可以看到Hang住的會話,一直處于“ACTIVE”狀態(tài)。對于這樣的會話,用“alter system kill session ‘sid,serial#’”命令也不能完全斷開會話,會話只能被標(biāo)記為“killed”,會話會繼續(xù)消耗大量的CPU。進(jìn)程Spins由于是在做循環(huán),CPU的消耗非常大,從OS上明顯可以看到這樣的進(jìn)程,通常會消耗整個CPU的資源。

  而對于這樣的Hang住的會話,處理起來相對比較復(fù)雜,并且為了從根本上解決問題,需要超過DBA日常維護所需要的技能。

  從故障范圍來看,無響應(yīng)故障可以分為以下幾種情況:

  1. 單個或部分會話(進(jìn)程)Hang住

  這種情況屬于小范圍的故障,業(yè)務(wù)影響相對較小,一般來說只會影響業(yè)務(wù)系統(tǒng)的個別模塊。在一個多應(yīng)用系統(tǒng)的數(shù)據(jù)庫上面,如果Hang住的會話比較多,則影響的可能是其中的一個應(yīng)用系統(tǒng)。這里有一個例外,如果Hang住的進(jìn)程是系統(tǒng)后臺進(jìn)程,如pmon、smon等,則影響的范圍就非常大了,最終甚至?xí)绊懻麄數(shù)據(jù)庫及所有應(yīng)用系統(tǒng)。還有值得注意的是,即使是少部分會話Hang住,也要及時處理,否則極有可能會擴散到整個系統(tǒng)。

  2. 單個數(shù)據(jù)庫實例Hang住

  這種情況造成的影響非常大。在這個實例上的所有應(yīng)用系統(tǒng)均受到嚴(yán)重影響,并且在找到根源并最終解決問題之前,數(shù)據(jù)庫實例往往須要重啟。

  3. OPS或RAC中的多個實例或所有實例都Hang住

  在這種情況下,即使是OPS或RAC,都已經(jīng)沒辦法提供高可用特性了。使用這個數(shù)據(jù)庫的所有應(yīng)用系統(tǒng)將不能繼續(xù)提供服務(wù),這種情況往往須要重啟。

  無響應(yīng)故障成因分析

  Oracle數(shù)據(jù)庫無響應(yīng),一般主要由以下幾種原因引起:

  1. 數(shù)據(jù)庫主機負(fù)載過高,嚴(yán)重超過主機承受能力

  比如應(yīng)用設(shè)計不當(dāng),數(shù)據(jù)庫性能低下,活動會話數(shù)的大量增加,導(dǎo)致數(shù)據(jù)庫主機的負(fù)載迅速增加,數(shù)據(jù)庫不能正常操作,并最終Hang住;主機物理內(nèi)存嚴(yán)重不足,引起大量的換頁,特別是在SGA中的內(nèi)存被大量換出到虛擬內(nèi)存時,數(shù)據(jù)庫實例往往就會Hang住。

  2. 日常維護不當(dāng)、不正確的操作引起數(shù)據(jù)庫Hang住

  比如歸檔日志的存儲空間滿,導(dǎo)致數(shù)據(jù)庫不能歸檔,引起數(shù)據(jù)庫Hang住;在一個大并發(fā)的繁忙的系

  統(tǒng)上,對DML操作比較多的大表進(jìn)行move、增加外鍵約束等操作也可能使系統(tǒng)在短時間內(nèi)負(fù)載大幅升高,并引起數(shù)據(jù)庫系統(tǒng)Hang住;不正確的資源計劃(Resource Plan)配置,使進(jìn)程得不到足夠的CPU等。

  3. Oracle數(shù)據(jù)庫的Bug

  幾乎每個版本都存在著會導(dǎo)致數(shù)據(jù)庫系統(tǒng)Hang住的Bug,這些Bug會在一些特定的條件下觸發(fā),特別是在RAC數(shù)據(jù)庫中,引起數(shù)據(jù)庫Hang住的Bug比較多。

  4. 其他方面的一些原因

  比如在RAC數(shù)據(jù)庫中,如果一個節(jié)點退出或加入到RAC的過程中,當(dāng)進(jìn)行Resource Reconfiguration時,會使系統(tǒng)凍結(jié)一段時間,也有可能使系統(tǒng)Hang住。

  以上所描述的幾種常見的會導(dǎo)致Oracle數(shù)據(jù)庫實例Hang住的原因中,大部分的情況是可以避免的,只要維護得當(dāng),一般不會出現(xiàn)這種故障。對于Oracle數(shù)據(jù)庫Bug所導(dǎo)致的數(shù)據(jù)庫無響應(yīng)故障,由于是在特定的情況下才會觸發(fā),所以如果能夠盡量對數(shù)據(jù)庫打上最新版本的補丁,并且熟悉當(dāng)前版本中會導(dǎo)致系統(tǒng)Hang住的Bug以及觸發(fā)條件,就能夠最大限度地避免這種故障的發(fā)生,提高系統(tǒng)的可用性。

  那么,在數(shù)據(jù)庫Hang住的情況下,如何去分析并發(fā)現(xiàn)導(dǎo)致問題的根源?一方面,由于系統(tǒng)Hang住會導(dǎo)致業(yè)務(wù)系統(tǒng)不可用,為了能夠盡快地恢復(fù)業(yè)務(wù),須快速地判斷問題所在,然后Kill掉引起故障的會話和進(jìn)程,或者數(shù)據(jù)庫實例不得不重啟以迅速恢復(fù)業(yè)務(wù);但另一方面,如果只是重啟數(shù)據(jù)庫或Kill會話和進(jìn)程來解決問題,在很多情況下是治標(biāo)不治本的辦法,在以后故障隨時可能會出現(xiàn)。如何在二者之間進(jìn)行抉擇呢?對于數(shù)據(jù)庫Hang故障的處理,首先是盡可能地收集到系統(tǒng)Hang住時的狀態(tài)數(shù)據(jù),然后盡快地恢復(fù)業(yè)務(wù),恢復(fù)業(yè)務(wù)后分析收集到的數(shù)據(jù),找到數(shù)據(jù)庫系統(tǒng)Hang住的真正原因,然后再進(jìn)行相應(yīng)的處理。下一節(jié)將詳細(xì)描述數(shù)據(jù)庫系統(tǒng)Hang住后的處理流程。

  無響應(yīng)故障處理流程

  對于Oracle無響應(yīng)故障的處理,我們可以按下圖所示的流程進(jìn)行。

  值得注意的是,上圖并不是一個完整的Oracle數(shù)據(jù)庫故障處理流程圖,只是處理Oralce數(shù)據(jù)庫無響應(yīng)這一類特定的故障的流程,只列出了針對這一特定類型故障處理時的關(guān)鍵處理點。不過既然是故障,所以這類故障的處理流程與其他故障的處理流程,有著非常相似的地方。

  下面是整個流程的詳細(xì)說明:

  1. 在出現(xiàn)數(shù)據(jù)庫無響應(yīng)故障后,首先確認(rèn)系統(tǒng)的影響范圍,如上節(jié)所描述的,是部分業(yè)務(wù)系統(tǒng)或模塊還是所有的業(yè)務(wù)系統(tǒng)都受影響,是不是整個實例或多個實例都無響應(yīng)。同時應(yīng)詢問系統(tǒng)維護和開發(fā)人員,受影響的系統(tǒng)在出現(xiàn)故障前是否有過變動,包括主機硬件、操作系統(tǒng)、網(wǎng)絡(luò)、數(shù)據(jù)庫以及應(yīng)用等。有時一個細(xì)小的變動就可能導(dǎo)致出現(xiàn)數(shù)據(jù)庫Hang住這樣嚴(yán)重的故障。曾經(jīng)遇到一個庫,應(yīng)用只是修改了一個SELECT語句就導(dǎo)致了數(shù)據(jù)庫Hang住。

  2. 為了避免由于網(wǎng)絡(luò)、數(shù)據(jù)庫監(jiān)聽或客戶端因素影響分析,建議都登錄到主機上進(jìn)行操作。

  3. 如果主機不能登錄(為了避免干擾流程主線,這里不討論如網(wǎng)絡(luò)問題這樣也會導(dǎo)致不能連接的故障),嘗試關(guān)閉出現(xiàn)問題的業(yè)務(wù)系統(tǒng),甚至是所有的業(yè)務(wù)系統(tǒng)。如果關(guān)閉了所有的業(yè)務(wù)系統(tǒng)之后,仍然不能連接,則只有考慮重新啟動數(shù)據(jù)庫主機。在數(shù)據(jù)庫主機重新啟動后,使用操作系統(tǒng)工具或OSW等長期監(jiān)控操作系統(tǒng)的資源使用,同時監(jiān)控Oracle數(shù)據(jù)庫的性能和等待等。

  4. 登錄上主機后,先用top、topas等命令簡單觀察一下系統(tǒng)?纯聪到y(tǒng)的CPU使用、物理內(nèi)存和虛擬內(nèi)存的使用、IO使用等情況。

  5. 使用SQLPLUS連接數(shù)據(jù)庫,如果不能連接,則只能從操作系統(tǒng)上觀察系統(tǒng)中是否有異常的現(xiàn)象,比如占用CPU過高的進(jìn)程。使用gdb、dbx等debugger工具對數(shù)據(jù)庫進(jìn)行system state dump;使用strace、truss等工具檢查異常進(jìn)程的系統(tǒng)調(diào)用;使用pstack、procstack等工具察看異常進(jìn)程的call stack等。

  6. 使用SQLPLUS連接上數(shù)據(jù)庫后,進(jìn)行hanganalyze、system state dump等操作;或檢查等待事件、異常會話等正在執(zhí)行的SQL等待。

  7. 找到故障產(chǎn)生的原因,如果暫時找不到原因,盡量收集數(shù)據(jù)。

  8.確良如果應(yīng)用急須恢復(fù),可通過Kill會話、重啟數(shù)據(jù)庫實例等方式,先恢復(fù)應(yīng)用。

  9. 根據(jù)最終診斷結(jié)果,對數(shù)據(jù)庫升級打補丁,或者修改應(yīng)用等方式從根本上解決問題。

  怎樣避免數(shù)據(jù)庫出現(xiàn)無響應(yīng)故障

  作為Oracle數(shù)據(jù)庫DBA,除了處理故障之外,更重要的是如何預(yù)防故障的發(fā)生。根據(jù)前面對數(shù)據(jù)庫無響應(yīng)故障的成因分析,在日常的維護工作中,須做到以下幾點:

  1. 進(jìn)行正確的維護操作

  很多的數(shù)據(jù)庫無響應(yīng)故障都是由于不正確的維護操作引起的。應(yīng)避免在業(yè)務(wù)高峰期做大的維護操作,比如像move、加主外鍵約束等會長時間鎖表的操作。如果的確需要,盡量使用正確的操作方法。比如用ONLINE方式重建索引;建主鍵、唯一鍵約束時先建索引,然后在建約束時指定新建的索引,等等。也就是保證系統(tǒng)的并發(fā)性、可伸縮性,避免系統(tǒng)串行操作的出現(xiàn)。

  2. 優(yōu)化應(yīng)用設(shè)計,優(yōu)化數(shù)據(jù)庫性能

  為避免性能問題導(dǎo)致在業(yè)務(wù)高峰期數(shù)據(jù)庫不能及時有效處理來自業(yè)務(wù)的請求,甚至于完全Hang住。對于數(shù)據(jù)庫中存在串行訪問的部分進(jìn)行優(yōu)化,比如latch、enqueue,還包括不合理的sequence設(shè)計等。特別是在RAC數(shù)據(jù)庫中,嚴(yán)重串行訪問等待往往更容易引起嚴(yán)重的性能問題。優(yōu)化應(yīng)用設(shè)計,使數(shù)據(jù)庫具有更好的可伸縮性和并行處理能力,能夠有效地避免性能問題引起的數(shù)據(jù)庫Hang住。

  3. 利用監(jiān)控系統(tǒng)隨時監(jiān)控系統(tǒng)負(fù)載

  遇到系統(tǒng)負(fù)載過高,內(nèi)存不足,OS中虛擬內(nèi)存換頁很頻繁等情況時,及時采取措施;監(jiān)控Oracle數(shù)據(jù)庫的核心進(jìn)程,如pmon、smon等,看是否有異常,如過高的CPU消耗。出現(xiàn)異常應(yīng)立即處理;監(jiān)控歸檔空間和日志切換;監(jiān)控數(shù)據(jù)庫中的等待事件,比如是否有大量的enqueue、log file switch (archiving needed)、resmgr:become active等待事件等。

  4. 為數(shù)據(jù)庫打上補丁

  很多的無響應(yīng)故障是由于Oracle的Bug引起的,數(shù)據(jù)庫DBA應(yīng)關(guān)注當(dāng)前版本中有哪些Bug會導(dǎo)致數(shù)據(jù)庫Hang住,盡量為數(shù)據(jù)庫打上解決這些Bug的補丁。

【Oracle數(shù)據(jù)庫無響應(yīng)故障處理方式】相關(guān)文章:

oracle數(shù)據(jù)庫基本語句02-08

Oracle數(shù)據(jù)庫認(rèn)證層次08-29

Oracle數(shù)據(jù)庫SELECT語句10-25

Oracle數(shù)據(jù)庫語句大全12-21

oracle數(shù)據(jù)庫基礎(chǔ)知識01-21

Oracle 數(shù)據(jù)庫查詢小技巧10-17

oracle數(shù)據(jù)庫培訓(xùn)課程大綱08-07

Oracle數(shù)據(jù)庫基本知識09-13

ORACLE數(shù)據(jù)庫操作基本語句09-15

2017年oracle數(shù)據(jù)庫認(rèn)證考試01-20