前天 Sylvanas 的SAP 突然掛點,找了半天搞不清楚,問題在那。只能想到再前一天,機房跳電,系統不正常閉機,當時再開機後,完全正常沒有異狀,但第2天,突然掛了,難道是後座力...

last words
引用至 Retirement Quotes and Retirement Sayings

首先是SAN ,開機後捉不到,DB 開不起來,發現HBA 卡出狀況。搞定後,又出現I/O 異常的慢,整個效能出現問題。砍掉奇怪的AP Process 後,稍微回復正常。之後持續觀持中,等下一個問題出現….

還好Sylvanas也是高手一枚,對於各種疑難雜症,也是處理經驗豐富。經過了一天的觀查,及跟小瑞的技術交流,推測,可能是本機的hd 不穩定。

目前他們的SAP ECC6 安裝RH Linux 上,在機器底層有打開AHCI 模式,就是把那個SATA 的傳輸由1.5 Gbps 提昇到3.0 Gbps 的神奇功能。

出現的error msg


ata1.00: status: { DRDY }
ata1: hard resetting link
ata1: SATA link up 1.5 Gbps (SStatus 113 SControl 310)
ata1.00: configured for UDMA/33
ata1: EH complete
ata1.00: exception Emask 0x10 SAct 0x0 SErr 0x400100 action 0x6 frozen
ata1.00: irq_stat 0x08000000, interface fatal error
ata1: SError: { UnrecovData Handshk }

後來去拜了 “谷哥” 大神後,抽到一支籤。


OK, I managed to force the SATA link to 1.5Gbps by rebuilding initrd with the
libata force=1.5Gbps option. That seems to have fixed the problems and made my
system reliable again.

關鍵字 force=1.5Gbps option , 按處方籤調整了一下,病情有點起色。把SATA 的速度限制在1.5 Gbps ,應該會比較穩一點。另外一個原因也有可能是 SATA 的線有問題,可能性很低,不過還是換了它吧。

另一個可能性,記憶體出問題了。通常在電源不穩定,或突然斷電等情況下,也有可能會損壞到記憶體。建議Sylvanas先取下一半的RAM ,來個2分搜尋法,追一下問題。最後推斷,應該是RAM 的問題。

除了這些怪問題外,唯一想不出來的是,第1次死當時,系統沒有任何記錄,查不出什麼蛛絲馬跡。最後只能歸因於,狀況來的太突然,Server 來不及留下Log ,也沒有任何的遺言,就往生了...所以我們實在無從推知,當時到底怎麼了,是不是因為 “乖乖” 事件,引來了什麼老鼠,蟑螂之類的,碰巧經過Server 前面,又剛好頭撞到 reset 鍵,一切就像阿湯哥的 “不可能的任務” ...會不會又想太多了...

Mission Impossible
引用至 異象策略 網站 Mission Impossible — 不可能的任務

日期:2010/03/25 | 留言:1 個 | 作者:Rico | 瀏覽:
分類:MIS鳥日記
標籤:, , , , , , ,
  1. 2010/03/25 at 17:39:09 | 1

    果然是我的血淚史 (屎)

  1. 目前沒有引用。

*

Copyright -0001 紐菲斯的部落格