CnUnix

[알림판목록 I] [알림판목록 II] [글목록][이 전][다 음]
[ CnUnix ] in KIDS
글 쓴 이(By): zoo11 (rwsrwxrwx)
날 짜 (Date): 2003년 10월 10일 금요일 오후 12시 55분 22초
제 목(Title): Re: [Q] SunBlade150 panic



DIMM1이 문제 같네요. AFAR(Asynchronous Fault Address Register)가 
문제가 생긴 물리적 주소를 가리키고 있지요.
AFAR 0x00000000.4d60f780 는 U3 DIMM1슬롯이 맞죠.
(http://sunsolve.sun.com/handbook_pub/Devices/System_Board/SYSBD_SunBlade_150.html)

AFSR(Asynchronous Fault Status Register)가 80300000 <PRIV, UE, CE>
인것으로 보면 프로세서가 privileged 모드에서 돌고 있을 때 Correctable/
Uncorrectable error가 났고 직접적인 원인은 UE였겠죠. CE는 correct됐을
테니.
또, 왜 UE가 났나 하면 UDBH가 0x0367인걸로 보아 물리 메모리에서 프로
세서의 UDB (UltraSPARC Data Buffer)로 전송 되는 동안 ECC 에러가 났
다고 보여집니다. UDB는 시스템 버스(UPA)와 프로세서의 E-Cache사이에서
중간 버퍼 역할을 하는 넘 입니다.
나머지 정보야 뭐 그냥저냥 그런 정보죠. fault가 난 program counter며
그 당시의 trap level이며 기타 등등.

시스템이 보통 저런 식의 UE로 죽을 때는 CPU가 문제이거나 혹은 메모리의
문제거나 하더군요. 물론 하드웨어적으로요. CPU가 문제일 때도 panic을 
낸 CPU가 반드시 교체 대상이라고 단정 지을 수 없고 좀 더 디벼 봐야 
하죠. 어쨌든 대부분의 하드웨어 폴트는 해당 파트의 교체로 해결 가능.

시스템이 패닉 되는 경우에 써드 파티의 커널 모듈이나 디바이스 드라이버
혹은 개발 도중의 커널 모듈등을 쓰는 경우를 제외하고는 거의 대부분
하드웨어 문제죠. 썬에서 os에 탑재되어 나오는 커널 모듈등은 대부분 
안정되어 있으므로 별로 죽을 일이 없어요.


[알림판목록 I] [알림판목록 II] [글 목록][이 전][다 음]
키 즈 는 열 린 사 람 들 의 모 임 입 니 다.