CnUnix

[알림판목록 I] [알림판목록 II] [글목록][이 전][다 음]
[ CnUnix ] in KIDS
글 쓴 이(By): Zaharang ( 자하랑)
날 짜 (Date): 2003년 10월 21일 화요일 오후 05시 46분 37초
제 목(Title): Re: [Q]한글인지 어떻게 판별하나요?



위의 분 얘기대로
Encoding이 정해지지 않는 이상 구별할 방법이 없습니다.

EUC_KR로 인코딩되어있다는 것이 일단 확실해야 합니다.
물론 EUC_KR과 UTF등과 구별할 방법은 있으나 일단 EUC_CN 같은 놈과 100% 
쫑나기 때문에 확실히 EUC_KR로 된 한글문서라는 전제가 있어야 합니다.

그렇다면 그 이후는 간단합니다.

EUC_KR은 Code Page 2개 만을 사용합니다.

Code Page 0 :  1 byte width 로 byte range는 33-126(21-7E Hex값) 입니다.
0-31  (00-1F) : control char
32 (20h) : space
127(7F) : delete

Code Page 1 : 가 본격적인 2 byte 한글 할당 영역으로
first, seconde byte range 영역이 동일하게
161-254 (A1-FE hex) 로 잡힙니다. 

위의 규칙대로 확실하게 구분이 되니까 쉽게 분리가 됩니다.

좀 더 자세한 내용을 원하신다면

blowfish가 그려져있는 오렐리의 명저 CJKV 를 참조하시길.



[알림판목록 I] [알림판목록 II] [글 목록][이 전][다 음]
키 즈 는 열 린 사 람 들 의 모 임 입 니 다.