| [ CnUnix ] in KIDS 글 쓴 이(By): Zaharang ( 자하랑) 날 짜 (Date): 2003년 10월 21일 화요일 오후 05시 46분 37초 제 목(Title): Re: [Q]한글인지 어떻게 판별하나요? 위의 분 얘기대로 Encoding이 정해지지 않는 이상 구별할 방법이 없습니다. EUC_KR로 인코딩되어있다는 것이 일단 확실해야 합니다. 물론 EUC_KR과 UTF등과 구별할 방법은 있으나 일단 EUC_CN 같은 놈과 100% 쫑나기 때문에 확실히 EUC_KR로 된 한글문서라는 전제가 있어야 합니다. 그렇다면 그 이후는 간단합니다. EUC_KR은 Code Page 2개 만을 사용합니다. Code Page 0 : 1 byte width 로 byte range는 33-126(21-7E Hex값) 입니다. 0-31 (00-1F) : control char 32 (20h) : space 127(7F) : delete Code Page 1 : 가 본격적인 2 byte 한글 할당 영역으로 first, seconde byte range 영역이 동일하게 161-254 (A1-FE hex) 로 잡힙니다. 위의 규칙대로 확실하게 구분이 되니까 쉽게 분리가 됩니다. 좀 더 자세한 내용을 원하신다면 blowfish가 그려져있는 오렐리의 명저 CJKV 를 참조하시길. |