[ CnUnix ] in KIDS 글 쓴 이(By): 파란거북 () 날 짜 (Date): 2004년 4월 1일 목요일 오후 01시 59분 38초 제 목(Title): Web browsing history 알아내기 유저의 웹브라우징 history를 알아내고 싶은데요, 구체적으로는 < url, 이 url을 request한 시간 > 이런 tuple을 쭉 얻고 싶습니다. (예를 들면, <www.hani.co.kr, 2004/3/12 14:25:05> 이런 데이타들을 시간의 순서대로 쭉 ) 구체적인 브라우저와 플랫폼은, 익스플로러 (in windows) 이면 제일 좋구요 (제가 제일 많이 쓰는 브라우저라서), 리눅스나 유닉스에서의 모질라도 괜찮습니다. 좀더 자세하게는, 위의 < url, 이 url을 request한 시간> 에 덧붙혀, 1. 이 url이 유저가 타이핑한 건지, 링크를 클릭한 건지도 알았으면 좋겠는데, 뭐 이건 급한 건 아니구요 (현재 웹페이지에 링크로 존재하는 url이면, 링크 클릭한 거라고 볼수 있으니까요) 2. 브라우저 내에서, backward, forward 단추를 눌러서 이동하는 것도 기록되었으면 좋겠는데, 이건 새로 network으로 http request를 하는 게 아닐테니, 어쩌면 구하기 힘들수도 있겠구요. 그렇다면 이것도 optional... 이 정보를 알아내는 방법은, 제가 생각해본 것들은 크게 1. 웹 브라우저가 로그를 남기는 것을 이용한다. : 익스플로러가 남기는 history라는 걸 들여다봤는데, 그 파일 (index.dat 라는 파일들이 history 디렉토리 밑에 있더군요.)은 그냥 읽을 수가 없었고, 익스플로러에서 (아마도 그 파일들을 읽어서) 보여주는 히스토리들은, 오늘, 하루전, ..., 1주일전, ... 뭐 이런 식이고 시간까지 나오는 자세한 건 아니고, chronological하게 순서가 매겨져 있지도 않고 (알파벳 순으로 보이더군요.) 그래서, 큰 도움이 안 되었습니다. 혹시, 이 히스토리 파일들이 충분히 자세한 내용을 갖고 있는 건데, 단지 위처럼 요약해서 보여주는 거라면, 이 파일들을 어떻게 decode하는지 가르쳐주시면 고맙겠습니다. 모질라는 로그 파일을 본 적이 없네요. 어쨌든, 노력이 제일 적게 든다는 점에서, 제일 선호하는 방법입니다. 2. 웹 브라우저와 연동하는 프로그램 짜기. : 이건 어떻게 해야할지 잘 모르겠는데, 익스플로러라면, 소스가 공개되어 있지도 않을텐데, 할 수 있는건지도 잘 모르겠구요. 뭐 바깥에서, 네트웍 으로 http request보내는 패킷 같은 걸 잡아서, 볼 수 있을진 잘 모르겠네요. 근데, 요즘 스파이웨어들 보면, 제가 웹에서 어떤 사이트 보고 있는지 모니터링해서, 그와 관련된 광고들 보여주고 그러는거 보면, 뭔가 쉽게 할수 있는 방법이 있을 것도 같은데요. (혹시 이 스파이웨어들이 익스플로러가 남기는 로그를 이용하는 걸까요?) 모질라라면, 소스가 공개되어서, 적당한 부분에서 정보를 얻을 수 있을지도 모르겠는데, 어쩐지 호미로 막을일을 가래로 막는 상황을 만드는 것인지 싶기도 하고... 그리고, 이 데이타를 얻는 목적은, 그냥 그걸로 data mining을 해보려는 것이라서, 아직 특별하게 어떤 용도라고 구체적으로 얘기할 수 있는 건 없구요. 어떤 방법이든, 제가 원하는 데이터를 알아낼 수 있는 방법이라면, 큰 도움이 될 것 같네요. 미리 감사드립니다. |