CnUnix

[알림판목록 I] [알림판목록 II] [글목록][이 전][다 음]
[ CnUnix ] in KIDS
글 쓴 이(By): 파란거북 ()
날 짜 (Date): 2004년 4월  1일 목요일 오후 01시 59분 38초
제 목(Title): Web browsing history 알아내기


유저의 웹브라우징 history를 알아내고 싶은데요,
구체적으로는
< url, 이 url을 request한 시간 > 이런 tuple을 쭉 얻고 싶습니다.
(예를 들면, <www.hani.co.kr, 2004/3/12 14:25:05> 이런 데이타들을
시간의 순서대로 쭉  )

구체적인 브라우저와 플랫폼은, 익스플로러 (in windows) 이면
제일 좋구요 (제가 제일 많이 쓰는 브라우저라서), 리눅스나 유닉스에서의
모질라도 괜찮습니다.

좀더 자세하게는, 위의
< url, 이 url을 request한 시간> 에 덧붙혀,
1. 이 url이 유저가 타이핑한 건지, 링크를 클릭한 건지도 알았으면
   좋겠는데, 뭐 이건 급한 건 아니구요 (현재 웹페이지에 링크로 존재하는
   url이면, 링크 클릭한 거라고 볼수 있으니까요)
2. 브라우저 내에서, backward, forward 단추를 눌러서 이동하는 것도
   기록되었으면 좋겠는데, 이건 새로 network으로 http request를 하는
   게 아닐테니, 어쩌면 구하기 힘들수도 있겠구요. 그렇다면 이것도
   optional...

이 정보를 알아내는 방법은,
제가 생각해본 것들은 크게
1. 웹 브라우저가 로그를 남기는 것을 이용한다.
   : 익스플로러가 남기는 history라는 걸 들여다봤는데, 그 파일 (index.dat
   라는 파일들이 history 디렉토리 밑에 있더군요.)은 그냥 읽을 수가 없었고,
   익스플로러에서 (아마도 그 파일들을 읽어서) 보여주는 히스토리들은,
   오늘, 하루전, ..., 1주일전, ... 뭐 이런 식이고 시간까지 나오는 자세한
   건 아니고, chronological하게 순서가 매겨져 있지도 않고 (알파벳 순으로
   보이더군요.) 그래서, 큰 도움이 안 되었습니다.  혹시, 이 히스토리 
파일들이
   충분히 자세한 내용을 갖고 있는 건데, 단지 위처럼 요약해서 보여주는 
거라면,
   이 파일들을 어떻게 decode하는지 가르쳐주시면 고맙겠습니다.
   모질라는 로그 파일을 본 적이 없네요.

   어쨌든, 노력이 제일 적게 든다는 점에서, 제일 선호하는 방법입니다.

2. 웹 브라우저와 연동하는 프로그램 짜기.
   : 이건 어떻게 해야할지 잘 모르겠는데, 익스플로러라면, 소스가 공개되어
   있지도 않을텐데, 할 수 있는건지도 잘 모르겠구요.  뭐 바깥에서, 네트웍
   으로 http request보내는 패킷 같은 걸 잡아서, 볼 수 있을진 잘 
모르겠네요.
   근데, 요즘 스파이웨어들 보면, 제가 웹에서 어떤 사이트 보고 있는지
   모니터링해서, 그와 관련된 광고들 보여주고 그러는거 보면, 뭔가
   쉽게 할수 있는 방법이 있을 것도 같은데요.  (혹시 이 스파이웨어들이
   익스플로러가 남기는 로그를 이용하는 걸까요?)
   모질라라면, 소스가 공개되어서, 적당한 부분에서 정보를 얻을 수 있을지도
   모르겠는데, 어쩐지 호미로 막을일을 가래로 막는 상황을 만드는 것인지
   싶기도 하고...
   
그리고, 이 데이타를 얻는 목적은, 그냥 그걸로 data mining을 해보려는 
것이라서,
아직 특별하게 어떤 용도라고 구체적으로 얘기할 수 있는 건 없구요.
   
어떤 방법이든, 제가 원하는 데이터를 알아낼 수 있는 방법이라면,
큰 도움이 될 것 같네요.
미리 감사드립니다.

[알림판목록 I] [알림판목록 II] [글 목록][이 전][다 음]
키 즈 는 열 린 사 람 들 의 모 임 입 니 다.