server-side

로그 형식

C/H 2007. 4. 2. 13:23
접근 로그 (Access Log)

서버 접근 로그는 서버가 처리하는 모든 요청을 기록한다. CustomLog  지시어는 접근 로그의 위치와 내용을 지정한다. LogFormat 지시어를 사용하여 로그에 포함할 내용을 쉽게 선택할 수 있다. 이 절은 서버가 접근 로그에 쓸 내용을 설정하는 방법을 설명한다.

물론 접근 로그에 정보를 기록하는 것은 로그 관리의 시작일 뿐이다. 다음 단계는 이 정보를 분석하여 유용한 통계를 만드는 것이다. 이 문서는 일반적인 로그 분석에 대해서 다루지 않으며, 로그 분석은 실제 웹서버가 할 일이 아니다. 로그 분석에 대한 정보와 로그를 분석하는 소프트웨어에 대해서는 Open Directory나 Yahoo를 참고하라.

아파치 웹서버는 이전부터 mod_log_referer, mod_log_agent, CustomLog 같은 모듈과 지시어를 사용하여 접근 로그를 다루었다. 지금은 CustomLog 지시어가 오래된 지시어들의 모든 기능을 이어받았다.

접근 로그의 형식은 매우 사용자정의 가능하다. 형식은 C의 printf(1) 형식문자열과 매우 유사한 형식문자열을 사용하여 지정한다. 다음 절에 예를 들었다. 형식문자열에 사용가능한 모든 내용을 알려면 mod_log_config 형식문자열을 참고하라.


Common 로그 형식

접근 로그의 전형적인 설정은 다음과 같다.

LogFormat "%h %l %u %t \"%r\" %>s %b" common
CustomLog logs/access_log common


그러면 지정한 로그 형식문자열을 별명  common으로 정의한다. 형식문자열은 퍼센트 지시어들로 구성되며, 각각은 어떤 정보를 기록할지 알린다. 형식문자열에 일반 문자를 적으면 그대로 로그에 출력된다. 따옴표 문자(")를 출력하고 싶다면 백슬래쉬를 앞에 붙여서 형식문자열의 끝이 아님을 표시한다. 형식문자열에 줄바꿈 "\n", 탭 "\t"와 같은 특수 조절문자를 사용할 수 있다.

CustomLog 지시어는 정의한 별명을 사용하는 새로운 로그파일을 만든다. 접근 로그의 파일명이 슬래쉬로 시작하지않으면 ServerRoot의 상대경로이다.

앞의 설정은 공통로그형식(Common Log Format, CLF)이라는 형식으로 로그 항목을 기록한다. 여러 다른 웹서버들도 이런 표준 형식으로 로그를 만들며, 여러 로그 분석 프로그램에서 읽을 수 있다. CLF로 만든 로그파일 항목은 다음과 같다:


127.0.0.1 - frank [10/Oct/2000:13:55:36 -0700] "GET /apache_pb.gif HTTP/1.0" 200 2326


이제 로그 항목의 각 부분을 설명한다.

127.0.0.1 (%h)
    서버에 요청을 한 클라이언트(원격 호스트)의 IP 주소이다. HostnameLookups가 On이라면 호스트명을 찾아서 IP 주소 자리에 대신 쓴다. 그러나 이 설정은 서버를 매우 느리게 할 수 있으므로 추천하지 않는다. 호스트명을 알려면 대신 나중에 logresolve와 같은 로그를 처리하는 프로그램을 사용하는 것이 좋다. 여기에 나온 IP 주소는 사용자가 사용하는 컴퓨터 주소가 아닐 수 있다. 프록시 서버가 사용자와 서버사이에 존재한다면, 원래 컴퓨터 주소가 아니라 프록시의 주소가 기록될 것이다.
- (%l)
    출력에서 "빼기기호"는 요청한 정보가 없음을 나타낸다. 이 경우 여기에 나올 정보는 클라이언트 컴퓨터의 identd가 제공할 클라이언트의 RFC 1413 신원이다. 이 정보는 매우 믿을 수 없기때문에, 긴밀히 관리되는 내부 네트웍이 아니라면 절대로 이 정보를 사용하면 안된다. IdentityCheck가 On이 아니라면 아파치 웹서버는 이 정보를 알아보려고 시도하지도 않는다.
frank (%u)
    이는 HTTP 인증으로 알아낸 문서를 요청한 사용자의 userid이다. 보통 이 값은 CGI 스크립트에게 REMOTE_USER 환경변수로 넘겨진다. 요청의 상태코드가 401이라면 (아래 참고) 사용자가 아직 인증을 거치지 않았으므로 이 값을 믿으면 안된다. 문서를 암호로 보호하지 않는다면 이 항목은 이전 항목과 같이 "-"이다.
[10/Oct/2000:13:55:36 -0700] (%t)
    서버가 요청처리를 마친 시간. 형식은:

    [day/month/year:hour:minute:second zone]
    day = 숫자 2개
    month = 숫자 3개
    year = 숫자 4개
    hour = 숫자 2개
    minute = 숫자 2개
    second = 숫자 2개
    zone = (`+' | `-') 숫자 4개
    로그 형식문자열에 %{format}t를 사용하여 다른 형식으로 시간을 출력할 수 있다. format은 C 표준 라이브러리의 strftime(3)과 같다.
"GET /apache_pb.gif HTTP/1.0" (\"%r\")
    클라이언트의 요청줄이 쌍따옴표로 묶여있다. 요청줄은 매우 유용한 정보를 담고 있다. 첫째, 클라이언트가 사용한 메써드는 GET이다. 둘째, 클라이언트는 자원 /apache_pb.gif를 요청한다. 세번째, 클라이언트는 HTTP/1.0 프로토콜을 사용한다. 요청줄의 여러 부분을 따로 로그할 수도 있다. 예를 들어, 형식문자열 "%m %U%q %H"은 "%r"과 똑같이 메써드, 경로, 질의문자열, 프로토콜을 로그한다.
200 (%>s)
    이는 서버가 클라이언트에게 보내는 상태코드이다. 이 정보는 (2로 시작하는 코드) 요청이 성공하였는지, (4로 시작하는 코드) 클라이언트에 오류가 있는지, (5로 시작하는 코드) 서버에 오류가 있는지 알려주므로 매우 중요하다. 상태코드의 전체 목록은 HTTP 규약 (RFC2616 section 10)에서 찾을 수 있다.
2326 (%b)
    마지막 항목은 응답 헤더를 제외하고 클라이언트에게 보내는 내용의 크기를 나타낸다. 클라이언트에게 보내는 내용이 없다면 이 값은 "-"이다. 내용이 없는 경우 "0"을 로그하려면 대신 %B를 사용한다.

Combined 로그 형식

자주 사용되는 다른 형식문자열은 결합된로그형식(Combined Log Format)이다. 다음과 같이 사용한다.

LogFormat "%h %l %u %t \"%r\" %>s %b \"%{Referer}i\" \"%{User-agent}i\"" combined
CustomLog log/access_log combined

이 형식은 두 항목을 더 추가한 것을 제외하고는 Common 로그 형식과 완전히 같다. 추가된 항목들은 퍼센트 지시어 %{header}i를 사용한다. 여기서 header 자리에 HTTP 요청 헤더 이름이 나올 수 있다. 이 형식의 접근 로그는 다음과 같다:

127.0.0.1 - frank [10/Oct/2000:13:55:36 -0700] "GET /apache_pb.gif HTTP/1.0" 200 2326 "http://www.example.com/start.html" "Mozilla/4.08 [en] (Win98; I ;Nav)"

추가된 항목은:

"http://www.example.com/start.html" (\"%{Referer}i\")
    "Referer" (맞춤법 틀리지않았음) HTTP 요청 헤더. 클라이언트가 참조했다고 서버에게 알린 사이트이다. (즉, /apache_pb.gif를 링크하였거나 포함한 사이트이다.)
"Mozilla/4.08 [en] (Win98; I ;Nav)" (\"%{User-agent}i\")
    User-Agent HTTP 요청 헤더. 클라이언트 브라우저가 자신에 대해 알리는 식별정보이다.

여러 접근 로그

설정파일에 여러 CustomLog 지시어를 사용하면 접근 로그가 여러개 만들어진다. 예를 들어, 다음 설정은 세가지 접근 로그를 만든다. 첫번째는 기본 CLF 정보를 기록하고, 두번째와 세번째는 referer와 브라우저 정보를 기록한다. 마지막 두 CustomLog 줄은 어떻게 이전 ReferLog와 AgentLog 지시어의 기능을 흉내낼 수 있는지 보여준다.

LogFormat "%h %l %u %t \"%r\" %>s %b" common
CustomLog logs/access_log common
CustomLog logs/referer_log "%{Referer}i -> %U"
CustomLog logs/agent_log "%{User-agent}i"

또, 이 예는 LogFormat으로 반드시 별명을 정의할 필요는 없음을 보여준다. 대신 CustomLog 지시어에 직접 로그 형식을 지정할 수 있다.
조건부 로그

클라이언트 요청의 성격에 따라 해당 항목을 접근 로그에 기록하지않고 싶을 때가 있다. 환경변수를 사용하면 쉽게 해결된다. 먼저, 클라이언트가 특정 조건을 만족하면 환경변수를 설정한다. 이 작업에는 보통 SetEnvIf를 사용한다. 그리고 CustomLog 지시어에 env=을 사용하여 환경변수 유무에 따라 요청을 집어넣거나 뺀다. 예를 들면:

# loop-back 인터페이스에서 요청을 표시한다
SetEnvIf Remote_Addr "127\.0\.0\.1" dontlog
# robots.txt 파일에 대한 요청을 표시한다
SetEnvIf Request_URI "^/robots\.txt$" dontlog
# 나머지를 로그에 남긴다
CustomLog logs/access_log common env=!dontlog

다른 예로 영어권 사용자의 요청만을 한 로그파일에 기록하고, 비영어권 사용자의 요청은 다른 로그파일에 기록하는 경우를 생각해보자.

SetEnvIf Accept-Language "en" english
CustomLog logs/english_log common env=english
CustomLog logs/non_english_log common env=!english

조건부 로그는 매우 강력하고 유연하지만, 이것이 로그 내용을 조절하는 유일한 방법은 아니다. 로그파일은 서버의 모든 행동을 기록할때 더 유용하다. 나중에 원하지않는 요청을 제외하고 로그파일을 분석하는 것이 더 쉽다.

사용자가 사용할수 있는 로그파일 형식 예제...
***********************************************************
$LogInfo = ''.
    ((strlen($_SERVER['REMOTE_ADDR'])>0)?$_SERVER['REMOTE_ADDR']:'-').    // 클라이언트(원격 호스트)의 IP 주소
    ' -'.        // 클라이언트 컴퓨터의 identd가 제공할 클라이언트의 RFC 1413 신원, 절대로 이 정보를 사용하면 안된다
    ' -'.((strlen($_COOKIE['user_id'])>0)?$user_id:'-').        // 문서를 요청한 사용자의 userid
    ' -'.date('d/M/Y:H:i:s O').        // day/month/year:hour:minute:second zone
    '"'.$_SERVER['REQUEST_METHOD'].        // 클라이언트가 사용한 메써드
    ' '.$_SERVER['PHP_SELF'].        // 클라이언트 자원
    ' '.$_SERVER['SERVER_PROTOCOL'].    // 클라이언트 프로토콜
    '"'.
    ' 200'.        // %>s : 서버가 클라이언트에게 보내는 상태코드, HTTP 규약 (RFC2616 section 10)
    ' -'.        // %b : 응답 헤더를 제외하고 클라이언트에게 보내는 내용의 크기, 내용이 없으면 '-'
    ' "'.$_SERVER['HTTP_REFERER'].'"'.    // \"%{Referer}i\" : HTTP 요청 헤더. 클라이언트가 참조했다고 서버에게 알린 사이트
    ' "'.$_SERVER['HTTP_USER_AGENT'].'"'.    // \"%{User-agent}i\" 클라이언트 브라우저가 자신에 대해 알리는 식별정보
    "\n";
***********************************************************

출처 : http://httpd.apache.org/docs/2.0/ko/logs.html
반응형