META TAG

lang/html

META TAG

C/H 2009. 4. 24. 18:03

디렉토리의 최상위(/)에 "robots.txt" 라는 문서가 있는지 점검

User-agent:*
User-agent:Googlebot
Disallow:/selected
Disallow:/
Allow:/selected/books
Disallow:/reports/stat

위 내용이 robots.txt에 있을 경우 disallow(승인하지않음)를 해석하고 바로 끝낸다.

>
<meta name="robots" content="index,follow" /> <!--  ☞ 이 문서도 긁어가고 링크된 문서도 긁어감. -->
<meta name="robots" content="noindex,follow" /><!--  ☞ 이 문서는 긁어가지 말고 링크된 문서만 긁어감.-->
<meta name="robots" content="index,nofollow" /><!--   ☞ 이 문서는 긁어가되, 링크는 무시함.-->
<meta name="robots" content="noindex,nofollow" /><!--   ☞ 이 문서도 긁지 않고, 링크도 무시함.-->

<meta name="keywords" content="로봇검색을위한키워드" />
<meta name="description" content="로봇검색을위한 설명" />
<meta name="author" content="작성자" />
<meta name="copyright" content="저작권" />
<meta name="reply-to" content="연락처(메일주소)" />
<meta name="date" content="날짜(작성일자)" />
<meta name="title" content="사이트설명" />

<meta http-equiv="content-type" content="text/html;charset=euc-kr" /><!-- ☞ 한글페이지설정 -->
<meta http-equiv="refresh" content="시간;url=이동주소" />

date content 속성값 : 'YYYY-MM-DDThh:mm:ss.sTZD' '2009-04-23T09:02:20.s+9:00' GMT(그리니치 표준시)로 한국, '-05:00'(서머타임 '-04:00') 미국동부
'TZD'는 협정 세계시(coordinated Universal Time: UTC), 즉 그리니치 표준시(GMT)로 부터의 시차이다. 시차기 없는 나라/지역에서는 'Z'라고 대문자로 표시한다.
W3C 주석 'Date and Time Format" http://wwww.we.org/TR/NOTE-datetime

http-equiv

서버가 클라이언트로부터 온 http request를 접수한 다음 http response를 다시 웹 브라우져로 보내 준다.
그 http response의 헤더를 각 (x)html 문서 별로 따로 설정할 수 있는 것이 http-equiv 메타 태그

일반적인 순서

사용자가 특정 문서로의 링크를 클릭
웹 브라우져에서 생성된 http request를 웹 서버로 보냄
웹 서버에서 접수한 뒤 http response와 함께 (x)html 파일(그래픽,싸운드등)을 TCP/IP를 이용해 전달
웹 브라우져에서는 http response에 설정된 대로 전달받은 파일을 염.

검색 봇

<meta name="ROBOTS" content="NOINDX, NOFOLLOW" />

ALL(기본값) : 'INDEX,FOLLOW'를 지정한 것과 같다.
NONE : 'NOINDEX,NOFOLLOW'를 지정한 것과 같다.
INDEX : 그 페이지를 수집대상으로 한다.(검색결과에 나타난다).
FOLLOW : 그 페이지를 포함해 링크가 걸린 곳을 수집대상으로 한다.
NOINDEX : 그 페이지를 수집대상에서 제외한ㄷ.(검색결과에 나타나지 않는다).
NOFOLLOW : 그 페이지를 포함해 링크가 걸린 곳을 수집대상으로 하지 않는다.

name, content속성값에 대해 HTML 4.01권고안은 대문자로 기술하고 대문자와 소문자를 구별하게 되어 있지만 실제 검색로봇은 구별하지 않는다.

아래는 사용하지만 웹표준에서는 인정하지 않은 내용

NOARCHIVE : 그 페이지를 캐시하지 않는다.
NOIMAGEINDEX : 그 페이지에 포함된 이미지를 검색대상에서 제외한다.
NOIMAGECLICK : 그 페이지에 포함된 이미제에의 링크를 방지한다.

Robotstxt.org "HTML Author's Guide to the Robots META tag"

구글(Google)의 검색로봇만을 제어

<meta name="GOOGLEBOT" content="NOINDEX,NOFOLLOW" />

구글 '페이지에서 삭제'

http://www.google.co.kr/webmasters/remove.html