lang/html

META TAG

C/H 2009. 4. 24. 18:03

디렉토리의 최상위(/)에 "robots.txt" 라는 문서가 있는지 점검

User-agent:*
User-agent:Googlebot
Disallow:/selected
Disallow:/
Allow:/selected/books
Disallow:/reports/stat

위 내용이 robots.txt에 있을 경우 disallow(승인하지않음)를 해석하고 바로 끝낸다.

>
<meta name="robots" content="index,follow" /> <!--  ☞ 이 문서도 긁어가고 링크된 문서도 긁어감. -->
<meta name="robots" content="noindex,follow" /><!--  ☞ 이 문서는 긁어가지 말고 링크된 문서만 긁어감.-->
<meta name="robots" content="index,nofollow" /><!--   ☞ 이 문서는 긁어가되, 링크는 무시함.-->
<meta name="robots" content="noindex,nofollow" /><!--   ☞ 이 문서도 긁지 않고, 링크도 무시함.-->

<meta name="keywords" content="로봇검색을위한키워드" />
<meta name="description" content="로봇검색을위한 설명" />
<meta name="author" content="작성자" />
<meta name="copyright" content="저작권" />
<meta name="reply-to" content="연락처(메일주소)" />
<meta name="date" content="날짜(작성일자)" />
<meta name="title" content="사이트설명" />

<meta http-equiv="content-type" content="text/html;charset=euc-kr" /><!-- ☞ 한글페이지설정 -->
<meta http-equiv="refresh" content="시간;url=이동주소" />
  • date content 속성값 : 'YYYY-MM-DDThh:mm:ss.sTZD' '2009-04-23T09:02:20.s+9:00' GMT(그리니치 표준시)로 한국, '-05:00'(서머타임 '-04:00') 미국동부
  • 'TZD'는 협정 세계시(coordinated Universal Time: UTC), 즉 그리니치 표준시(GMT)로 부터의 시차이다. 시차기 없는 나라/지역에서는 'Z'라고 대문자로 표시한다.
  • W3C 주석 'Date and Time Format" http://wwww.we.org/TR/NOTE-datetime

http-equiv

서버가 클라이언트로부터 온 http request를 접수한 다음 http response를 다시 웹 브라우져로 보내 준다.
그 http response의 헤더를 각 (x)html 문서 별로 따로 설정할 수 있는 것이 http-equiv 메타 태그

일반적인 순서

  1. 사용자가 특정 문서로의 링크를 클릭
  2. 웹 브라우져에서 생성된 http request를 웹 서버로 보냄
  3. 웹 서버에서 접수한 뒤 http response와 함께 (x)html 파일(그래픽,싸운드등)을 TCP/IP를 이용해 전달
  4. 웹 브라우져에서는 http response에 설정된 대로 전달받은 파일을 염.

검색 봇

<meta name="ROBOTS" content="NOINDX, NOFOLLOW" />
  • ALL(기본값) : 'INDEX,FOLLOW'를 지정한 것과 같다.
  • NONE : 'NOINDEX,NOFOLLOW'를 지정한 것과 같다.
  • INDEX : 그 페이지를 수집대상으로 한다.(검색결과에 나타난다).
  • FOLLOW : 그 페이지를 포함해 링크가 걸린 곳을 수집대상으로 한다.
  • NOINDEX : 그 페이지를 수집대상에서 제외한ㄷ.(검색결과에 나타나지 않는다).
  • NOFOLLOW : 그 페이지를 포함해 링크가 걸린 곳을 수집대상으로 하지 않는다.

name, content속성값에 대해 HTML 4.01권고안은 대문자로 기술하고 대문자와 소문자를 구별하게 되어 있지만 실제 검색로봇은 구별하지 않는다.

아래는 사용하지만 웹표준에서는 인정하지 않은 내용

  • NOARCHIVE : 그 페이지를 캐시하지 않는다.
  • NOIMAGEINDEX : 그 페이지에 포함된 이미지를 검색대상에서 제외한다.
  • NOIMAGECLICK : 그 페이지에 포함된 이미제에의 링크를 방지한다.

구글(Google)의 검색로봇만을 제어

<meta name="GOOGLEBOT" content="NOINDEX,NOFOLLOW" />

구글 '페이지에서 삭제'

http://www.google.co.kr/webmasters/remove.html
반응형