google/search

구글검색로봇 접근 차단법

C/H 2007. 1. 31. 18:07
1. 웹 페이지 전체 삭제

Google 색인에서 웹사이트 전체를 제거하시려면 서버의 루트에 robots.txt라는 파일을 추가하십시오. 이것은 대부분의 웹 크롤러가 색인에서 웹 서버나 디렉터리를 삭제하기 사용하는 표준 프로토콜입니다. robots.txt에 대한 자세한 내용은 여기서 보실 수 있습니다. http://www.robotstxt.org/wc/norobots.html [새창에서 열기] , Googlebot은 robots.txt 가져오기에 대한 401/403 응답("비인증"/"금지")을 사이트의 페이지를 크롤링하지 말라는 요청으로 해석하지 않습니다.

검색 엔진에서 사이트를 제거하고 향후 어떤 로봇도 사이트를 크롤링하지 못하게 하시려면 서버 루트에 다음 robots.txt 파일을 추가하십시오.

User-agent: *
Disallow: /
Google에서만 사이트를 제거하고 향후 Googlebot이 사이트를 크롤링하지 못하게 하시려면 서버 루트에 다음 robots.txt 파일을 추가하십시오.

User-agent: Googlebot
Disallow: /
각 포트에는 전용 robots.txt 파일이 있어야 합니다. 특히 http와 https 모두를 통해 콘텐츠를 공급할 경우 이 두 가지 프로토콜에 대해 각각의 robots.txt 파일이 있어야 합니다. 예를 들어, Googlebot이 https 페이지를 제외한 모든 http 페이지를 색인에 포함하도록 하려면 아래 robots.txt 파일을 사용하셔야 합니다.

http 프로토콜의 경우(http://yourserver.com/robots.txt):

User-agent: *
Allow: /
https 프로토콜의 경우(http://yourserver.com/robots.txt):

User-agent: *
Disallow: /

참고사항: 귀하의 상황이 긴급해서 Google이 다음에 귀하의 사이트를 크롤링할 때까지 기다릴 수 없다고 생각되시면, Google의 자동 URL 제거 시스템을 사용하시기 바랍니다. 이 자동 시스템이 작동하려면 먼저 웹 마스터가 robots.txt 파일을 만들어 해당 사이트에 추가하셔야 합니다.

robots.txt 파일이 웹 서버 루트에 있으면 Google이 다음 크롤링에서 귀하의 사이트나 디렉터리를 제외합니다. 서버의 루트 레벨에 액세스할 권한이 없으시다면 제거하기 원하는 파일과 동일한 수준의 레벨에 robots.txt 파일을 추가하실 수도 있습니다. 자동 URL 제거 시스템을 통해 위와 같이 제출하시고 귀하의 요청이 처리되면 robots.txt 파일의 제거 여부에 관계없이 귀하의 사이트는 임시로, 180일간 Google 색인에서 제거됩니다. (동일 레벨에 robots.txt 파일을 추가하시는 경우 180일마다 URL 제거 시스템으로 가서 이를 다시 제거하셔야 합니다.)


1. 웹 페이지 일부 삭제

옵션 1: Robots.txt

웹사이트의 디렉터리나 개별 페이지를 제거하시려면 서버의 루트에 robots.txt라는 파일을 추가하십시오. robots.txt 파일을 작성하는 방법은 로봇 제외 기준을 참조하시기 바랍니다. robots.txt 파일 작성 시에는 다음 사항에 유의하십시오. Googlebot은 특정 호스트에서 크롤링할 페이지를 결정할 때 “Googlebot”으로 시작하는 사용자-에이전트가 있는 robots.txt 파일에서 첫 번째 기록을 따릅니다. 이런 항목이 없으면 “*”의 사용자-에이전트가 있는 첫 번째 항목을 따릅니다. 또한, Google은 별표를 사용하여 robots.txt 파일의 유연성을 향상시켰습니다. 금지 패턴에는 문자의 어떤 순서와도 일치하도록 "*"를 포함할 수도 있으며 “$”로 마침으로써 이름의 끝을 표시할 수도 있습니다.

특정 디렉터리(예: lemurs)의 모든 페이지를 삭제하려면 다음 robots.txt 항목을 사용하십시오.

User-agent: Googlebot
Disallow: /lemurs
특정 파일 형식(예: .gif)의 모든 페이지를 삭제하려면 다음 robots.txt 항목을 사용하십시오.

User-agent: Googlebot
Disallow: /*.gif$
동적 생성 페이지를 삭제하려면 다음 robots.txt 항목을 사용하십시오.

User-agent: Googlebot
Disallow: /*?
옵션 2:메타 태그

페이지별로 보다 편리하게 사용할 수 있는 다른 표준에는 <META> 태그를 HTML 페이지에 추가하여 로봇이 해당 페이지를 색인에 포함하지 않도록 지시하는 작업이 포함됩니다. 이 표준에 대한 자세한 내용은 http://www.robotstxt.org/wc/exclusion.html#meta [새창에서 열기] 에서 확인하실 수 있습니다.

어떤 로봇도 사이트를 크롤링하지 못하게 하시려면 페이지의 <HEAD> 섹션에 다음 메타 태그를 추가하십시오.

<META NAME="ROBOTS" CONTENT="NOINDEX, NOFOLLOW">

다른 로봇은 귀하의 사이트에 있는 페이지를 색인에 포함하도록 하고 Google 로봇만이 페이지를 색인에 포함하지 못하게 하시려면 다음 태그를 사용하십시오.

<META NAME="GOOGLEBOT" CONTENT="NOINDEX, NOFOLLOW">

로봇이 귀하의 사이트에 있는 페이지를 색인에 포함하도록 허용하고 외부와 연결된 링크를 따라가지 못하도록 하시려면 다음 태그를 사용하십시오.

<META NAME="ROBOTS" CONTENT="NOFOLLOW">

참고사항: 귀하의 상황이 긴급해서 Google이 다음에 귀하의 사이트를 크롤링할 때까지 기다릴 수 없다고 생각되시면, Google의 자동 URL 제거 시스템을 사용하시기 바랍니다. 이 자동 시스템이 작동하려면 먼저 웹 마스터가 페이지의 HTML 코드에 적절한 메타 태그를 삽입하셔야 합니다. 자동 URL 제거 시스템을 통해 위와 같이 제출하시고 귀하의 요청이 처리되면 robots.txt 파일 또는 메타 태그의 제거 여부에 관계없이 이 페이지는 임시로, 180일간 Google 색인에서 제거됩니다.


3. 스니펫 제거

스니펫은 검색 결과 아래에 게시되어 페이지의 내용을 설명하는 발췌 텍스트입니다.

Google이 귀하의 페이지에 대한 스니펫을 표시하지 못하게 하시려면 페이지의 <HEAD> 섹션에 다음 태그를 추가하십시오.

<META NAME="GOOGLEBOT" CONTENT="NOSNIPPET">

참고사항: 스니펫을 제거하면 캐시된 페이지도 함께 제거됩니다.

참고사항: 귀하의 상황이 긴급해서 Google이 다음에 귀하의 사이트를 크롤링할 때까지 기다릴 수 없다고 생각되시면, Google의 자동 URL 제거 시스템을 사용하시기 바랍니다. 이 자동 시스템이 작동하려면 먼저 웹 마스터가 페이지의 HTML 코드에 적절한 메타 태그를 삽입하셔야 합니다.


4. 캐시된 페이지 제거

Google은 크롤링하는 모든 페이지를 "스냅샷"으로 보관합니다. 이렇게 "캐시된" 버전은 웹 서버의 일시적인 다운 등으로 원본 페이지를 사용할 수 없을 때 최종 사용자에게 제공됩니다. 캐시된 페이지는 Google이 크롤링했을 때와 거의 유사하게 보이며 페이지 상단에 캐시 버전이라는 메시지가 표시됩니다. 사용자는 검색 결과 페이지에서 “캐시된” 링크를 선택할 경우 캐시된 버전을 사용할 수 있습니다.

모든 검색 엔진에서 귀하의 사이트에 대해 “캐시된” 링크를 표시하지 않도록 하시려면 페이지의 <HEAD> 섹션에 다음 태그를 추가하십시오.


<META NAME="ROBOTS" CONTENT="NOARCHIVE">
다른 검색 엔진에서 “캐시된” 링크를 표시하도록 허용하고 Google에서만 이를 표시하지 못하게 하시려면 다음 태그를 사용하십시오.

<META NAME="GOOGLEBOT" CONTENT="NOARCHIVE">

참고사항: 이 태그는 페이지에 대해 “캐시된” 링크만 제거합니다. Google은 계속 페이지를 색인에 포함하고 스니펫을 표시하게 됩니다.

참고사항: 귀하의 상황이 긴급해서 Google이 다음에 귀하의 사이트를 크롤링할 때까지 기다릴 수 없다고 생각되시면, Google의 자동 URL 제거 시스템을 사용하시기 바랍니다. 이 자동 시스템이 작동하려면 먼저 웹 마스터가 페이지의 HTML 코드에 적절한 메타 태그를 삽입하셔야 합니다.


5. 업데이트되지 않는(“죽은”) 링크 제거

Google은 정기적으로 모든 색인을 자동 업데이트합니다. 웹을 크롤링하는 동안 새 페이지를 발견하고 죽은 링크를 삭제하고 자동으로 링크를 업데이트합니다. 현재 업데이트되지 않는 링크는 향후 크롤링이 진행되면서 색인에서 점차 사라지게 됩니다.

참고사항: 귀하의 상황이 긴급해서 Google이 다음에 귀하의 사이트를 크롤링할 때까지 기다릴 수 없다고 생각되시면, Google의 자동 URL 제거 시스템을 사용하시기 바랍니다. Google은 귀하의 페이지가 http 헤더를 통한 404 오류일 경우에만 제거 요청을 받아들입니다. 방문객을 위해 좀 더 사용자 친화적인 HTML 페이지 본문을 사용하시더라도 정확히 404 오류가 나오도록 하셔야 합니다. 페이지의 http 헤더가 200 상태 (정상)라면 “파일을 찾을 수 없음”이라고 표시되어있어도 제거 요청을 하실 수 없습니다.


6. Google 이미지 검색에서 이미지 제거

Google 이미지 색인에서 이미지를 제거하려면 서버의 루트에 robots.txt 파일을 추가하십시오. (서버 루트에 넣을 수 없다면 디렉터리에 이를 추가하십시오.)

예: 귀하의 사이트(www.yoursite.com/images/dogs.jpg)에 게재된 dogs.jpg 이미지를 Google이 제거하기를 원하시면 www.yoursite.com/robots.txt에 페이지를 하나 만들어 다음 텍스트를 추가하십시오.

User-agent: Googlebot-Image
Disallow: /images/dogs.jpg
Google 색인에서 귀하의 사이트에 있는 이미지를 모두 제거하려면 서버 루트에 다음 robots.txt 파일을 추가하십시오.

User-agent: Googlebot-Image
Disallow: /
이것은 대부분의 웹 크롤러가 색인에서 웹 서버나 디렉터리를 삭제하기 위해 사용하는 표준 프로토콜입니다. robots.txt에 대한 자세한 내용은 여기서 보실 수 있습니다. http://www.robotstxt.org/wc/norobots.html [새창에서 열기] ,

또한 Google은 별표를 사용하여 robots.txt 파일의 유연성을 향상시켰습니다. 금지 패턴은 어떤 문자 순서와도 일치하도록 “*”를 포함할 수 있으며 "$"로 마침으로써 이름의 끝을 표시할 수도 있습니다. 특정 파일 형식을 가진 모든 파일을 제거하려면(예를 들어, .jpg는 포함하지만 .gif 이미지는 포함하지 않으려면) 다음 robots.txt 항목을 사용하십시오.

User-agent: Googlebot-Image
Disallow: /*.gif$

참고사항: 귀하의 상황이 긴급해서 Google이 다음에 귀하의 사이트를 크롤링할 때까지 기다릴 수 없다고 생각되시면, Google의 자동 URL 제거 시스템을 사용하시기 바랍니다. 이 자동 시스템이 작동하려면 먼저 웹 마스터가 robots.txt 파일을 만들어 해당 사이트에 추가하셔야 합니다.

robots.txt 파일이 웹 서버 루트에 있으면 다음 크롤링에서 Googlebot이 귀하의 사이트나 디렉터리를 제외합니다. 서버의 루트 레벨에 액세스할 권한이 없으시다면 제거하기 원하는 파일과 동일한 수준의 레벨에 robots.txt 파일을 추가하실 수도 있습니다. 자동 URL 제거 시스템을 통해 위와 같이 제출하시고 귀하의 요청이 처리되면 robots.txt 파일의 제거 여부에 관계없이 귀하의 robots.txt 파일에서 지정한 디렉터리는 임시로, 180일간 Google 색인에서 제거됩니다. (동일 레벨에 robots.txt 파일을 추가하시는 경우 180일마다 URL 제거 시스템으로 가서 이를 다시 제거하셔야 합니다.)

출처 : http://blog.naver.com/cil1/30006317916
반응형

'google > search' 카테고리의 다른 글

Google Search  (0) 2014.06.11
구글링 팁  (4) 2007.03.01