소개
REP(로봇 제외 프로토콜)는 로봇에 지시하는 데 사용되는 웹마스터 파일입니다. 이 지침은 로봇이 웹 페이지를 크롤링하고 다양한 웹사이트에 대한 색인을 생성하는 데 도움이 됩니다. 이 REP는 Robots.txt라고도 합니다. 가장 유용하게 사용할 수 있도록 웹 서버 디렉터리의 최상위 레벨에 배치됩니다. 예: https://www.123abc.com/robots.txt
REP 그룹은 봇 작업 및 검색 엔진 인덱싱 동작을 규제하는 웹 표준으로 사용됩니다. 1994 년과 1997년 사이에 최초의 REP는 robots.txt에 대한 봇 동작을 정의했습니다. 1996년, 검색 엔진은 추가 REP X-로봇 태그를 지원했습니다. 검색 엔진은 마이크로포맷 rel-no follow를 사용하여 값에 '팔로우'가 포함된 링크를 처리했습니다.
로봇 치트 시트
웹 크롤러를 완전히 차단하려면
사용자 에이전트: * 허용하지 않음: /
대상 폴더에서 특정 웹 크롤러를 차단하려면 다음과 같이 하세요.
사용자 에이전트: 구글봇 허용 안함: /no-google/
대상 웹 페이지에서 특정 웹 크롤러를 차단하려면 다음과 같이 하세요.
사용자 에이전트: 구글봇 허용 안 함: /no-google/blocked-page.html 사용자 에이전트: * 허용하지 않음:
사이트맵: https://www.123abc.com/none-standard-location/sitemap.xml
제외 특정 로봇 프로토콜 태그
URI, REP 태그는 특정 인덱서 작업에 적용되며, 경우에 따라 노스니펫, 노아카이브, 노드쿼리 엔진 또는 검색 쿼리에 적용되기도 합니다. 제외 태그로 태그가 지정된 리소스의 경우, Bing SERP 목록과 같은 검색 엔진은 이러한 외부 링크를 금지된 URL로 표시합니다. 크롤러 지시어 외에도 특정 검색 엔진은 REP 태그를 다르게 해석합니다. 예를 들어 Bing은 때때로 SERP에 외부 참조를 금지된 것으로 표시하는 경우가 있습니다. Google은 동일한 리스팅을 가져와 SERP에서 URL 및 ODP 참조를 삭제합니다. 이는 X-로봇이 메타 요소와 충돌하는 지시문을 무시하기 때문이라고 생각됩니다.
마이크로포맷
특정 HTML 요소는 마이크로 형식의 인덱스 지시어에서 페이지 설정을 재정의합니다. 이 프로그래밍 방법을 사용하려면 웹 서버와 HTTP 프로토콜에 대한 기술과 예리한 이해 가 필요합니다. 이 프로토콜의 예로는 특정 요소 링크가 있는 X-Robot 태그 페이지가 있는데, 이 페이지에는 팔로우 후 rel-nofollow가 있습니다. Robots.txt 인덱서에는 일반적으로 지시어가 없지만 사이트 수준에서 사이드 스크립트가 있는 서버가 있는 URI의 그룹 인덱서를 설정할 수 있습니다.
패턴 매칭
웹마스터는 여전히 두 개의 별도 표현식을 사용하여 페이지 제외를 나타낼 수 있습니다. 두 문자는 별표와 달러 기호입니다. 별표는 모든 문자 조합을 나타낼 수 있음을 나타냅니다. 달러 기호는 URL의 끝을 나타냅니다.
무제한 정보
로봇 파일은 항상 공개되므로 웹 페이지에 첨부된 로봇 파일은 누구나 볼 수 있다는 점에 유의해야 합니다. 또한 웹마스터가 서버에서 엔진을 차단한 경우에도 액세스할 수 있는 정보입니다. 이러한 공개 파일은 사적인 개인 데이터를 포함할 수 있는 비공개 사용자 데이터에 대한 액세스를 허용합니다. 비밀번호 보호를 추가하여 방문자나 다른 사람이 색인화되어서는 안 되는 기밀 페이지를 보지 못하도록 차단할 수 있습니다.
추가 규칙
- 인덱스 및 팔로우 명령과 같은 간단한 메타 로봇 매개변수는 페이지 인덱싱 및 크롤링을 방지하는 용도로만 사용해야 합니다.
- 위험한 봇은 이러한 명령을 무시할 가능성이 높으므로 이러한 보안 계획은 쓸모없는 것입니다.
- 각 URL에는 '허용 안 함' 줄이 하나만 허용됩니다.
- 각 하위 도메인에 별도의 로봇 파일이 필요합니다.
- 봇의 파일 이름은 대소문자를 구분합니다.
- 공백은 검색 매개변수를 구분하지 않습니다.
최고의 SEO 전략: Robot.txt
페이지 차단 - 검색 엔진이 웹 페이지 또는 도메인에 색인을 생성하고 액세스하는 것을 방지하는 방법에는 여러 가지가 있습니다.
로봇을 사용하여 페이지 차단하기
이 제외는 검색 엔진에 페이지를 크롤링하지 말라고 지시하지만, 검색 엔진은 여전히 페이지를 색인화하여 SERP 목록에 표시할 수 있습니다.
인덱스 페이지 차단 없음
이 제외 방법은 검색 엔진에 페이지 방문은 허용되지만 URL을 표시하거나 색인을 위해 페이지를 저장하는 것은 허용되지 않음을 알려줍니다. 이 방법이 가장 선호되는 제외 방법입니다.
페이지 차단 링크 팔로우 금지
이 방법은 지원되는 전략이 아닙니다. 검색 엔진은 여전히 이 명령을 사용하여 페이지에 액세스할 수 있습니다. 검색 엔진이 페이지를 직접 따라갈 수 없더라도 브라우저 애널리틱스 또는 기타 링크된 페이지를 사용하여 콘텐츠에 액세스할 수 있습니다.
메타 로봇 대 로봇.txt
웹사이트의 robots.txt 파일의 예는 프로그램의 프로세스를 명확히 하는 데 도움이 될 수 있습니다. 이 예에서는 로봇 파일이 디렉터리를 차단하고 있습니다. Google에서 특정 URL을 검색하면 해당 디렉토리에서 2760개의 페이지가 허용되지 않은 것으로 표시됩니다. 이 예에서는 엔진이 URL을 크롤링하지 않았으므로 기존 목록처럼 표시되지 않습니다. 이러한 페이지에 링크가 연결되면 링크 주스가 축적됩니다. 순위가 올라갈 뿐만 아니라 검색에 노출되면서 인기와 신뢰를 얻기 시작할 것입니다. 이러한 페이지는 크롤링되지 않기 때문에 사이트에 도움이 될 수 없습니다. 이 문제를 해결하고 페이지의 랭킹 파워를 낭비하지 않는 가장 좋은 방법은 다른 제외 방법을 사용하여 개별 페이지를 제거하는 것입니다. 코딩은 다 음과 같이 표시됩니다. 메타 태그 이 방법은 이전 방법보다 더 나은 성능을 발휘합니다.