SEO речник / Пълзящи машини

Пълзящи машини

Какво е пълзящ апарат?

Краулърът е интернет програма, предназначена за систематично сърфиране в интернет. Краулерите се използват най-често като средство, с което търсачките откриват и обработват страници, за да ги индексират и покажат в резултатите от търсенето.

В допълнение към обхождащите програми, които обработват HTML, някои специални обхождащи програми се използват и за индексиране на изображения и видеоклипове.

В реалния свят основните уеб търсачки, които трябва да познавате, са тези, използвани от водещите световни търсачки: Googlebot, Bingbot, Yandex Bot и Baidu Spider.

Добри срещу лоши пълзящи машини

Мислете за добрия обхождащ компютър като за бот, който може да помогне на сайта ви, най-вече като добави съдържанието ви в индекса за търсене или като ви помогне да извършите одит на сайта си. Други отличителни белези на добрия обхождащ робот са, че той се идентифицира, следва вашите указания и регулира скоростта на обхождане, за да не претоварва сървъра ви.

Лошият ползувател е бот, който не добавя стойност за собственика на уебсайта и може да има злонамерени намерения. Лошите обхождащи ботове могат да не се идентифицират, да заобикалят указанията ви, да създават ненужно натоварване на сървърите и дори да крадат съдържание и данни.

Видове пълзящи машини

Съществуват два основни типа обхождащи устройства:

  1. Постоянно обхождащи ботове: Те извършват обхождане 24 часа в денонощието, 7 дни в седмицата, за да откриват нови страници и да претърсват по-стари (напр. Googlebot).
  2. Ботове при поискване: Те обхождат ограничен брой страници и извършват обхождане само при поискване (напр. бот Ranktracker Site Audit).

Защо е важно обхождането на уебсайтове?

Основната цел на търсачката е да открие какво има на вашия уебсайт и да добави тази информация към индекса за търсене. Ако сайтът ви не е обходен, съдържанието ви няма да се появи в резултатите от търсенето.

Претърсването на уебсайтове не е само еднократно събитие - това е постоянна практика за активните уебсайтове. Ботовете редовно претърсват уебсайтове, за да откриват и добавят нови страници в индекса за търсене, като същевременно актуализират информацията за съществуващите страници.

Въпреки че повечето обхождащи програми се свързват с търсачките, има и други видове обхождащи програми. Например ботът Ranktracker Site Audit може да ви помогне да видите какво не е наред с вашия уебсайт по отношение на SEO.

Как работят пълзящите машини?

Накратко казано, уеб обхождащ робот като Googlebot открива URL адресите на вашия уебсайт чрез карти на сайта, връзки и ръчно подаване на данни чрез Google Search Console. След това той ще следва "разрешените" връзки на тези страници.

Това става, като се спазват правилата на robots.txt, както и атрибутите "nofollow" на връзките и на отделните страници.

Някои уебсайтове - тези с повече от 1 милион страници, които се актуализират редовно, или тези с 10 000 страници съдържание, което се променя ежедневно - може да имат ограничен "бюджет за обхождане". Това се отнася до времето и ресурсите, които ботът може да посвети на даден уебсайт в рамките на една сесия.

Приоритети на пълзенето

Поради ограничения капацитет на бюджетите за обхождане, обхождащите машини работят по набор от приоритети за обхождане. Googlebot, например, взема предвид следното:

  • PageRank на URL адреса
  • Колко често се актуализира(т) страницата(ите)
  • Дали страницата е нова или не

По този начин обхождащата програма може да се съсредоточи върху обхождането първо на най-важните страници на сайта ви.

Мобилни версии на обхождащите устройства спрямо тези за настолни компютри

Googlebot има две основни версии: Googlebot Desktop и Googlebot Smartphone. В днешно време Google използва индексиране по мобилни устройства, което означава, че агентът на Google за смартфони е основният Googlebot, използван за обхождане и индексиране на страници.

На тези различни видове обхождащи устройства могат да бъдат представени различни версии на уебсайта. От техническа гледна точка ботът се идентифицира пред уеб сървъра, като използва HTTP заглавието на заявката User-Agent, заедно с уникален идентификатор.

Най-добри практики за удобен за пълзене уебсайт

За да сте сигурни, че сайтът ви е готов за обхождане, препоръчваме няколко стъпки. Следвайте ги, за да дадете на ключовите си страници най-добрия шанс за индексиране и класиране.

1. Проверете файла си Robots.txt

Файлът robots.txt е файлът на вашия уебсайт, който комуникира с тези ботове, като използва поредица от директиви за обхождане. Уверете се, че той не забранява на добрите ботове достъп до страници или раздели, които искате да бъдат индексирани. Използвайте инструменти като Robots.txt тестер на Google, за да проверите за грешки.

2. Подаване на карти на сайта

Изпращането на картата на сайта е важна стъпка. Картата на сайта съдържа списък на всички страници на вашия уебсайт, които искате да бъдат индексирани. В конзолата за търсене на Google можете да изпратите картата на сайта в раздел Индекс > Карти на сайта. Този процес е подобен и за други търсачки, например Bing Webmaster Tools.

3. Използвайте разумно директивите на обхождащия модул

Файлът robots.txt използва директиви, за да укаже на обхождащите устройства кои страници са разрешени или забранени за обхождане. Важно е да разрешите обхождането на важни страници от навигацията на сайта ви. Всички директиви на ниво страница няма да бъдат видени, ако съдържанието е забранено за обхождане във вашия файл robots.txt.

4. Осигуряване на вътрешни връзки между страниците

Вътрешните връзки помагат на търсачките да разберат за какво се отнася всяка страница и помагат на обхождащите машини да откриват страниците на първо място. Вътрешните връзки също така ви помагат да определите как PageRank преминава през целия ви сайт.

5. Намаляване на 4xx и ненужните пренасочвания

Грешките 4xx сигнализират на обхождащите устройства, че съдържанието на този URL адрес не съществува. Използвайте инструменти като Ranktracker Site Audit, за да поправите тези страници, или настройте пренасочване към действаща страница. Също така премахнете ненужните пренасочвания и вериги от пренасочвания, за да осигурите безпроблемно обхождане.

6. Използване на Ranktracker Site Audit за откриване на проблеми с обхождането и индексирането

Инструментът за одит на сайта на Ranktracker може да ви помогне, като провери всички неиндексирани страници и неследвани връзки в сайта ви. Той може да открие всички счупени страници или прекомерни пренасочвания, включително вериги или цикли от пренасочвания, и да посочи всички осиротели страници.

Често задавани въпроси

Едно и също ли е пълзенето и индексирането?

Не. Претърсването се отнася до процеса на откриване на публично достъпни уеб страници и друго съдържание. Индексирането се отнася до това, че търсачките анализират тези страници и ги съхраняват в своя индекс за търсене.

Кои са най-активните пълзящи програми?

Най-популярните търсачки включват Googlebot, Bingbot, Yandex Bot и Baidu Spider. За повече подробности вижте това проучване на Imperva за трафика на ботове. Интересно е, че AhrefsBot, който захранва цялата база данни с връзки, се оказа вторият най-активен обхождащ робот след Googlebot.

Вредят ли пълзящите машини на моя уебсайт?

Въпреки че повечето обхождащи програми не вредят на уебсайта ви, има лоши обхождащи програми, които могат да навредят. Вредните краувъри могат да претоварват честотната лента, което води до забавяне на страниците, и могат да се опитат да откраднат данни или да надраскат съдържание от сайта ви.

SEO за местен бизнес

Хората вече не търсят местни фирми в жълтите страници. Те използват Google. Научете как да получите повече бизнес от органичното търсене с нашите ръководства за SEO оптимизация за местни фирми.

Започнете да използвате Ranktracker безплатно!

Открийте какво възпрепятства класирането на вашия уебсайт

Започнете да използвате Ranktracker безплатно!