SEO-Glossar / Raupenfahrzeug

Raupenfahrzeug

Was ist ein Crawler?

Ein Crawler ist ein Internetprogramm, das dazu dient, das Internet systematisch zu durchsuchen. Crawler werden am häufigsten als Mittel für Suchmaschinen verwendet, um Seiten zu entdecken und zu verarbeiten, damit sie indiziert und in den Suchergebnissen angezeigt werden können.

Neben den Crawlern, die HTML verarbeiten, werden einige spezielle Crawler auch für die Indizierung von Bildern und Videos eingesetzt.

In der realen Welt sind die wichtigsten Web-Crawler, die man kennen sollte, diejenigen, die von den wichtigsten Suchmaschinen der Welt verwendet werden: Googlebot, Bingbot, Yandex Bot und Baidu Spider.

Gute vs. schlechte Crawler

Betrachten Sie einen guten Crawler als einen Bot, der Ihre Website unterstützen kann, indem er Ihre Inhalte in einen Suchindex aufnimmt oder Ihnen bei der Überprüfung Ihrer Website hilft. Weitere Merkmale eines guten Crawlers sind, dass er sich selbst identifiziert, Ihre Anweisungen befolgt und seine Crawling-Rate so anpasst, dass Ihr Server nicht überlastet wird.

Ein böser Crawler ist ein Bot, der dem Eigentümer einer Website keinen Mehrwert bringt und möglicherweise böswillige Absichten verfolgt. Schlechte Crawler können sich nicht identifizieren, Ihre Richtlinien umgehen, die Server unnötig belasten und sogar Inhalte und Daten stehlen.

Arten von Raupenfahrzeugen

Es gibt zwei Haupttypen von Crawlern:

  1. Ständig crawlende Bots: Sie crawlen rund um die Uhr, um neue Seiten zu entdecken und ältere Seiten erneut zu crawlen (z. B. Googlebot).
  2. Abrufbare Bots: Sie crawlen eine begrenzte Anzahl von Seiten und führen einen Crawl nur auf Anfrage durch (z. B. der Ranktracker Site Audit-Bot).

Warum ist Website Crawling wichtig?

Der Hauptzweck eines Suchmaschinen-Crawlers besteht darin, herauszufinden, was sich auf Ihrer Website befindet, und diese Informationen in den Suchindex aufzunehmen. Wenn Ihre Website nicht gecrawlt wird, werden Ihre Inhalte nicht in den Suchergebnissen erscheinen.

Das Crawlen von Websites ist nicht nur ein einmaliges Ereignis, sondern eine fortlaufende Praxis für aktive Websites. Bots crawlen Websites regelmäßig neu, um neue Seiten zu finden und in den Suchindex aufzunehmen und gleichzeitig ihre Informationen über bestehende Seiten zu aktualisieren.

Während die meisten Crawler mit Suchmaschinen in Verbindung gebracht werden, gibt es auch andere Arten von Crawlern. Der Ranktracker Site Audit Bot zum Beispiel kann Ihnen dabei helfen, herauszufinden, was mit Ihrer Website in Bezug auf SEO falsch läuft.

Wie funktionieren Crawler?

Kurz gesagt, ein Web-Crawler wie Googlebot entdeckt URLs auf Ihrer Website durch Sitemaps, Links und manuelle Eingaben über die Google Search Console. Dann folgt er den "erlaubten" Links auf diesen Seiten.

Dabei werden die robots.txt-Regeln sowie alle "nofollow"-Attribute für Links und einzelne Seiten beachtet.

Einige Websites - solche mit mehr als 1 Million Seiten, die regelmäßig aktualisiert werden, oder solche mit 10.000 Seiten, deren Inhalt sich täglich ändert - haben möglicherweise ein begrenztes "Crawl-Budget". Dies bezieht sich auf die Menge an Zeit und Ressourcen, die der Bot einer Website in einer einzigen Sitzung widmen kann.

Crawl-Prioritäten

Aufgrund der begrenzten Kapazität von Crawl-Budgets arbeiten Crawler nach einer Reihe von Crawl-Prioritäten. Googlebot berücksichtigt zum Beispiel Folgendes:

  • PageRank der URL
  • Wie oft die Seite(n) aktualisiert werden
  • Ob die Seite neu ist oder nicht

Auf diese Weise kann sich der Crawler darauf konzentrieren, zuerst die wichtigsten Seiten Ihrer Website zu crawlen.

Mobile vs. Desktop Crawler Versionen

Googlebot hat zwei Hauptversionen: Googlebot Desktop und Googlebot Smartphone. Heutzutage verwendet Google die Mobile-First-Indexierung, was bedeutet, dass sein Smartphone-Agent der primäre Googlebot ist, der für das Crawling und die Indexierung von Seiten verwendet wird.

Diesen verschiedenen Arten von Crawlern können unterschiedliche Versionen einer Website präsentiert werden. Technisch gesehen identifiziert sich der Bot gegenüber einem Webserver mit dem HTTP-Anforderungsheader User-Agent und einem eindeutigen Bezeichner.

Bewährte Praktiken für eine krabbelfreundliche Website

Um sicherzustellen, dass Ihre Website für das Crawling vorbereitet ist, empfehlen wir mehrere Schritte. Befolgen Sie diese, damit Ihre Schlüsselseiten die besten Chancen auf Indizierung und Ranking haben.

1. Überprüfen Sie Ihre Robots.txt-Datei

Die Datei robots.txt ist die Datei auf Ihrer Website, die mit diesen Bots kommuniziert und eine Reihe von Crawler-Richtlinien enthält. Vergewissern Sie sich, dass sie guten Bots nicht den Zugang zu Seiten oder Abschnitten verwehrt, die Sie indiziert haben möchten. Verwenden Sie Tools wie den robots.txt-Tester von Google, um auf Fehler zu prüfen.

2. Sitemaps einreichen

Die Übermittlung Ihrer Sitemap ist ein wichtiger Schritt. In einer Sitemap sind alle Seiten Ihrer Website aufgeführt, die indiziert werden sollen. In der Google Search Console können Sie Ihre Sitemap unter Index > Sitemaps einreichen. Bei anderen Suchmaschinen, wie z. B. Bing Webmaster Tools, ist der Vorgang ähnlich.

3. Crawler-Direktiven klug einsetzen

In der Datei robots.txt werden Direktiven verwendet, um Crawlern mitzuteilen, welche Seiten gecrawlt werden dürfen und welche nicht. Es ist wichtig, dass wichtige Seiten in der Navigation Ihrer Website gecrawlt werden können. Alle Richtlinien auf Seitenebene werden nicht angezeigt, wenn der Inhalt in Ihrer robots.txt-Datei nicht gecrawlt werden darf.

4. Interne Links zwischen Seiten bereitstellen

Die interne Verlinkung hilft den Suchmaschinen zu verstehen, worum es auf den einzelnen Seiten geht, und hilft dem Crawler, die Seiten überhaupt erst zu finden. Interne Links helfen Ihnen auch dabei, den PageRank auf Ihrer Website zu beeinflussen.

5. Reduzierung von 4xx und unnötigen Umleitungen

4xx-Fehler signalisieren einem Crawler, dass der Inhalt unter dieser URL nicht existiert. Verwenden Sie Tools wie Ranktracker Site Audit, um diese Seiten zu korrigieren, oder richten Sie eine Weiterleitung auf eine aktuelle Seite ein. Eliminieren Sie außerdem unnötige Weiterleitungen und Weiterleitungsketten, um ein reibungsloses Crawling zu gewährleisten.

6. Verwenden Sie Ranktracker Site Audit, um Crawlability- und Indexability-Probleme zu finden

Das Ranktracker Site Audit Tool kann Ihnen dabei helfen, indem es alle nicht indizierten Seiten und nicht befolgten Links auf Ihrer Website überprüft. Es kann fehlerhafte Seiten oder übermäßige Weiterleitungen aufdecken, einschließlich Weiterleitungsketten oder Schleifen, und auf verwaiste Seiten hinweisen.

FAQs

Ist Crawling und Indexierung das Gleiche?

Nein. Crawling bezieht sich auf den Prozess des Auffindens öffentlich zugänglicher Webseiten und anderer Inhalte. Indexierung bedeutet, dass Suchmaschinen diese Seiten analysieren und in ihrem Suchindex speichern.

Welches sind die aktivsten Crawler?

Zu den beliebtesten Suchmaschinen-Crawlern gehören Googlebot, Bingbot, Yandex Bot und Baidu Spider. Weitere Details finden Sie in der Imperva Bot Traffic-Studie. Interessanterweise wurde festgestellt, dass AhrefsBot, der die gesamte Link-Datenbank betreibt, der zweitaktivste Crawler nach Googlebot ist.

Tun Crawler meiner Website weh?

Während die meisten Crawler Ihrer Website keinen Schaden zufügen, gibt es schlechte Crawler, die dies tun können. Schädliche Crawler können Ihre Bandbreite in Anspruch nehmen, was zu einer Verlangsamung der Seiten führt, und sie können versuchen, Daten zu stehlen oder Inhalte von Ihrer Website abzuschöpfen.

SEO für lokale Unternehmen

Die Menschen suchen nicht mehr in den Gelben Seiten nach lokalen Unternehmen. Sie nutzen Google. Erfahren Sie in unseren SEO-Leitfäden für lokale Unternehmen, wie Sie mehr Aufträge über die organische Suche erhalten.

Nutzen Sie Ranktracker kostenlos!

Finden Sie heraus, was Ihre Website vom Ranking abhält

Kostenloses Konto einrichtenOder melden Sie sich mit Ihren Anmeldedaten an
Nutzen Sie Ranktracker kostenlos!