Qu'est-ce que la crawlabilité ?
La crawlabilité est la capacité d'un robot d'indexation de moteur de recherche, tel que Googlebot, à accéder aux pages et aux ressources d'un site web. Les problèmes de crawlabilité peuvent avoir un impact négatif sur le classement organique d'un site web. Il est essentiel de distinguer la crawlabilité de l'indexabilité. Cette dernière désigne la capacité d'un moteur de recherche à analyser une page et à l'ajouter à son index. Seules les pages qui peuvent être explorées et indexées peuvent être découvertes et indexées par Google, ce qui signifie qu'elles peuvent apparaître dans les résultats des moteurs de recherche.
Pourquoi la crawlabilité est-elle importante ?
La crawlabilité est essentielle pour tout site web destiné à recevoir du trafic de recherche organique. Elle permet aux moteurs de recherche de parcourir les pages pour lire et analyser leur contenu afin de l'ajouter à l'index de recherche. Une page ne peut être correctement indexée sans crawl. Bien que Google puisse parfois indexer une URL sans l'explorer en se basant sur le texte de l'URL et le texte d'ancrage de ses liens retour, le titre et la description de la page n'apparaîtront pas dans les SERP.
La navigabilité n'est pas seulement importante pour Google. D'autres robots d'exploration spécifiques doivent parcourir les pages du site web pour diverses raisons. Par exemple, le robot Site Audit de Ranktracker parcourt les pages d'un site web pour vérifier l'état de son référencement et signaler tout problème de référencement.
Quels sont les facteurs qui influencent l'indexation d'un site web ?
1. Possibilité de découvrir les pages
Avant d'explorer une page web, un robot d'exploration doit d'abord la découvrir. Les pages web qui ne figurent pas dans le plan du site ou qui n'ont pas de liens internes (appelées pages orphelines) ne peuvent pas être trouvées par le robot d'exploration et ne peuvent donc pas être explorées ou indexées. Pour qu'une page soit indexée, elle doit figurer dans le sitemap et avoir des liens internes (idéalement les deux).
2. Liens sans effet (Nofollow)
Googlebot ne suit pas les liens dotés de l'attribut "rel=nofollow". Si une page n'a, par exemple, qu'un seul lien nofollow, cela équivaut à ne pas avoir de liens du tout en termes d'exploration.
3. Fichier Robots.txt
Un fichier robots.txt indique aux robots d'indexation les parties de votre site auxquelles ils peuvent ou ne peuvent pas accéder. Si vous voulez que la page puisse être explorée, elle ne doit pas être interdite dans le fichier robot.txt.
4. Restrictions d'accès
Les pages web peuvent être soumises à des restrictions spécifiques qui empêchent les robots d'y accéder :
- Une sorte de système de connexion
- Liste noire d'agents utilisateurs
- Liste noire d'adresses IP
Comment trouver des problèmes de crawlabilité sur votre site web ?
La façon la plus simple de détecter les problèmes de crawlabilité sur un site web est d'utiliser un outil SEO tel que Site Audit de Ranktracker ou l'outil gratuit Ranktracker Webmaster Tools.
Ranktracker Webmaster Tools peut parcourir l'ensemble du site web, en gardant un œil sur les problèmes nouveaux ou récurrents au fil du temps. En outre, il répartit les problèmes en différentes catégories, ce qui vous permet de mieux comprendre les performances SEO globales de votre site et les raisons pour lesquelles votre site ne peut pas être exploré.
FAQ
Quelle est la différence entre la crawlabilité et l'indexabilité ?
La crawlabilité est la capacité d'un moteur de recherche à accéder à une page web et à en explorer le contenu. L'indexabilité est la capacité d'un moteur de recherche à analyser le contenu qu'il explore pour l'ajouter à son index. Une page peut être explorable mais non indexable.
Une page web peut-elle être indexée dans Google sans crawling ?
Il est surprenant de constater que Google peut indexer une URL sans l'explorer, ce qui lui permet d'apparaître dans les résultats de recherche. Il s'agit toutefois d'un phénomène rare. Dans ce cas, Google utilise le texte de l'ancre et le texte de l'URL pour déterminer l'objectif et le contenu de la page. Notez que Google n'affiche pas le titre de la page dans ce cas. Cette situation est brièvement expliquée dans l'introduction de Google à robots.txt.
Pour plus d'informations sur l'amélioration du référencement de votre site web et la garantie d'une bonne indexation, visitez le Blog Ranktracker et explorez notre Guide SEO complet. En outre, vous pouvez vous familiariser avec les termes et concepts clés du SEO dans notre Glossaire SEO.