Crawler nedir?
Tarayıcı, interneti sistematik olarak taramak için tasarlanmış bir internet programıdır. Tarayıcılar en yaygın olarak arama motorlarının indekslemek ve arama sonuçlarında göstermek için sayfaları keşfetmesi ve işlemesi için bir araç olarak kullanılır.
HTML işleyen tarayıcılara ek olarak, bazı özel tarayıcılar da resim ve videoları indekslemek için kullanılır.
Gerçek dünyada, bilinmesi gereken ana web tarayıcıları, dünyanın en iyi arama motorları tarafından kullanılanlardır: Googlebot, Bingbot, Yandex Bot ve Baidu Spider.
İyi ve Kötü Sürüngenler
İyi bir tarayıcıyı, öncelikle içeriğinizi bir arama dizinine ekleyerek veya web sitenizi denetlemenize yardımcı olarak sitenize yardımcı olabilecek bir bot olarak düşünün. İyi bir tarayıcının diğer özellikleri, kendini tanımlaması, direktiflerinizi takip etmesi ve sunucunuza aşırı yüklenmemek için tarama hızını ayarlamasıdır.
Kötü bir tarayıcı, bir web sitesi sahibine hiçbir değer katmayan ve kötü niyetli olabilecek bir bottur. Kötü tarayıcılar kendilerini tanıtmayabilir, direktiflerinizi atlatabilir, sunucular üzerinde gereksiz yük oluşturabilir ve hatta içerik ve veri çalabilir.
Paletli Araç Türleri
İki ana tarayıcı türü vardır:
- Sürekli tarama yapan botlar: Bunlar yeni sayfaları keşfetmek ve eski sayfaları yeniden taramak için 7/24 tarama gerçekleştirir (ör. Googlebot).
- İsteğe bağlı botlar: Bunlar sınırlı sayıda sayfayı tarar ve yalnızca istendiğinde tarama gerçekleştirir (örneğin, Ranktracker Site Audit botu).
Web Sitesi Taraması Neden Önemlidir?
Bir arama motoru tarayıcısının birincil amacı, web sitenizde ne olduğunu bulmak ve bu bilgileri arama dizinine eklemektir. Siteniz taranmazsa, içeriğiniz arama sonuçlarında görünmeyecektir.
Web sitesi taraması sadece bir kerelik bir olay değildir - aktif web siteleri için devam eden bir uygulamadır. Botlar, arama dizinine yeni sayfalar bulmak ve eklemek için web sitelerini düzenli olarak yeniden tararken mevcut sayfalar hakkındaki bilgilerini de günceller.
Çoğu tarayıcı arama motorlarıyla ilişkilendirilse de, başka tür tarayıcılar da vardır. Örneğin Ranktracker Site Audit botu, SEO açısından web sitenizde neyin yanlış olduğunu görmenize yardımcı olabilir.
Tarayıcılar Nasıl Çalışır?
Özetle, Googlebot gibi bir web tarayıcısı, site haritaları, bağlantılar ve Google Search Console aracılığıyla manuel gönderimler yoluyla web sitenizdeki URL'leri keşfedecektir. Daha sonra bu sayfalardaki "izin verilen" bağlantıları takip edecektir.
Bunu robots.txt kurallarının yanı sıra bağlantılardaki ve tek tek sayfalardaki "nofollow" özelliklerine saygı göstererek yapar.
Bazı web siteleri - düzenli olarak güncellenen 1 milyondan fazla sayfaya sahip olanlar veya her gün değişen 10 bin sayfalık içeriğe sahip olanlar - sınırlı bir "tarama bütçesine" sahip olabilir. Bu, botun tek bir oturumda bir web sitesine ayırabileceği zaman ve kaynak miktarını ifade eder.
Tarama Öncelikleri
Tarama bütçelerinin sınırlı kapasitesi nedeniyle, tarayıcılar bir dizi tarama önceliğine göre çalışır. Örneğin Googlebot aşağıdakileri dikkate alır:
- URL'nin PageRank'i
- Sayfa(lar)ın ne sıklıkla güncellendiği
- Sayfanın yeni olup olmadığı
Bu şekilde, tarayıcı önce sitenizdeki en önemli sayfaları taramaya odaklanabilir.
Mobil ve Masaüstü Tarayıcı Sürümleri
Googlebot'un iki ana sürümü vardır: Googlebot Masaüstü ve Googlebot Akıllı Telefon. Bugünlerde Google mobil öncelikli indeksleme kullanıyor, bu da akıllı telefon aracısının sayfaları taramak ve indekslemek için kullanılan birincil Googlebot olduğu anlamına geliyor.
Bir web sitesinin farklı versiyonları bu farklı türdeki tarayıcılara sunulabilir. Teknik olarak bot, benzersiz bir tanımlayıcı ile birlikte HTTP istek başlığı User-Agent'ı kullanarak kendisini bir web sunucusuna tanıtır.
Sürüngen Dostu Bir Web Sitesi İçin En İyi Uygulamalar
Web sitenizin taranmaya hazır olduğundan emin olmak için önerdiğimiz birkaç adım vardır. Önemli sayfalarınıza en iyi indeksleme ve sıralama şansını vermek için bunları izleyin.
1. Robots.txt Dosyanızı Kontrol Edin
Robots.txt dosyası, web sitenizde bir dizi tarayıcı yönergesi kullanarak bu botlarla iletişim kuran dosyadır. İyi botların dizine eklenmesini istediğiniz sayfalara veya bölümlere girmesine izin vermediğinden emin olun. Hataları kontrol etmek için Google'ın robots.txt test aracı gibi araçları kullanın.
2. Site Haritalarını Gönderin
Site haritanızı göndermek kritik bir adımdır. Site haritası, web sitenizin dizine eklenmesini istediğiniz tüm sayfalarını listeler. Site haritanızı Google Search Console'da Dizin > Site Haritaları altında gönderebilirsiniz. Bu işlem Bing Web Yöneticisi Araçları gibi diğer arama motorları için de benzerdir.
3. Tarayıcı Yönergelerini Akıllıca Kullanın
Robots.txt dosyası, tarayıcılara hangi sayfaların taranmasına izin verildiğini veya verilmediğini bildirmek için yönergeler kullanır. Sitenizin navigasyonundaki önemli sayfaların taranmasına izin vermek önemlidir. Robots.txt dosyanızda içeriğin taranmasına izin verilmemişse sayfa düzeyindeki yönergeler görülmez.
4. Sayfalar Arasında İç Bağlantılar Sağlayın
İç bağlantılar, arama motorlarının her sayfanın ne hakkında olduğunu anlamasına ve tarayıcının sayfaları ilk etapta ke şfetmesine yardımcı olur. Dahili bağlantılar ayrıca PageRank'in sitenizdeki akışını şekillendirmenize de yardımcı olur.
5. 4xx'leri ve Gereksiz Yönlendirmeleri Azaltın
4xx hataları, bir tarayıcıya o URL'deki içeriğin mevcut olmadığını bildirir. Bu sayfaları düzeltmek için Ranktracker Site Denetimi gibi araçları kullanın veya canlı bir sayfaya yönlendirme ayarlayın. Ayrıca, sorunsuz tarama sağlamak için gereksiz yönlendirmeleri ve yönlendirme zincirlerini ortadan kaldırın.
6. Taranabilirlik ve Dizine Eklenebilirlik Sorunlarını Bulmak için Ranktracker Site Denetimini Kullanın
Ranktracker Site Denetim aracı, sitenizdeki tüm indekslenmemiş sayfaları ve takip edilmeyen bağlantıları kontrol ederek yardımcı olabilir. Yönlendirme zincirleri veya döngüleri dahil olmak üzere herhangi bir bozuk sayfayı veya aşırı yönlendirmeyi ortaya çıkarabilir ve herhangi bir yetim sayfayı işaret edebilir.
SSS
Tarama ve İndeksleme Aynı Şey midir?
Tarama, herkesin erişimine açık web sayfalarını ve diğer içerikleri keşfetme sürecini ifade eder. İndeksleme, arama motorlarının bu sayfaları analiz etmesini ve arama indekslerinde depolamasını ifade eder.
En Aktif Tarayıcılar Hangileridir?
En popüler arama motoru tarayıcıları arasında Googlebot, Bingbot, Yandex Bot ve Baidu Spider bulunmaktadır. Daha fazla ayrıntı için bu Imperva Bot Trafiği çalışmasına göz atın. İlginç bir şekilde, tüm bağlantı veritabanına güç veren AhrefsBot'un Googlebot'tan sonra en aktif ikinci tarayıcı olduğu tespit edildi.
Tarayıcılar Web Siteme Zarar Verir mi?
Çoğu tarayıcı web sitenize zarar vermezken, zarar verebilecek kötü tarayıcılar da vardır. Zararlı tarayıcılar bant genişliğinizi tüketerek sayfaların yavaşlamasına neden olabilir ve sitenizden veri çalmaya veya içerik kazımaya çalışabilir.