Robots.txt diğer adı “arama botu” olan yapının temel görevi web sitelerinde bulunan sayfalara tek tek giderek sayfa içerisinde bulunan verileri tarar ve kendi arama motoru üzerinde arşivleme işini yapmaktadır. Siteniz içerisinde bulunan bazı verileri robots.txt erişimine açıp kapatmanız sizin arama motoru görünürlüğünüzü oldukça etkilemektedir. Örneğin site içerisinde çalışmayan bir bağlantınız var ve bu bağlantı daha önceki bir süreçte web sitesi arama motorunda kullanıcılar için listelendi. Bu siteye tıklayan kullanıcılar kırık bağlantıya ulaşarak sitenizde kullanıcılarınızı kaybetmenize neden olacaktır. İşte robots.txt de tam olarak bunun için vardır. Siteniz içerisinde gözükmesini istemediğiniz bölümleri site haritanızdan kaldırarak arama botlarına haber vermiş olursunuz. Unutulmaması gereken bir şey arama botları belirli aralıklarla sitenizi incelediği için verilerinizin kaldırılması zaman alabilir. Google arama botları sitenize belirli aralıklarla gelmektedir. Fakat bunu kısaltmak için şu kod parçasını kullanabilirsiniz
<meta content='7 days' name='revisit-after'/>
Robots.Txt Dosyası Oluşturma Aşamaları
Robots.txt sitenizin kök dizin bölümünde bulunan ve verilerinizi inceleyen botlardır ve arama motorlarının indekslemesine izin veren yapılardır. Dolayısıyla www.siteadiniz.com üzerinde arama botlarına www.siteadiniz.com/robots.txt adresi üzerinden erişim sağlayabilirsiniz. Bot dosyası site üzerinde düz metin içeriği olarak bulunmaktadır. Robots.txt üzerinde bulunan her bir kod satırı siteye botlar tarafından erişilip erişilmeyeceğini ifade etmektedir. En basit şekliyle iki kural bulunan bir robots.txt dosyası aşağıdaki gibidir:
- #Group 1
User-agent: Googlebot
Disallow: /nogooglebot/
- #Group 2
User-agent: *
Allow: /
Sitemap: www.siteadiniz.com/sitemap.xml
Grup Komut Örnekleri
- User-agent
user-agent: *
disallow: /
Tüm botlara izin vermek için ise “user-agent:* “ komutunu kullanmalısınız.
- Dizinlerin engellenmesi/izin verilmesi: Botlar komut verdiğiniz dizine erişebilirler. Bu komutta da sadece botların erişemediği ve kullanıcıların görüntüleyebildiği tanımı bulunmaktadır. Kullanımı ise:
User-agent: *
disallow: /klasoradi/
- Sayfanın engellenmesi/izin verilmesi:
User-agent: *
disallow: /sayfadizini.html
- Tarama Gecikmesi: crawl-delay komutu kullanılmalıdır.
Arama Motoru Botlarının (Robots.txt) Özellikleri
Robots.txt yapısının özelliklerini bilmek de önemlidir. Bot yapıları sizin web sitenizin en önemli yapılarından birisidir. Bot yapısını oluşturmadığınız takdirde arama motorları sizi tanımayacak ve arama sonuçlarında web siteniz indekslenmeyecektir. Sizin verdiğiniz izinler veya engellemeler doğrultusunda çalışan arama motoru botlarının temel özellikleri şu şekilde sıralanabilir:
- Sadece sizin verdiğiniz komutlara göre hareket ederler..
- txt kullanıcı aracıları domainadınız.com/nogooglebot/ klasörü üzerinde bulunan dizinleri tarayamaz ve arşivleyemez.
- Tüm arama botları siteniz içerisinde bulunan tüm verilere erişim sağlayabilir.
- Sitenizde hangi dosyaların indekslendiğini görüntülemek için siteadiniz.com/sitemap.xml adresinden görebilirsiniz.
SEO İçin Google Üzerinde En Önemli Komutlar Listesi
Robots.txt Google botları internet sitenize girip tüm sayfalarınızı inceler ardından arama motorunda indekslenmesi için gereken tüm bilgileri(robots.txt) Google’a iletir. Fakat sitenizdeki kod blokları arama botlarına izin verecek şekilde yapılandırılmalıdır. Aynı zamanda siteniz içinde görüntülemek istemediğiniz veriler de olabilir. Fakat botlar görüntülemek istemediğinizi anlayamaz. Kod parçalarını kullanarak Google botlarına bu isteğinizi belirtmelisiniz. Bunun için aşağıdaki kodlardan yararlanabilirsiniz.
- Web Sitem Hiçbir Şekilde Taranmasın:
user-agent: *
disallow: /
- Web Sitem Üzerinde Bulunan Bir Dizin veya Klasörüm Taranmasın:
user-agent: *
disallow: /dizinadi/
disallow: /junk/
Bu komut yapısını hangi klasörünüzde taranma olmasını istemiyorsanız o klasör veya dizin ismini /dizinadi/ bölümüne yazmalısınız.
- Tek bir tarayıcının erişimine izin verme:
User-agent: Googlebot-news
Allow: /
User-agent: *
Disallow: /
- Bir Tarayıcı Dışındaki Tüm Tarayıcılar Web Sitemi Görebilsin:
User-agent: Unnecessarybot
Disallow: /
User-agent: *
Allow: /
- Herhangi Bir Görselim Google Görseller Sayfasında Gösterilmesin:
User-agent: Googlebot-Image
disallow: /images/resimdosyasiadi.jpg
- Google Görseller Üzerinde Sitem Üzerinde Bulunan Hiçbir Resim Gösterilmesin
User-agent: Googlebot-Image
disallow: /images/resimdosyasiadi.jpg
Google arama botları üzerinde web siteniz için görüntüleme kurallarına https://developers.google.com/search/docs/advanced/robots/create-robots-txt?hl=tr adresi üzerinden erişebilirsiniz.
Robots.txt üzerinde engelleme komutları kullandım fakat sitem google dizininden 1 aydır kalkmıyor. Bunun bir çözümü var mı?
Merhaba, Google dizinden içeriğin kaldırılması için https://search.google.com/ sitesinden başvuruda bulunabilirsiniz. Giriş yaptıktan sonra alan adınızı doğrulamanız gerekiyor, daha sonra URL kaldırma talebinde bulunabilirsiniz. Alan adı doğrulaması yaptıktan sonra Sol menü üzerinde Dizin> URL Kaldırma menüsünden başvuruda bulunabilirsiniz.