• Hoşgeldin ziyaretçi , forumdan daha fazla yararlanmak için buradan üye olunuz...

Robot txt nasıl oluşturulur?

Okunuyor :
Robot txt nasıl oluşturulur?

YukseLL

Emektar
Yönetici
Admin
Moderatör
Üye
En basit robots.txt dosyası iki kural kullanır:

User-agent: aşağıdaki kuralın geçerli olduğu robot
Disallow: engellemek istediğiniz URL

Bu iki satır, dosyada tek bir giriş sayılır. İstediğiniz kadar çok giriş ekleyebilirsiniz. Tek girişe birden çok Disallow satırı ve birden çok user-agent ekleyebilirsiniz.

robots.txt dosyasındaki her bölüm ayrıdır ve önceki bölümleri esas almaz. Örneğin:

User-agent: *
Disallow: /klasor1/

User-Agent: Googlebot
Disallow: /klasor2/
Bu örnekte yalnızca /klasor2/ ile eşleşen URL'lere Googlebot için izin verilmemektedir.

User-agent'lar ve botlar
User-agent, belirli bir arama motoru robotudur. Web Robotları Veritabanı'nda, sık kullanılan pek çok bot listelenir. Bir girişi belirli bir bota (adını listeleyerek) veya tüm botlara (yıldız işareti koyarak) uygulanacak şekilde ayarlayabilirsiniz. Tüm botlara uygulanan bir giriş şöyle görünür:

User-agent: *
Google, birbirinden farklı çeşitli botlar (user-agent'lar) kullanır. Bizim web aramamız için kullandığımız bot, Googlebot'tur. Googlebot-Mobile ve Googlebot-Image gibi diğer botlarımız, Googlebot için belirlediğiniz kurallara uyar, ancak bu botlar için de belirli kurallar ayarlayabilirsiniz.

User agent'ları engelleme
Disallow satırında engellemek istediğiniz sayfalar listelenir. Belirli bir URL'yi veya dize kalıbını listeleyebilirsiniz. Girişin düz eğik çizgiyle (/) başlaması gerekir.

Sitenin tamamını engellemek için düz eğik çizgi kullanın.

Disallow: /Bir dizini ve o dizinin içinde bulunan tüm öğeleri engellemek için dizin adının sonuna bir düz eğik çizgi koyun.
Disallow: /onemsiz-dizin/ Bir sayfayı engellemek için o sayfayı listeleyin.

Disallow: /ozel_dosya.html Belirli bir görseli Google Görseller'den kaldırmak için şunları ekleyin:

User-agent: Googlebot-Image
Disallow: /gorseller/kopekler.jpg Sitenizdeki görsellerin tümünü Google Görseller'den kaldırmak için:

User-agent: Googlebot-Image

Disallow: / Belirli bir dosya türündeki dosyaları (örneğin, .gif) engellemek için şunları kullanın:

User-agent: Googlebot
Disallow: /*.gif$Sitenizdeki sayfalarda AdSense reklamları görüntülemeye devam ederken bu sayfaların taranmasını engellemek için Mediapartners-Google dışındaki tüm botları engelleyin. Bu, sayfaların arama sonuçlarında görünmesini engellemekle birlikte Mediapartners-Google robotunun gösterilecek reklamları belirlemek üzere sayfaları analiz etmesine olanak sağlar. Mediapartners-Google robotu, sayfaları diğer Google user-agent'ları ile paylaşmaz. Örneğin:

User-agent: *
Disallow: /

User-agent: Mediapartners-Google
Allow: /Yönergelerin büyük/küçük harfe duyarlı olduğunu unutmayın. Örneğin, Disallow: /onemsiz_dosya.asp, http://www.example.com/onemsiz_dosya.asp sayfasını engeller ancak http://www.example.com/Onemsiz_dosya.asp sayfasına izin verir. Googlebot robots.txt dosyasındaki boşluk karakterlerini (özellikle boş satırları) ve bilinmeyen yönergeleri dikkate almaz.

Googlebot Site Haritası dosyalarının robots.txt dosyası üzerinden gönderilmesini destekler.

Dize kalıbı eşlemesi
Googlebot (ama tüm arama motorları değil) bazı dize kalıbı eşlemelerini dikkate alır.

Karakterlerden oluşan bir diziyle eşlemek için yıldız (*) kullanabilirsiniz. Örneğin, özel ile başlayan tüm alt dizinlere erişimi engellemek için:
User-agent: Googlebot

Disallow: /ozel*/Soru işareti (?) içeren tüm URL'lere erişimi engellemek için (daha açık belirtmek gerekirse, alan adınızla başlayan ve ardından herhangi bir dize, bir soru işareti ve herhangi bir dize gelen URL'leri taramasını engellemek için):
User-agent: Googlebot

Disallow: /*?URL sonu eşlemesini belirtmek için $ karakterini kullanın. Örneğin, .xls ile biten tüm URL'leri engellemek için:
User-agent: Googlebot

Disallow: /*.xls$Bu dize kalıbı eşlemesini, Allow yönergesi ile birlikte kullanabilirsiniz. Örneğin, ? bir oturum kimliğini gösteriyorsa bu öğeleri içeren tüm URL'leri dışlayarak Googlebot'un aynı sayfaları taramasını önleyebilirsiniz. Ancak ? ile biten URL'ler, eklenmesini istediğiniz sayfanın sürümü olabilir. Bu durumda, robots.txt dosyanızı aşağıda gösterildiği biçimde ayarlayabilirsiniz:

User-agent: *
Allow: /*?$
Disallow: /*?Disallow: / *? yönergesi, ? içeren URL'lerin tümünü engeller (daha açık belirtmek gerekirse, alan adınızla başlayan ve ardından herhangi bir dize, bir soru işareti ve herhangi bir dize gelen URL'lerin tümünü engeller).

Allow: /*?$ yönergesi, ? ile biten tüm URL'lere izin verir (daha açık belirtmek gerekirse, alan adınızla başlayan ve ardından bir dize ve bir ? gelen ve ? işaretinden sonra hiç karakter içermeyen URL'lerin tümüne izin verir).
 
Üst Alt