Memahami Setting (Pengaturan) Robots.txt ¤ Blog Gedek

Memahami Setting (Pengaturan) Robots.txt - Melanjutkan postingan sebelumnya tentang auto redirect broken link di blogspot, kali ini sekalian saja saya buat posting tentang robots.txt. Seperti sudah disebutkan di artikel sebelumnya, blogger/blogspot sekarang semakin ramah dengan search engine, hal ini bisa kita jumpai jika menggunakan tampilan baru blogger dimana terdapat fitur baru yaitu Search Engine Preferences.

Salah satu fitur yang paling hot menurut saya adalah diperbolehkannya pengguna blogspot untuk mengubah atau mengedit robots.txt yang mana sebelum ada fitur ini praktis kita tidak bisa melakukan perubahan apapun terhadap robots.txt ini. Sebelum mengulas tentang apa itu robots beserta fungsinya ada baiknya jika kita berkenalan dulu dengan si robots ini.

Apa Itu Robots?

Robots atau robots.txt adalah kumpulan perintah yang ditujukan kepada mesin pencari sebelum mesin pencari mulai menelusuri isi dari suatu web atau blog. Misal, robot (crawler) dari suatu mesin mencari ingin menelusuri salah satu halaman blog ini yaitu blogedek.blogspot.com/p/sitemap-blog.html, maka sebelum si crawler ini menelusuri lebih jauh dia akan melihat isi robots.txt dahulu yang bisa ditemukan di blogedek.blogspot.com/robots.txt dan akhirnya menjumpai kode seprti ini

User-agent: Mediapartners-Google Disallow: User-agent: * Disallow: /search Allow: / ini salah, crawler tidak mengenal Allow karena pada dasarnya dia meng-crawl semua index Sitemap: http://blogedek.blogspot.com/feeds/posts/default?orderby=updated

Kode di atas adalah kode pengaturan default robots.txt yang digunakan oleh blogspot, untuk mengetahui arti dari perintah tersebut nanti dijelaskan di bawah.

File robots.txt juga harus diletakkan di main root (jika sobat menggunakan self hosting)

Memahami Pengaturan Robots.txt

Seelah mengetahui fungsi dari robots, sebaiknya kita juga memahami fungsi perintah-perintah yang ada di dalam robots.txt tersebut. Kode User-agent: * memberitahukan kepada crawler bahwa pengaturan ini untuk semua jenis bot. Tanda bintang (*) di sini maksudnya adalah apa pun jenis User-agent nya.

Jika kita ingin memberikan parameter bagi crawler tertentu, maka kita bisa menuliskannya dengan mengganti tanda bintang (*) tersebut, perhatikan contoh berikut:

User-agent: * #targets all spiders
Disallow:

User-agent: Googlebot
Disallow: /search #untuk crawler google, dilarang meng-indeks halaman dengan awalan search, crwaler lain silahkan mengindeks)

User-agent: insert name of agent here

Kode Disallow: / artinya adalah tidak mengijinkan crawler untuk mengindeks semua yang ada di web atau blog kita.

Jika kita ingin supaya crawler mengindeks semuanya caranya cukup kosongkan saja, menjadi Disallow:. Keslahan umum yang sering terjadi adalah memberikan parameter Allow :. Parameter atau perintah ini salah karena pada dasarnya crawler itu tugasnya menelusuri, jadi tugas kita hanya memberi batasan apa yang tidak boleh ditelusuri.

Apa sobat pernah menjumpai blog auto generate (blog yang isinya menampilkan hasil pencarian)? Nah, blog auto generate tersebut juga melakukan setting / pengaturan robots.txt dengan mengijinkan halaman search agar di indeks oleh crawler. Itulah mengapa blog auto generate umumnya berbasis wordpress, ya karena dulu blogspot tidak bisa melakukan perubahan di robots.txt sehingga tidak cocok untuk blog auto generate.

Setelah memahami tentang

pengaturan robots.txt

, sobat juga bisa melakukan optimasi pada robots.txt ini, tepatnya di bagian sitemap. Secara default, sitemap di robots.txt blogspot adalah seperti ini

Sitemap: http://blogedek.blogspot.com/feeds/posts/default?orderby=updated

Nah, menurut agan alkatro, feeds di atas kurang maksimal. Kenapa? karena eh karena feeds dari blogspot hanya "mampu" menampung 26 artikel terbaru saja. Solusinya? Kita tambahkan parameter max-result sehingga menjadi seperti ini:

Sitemap: http://blogedek.blogspot.com/feeds/posts/default?orderby=updated&max-results=999

Robots.txt yang sudah kita rubah tadi selengkapnya menjadi seperti ini

User-agent: Mediapartners-Google Disallow: User-agent: * Disallow: /search Allow: / ini salah, robots ga kenal allow, hanya kenal disaalow Sitemap: http://blogedek.blogspot.com/feeds/posts/default?orderby=updated&max-results=999 Sitemap: http://blogedek.blogspot.com/atom.xml?redirect=false&start-index=1&max-results=500 Sitemap: http://blogedek.blogspot.com/atom.xml?redirect=false&start-index=501&max-results=500

Mungkin itu saja tentang pengaturan robots.txt yang saya ketahui, jika sobat lebih mengetahui tentang robots.txt silahkan ditambahkan :)

Ref : http://www.robotstxt.org/robotstxt.html dan Google

Title : Memahami Setting (Pengaturan) Robots.txt
URL : https://blogedek.blogspot.com/2012/04/memahami-setting-pengaturan-robotstxt.html
Jangan lupa untuk membagikan artikel Memahami Setting (Pengaturan) Robots.txt ini jika bermanfaat bagi sobat.

Blog Gedek

Memahami Setting (Pengaturan) Robots.txt

Apa Itu Robots?

Memahami Pengaturan Robots.txt

pengaturan robots.txt

Posts related to Memahami Setting (Pengaturan) Robots.txt:

0 comment | add comment

Post a Comment

Friends

RANDOM POSTS

Powered by Blogger | Back to Top

© 2013. Blog Gedek. Some Rights Reserved.

Google+