'/> Memahami Setting (Pengaturan) Robots.Txt

Info Populer 2022

Memahami Setting (Pengaturan) Robots.Txt

Memahami Setting (Pengaturan) Robots.Txt
Memahami Setting (Pengaturan) Robots.Txt
Melanjutkan postingan sebelumnya perihal auto redirect broken link di blogspot, kali ini sekalian saja aku buat posting perihal robots.txt. Seperti sudah disebutkan di artikel sebelumnya, blogger/blogspot kini semakin ramah dengan search engine, hal ini sanggup kita jumpai bila memakai tampilan gres blogger dimana terdapat fitur gres yaitu Search Engine Preferences.

Salah satu fitur yang paling hot berdasarkan aku yaitu diperbolehkannya pengguna blogspot untuk mengubah atau mengedit robots.txt yang mana sebelum ada fitur ini mudah kita tidak sanggup melaksanakan perubahan apapun terhadap robots.txt ini. Sebelum mengulas perihal apa itu robots beserta fungsinya ada baiknya bila kita berkenalan dulu dengan si robots ini.

Apa Itu Robots?


Robots atau robots.txt yaitu kumpulan perintah yang ditujukan kepada mesin pencari sebelum mesin pencari mulai menelusuri isi dari suatu web atau blog. Misal, robot (crawler) dari suatu mesin mencari ingin menelusuri salah satu halaman blog ini yaitu blogedek.blogspot.com/p/sitemap-blog.html, maka sebelum si crawler ini menelusuri ludang keringh jauh beliau akan melihat isi robots.txt lampau yang sanggup ditemukan di blogedek.blogspot.com/robots.txt dan hasilnya menjumpai isyarat seprti ini
User-agent: Mediapartners-Google
Disallow:
User-agent: *
Disallow: /search
Allow: / ini salah, crawler tidak mengenal Allow sebab intinya beliau meng-crawl tiruana index
Sitemap: http://blogedek.blogspot.com/feeds/posts/default?orderby=updated

Kode di atas yaitu isyarat pengaturan default robots.txt yang dipakai oleh blogspot, untuk mengetahui arti dari perintah tersebut nanti dijelaskan di bawah.
Melanjutkan postingan sebelumnya perihal  Memahami Setting (Pengaturan) Robots.txt
File robots.txt juga harus diletakkan di main root (jika teman memakai self hosting)

Memahami Pengaturan Robots.txt


Seelah mengetahui fungsi dari robots, sebaiknya kita juga memahami fungsi perintah-perintah yang ada di dalam robots.txt tersebut. Kode User-agent: * memdiberitahukan kepada crawler bahwa pengaturan ini untuk tiruana jenis bot. Tanda bintang (*) di sini maksudnya yaitu apa pun jenis User-agent nya.

Jika kita ingin memdiberikan parameter bagi crawler tertentu, maka kita sanggup menuliskannya dengan mengganti tanda bintang (*) tersebut, perhatikan teladan diberikut:
User-agent: * #sasarans all spiders
Disallow:

User-agent: Googlebot
Disallow: /search #untuk crawler google, tidak boleh meng-indeks halaman dengan awalan search, crwaler lain silahkan mengindeks)

User-agent: insert name of agent here
Kode Disallow: / artinya yaitu tidak mengijinkan crawler untuk mengindeks tiruana yang ada di web atau blog kita.

Jika kita ingin supaya crawler mengindeks tiruananya caranya cukup kosongkan saja, menjadi Disallow:. Keslahan umum yang sering terjadi yaitu memdiberikan parameter Allow :. Parameter atau perintah ini salah sebab intinya crawler itu tugasnya menelusuri, jadi kiprah kita hanya memdiberi batasan apa yang tidak boleh ditelusuri.

Apa teman pernah menjumpai blog auto generate (blog yang isinya menampilkan hasil pencarian)? Nah, blog auto generate tersebut juga melaksanakan setting / pengaturan robots.txt dengan mengijinkan halaman search semoga di indeks oleh crawler. Itulah mengapa blog auto generate umumnya berbasis wordpress, ya sebab dulu blogspot tidak sanggup melaksanakan perubahan di robots.txt sehingga tidak cocok untuk blog auto generate.

Setelah memahami perihal

pengaturan robots.txt

, teman juga sanggup melaksanakan meningkatkan secara optimal pada robots.txt ini, tepatnya di serpihan sitemap. Secara default, sitemap di robots.txt blogspot yaitu menyerupai ini
Sitemap: http://blogedek.blogspot.com/feeds/posts/default?orderby=updated
Nah, berdasarkan agan alkatro, feeds di atas kurang terbaik. Kenapa? sebab eh sebab feeds dari blogspot hanya "mampu" menampung 26 artikel terbaru saja. Solusinya? Kita menambahkan parameter max-result sehingga menjadi menyerupai ini:
Sitemap: http://blogedek.blogspot.com/feeds/posts/default?orderby=updated&max-results=999
Robots.txt yang sudah kita rubah tadi sekomplitnya menjadi menyerupai ini
User-agent: Mediapartners-Google
Disallow:
User-agent: *
Disallow: /search
Allow: / ini salah, robots ga kenal allow, hanya kenal disaalow
Sitemap: http://blogedek.blogspot.com/feeds/posts/default?orderby=updated&max-results=999
Sitemap: http://blogedek.blogspot.com/atom.xml?redirect=false&start-index=1&max-results=500
Sitemap: http://blogedek.blogspot.com/atom.xml?redirect=false&start-index=501&max-results=500
Mungkin itu saja perihal pengaturan robots.txt yang aku ketahui, bila teman ludang keringh mengetahui perihal robots.txt silahkan dimenambahkan :)

Ref : http://www.robotstxt.org/robotstxt.html dan Google
Advertisement

Iklan Sidebar