Semalt: Як блакаваць Darodar Robots.txt

Файл Robots.txt - гэта тыповы тэкставы файл, які змяшчае інструкцыі аб тым, як вэб-сканеры і боты павінны сканіраваць сайт. Іх прымяненне бачна ў пошукавых сістэмах, якія распаўсюджаны на шматлікіх аптымізаваных сайтах. Файл robots.txt, які ўваходзіць у пратакол выключэння робатаў (РЭП), з'яўляецца важным аспектам індэксацыі змесціва сайта, а таксама дазваляе сервера адпаведным чынам аўтарызаваць запыты карыстальнікаў.

Юлія Вашнева, старшы менеджэр поспехаў кліента Semalt , тлумачыць, што ўвядзенне - гэта аспект аптымізацыі пошукавых сістэм (SEO), які прадугледжвае павелічэнне трафіку з іншых даменаў у вашай нішы. Для таго, каб спасылкі "перайсці" для перадачы соку спасылак, неабходна ўключыць файл robots.txt на свой вэб-сайт, які займае месца ў якасці інструктара, як сервер узаемадзейнічае з вашым сайтам. З гэтага архіва прыводзяцца інструкцыі, якія дазваляюць альбо забараняюць паводзіць сябе пэўныя карыстацкія агенты.

Асноўны фармат файла robots.txt

Файл robots.txt змяшчае два неабходныя радкі:

User-agent: [імя карыстальніка-карыстальніка]

Забараніць: [URL-радок не будзе сканаваць]

Поўны файл robots.txt павінен утрымліваць гэтыя два радкі. Аднак некаторыя з іх могуць утрымліваць некалькі радкоў карыстацкіх агентаў і дырэктыў. Гэтыя каманды могуць утрымліваць такія аспекты, як дазвол, забарона альбо затрымка сканіравання. Звычайна існуе перапынак у радку, які падзяляе кожны набор інструкцый. Кожная інструкцыя па дазволу або забароне аддзяляецца гэтым разрывам радка, асабліва для robots.txt з некалькімі радкамі.

Прыклады

Напрыклад, файл robots.txt можа ўтрымліваць коды накшталт:

Карыстальнік: darodar

Забараніць: / убудова

Забараніць: / API

Забараніць: / _мяць

У гэтым выпадку гэта блок robots.txt-файла, які абмяжоўвае вэб-сканер Darodar ад доступу да вашага сайта. У вышэйзгаданым сінтаксісе код блакуе аспекты вэб-сайта, такія як убудовы, API і раздзел каментарыяў. Зыходзячы з гэтых ведаў, можна эфектыўна выканаць тэкставы файл робата. Файлы Robots.txt могуць выконваць мноства функцый. Напрыклад, яны могуць быць гатовыя:

1. Дазволіць увесь змест вэб-сканераў на старонку сайта. Напрыклад;

Карыстальнік: *

Забараніць:

У гэтым выпадку ўвесь карыстацкі змест можа атрымаць доступ да любога вэб-сканера, які запытваецца на сайт.

2. Блакуйце пэўны вэб-кантэнт з пэўнай тэчкі. Напрыклад;

Карыстальнік: Googlebot

Забараніць: / пример-папка /

Гэты сінтаксіс, які змяшчае імя агента карыстальніка Googlebot, належыць кампаніі Google. Гэта забараняе боту доступ да любой вэб-старонкі ў радку www.ourexample.com/example-subfolder/.

3. Блакуйце канкрэтны вэб-сканер з пэўнай вэб-старонкі. Напрыклад;

Карыстальнік: Bingbot

Забараніць: /example-subfolder/blocked-page.html

Карыстальніцкі бот Bing належыць да вэб-сканераў Bing. Гэты тып файла robots.txt абмяжоўвае доступ да пэўнай старонкі з дапамогай радка www.ourexample.com/example-subfolder/blocked-page.

Важная інфармацыя

  • Не кожны карыстальнік выкарыстоўвае ваш файл robots.txt. Некаторыя карыстальнікі могуць вырашыць яго ігнараваць. Большасць такіх пошукавых файлаў ўключаюць траяны і шкоднасныя праграмы.
  • Каб файл Robots.txt быў бачны, ён павінен быць даступны ў каталогу верхняга ўзроўню.
  • Сімвалы "robots.txt" адчувальныя да рэгістра. У выніку, вы не павінны іх змяняць ніякім чынам, уключаючы капіталізацыю некаторых аспектаў.
  • "/Robots.txt" з'яўляецца агульнадаступным. Любы чалавек зможа знайсці гэтую інфармацыю, дадаўшы яе да зместу любога URL. Вы не павінны індэксаваць асноўныя дадзеныя або старонкі, якія вы хочаце, каб яны заставаліся прыватнымі.