Semalt: Як блакаваць Darodar Robots.txt

Файл Robots.txt - гэта тыповы тэкставы файл, які змяшчае інструкцыі аб тым, як вэб-сканеры і боты павінны сканіраваць сайт. Іх прымяненне бачна ў пошукавых сістэмах, якія распаўсюджаны на шматлікіх аптымізаваных сайтах. Файл robots.txt, які ўваходзіць у пратакол выключэння робатаў (РЭП), з'яўляецца важным аспектам індэксацыі змесціва сайта, а таксама дазваляе сервера адпаведным чынам аўтарызаваць запыты карыстальнікаў.

Юлія Вашнева, старшы менеджэр поспехаў кліента Semalt , тлумачыць, што ўвядзенне - гэта аспект аптымізацыі пошукавых сістэм (SEO), які прадугледжвае павелічэнне трафіку з іншых даменаў у вашай нішы. Для таго, каб спасылкі "перайсці" для перадачы соку спасылак, неабходна ўключыць файл robots.txt на свой вэб-сайт, які займае месца ў якасці інструктара, як сервер узаемадзейнічае з вашым сайтам. З гэтага архіва прыводзяцца інструкцыі, якія дазваляюць альбо забараняюць паводзіць сябе пэўныя карыстацкія агенты.

Асноўны фармат файла robots.txt

Файл robots.txt змяшчае два неабходныя радкі:

User-agent: [імя карыстальніка-карыстальніка]

Забараніць: [URL-радок не будзе сканаваць]

Поўны файл robots.txt павінен утрымліваць гэтыя два радкі. Аднак некаторыя з іх могуць утрымліваць некалькі радкоў карыстацкіх агентаў і дырэктыў. Гэтыя каманды могуць утрымліваць такія аспекты, як дазвол, забарона альбо затрымка сканіравання. Звычайна існуе перапынак у радку, які падзяляе кожны набор інструкцый. Кожная інструкцыя па дазволу або забароне аддзяляецца гэтым разрывам радка, асабліва для robots.txt з некалькімі радкамі.

Прыклады

Напрыклад, файл robots.txt можа ўтрымліваць коды накшталт:

Карыстальнік: darodar

Забараніць: / убудова

Забараніць: / API

Забараніць: / _мяць

У гэтым выпадку гэта блок robots.txt-файла, які абмяжоўвае вэб-сканер Darodar ад доступу да вашага сайта. У вышэйзгаданым сінтаксісе код блакуе аспекты вэб-сайта, такія як убудовы, API і раздзел каментарыяў. Зыходзячы з гэтых ведаў, можна эфектыўна выканаць тэкставы файл робата. Файлы Robots.txt могуць выконваць мноства функцый. Напрыклад, яны могуць быць гатовыя:

1. Дазволіць увесь змест вэб-сканераў на старонку сайта. Напрыклад;

Карыстальнік: *

Забараніць:

У гэтым выпадку ўвесь карыстацкі змест можа атрымаць доступ да любога вэб-сканера, які запытваецца на сайт.

2. Блакуйце пэўны вэб-кантэнт з пэўнай тэчкі. Напрыклад;

Карыстальнік: Googlebot

Забараніць: / пример-папка /

Гэты сінтаксіс, які змяшчае імя агента карыстальніка Googlebot, належыць кампаніі Google. Гэта забараняе боту доступ да любой вэб-старонкі ў радку www.ourexample.com/example-subfolder/.

3. Блакуйце канкрэтны вэб-сканер з пэўнай вэб-старонкі. Напрыклад;

Карыстальнік: Bingbot

Забараніць: /example-subfolder/blocked-page.html

Карыстальніцкі бот Bing належыць да вэб-сканераў Bing. Гэты тып файла robots.txt абмяжоўвае доступ да пэўнай старонкі з дапамогай радка www.ourexample.com/example-subfolder/blocked-page.

Важная інфармацыя

  • Не кожны карыстальнік выкарыстоўвае ваш файл robots.txt. Некаторыя карыстальнікі могуць вырашыць яго ігнараваць. Большасць такіх пошукавых файлаў ўключаюць траяны і шкоднасныя праграмы.
  • Каб файл Robots.txt быў бачны, ён павінен быць даступны ў каталогу верхняга ўзроўню.
  • Сімвалы "robots.txt" адчувальныя да рэгістра. У выніку, вы не павінны іх змяняць ніякім чынам, уключаючы капіталізацыю некаторых аспектаў.
  • "/Robots.txt" з'яўляецца агульнадаступным. Любы чалавек зможа знайсці гэтую інфармацыю, дадаўшы яе да зместу любога URL. Вы не павінны індэксаваць асноўныя дадзеныя або старонкі, якія вы хочаце, каб яны заставаліся прыватнымі.

send email