Semalt: Як блакаваць Darodar Robots.txt

Файл Robots.txt - гэта тыповы тэкставы файл, які змяшчае інструкцыі аб тым, як вэб-сканеры і боты павінны сканіраваць сайт. Іх прымяненне бачна ў пошукавых сістэмах, якія распаўсюджаны на шматлікіх аптымізаваных сайтах. Файл robots.txt, які ўваходзіць у пратакол выключэння робатаў (РЭП), з'яўляецца важным аспектам індэксацыі змесціва сайта, а таксама дазваляе сервера адпаведным чынам аўтарызаваць запыты карыстальнікаў.
Юлія Вашнева, старшы менеджэр поспехаў кліента Semalt , тлумачыць, што ўвядзенне - гэта аспект аптымізацыі пошукавых сістэм (SEO), які прадугледжвае павелічэнне трафіку з іншых даменаў у вашай нішы. Для таго, каб спасылкі "перайсці" для перадачы соку спасылак, неабходна ўключыць файл robots.txt на свой вэб-сайт, які займае месца ў якасці інструктара, як сервер узаемадзейнічае з вашым сайтам. З гэтага архіва прыводзяцца інструкцыі, якія дазваляюць альбо забараняюць паводзіць сябе пэўныя карыстацкія агенты.
Асноўны фармат файла robots.txt
Файл robots.txt змяшчае два неабходныя радкі:
User-agent: [імя карыстальніка-карыстальніка]
Забараніць: [URL-радок не будзе сканаваць]
Поўны файл robots.txt павінен утрымліваць гэтыя два радкі. Аднак некаторыя з іх могуць утрымліваць некалькі радкоў карыстацкіх агентаў і дырэктыў. Гэтыя каманды могуць утрымліваць такія аспекты, як дазвол, забарона альбо затрымка сканіравання. Звычайна існуе перапынак у радку, які падзяляе кожны набор інструкцый. Кожная інструкцыя па дазволу або забароне аддзяляецца гэтым разрывам радка, асабліва для robots.txt з некалькімі радкамі.

Прыклады
Напрыклад, файл robots.txt можа ўтрымліваць коды накшталт:
Карыстальнік: darodar
Забараніць: / убудова
Забараніць: / API
Забараніць: / _мяць
У гэтым выпадку гэта блок robots.txt-файла, які абмяжоўвае вэб-сканер Darodar ад доступу да вашага сайта. У вышэйзгаданым сінтаксісе код блакуе аспекты вэб-сайта, такія як убудовы, API і раздзел каментарыяў. Зыходзячы з гэтых ведаў, можна эфектыўна выканаць тэкставы файл робата. Файлы Robots.txt могуць выконваць мноства функцый. Напрыклад, яны могуць быць гатовыя:
1. Дазволіць увесь змест вэб-сканераў на старонку сайта. Напрыклад;
Карыстальнік: *
Забараніць:
У гэтым выпадку ўвесь карыстацкі змест можа атрымаць доступ да любога вэб-сканера, які запытваецца на сайт.
2. Блакуйце пэўны вэб-кантэнт з пэўнай тэчкі. Напрыклад;
Карыстальнік: Googlebot
Забараніць: / пример-папка /
Гэты сінтаксіс, які змяшчае імя агента карыстальніка Googlebot, належыць кампаніі Google. Гэта забараняе боту доступ да любой вэб-старонкі ў радку www.ourexample.com/example-subfolder/.
3. Блакуйце канкрэтны вэб-сканер з пэўнай вэб-старонкі. Напрыклад;
Карыстальнік: Bingbot
Забараніць: /example-subfolder/blocked-page.html
Карыстальніцкі бот Bing належыць да вэб-сканераў Bing. Гэты тып файла robots.txt абмяжоўвае доступ да пэўнай старонкі з дапамогай радка www.ourexample.com/example-subfolder/blocked-page.
Важная інфармацыя
- Не кожны карыстальнік выкарыстоўвае ваш файл robots.txt. Некаторыя карыстальнікі могуць вырашыць яго ігнараваць. Большасць такіх пошукавых файлаў ўключаюць траяны і шкоднасныя праграмы.
- Каб файл Robots.txt быў бачны, ён павінен быць даступны ў каталогу верхняга ўзроўню.
- Сімвалы "robots.txt" адчувальныя да рэгістра. У выніку, вы не павінны іх змяняць ніякім чынам, уключаючы капіталізацыю некаторых аспектаў.
- "/Robots.txt" з'яўляецца агульнадаступным. Любы чалавек зможа знайсці гэтую інфармацыю, дадаўшы яе да зместу любога URL. Вы не павінны індэксаваць асноўныя дадзеныя або старонкі, якія вы хочаце, каб яны заставаліся прыватнымі.