Back Вы здесь: Home Seo - WTF ? Robots.txt — улучшаем индексацию сайта Яндексом и Google

Robots.txt — улучшаем индексацию сайта Яндексом и Google

robotПри самостоятельном продвижении и раскрутке сайта важно не только разработка контента с высоким уровнем уникальности или же подбор запросов в статистических данных поисковой системы yandex, но и без этого же идет уделять должное внимание такому показателю, как индексация проекта поисковыми системами так как от этого также во многом зависит весь будущий успех продвижения. 
У нас с вами есть в распоряжении 2 главных инструмента, при помощи которых мы имеем возможность управлять этим процессом. Для начала, это, как и ожидалось, файл Robots. txt, который может помочь нам строго запретить проводить, анализ страниц и вносить в индекс что не включает в себя основного контента (файлы движка и дубли контента) и о нем и пойдет речь в данном материале, но но в добавок есть еще один инструмент — карта интернет сайта (sitemap.xml). 

Почему таким образом важно управлять индексацией интернет сайта 

Упомянутые выше инструменты достаточно важны для успешного развития вашего проекта и это совершенно не голословное утверждение. В материале по sITemap xml (см. Ссылку выше) я приводил в хороший пример итоги достаточно важного, анализа по частым техническим ошибкам начинающих вебмастеров, там на 2 и третьем месте (сразу после не контента с высоким уровнем уникальности) находятся именно неимение данных файлов Роботс и сайтмап, или их неверное составление и применение. 

Надо достаточно внятно и просто осознавать, что не все содержимое сеть интернет (www) одноименного проекта (файлы и директории), который был создан на движке, должно быть предложено для тестирования роботам поисковиков. 

Даже Если не прописать некоторые правила поведения в роботсе для данных ботов, то в индекс поисковых систем попадет достаточно большое количество страниц, не имеющих отношения к значимому содержимому проекта, а может случиться многократное копирование наполнения (по разного рода ссылкам выйдет один единственный, или очень пересекающийся контент), что поисковые машины не любят. 

Хорошим решением будет запрет только лишнего в Robots. txt (Многие буквы в названии могут быть в нижнем регистре — без заглавных букв). 

С ним мы сможем влиять на процесс индексации интернет сайта яндексом и гугл. Представляет он из себя стандартный текстовый файл, который можно будет сделать и потом изменять в каждом текстовом редакторе (к примеру, notepad++). Поисковый бот будет искать этот файл в корневом каталоге вашего проекта и даже Если не отыщет, то будет загонять в индекс многие, до чего сможет дотянуться. 

Поэтому сразу после написания требуемого роботса, его требуется сберечь в корневую папку, к примеру, при помощи ftp покупателя Filezilla таким образом, чтобы он был доступен, к примеру, по такому, адресу: 

http://joomla-s.ru/robots.txt

Да, если вы имеете желание выяснить как выглядит этот файл у какого-то проекта в интернете, то будет достаточно дописать к Урлу его главной страницы неминуемое завершение вида/ Robots. txt. Это вполне может быть полезно для понимания того, что там должно быть. 

Однако, и необходимо брать в расчет, что для различных движков этот файл какой вид будет иметь по разному (папки движка, которые необходимо запрещать проводить, анализ страниц и вносить в индекс, будут носить имя по разному в различных cms). По этой причине, если вы имеете желание определиться с хорошим вариантом роботса, например для форума на smf, то и изучать нужно форумы, которые построены на этом движке. 

Директивы и условия написания файла Robots. txt (disallow, User-agent, host) Роботс имеет никак не непростой синтаксис, который максимально подробно описан, к примеру, в хелпе поисковой системы yandex. Практически всегда там указывается, для какого поискового бота созданы описанные ниже директивы: имя бота ("user-agent"), разрешающие ("allow") и запрещающие ("disallow") и еще, активно применяется "sITemap" для указания поисковикам, где располагается файл карты. 

Еще полезно указать в данном файле, какое из зеркал вашего вебпроекта считается основным в особенной директиве "host", которую понимает исключительно поисковик яндекс. Даже если у вашего проекта нет зеркал, то полезно будет указать, какой из способов написания считается основным — с www, а также без него. Т. К. это также своего рода зеркалированием. Про это я очень четко и понятно рассказывал в материале про 301, автоматическое перенаправление для доменных имен с www и без него. 

Теперь проведем беседу немножко о синтаксисе данного файла. Директивы в Robots. txt Имеют следующий вид: 

<поле>:<пробел><значение><пробел>
<поле>:<пробел><значение><пробел>

Правильный код просто обязан содержать как минимум одну директиву "Disallow" после каждой записи "User-agent ". Пустой файл предполагает разрешение на индексирование только интернет сайта. 


Директива" User-agent " обязана содержать название поискового бота. Прибегая к услугам нее возможно настроить под свои нужды и требования правила поведения для любого определенного поискового робота (к примеру, сделать запрет индексации отдельной папки для поисковой системы yandex). Хороший пример написания" User- agent ", адресованной всем ботам зашедшим на ваш он-лайн сервис, выглядит таким образом:

User-agent: *

если вы имеете желание в "User-agent" задать некоторые условия для какого-то одного бота, к примеру, поисковой системы yandex, то требуется написать таким образом: 

User-agent: Yandex

Бот каждой по отдельности поисковика имеет свое название (к примеру, для рамблера это stackrambler). Тут я приведу список наиболее знаменитых из них: 

Google       http://www.google.com     Googlebot
Yahoo!       http://www.yahoo.com      Slurp (или Yahoo! Slurp)
AOL          http://www.aol.com     Slurp
MSN       http://www.msn.com     MSNBot
Live       http://www.live.com     MSNBot
Ask       http://www.ask.com     Teoma
AltaVista    http://www.altavista.com  Scooter
Alexa        http://www.alexa.com     ia_archiver
Lycos        http://www.lycos.com     Lycos
Яндекс       http://www.ya.ru         Yandex
Рамблер      http://www.rambler.ru     StackRambler
Мэйл.ру      http://mail.ru         Mail.Ru
Aport        http://www.aport.ru     Aport
Вебальта     http://www.webalta.ru     WebAlta (WebAlta Crawler/2.0)

У больших поисковиков время от времени помимо главных ботов, есть и некоторые экземпляры для индексирования блогов, новостей, картинок и так далее. Немало данных по разновидностям ботов вы можете почерпнуть на этом ресурсе. 

Приведу пару обычных вариантов работы директив с объяснением его действий. 

1. Размещенный ниже код дает возможность без усилий всем ботам проводить индексацию только содержимого без исключений. Это задается пустой директивой

User-agent: *
Disallow:

 2. Следующий код, напротив, совершенно запрещает всем поисковикам добавлять в индекс странички данного проекта. Устанавливает это Disallow с "/ "в поле Значения. 

User-agent: *
Disallow: /

3. Тут будет запрещаться всем ботам видеть содержимое каталога/ image/ (http: //mysite. ru/ image/ —, абсолютный дорога к этому каталогу) 

User-agent: *
Disallow: /image/

4. В приведенном ниже примере будут запрещены директория" image ",, а так же многие файлы и директории начинающиеся с символов "image ", другими словами файлы: " image. htm ", "images. htm ", каталоги: " image ", "images1 ", " image34 " и так далее.): 

User-agent: *
Disallow: /image

5. При описании путей для директив Allow-disallow можно применять символы "*" и "", задавая, так, некоторые логические выражения. Символ "*" значит любую (среди прочего пустую) последовательность символов. Следующий хороший пример запрещает всем поисковикам индексацию файлов с увеличение ". Aspx ": 

User-agent: *
Disallow: *.aspx

во избежания появления неприятных трудностей с зеркалами интернет сайта советуем добавлять в Robots. txt Директиву Host, указывающая боту яндекс на основное зеркало. Согласно правилам написания в записи для User-agent просто обязана быть как минимум одна директива Disallow (в основном ставят пустую, совершенно ничего не запрещающую): 

User-agent: Yandex
Disallow:
Host: www.site.ru
 
или
 
User-agent: Yandex
Disallow:
Host: site.ru

Зависимо от того, что для вас оптимальнее. 

Директива sITemap указывает на расположение файла карты интернет сайта (практически всегда он называется Sitemap. xml, но далеко не во всех случаях). В роли параметра указывается дорога к этому файлу, включая http: // (другими словами его урл). К примеру: 

Sitemap: http://site.ru/sitemap.xml

Мета-тег Robots — дает возможность закрыть дубли контента 

есть еще одна возможность достичь результата настроить под свои нужды и требования (позволить , а также строго запретить) индексацию некоторых страниц web-сайта, как для поисковой системы yandex, так и для Гугле. Для этого внутри тега" head " необходимой вебстраницы дописывается Мета-тег Robots с нужными параметрами и без этого повторяется всем бумаг, к которым необходимо использовать то, а также другое правило (запрет или же разрешение). Смотреться это может, к примеру, таким образом: 

<html>
<head>
<meta name="robots" content="noindex,nofollow">
<meta name="description" content="Эта страница ....">
<title>...</title>
</head>
<body>
...


Тут, боты всех поисковиков будут вынуждены запамятовать об индексации данной вебстраницы (про это сообщает присутствие noindex в этом Мета-теге) и анализе размещенных на ней ссылок (про это сообщает присутствие nofollow — боту запрещается переходить по ссылкам, которые он отыщет в данном документе). 

Существуют исключительно 2 пары настроек у данного метатега: [no] index и [no] Follow: 
index — указывают, может ли робот проводить индексацию данного документа Follow — может ли он следовать по ссылкам, найденным в данном документе Значения при стандартных настройках –" index "и" Follow ". Существует кроме этого короткий вариант написания с применением "all" и "none ", обозначающие, активность обоих настроек , а также, соответственно. Наоборот: all=index, Follow и none=noindex, nofollow. 

для блога на вордпресс можно будет настроить под свои нужды и требования Мета-тег Robots, к примеру, при помощи плагина all in one seo Pack. Ну многие, с теорией покончено и пришло время переходить к практике, например к составлению самых лучших Robots. txt Для Joomla, smf и вордпресс. 

А это давно стало достаточно известным фактом, у проектов, созданных на примере какого-то движка (joomla, вордпресс, smf и др), есть достаточно много дополнительных объектов не несущих совершенно никакой информативной нагрузки. 

Даже Если не строго запретить индексацию этого мусора, то время, отведенное поисковыми системами на индексацию вашего интернет сайта, будет тратиться на перебор файлов движка (на предмет поиска там информационной частью, другими словами контента). 

Но фишка, что в большей части из cms наполнение хранится не в файликах,, а в базе этих, к которой поисковым ботам практически не добраться. Полазив по мусорным объектам движка, бот исчерпает отпущенное ему время и уйдет не солоно хлебавши. 

В добавок, идет стремиться к уровня уникальности контента на собственном проекте и не нужно допускать полного или же частичного дублирования контента (информационного содержимого). Дублирование может появиться когда один единственный материал выйдет по разного рода, адресам (url). 

Яндекс, а также google, проводя индексацию, обнаружат дубли и наверно, примут меры к некоторой пессимизации вашего проекта при их большом количестве (им также не охото искать зерна в кучи навоза). 

Если ваш проект создан на примере какого-то движка, то копирование наполнения получит место с достаточно высокой вероятностью, поэтому необходимо с ним вести борьбу,, а также при помощи запрета в Robots. txt,, а, а именно в Мета-теге, так как в 1 варианте гугл запрет может и проигнорировать,, а на метатег наплевать он уже совершенно никак не сможет (таким образом воспитан). 

Например, в вордпресс странички с достаточно практически идентичным содержимым имеют возможность попасть в индекс поиск, в случае если разрешена индексация и содержимого рубрик, и содержимого, архива тегов, и содержимого временных, архивов. 

Но в случае если при помощи описанного выше Мета-тега сделать запрет для, архива тегов и временного, архива (возможно теги оставить,, а строго запретить индексацию содержимого рубрик), то дублирования контента не будет для этого в вордпресс оптимально будет использовать реальными способами плагина all in one seo Pack, ссылку на характеристика которого ищите чуть выше по тексту. 

Еще труднее с копированием наполнения обстоит проблема заключается в форумном движке smf. Даже Если не производить тонкую установку настроек (запрет) через Robots, то в поиск попадут многократные дубли одних постов. В Joomla также, да, время от времени появляется проблема с дублированием простых бумаг и их копий, изначально созданных для печати. 

Подводя результат скажу, что файл Роботс создан для задания глобальных правил запрета доступа в целые директории интернет сайта, или в файлы и папки в названии которых есть заданные символы (по маске). Хорошие примеры задания такого типа запретов вы можете увидеть чуть выше. 

Для запрета же индексации одной странички комфортно применять одноименный Мета-тег, прописывающийся в шапке (меж тегами head) необходимого документа. Данные о синтаксисе метатега смотрите чуть выше по тексту. 

Правильные Robots. txt Для Joomla, Вордпресс 

и smf сейчас давайте посмотрим на реальные хорошие примеры роботса, который предназначен для различных движков — Joomla, вордпресс и smf. Конечно же, что многие 3 варианта, изготовлены для различных cms, будут сильно (даже Если не сказать в корне) иметь ряд особенностей и отличий один от другого. Важно заметить, что у всех у них будет один общий момент и момент этот связан с поисковиком поисковая система яндекс. 

Т. К. В рунете поисковая система яндекс имеет большой вес, то необходимо брать в расчет многие мелочи его работы, и тут нам может помочь директива Host. Она в явной форме укажет этому поисковой системе основное зеркало вашего интернет сайта. 

Для нее советуют применять дополнительный блог User-agent, созданный специально для поисковой системы yandex (user-agent: яндекс). Это связано с тем, что все другие поисковики имеют возможность не осознавать Host и соответственно. Ее включение в запись User-agent, которая предназначена всем поисковых систем (user-agent: *), может стать катализатором к отрицательным итогам и неверной индексации. 

Как обстоит дело в реальности — сказать непросто, так как, алгоритмы работы поиска — это вещь в себе, из-за этого намного лучше выполнить как советуют. Но тут нужно будет продублировать в директиве User-agent: яндекс многие те условия, что мы задали User-agent: *. Если вы оставите User-agent: яндекс с пустым Disallow:, то так вы разрешите Яндексу заходить куда угодно и тащить многие одна за другой в индекс. 

До того, как перейти для проверки реальных способов, желаю вам напомнить, что протестировать работу собственного Robots. txt Вы можете в яндекс Вебмастере, а также google Вебмастере. Там можно будет указывать конкрентные Урлы собственного проекта и увидеть (протестировать), ожидается ли этот поисковая система добавлять их в свой индекс или же это действо положительно строго запрещено вами в чудо-файле. 

Настройка индексации для форума SMF

 

Для форума на движке SMF правильным будет файл следующего содержания (взят с форума технической поддержки из этой темы ) :

 

User-agent: *
Allow: /forum/*sitemap
Allow: /forum/*arcade
Allow: /forum/*rss
Disallow: /forum/attachments/
Disallow: /forum/avatars/
Disallow: /forum/Packages/
Disallow: /forum/Smileys/
Disallow: /forum/Sources/
Disallow: /forum/Themes/
Disallow: /forum/Games/
Disallow: /forum/*.msg
Disallow: /forum/*.new
Disallow: /forum/*sort
Disallow: /forum/*topicseen
Disallow: /forum/*wap
Disallow: /forum/*imode
Disallow: /forum/*action
User-agent: Slurp
Crawl-delay: 100


Авторы данного варианта роботса говорят, что он даст максимально возможный эффект, если вы не будете, активировать на собственном форуме дружественные url (чпу). 

Дружественные url в smf можно, активировать, а также дезактивировать в, админке форума, пройдя по следующему пути: в левой колонке, админки выбираете пункт" данные и настройки ", в нижней части открывшегося окна находите пункт " позволить дружественные url ", где имеете возможность установить , а также снять галочку. 

Есть еще один вариант Robots. txt Для smf (но, вполне возможно, еще не полностью оттестированный): 

User-agent: *
Allow: /forum/*sitemap
Allow: /forum/*arcade # если не стоит мод игр, удалить без пропуска строки
Allow: /forum/*rss
Allow: /forum/*type=rss
Disallow: /forum/attachments/
Disallow: /forum/avatars/
Disallow: /forum/Packages/
Disallow: /forum/Smileys/
Disallow: /forum/Sources/
Disallow: /forum/Themes/
Disallow: /forum/Games/
Disallow: /forum/*.msg
Disallow: /forum/*.new
Disallow: /forum/*sort
Disallow: /forum/*topicseen
Disallow: /forum/*wap
Disallow: /forum/*imode
Disallow: /forum/*action
Disallow: /forum/*prev_next
Disallow: /forum/*all
Disallow: /forum/*go.php # либо тот редирект, что стоит у вас
Host: www.мой сайт.ru # указать ваше главное зеркало
User-agent: Slurp
Crawl-delay: 100

 Или тот, автоматическое перенаправление, что стоит у вас Host: www. Мой интернет сайт. Ru указать ваше основное зеркало User-agent: Slurp Crawl-delay: 100 как вы можете видеть в данном файле, директива Host, созданная специально для поисковой системы yandex, включена в User-agent всем поисковых систем. Я бы, по всей вероятности все же добавил отдельную директиву User-agent для поисковой системы yandex, с повтором всех правил. Но решайте самостоятельно. 

Правило: 

User-agent: Slurp
Crawl-delay: 100

связано с тем, что поисковик и одноименная компания Yahoo (slurp — это имя его поискового бота) сканирует сервер во немало потоков, как можно плохо отразиться на его производительности. 

В данном правиле директива Crawl-delay дает возможность указать боту Yahoo очень маленький сроки проведения времени (в секундах) меж концом закачки одного документа и началом закачки следующего. Это даст возможность снять нагрузку на сервер. 

Для запрета версий для печати настоятельно советуют проделать описанные ниже действия (для их реализации будет необходимо открыть многие файлы smf на редактирование при помощи программки filezilla). 

В файле sources/ Printpage. php Находите (к примеру, при помощи встроенного поиска в notepad++) строку: 

fatal_lang_error(472, false);


вставляете моментально под ней: 

$context['robot_no_index'] = true;


в файле themes/ название_вашей_темы_оформления/ Printpage. template. php Находите строку: 

<meta http-equiv="Content-Type"content="text/html; charset=', $context['character_set'], '"/>

 Вставляете ниже нее следующую строку: 

<meta name="robots"content="noindex"/>

 в случае если вы так же хотите, чтобы в вариации для печати была ссылка для перехода на полную версию форума (когда часть страниц для печати уже преодолела индексацию в поисковой системе yandex и гугле), то в том же Printpage. template. php Вы находите строку с открывающим тегом head: 

<head>

 и Вставляете ниже строку: 

<a href="http://www.мой сайт.ru/">На форум</a>

Получить больше информации по этому варианту файла robots.txt вы можете, почитав эту ветку русскоязычного форума поддержки.

Правильный Robots. txt Для Joomla Рекомендованный файл для Джумлы выглядит таким образом: 

User-agent: *
Disallow: /administrator/
Disallow: /cache/
Disallow: /components/
Disallow: /images/
Disallow: /includes/
Disallow: /installation/
Disallow: /language/
Disallow: /libraries/
Disallow: /media/
Disallow: /modules/
Disallow: /plugins/
Disallow: /templates/
Disallow: /tmp/
Disallow: /xmlrpc/

 в общем, тут основная часть учтено и работает он отлично. Основное, в него необходимо добавить отдельное правило User-agent: яндекс для вставки директивы Host, определяющей основное зеркало для поисковой системы yandex,, а так же указать дорога к файлу sITemap. 

Поэтому в окончательном виде Правильный Robots для Joomla, по-моему мнению, просто обязан смотреться таким образом: 

User-agent: *
Disallow: /administrator/
Disallow: /cache/
Disallow: /includes/
Disallow: /installation/
Disallow: /language/
Disallow: /libraries/
Disallow: /media/
Disallow: /modules/
Disallow: /plugins/
Disallow: /templates/
Disallow: /tmp/
Disallow: /xmlrpc/
 
User-agent: Yandex
Disallow: /administrator/
Disallow: /cache/
Disallow: /includes/
Disallow: /installation/
Disallow: /language/
Disallow: /libraries/
Disallow: /media/
Disallow: /modules/
Disallow: /plugins/
Disallow: /templates/
Disallow: /tmp/
Disallow: /xmlrpc/
Host: vash_sait.ru
Sitemap: http://vash_sait.ru/index.php?option=com_xmap&sitemap=1&view=xml&no_html=1

да, еще посмотрите, во 2 варианте нет директивы Disallow: / images/, дающей запрет индексации изображений вашего интернет сайта. Я забыл сперва, акцентировать ваше внимание на этом, но мне про это уточнил важную деталь уважаемый Alex. 

Полностью с ним тоже подтверждает , что в случае если картинки особые и вам необходимо, для того что-бы гости находили ваш он-лайн сервис и с поиска по иллюстрациям от поисковой системы yandex и гугл, то конечно-же удалите это правило из собственного файла, но и важно не забыть прописывать всем вашим изображениям, атрибуты alt и tITle в тег img. 

Во время создания онлайн-магазина для Joomla на примере компонента virtuemart я столкнулся с тем, что в индексы поисковых систем стали попадать вариации для печати страниц данного самого магазина. Кнопка, ведущая на страничку для печати была требуется (заказчик таким образом хотел), по этой причине оставался исключительно вариант с их запретом в Robots. txt. 

Но все результатами можно было удивиться, потому достаточно просто. Вся фишка заключается в том, что для создания вариации для печати в Джумле применяется такой же урл вебстраницы, кроме одного: обращение идет не к index. php,, а к index2. php. Но не проводится загрузка шаблона, другими словами выводится исключительно содержимое на полный экран. 

Поэтому, для запрета версий для печати в virtuemart я добавил в следующее правило: 

Disallow: /index2.php?page=shop

Robots для вордпресс

не собираюсь приводить хороший пример файла, который настоятельно советуют сотрудники отдела разработок. Вы и имеете возможность его увидеть. Некоторые блогеры не ограничивают ботов поисковой системы yandex и google в их прогулках по содержимому движка вордпресс. Практически всегда в блогах есть возможность увидеть Роботс, в, автоматическом режиме заполненный плагином поисковик гугл xml sITemaps. 

Но, мне кажется, все же идет оказать необходимую помощь поиску в нелегком деле отсеивания зерен от плевел. Для начала, на индексацию данного мусора уйдет время у ботов поисковой системы yandex и google и вполне может никак не остаться времени для добавления в индекс вебстраниц с вашими новыми публикациями. Кроме этого, боты, лазящие по мусорным файлам движка, наверно будут делать дополнительную нагрузку на сервер вашего хоста, что не очень хорошо. 

Поэтому тут я приведу свой вариант,, а вам уже решать, использовать его так, или подкорректировать под собственные потребности и требования: 

User-agent:
*Disallow: /administrator/
Disallow: /cache/
Disallow: /components/
Disallow: /includes/
Disallow: /installation/
Disallow: /language/
Disallow: /libraries/
Disallow: /media/
Disallow: /modules/
Disallow: /templates/
Disallow: /tmp/
Disallow: /xmlrpc/
Disallow: /*.pdf
Disallow: /*.swf
Disallow: /*print=1
Disallow: /*mailto/
Disallow: /*?format=feed
Disallow: /*?format=opensearch
 

На данное время индексация блога в этом случае Robots. txt Меня совершенно устраивает. Использую я и одноименный Мета-тег (его я добавил в заголовки страничек с временными и теговыми архивами). 

Что-бы прописать этот тег Robots, я не прибегал к правке кода движка вордпресс. В данном не было нужды, т. К. Это можно воплотить в жизнь обычный установкой, а также снятием галочек в подходящих пунктах чудесного плагина — all in one seo Pack.

Добавить комментарий


Защитный код
Обновить

RuCaptcha - заработай на вводе каптч
Advego.ru - система покупки и продажи контента для сайтов, форумов и блогов

Заработок в сети