• На базе или разработка простого дизайна
  • Подключение к сервису -
  • Неограниченное количество разделов
  • Новости, фотоальбомы, контакты...
  • Домен и хостинг на 1 год
  • Статистика посещаемости сайта
  • Возможность дальнейшего развития
75 000.-
50 000.-
Делаем
2 недели!
  • На базе или разработка простого дизайна
  • Подключение к сервису -
  • Неограниченное количество разделов
  • Онлайн заказ, каталог товаров...
  • Домен и хостинг на 1 год
  • Статистика посещаемости сайта
  • Возможность дальнейшего развития
85 000.-
60 000.-
Делаем
2 недели!
  • Выявление потребностей и разработка технического задания
  • Система управления с неограниченным количеством разделов - или 1С-Битрикс
  • Новости, каталог, фотоальбомы, обратная связь и все, что угодно...
  • Наполнение, отладка и контроль качества
  • Поисковая оптимизация - SEO
  • Сдача сайта «под ключ».
от 300 000.-
Срок от 3-х месяцев!
от 10 000.- / мес.
Результат от 2 месяцев!

USWeb:



USWeb - это программа для создания сайтов, система управления сайтами. Программа обладает широкими возможностями, может поддерживать несколько сотен сайтов в рамках одной копии программы и по праву может называть конструктором сайтов.


Настройка robots.txt

Находящийся в корневой директории (папке) сайта файл robots.txt имеет намаловажное значение для правильной индексации сайта поисковыми системами. Именно командами, содержащимися в этом файле, поисковый робот руководствуется, какие страницы можно индексировать и какие запрещено.

Нередко возникает ситуация, когда разработчики сайта "забывают" о создании robots.txt, поскольку отсутствие robots.txt трактуется как разрешение полностью индексировать страницы на усмотрение робота.

К сожалению, поисковые роботы ещё далеки от точной оценки полезности тех или иных страниц, которые они обнаружили на сайте. Ведь сайт состоит не только из публичных страниц, но и страниц, которые могут содержать конфиденциальную информацию или техническую информацию о сайте, появление таких страниц в общественном доступе в интернете может повлечь за собой серьезные неприятности для владельцев такого сайта.

За примерами далеко ходить не приходится. Многие помнят прошлогодний скандал про федерального сотового оператора, когда страницы с личной перепиской клиентов на сайте Мегафона оказались в публичном доступе. Или опять таки прокол самой поисковой системы Яндекс, когда служебная переписка сотрудников Яндекса с внутреннего поддомена оказалась в результатах поиска.

Появление конфеденциальных документов в публичном доступе не только подрывает имидж компании, но и может служить ключом для взлома сайта хакерами с похищением или уничтожением имеющихся данных.

Ниже приведены основные директивы, которые используются для настройки индексации сайта поисковыми системами через robots.txt.

User-Agent

Любая группа команд должна начинаться с директивы User-Agent. Данная директива показывает, какому именно поисковому роботу адресуется группа команд.

Для Яндекса используется значение Yandex

User-Agent: Yandex

Для Google используется значение Googlebot

User-Agent: Googlebot

Для Mail используется значение Mail.Ru

User-Agent: Mail.Ru

Для Bing используется значение MSNBot

User-Agent: MSNBot

Это четыре основных поисковых системы Рунета, на которые приходится основной поисковый трафик, поэтому владелец сайта должен настроить сайт под индексацию именно этих поисковых роботов.

Общая группа директив для всех поисковых роботов обозначается *

User-Agent: *

Disallow и Allow

Вторая директива, идущая после User-Agent, присутствие которой обязательно, если надо запретить к индексации часть сайта, это директива Disallow (запрещает индексировать) и Allow (разрешает индексировать) для выбранного раздела сайта:

Если нам нужно запретить индексировать весь сайт от всех поисковых роботов:

User-Agent: *
Disallow: /

А если нужно запретить индексировать весь сайт, но разрешить к индексации страницы, начинающиеся на /news:

User-Agent: *
Disallow: /
Allow: /news

В данном примере, первой директивой запрещается к индексации весь сайт, а второй директивой вносится исключение.

Директивы Allow и Disallow равнозначны - порядок следования не важен, важно их соотношение между собой:

User-Agent: *
Allow: /katalog
Disallow: /

тоже самое, что и

User-Agent: *
Disallow: /
Allow: /katalog

Отсутствие параметра у директив Allow и Disallow трактуется обратно, т.е. Disallow: / тоже самое, что и Allow:  - запретить все к индексации. Allow: / и Disallow: - разрешить все к индексации.

Спецсимволы * и $

С помощью спецсимволов можно строить регулярные выражения.

Символ * обозначает любую последовательность символов (в т.ч. пустую).

Символ $ используется для отмены символа *, идущего по умолчанию.

Запретим к индексации на сайте все файлы с расширением .pdf:

User-Agent: *
Disallow: *.pdf$

Запретим к индексации картинки форматов .jpg и .gif на сайте в разделе /katalog, а также страницу /files/:

User-Agent: *
Disallow: /katalog*.jpg
Disallow: /katalog*.gif
Disallow: /files/$

Следует отметить, что данные директивы будут работать для всех поисковых роботов независимо от их типа. Если, к примеру, нужно запретить к индексации картинки с сайта роботом Яндекса и разрешить индексировать текст, то в этом случае нужно для отдельных поисковых роботов одной поисковой системы писать свои правила.

Создание директив для разных поисковых роботов

Порою возникает необходимость создания разных директив для разных роботов, в этом случае они пишутся в одном файле robots.txt группами команд.

Группы директив разделяются между собой одной пустой строкой - это обязательное условие их корректной работы.

Робот Яндекса индексирующий картинки YandexImages. Запретим к индексации сайт для робота Яндекс.Картинок. При этом для других роботов, в т.ч. Яндекса, сайт остается доступным:

User-Agent: *
Disallow:

User-Agent: YandexImages
Disallow: /

Запретим сайт для индексации в поисковых системах Bing и Mail.Ru, которыми пользуется мало пользователей, но нагрузка создаваемая их роботами на сайт очень высокая.

User-Agent: *
Disallow:

User-Agent: Mail.Ru
Disallow: /

User-Agent: MSNBot
Disallow: /

Host

Директива Host используется, когда у сайта есть несколько копий (зеркал), которые все индексируются роботами и, тем самым, не только создают дополнительную нагрузку на сервер, но и по разному выбирают главное зеркало сайта.

Классическая проблема. Сайт в Яндексе показывается по адресу site.ru, а в Google - по адресу www.site.ru. В этом случае следует использовать директиву Host.

Пусть главным зеркалом сайта будет сайт по адресу site.ru:

User-Agent: *
Disallow:
Host: site.ru

Кроме корректного отображения сайта в поисковой выдаче, склейка доменов необходима при продвижении сайта. При ссылочном продвижении очень важно, чтобы домен был не только "склеен" поисковой системой, но и ссылки закупались на тот, домен, который является главным зеркалом сайта.

Директива Host задается только один раз в файле robots.txt.

Индексация robots.txt

Несмотря на то, что поисковые роботы регулярно проводят индексацию страниц сайтов, внесенные изменения директивы в robots.txt появятся в резульатах выдачи не мгновенно. Стандартный срок учета изменений в robots.txt примерно 2 недели. Для разных поисковых систем и сайтов это время может колебаться в очень значительных пределах.

Стоит обратить внимание на максимально допустимый объем файла robots.txt - 32 кб. Если файл больше размером, то поисковый робот не сможет его загрузить и это будет истолковано, как:

User-Agent: *
Disallow:

т.е. сайт полностью разрешен к индексации всеми роботами.