Файл robots.txt - один из самых важных файлов в техническом обеспечении вашего сайта Joomla.
И каждый хоть раз задавался вопросом: "Что такое robots?" "Как правильно настроить robots.txt для Joomla?". Вот вам судари ответы =)
Что такое robots.txt? - это технический файл, который размещен в корневой папке вашего сайта. Его предназначение: - описание исключений для поисковых роботов, т.е. указание какие страницы, файлы не индексировать.
Из чего состоит файл:
User-agent: * Disallow: User-agent - эта директива указывает имя поискового бота, к которому применяются правила исключений на сайте.
User-agent может несколько раз прописываться с правилами для определенных ботов, в этом случае правила, будут применяться для указанных роботов. Disallow - директива, прописывает полный или частичный путь к файлу, статье на сайте, посещение которого запрещено для робота.
Одно правило - одно Disallow. Пустое Disallow разрешает ботам индексировать весь сайт. # - комментарии, пишутся только на новой строке
Примеры: Если вы желаете чтоб весь сайт полностью сканировался, индексировался поисковиками, то можно удалить вообще файл robots.txt из корневой папки сайта или же создать пустой файл или прописать следующее:
User-agent: * Disallow: Если вы желаете запретить весь сайт к индексации, то пропишите следующее:
User-agent: * Disallow: / Если вы желаете запретить индексацию определенному боту, например Яндексу, то пропишите следующее:
User-agent: Yandex Disallow: / Если вы желаете задать указание для нескольких ботов, то прописывайте для каждого свой User-agent и обязательно должно присутствовать хотя бы одна Disallow
User-agent: Aport Disallow: /gif/ User-agent: Googlebot Disallow: /gif/ # запрещает ботам Aport и Googlebot индексировать все файлы формата gif
В принципе в стандартной сборке Joomla имеется файл robots.txt и вполне удовлетворительный, после небольших дороботак его можно использовать.
Стандартный robots.txt для Joomla
User-agent: * Disallow: /administrator/ Disallow: /cache/ Disallow: /components/ Disallow: /images/ Disallow: /includes/ Disallow: /installation/ Disallow: /language/ Disallow: /libraries/ Disallow: /media/ Disallow: /modules/ Disallow: /plugins/ Disallow: /templates/ Disallow: /tmp/ Disallow: /xmlrpc/
Добавляем:
Host:
Что такое Host? - это директива является корректной только для робота Яндекса. подробнее Директива Host поясняет поисковому роботу какой сайт является основным, а какой зеркалом . Директива host пишется отдельной строкой и без http:// и без закрывающего слеша /
User-agent: Yandex Host: www.ваш сайт.ru # пишете с www или без, вносите основной сайт
У Яндекса существует индексация изображений, так что на ваше усмотрение можете подкорректировать следующую строку:
Disallow: /images/ # удаляете, если желаете чтоб ваши изображения индексировались Яндексом # или оставляете, для запрета индексации всех изображений
Если у вас установлен компонент "карта сайта", то обязательно надо прописать в robots.txt ссылку на Sitemap
Sitemap: http://ваш сайт.ru/ссылка карты сайта=xml # посмотреть ссылку для поисковых роботов можно в компоненте "карта сайта", там будет их две - одна с поддержкой стилей CSS и она нужна для просмотра пользователям, а другая предназначена для ботов, вот ее и скопируйте и вставте сюда.
Если вы используете у себя на сайте поддержку SEO, то Joomla автоматически создает два вида ссылок на ваши страницы, что есть не очень хорошо. Вот для того, чтоб боты не индексировали не seo ссылки прописываем следующее:
Disallow: /index.php?*
После небольшой доработки, ваш robots.txt должен выглядеть так:
Внимание! - для Яндекса нужно писать отдельно User-agent: Yandex и все директивы дублировать!
Правильный robots.txt для Joomla:
User-agent: Yandex
Disallow: /index.php?*
Disallow: /administrator/
Disallow: /cache/
Disallow: /components/
Disallow: /images/
# здесь два варианта (оставить или удалить), описывалось выше
Disallow: /includes/
Disallow: /installation/
Disallow: /language/
Disallow: /libraries/
Disallow: /media/
Disallow: /modules/
Disallow: /plugins/
Disallow: /templates/
Disallow: /tmp/
Disallow: /xmlrpc/
Host: ваш сайт.ru
# здесь определяете основной сайт или зеркало
Sitemap: http://ссылка на карту сайта=xml
User-agent: *
Disallow: /index.php?*
Disallow: /administrator/
Disallow: /cache/
Disallow: /components/
Disallow: /images/
# здесь два варианта (оставить или удалить), описывалось выше
Disallow: /includes/
Disallow: /installation/
Disallow: /language/
Disallow: /libraries/
Disallow: /media/
Disallow: /modules/
Disallow: /plugins/
Disallow: /templates/
Disallow: /tmp/
Disallow: /xmlrpc/
Host: ваш сайт.ru
# здесь определяете основной сайт или зеркало
Sitemap: http://ссылка на карту сайта=xml
Источник: www.crystalls.org
|