В одной из наших рассылок мы уже обсуждали один из аспектов подготовки сайтов к поисковому продвижению - оптимизационную HTML-верстку. Но правильным форматированием контента внутреннее SEO не ограничивается. Перед тем, как запускать закупку ссылок, необходимо удостовериться, что все технические параметры и настройки сайта соответствуют требованиям и предпочтениям поисковых систем.
База - хостинг и настройки сервера
Подавляющее большинство обычных корпоративных сайтов, сайтов-визиток и небольших интернет-магазинов размещаются на виртуальных хостингах: на одном сервере, находящемся в дата-центре хостинг-провайдера, «запускается» сразу несколько сайтов. При сравнительно небольшой посещаемости (конкретные цифры можно узнать у хостера или по результатам нагрузочного тестирования) сайт отлично работает, быстро отдавая все запрашиваемые посетителями и роботами поисковых систем страницы. Однако при превышении лимита, обусловленного вычислительной способностью сервера, разделенной между обслуживанием нескольких (или нескольких десятков) сайтов, сайт начинает «тормозить», а потом и вовсе перестает отдавать страницы. Лучше всего предупредить такую ситуацию заблаговременным «переездом» на выделенный сервер - это дороже, но сайт будет быстрее работать и справляться с намного большей нагрузкой.
Выбирать лучше хостинг-провайдера с долгой историей работы на рынке, открытой информацией о дата-центре и прочими признаками надежности. Аварии и прочие форс-мажоры бывают у всех, но если они случаются раз в три года - это приемлемо, а если раз в три месяца - нет. Кстати, сайт всегда можно перенести на другой хостинг, это достаточно простая процедура (описание ее вы сможете найти в хелпе нового хостера). К сожалению, сделать это, когда хостер уже отключился, не получится - только после устранения неполадок.
Настройки файла .htaccess
Этот файл обычно находится в корневом каталоге сайта, он содержит настройки веб-сервера Apache. С его помощью задаются следующие параметры:
- простое (редирект) и сложное (mod_rewrite - преобразование URL по любым правилам) перенаправление;
- определение индексных страниц (например, дает серверу указание, какую страницу загружать, если пользователь вводит в адресную строку браузера только имя домена, а не полный путь к файлу, например, index.html);
- определение страниц обработки ошибок. Например, если посетитель случайно запросит несуществующую или удаленную страницу, а настройки обработки не будет, сервер сгенерирует непонятный код. Если же сделать специальную страницу для 404, выполненную в общем дизайне сайта, с объяснением причины ошибки и ссылкой-путем возвращения на главную или другой важный раздел сайта, а потом задать показ этой страницы при возникновении кода ошибки 404, посетителю будет гораздо проще. Хотя лучше вообще не допускать направления людей на несуществующие страницы. Однако это не отменяет необходимости иметь страницу 404 и настройку обработки этой ошибки;
- управление кодировкой - позволяет задать формат кодировки текста на всем сайте, что гарантирует правильное определение ее браузером посетителя. В противном случае есть риск, что некоторые посетители увидят вместо текста так называемые «кракозябры» - нечитабельную мешанину символов;
- управление доступом - если доступ к сайту или некоторым его разделам необходимо закрыть (паролем или полностью), ограничить по IP и так далее, это также можно сделать с помощью .htaccess;
- настройки PHP - задает основные опции обработки языка PHP веб-сервером.
С помощью .htaccess необходимо настроить сервер так, чтобы он позволял открывать сайт и с префиксом www, и без него. При этом, в зависимости от текущего состояния индекса основной поисковой системы (обычно Яндекса), нужно настраивать редирект с кодом 301 на одну из версий адресов. Проще говоря, если Яндекс уже проиндексировал сайт с URL, содержащими www, нужно настроить редирект на них, и наоборот. Самый лучший вариант - настраивать это при запуске сайта, иначе придется долго ждать переиндексации всех страниц (если в индекс попали «дубли» - с www и без). Также с помощью настройки этого файла решается часть других проблем с «дублями».
Настройки файла Robots.txt
В дополнение к тому, что было сказано об этом файле в одном из прошлых выпусков нашей рассылки, стоит упомянуть следующее:
- от индексации необходимо закрывать логи сервера - это сугубо служебная информация;
- закрыть нужно результаты внутреннего поиска по сайту - типичный источник дублей страниц;
- с помощью правила Clean-param можно запретить поисковой системе индексировать страницы c различными модификаторами URL, идентификаторами сессий и так далее, которые генерируются системой управления контентом (CMS) - так можно предупредить попадание в индекс огромного количества дублей. Можно запретить также индексацию страниц гостевых книг, форумов и прочих подобных. Кстати, мы уделяем столько внимания «борьбе с дублями» потому, что их наличие сильно затрудняет продвижение;
- следует закрывать страницы, возникающие при некорректной обработке запросов к базе данных сайта;
- от индексации нужно закрыть дубли главной страницы - даже если на них поставлен редирект с помощью .htaccess.
Общее правило таково: запретить все страницы без значимого контента и предотвратить индексацию дублей.
Карта сайта и sitemap.xml
Карта сайта - это специальная страница со списком ссылок на все страницы сайта. Обычно она автоматически генерируется системой управления контентом. Заблуждением было бы полагать, что такая страница может как-то помочь посетителям сайта ориентироваться - если только она не отформатирована специальным образом: как, например, карта сайта Livejournal.com. Однако для поисковых систем карта сайта - неплохое подспорье в индексации всех материалов. При ее наличии и размещении ссылки на нее на главной странице робот должен сделать всего два перехода до любой из страниц сайта. Файл sitemap.xml - более современная и технологичная версия карты сайта. Он не только автоматически генерируется и обновляется, но и позволяет указать приоритет индексации для каждой страницы. Так можно сообщить поисковой системы, какие страницы наиболее важны и чаще всего обновляются.
Защита от вирусов
Существуют вирусы, которые внедряют вредоносный исполняемый код на страницы сайтов. Поисковые системы «вооружены» технологиями определения зараженных страниц при индексации (в Яндексе применяется технология Sophos). Они, во-первых, препятствуют переходам пользователей на такие страницы из результатов поиска путем вывода предупреждающей страницы. Во-вторых, зараженные страницы понижаются в результатах поиска - потребуется время на отвоевание позиций. Чтобы не допустить такой неприятной ситуации, нужно вовремя обновлять используемое на сайте ПО (в первую очередь - CMS), использовать надежные пароли для доступа к панели управления и по FTP и, что очень важно, заходить в инструменты управления сайтом и по FTP только с компьютеров, на которых установлены и работают хорошие антивирусы с максимально актуальной базой вредоносных программ.
Выводы
Техническая подготовка сайта к поисковому продвижению - кропотливая и серьезная работа, приобретающая серьезные масштабы, если на сайте много разнотипных страниц, скриптов, сервисов и так далее. Хотя с течением времени хостинг-провайдеры и производители CMS все больше и больше стараются включить оптимальные параметры по умолчанию, некоторые настройки наверняка будут необходимы. Самое главное - четко понимать цели внутренней оптимизации и знать, что именно в нее входит. Если у вас возникнут вопросы, прямого и ясного ответа на которые не дадут ни Яндекс, ни Google, приходите на форум promopult! Наши специалисты и опытные пользователи Системы обязательно помогут вам разобраться со сложными моментами и настроить сайт именно так, как будет лучше всего для конкретно ваших целей. |