Аудит сайта своими руками: SEO (часть 1)

Продолжаем серию материалов о самостоятельном аудите сайта. В этом посте — SEO-аудит. Пока писали статью, мы поняли, что текста слишком много, и все в один пост не уместится, поэтому здесь — начало, а продолжение будет в ближайшее время.

Настройка robots.txt

Использование канонических URL

Склейка доменов с www или без

XML карта сайта

Оптимизация Title и Descriptions

Теги alt и title изображений

Настройка Robots.txt

Robots.txt – текстовый файл, который содержит параметры индексирования сайта для роботов поисковых систем. Robots.txt не пустит поискового робота на страницы, которые вы хотите закрыть от индексации.

Как сделать robots.txt:
  1. В текстовом редакторе создайте файл с именем robots.txt. 

    Важно! Все буквы в нижнем регистре;
  2. Заполните файл в соответствии с правилами и вашими требованиями к индексированию сайта. 

    Важно! Кодировка файла должна быть UTF-8;
  3. Загрузите файл в корневую директорию сайта.

Файл robots.txt использует систему директив – правил, задаваемых поисковому роботу.

Формат строки файла robots.txt:

Директива:[пробел]значение

Для корректной работы robots.txt необходимо, чтобы хотя бы одна директива Disallow была после каждого указания User-agent.

Директивы для robots.txt:

«User-agent:» – основная директива robots.txt. Используется для конкретизации поискового робота, которому будут даваться указания.

  • User-agent: Googlebot – все команды, следующие после этой директивы, будут касаться исключительно индексирующего робота Google;
  • User-agent: Yandex – адресат в этом случае - Яндекс;
  • User-agent: * – обращение ко всем поисковикам.

После основной директивы «User-agent:» следуют конкретные команды:

«Disallow:» - директива запрета индексации в robots.txt. Запрещает поисковому роботу индексировать веб-ресурс целиком или какую-то его часть.

  • Disallow: / – сайт не будет индексироваться
  • Disallow: /forum – из индексации исключается папка «forum»
  • Disallow: – весь сайт открыт для индексации

«Allow:» - директива разрешения индексации. При помощи тех же самых уточняющих элементов, но используя эту команду в файле robots.txt, можно разрешить индексирующему роботу вносить нужные элементы сайта в поисковую базу.

Команда запрещает роботу Яндекса индексировать всё, кроме раздела «forum»: 

User-agent: Yandex

Allow: /forum

Disallow: /

На практике директива «Allow:» используется редко, поскольку поисковый бот применяет ее автоматически. 

Спецсимволы * и $

При указании путей директив Allow и Disallow можно использовать спецсимволы * и $, чтобы задать определенные регулярные выражения.

  • Спецсимвол * – означает любую, в том числе пустую, последовательность символов.



Disallow: /support/*.html – запрещает индексировать все страницы .html в директории support.

По умолчанию к концу каждого правила, описанного в файле robots.txt, приписывается спецсимвол *. Строки «Disallow: /example» и «Disallow: /example*» поисковый бот воспримет как идентичные. Чтобы отменить * на конце правила, можно использовать спецсимвол $.

Disallow: /example$ – запрещает «/example», но не запрещает «/example.html».

«Sitemap:» - директива, указывающая индексирующему роботу путь к файлу карты сайта. Помогает поисковому роботу быстрее проиндексировать Карту сайта, чтобы страницы веб-сайта быстрее попали в поисковую выдачу.

User-agent: *

Sitemap: http://example.com/sitemap.xml

Сгенерировать файл robots.txt для вашего сайта можно с помощью сервиса PR-CY.

Подробнее о robots.txt в статье на нашем сайте.

Существуют другие директивы, предназначенные для конкретных поисковых систем. 

Например, директива «Host:», которую использует робот Яндекса, чтобы определить основное зеркало сайта.


Подробнее о дополнительных директивах Яндекса, их синтаксисе и функционале читайте в Яндекс.Помощи.

Об особенностях взаимодействия поискового робота Google с файлом robots.txt читайте в справочных материалах Google.

Проверьте файл robots.txt на наличие ошибок с помощью сервиса Яндекса.



Канонические URL

Иногда одна страница сайта может быть доступна по нескольким адресам:

  • site.ru/statya1
  • site.ru/blog/statya1
  • site.ru/1/1

Почему у одной страницы может быть несколько URL:

  • Вхождение материала сразу в несколько категорий;
  • Некорректная настройка CMS.

Роботы поисковых систем распознают эти адреса, как разные web-документы с одинаковым содержанием. Поисковики могут понизить в выдаче дублированный контент.

Атрибут link указывает поисковому роботу основную версию документа. Это нужно для того, чтобы:

  • ссылочный вес корректно передавался на нужную версию сайта;
  • контент, доступный по нескольким URL, индексировался и ранжировался правильно;
  • не попасть под санкции поисковиков из-за дублей.

Чтобы указать поисковику каноническую страницу, нужно в код каждого дубля добавить между тегами <head> и </head> строку:

<link rel="canonical" href="http://site.ru/statya1"/>  

где http://site.ru/statya1 - URL страницы, который должен быть основным.

Важно! Обязательно указывайте полный адрес с http:// и доменом.

Использовать канонические URL полезно, когда есть много страниц с похожим содержанием, например, интернет-магазины. Если у вас есть продукт разных цветов с одинаковыми описаниями на отдельных страницах, вы можете выбрать самый популярный вариант в качестве канонической версии. Другие цвета будут по-прежнему доступны пользователям, но вес с внешних ссылок на них будет перенаправляться на канонический URL-адрес.


Подробнее о канонических URL читайте в справке Google и блоге Яндекса.


Склейка доменов с www или без

Технически, домены с www и без www - это два разных ресурса, поисковые системы индексируют и ранжируют их отдельно, а ссылки будут иметь разный вес. Это может грозить:

  • понижением в поисковой выдаче;
  • фильтром, потому что поисковик может принять один сайт за дубликат другого;
  • проблемами с авторизацией на сайте и другим функционалом, использующим cookie.

Проблема решается 301 редиректом и указанием поисковикам основного зеркала. С точки зрения продвижения сайта домен без www лучше, потому что не является доменом третьего уровня, а его длина всегда будет меньше.

В примере рассмотрен этот вариант.

Как указать основное зеркало для Yandex и Google

Для Yandex:
  1. Откройте/создайте в корне вашего сайта файл robots.txt;
  2. Добавьте строку

Host: site.com

где site.com - основное зеркало вашего сайта.

Обработка информации ботом Яндекса займет около 2-3 недель. Ускорить учет новых указаний можно вЯндекс.Вебмастере.

Инструментарий Яндекс.Вебмастера позволяет изменить регистр, с которым сайт будет отображаться в поисковой выдаче. Это поможет увеличить CTR.

Важно!#1 Директива Host должна содержать указание на протокол HTTPS, если зеркало доступно только по защищенному каналу (Host: https://site.com).

Важно!#2 В файле robots.txt необходимо использовать только Punycode для кириллических доменов.

Для Google:
  1. Авторизуйтесь/зарегистрируйтесь в Google Search Console;
  2. Добавьте ваш сайт, подтвердите права, если не сделали это ранее;
  3. Нажмите на значок шестеренки и выберите "Настройки сайта";
  4. Укажите нужный вариант в разделе "Основной домен".

Google обрабатывает информацию от суток до двух недель.

301 редирект

Важно! Приступайте к этому пункту только когда боты поисковых систем обработают информацию об основных зеркалах, иначе ваш сайт может полностью выпасть из поисковой выдачи.

  1. Откройте/создайте в корне вашего сайта файл .htaccess
  2. Добавьте строки кода
RewriteEngine on  RewriteCond %{HTTP_HOST} ^www\.(.*) [NC]  RewriteRule ^(.*)$ http://%1/$1 [R=301,L]  

XML карта сайта

Sitemap.xml — файл с информацией о страницах сайта, подлежащих индексированию. Файл сообщает роботам поисковых систем:

  • какие страницы сайта нужно индексировать;
  • как часто обновляется информация на страницах;
  • индексирование каких страниц наиболее важно.


Поисковый робот может не найти некоторые страницы или неверно определить их важность: проблемными обычно становятся динамически создаваемые страницы или страницы, к которым ведет длинная цепочка ссылок. Файл Sitemap решает эти проблемы.

Как создать Sitemap.xml

Онлайн-сервисы для генерации Sitemap.xml:

Mysitemapgenerator

Xml-sitemaps

Gensitemap

Бесплатные версии онлайн-сервисов имеют ограничения в инструментарии, количестве страниц или количестве генераций за определенный промежуток времени.

ПО для генерации Sitemap.xml:

A1 Sitemap Generator

Sitemap Writer Pro

По большей части, программы платные, но в них больше функций, чем в онлайн-сервисах.

Для большинства популярных CMS есть готовые решения:

Ручное создание Sitemap.xml — самый трудоемкий способ. Используется, когда результаты других вариантов не подходят.



Требования к файлу Sitemap: 

  • Файл должен располагаться на том же домене, что и сайт, для которого он составлен и указывать только на страницы этого домена;
  • При обращении к файлу сервер должен возвращать HTTP-статус с кодом 200 OK;
  • Файл может содержать не более 50 000 URL, а размер в несжатом виде не должен превышать 10 Мб. Если Sitemap не удовлетворяет этим требованиям, разбейте его на несколько отдельных файлов и укажите их в файле индекса Sitemap;
  • В файле необходимо использовать кодировку UTF-8;
  • Ссылки в файле Sitemap должны указывать на страницы, находящиеся в том же каталоге или его подкаталогах, что и сам файл Sitemap.

Если файл Sitemap находится на

http://www.example.com/catalog/sitemap.xml

то он не может включать в себя ссылки на страницы

http://www.example.com/index.html

или

http://www.example.com/etc/page.html.

Ссылки, указанные в файле Sitemap, должны использовать тот же протокол, по которому доступен файл Sitemap.

Если файл Sitemap находится на

http://www.example.com/sitemap.xml,

то он не может содержать ссылки типа

https://www.example.com/page.html и ftp://www.example.com/file.doc.

Чтобы сообщить поисковым системам, где находится Sitemap.xml, используйте директиву "Sitemap:" для robots.txt:

sitemap: http://example.com/sitemap.xml  

Проверить на ошибки готовый файл Sitemaps.xml можно анализатором Яндекса.

Ответы на часто задаваемые вопросы о Sitemap.xml на официальном сайте.



Оптимизация Title и Descriptions

Title

Тег title содержит описание заголовка сайта и дает понять поисковой системе, что на странице. Из текста title формируется текст ссылки в поисковой выдаче. При расшаривании с социальных сетях описание страницы по ссылке также берется из title. Тег title помещается в контейнер <head>:

<head>   <title>Заголовок</title>  </head>
Каким должен быть тег title:
  • Текст тега отражает суть страницы.

При несоответствии текста title содержанию страницы сайт может попасть под санкции поисковиков.

  • Включает ключевые слова, но не более 2-3.

Наиболее важные ключевые слова ставьте в начало текста тега. Спам ключевыми словами может привести к санкциям поисковиков и сделает текст ссылки в поисковой выдаче непривлекательным.

  • Не содержит лишних слов.

Лишние слова размывают релевантность title.

Плохо:

<title>Кожаные сумки, рюкзаки из кожи – удобно и элегантно :: Купить кожаную сумку в нашем магазине</title>

Хорошо:

<title>Кожаные сумки, рюкзаки – купить кожаную сумку в Москве</title>


  • Легко читается.

Не содержит несогласованных между собой элементов

Плохо:

<title>Купить кроссовки кеды Рибок Reebok детские для детей Москва</title>

Хорошо:

<title>Купить детские кроссовки в Москве - Reebok</title>

  • Уникален внутри сайта и среди конкурирующих ресурсов

Title каждой страницы должен быть уникальным и говорить поисковой системе, как данная страница отличается от других страниц вашего сайта. Увеличить уникальность title среди конкурентов можно добавлением названия вашей организации или бренда. 


Найти дубли title можно в Search Console Google:


  • Содержит от 50 до 150 символов

Слишком короткие title неинформативны и имеют низкую релевантность. Слишком длинные - размывают релевантность ключевых слов в начале тега и выглядят спамно.


  • Не совпадает с h1

Поисковик может расценить двойное употребление ключевых слов, как спам.


При составлении заголовка сайта учитывайте требования Яндекс к описаниям сайтов.



Description

Мета-тег description — это краткое описание страницы. Играет наибольшую роль в формировании сниппета в поисковой выдаче. Размещается в html сайта внутри тега <head>:

<head>   <meta name="description" content="Описание страницы сайта." />  </head>
Как составить Description

Для description действуют те же правила, что и для title, за исключением двух моментов:

  • Ключевые слова в Description

Текст мета-тега description должен содержать большее количество ключевых слов. Это не скажется на позиции в выдаче, но может повлиять на решение пользователя перейти именно на ваш сайт, так как ключевые слова подсвечиваются в сниппете. Но текст description должен быть осмысленным, поэтому бездумный спам ключевиками недопустим.


  • Длина Description

Этот тег должен подробнее описывать содержание страницы. Поэтому может быть длиннее - от 100 до 200 символов.

Название и теги Alt и Title изображений

Название изображений

Оно влияет на выдачу в поиске по картинкам.

  • Название файла изображения рекомендуется писать только на латинице, чтобы избежать проблем с отображением названия файла;
  • Если изначально название файла было на кириллице, транслитерируйте его, согласно правилам. Для этого можно воспользоваться сервисом Translit;
  • Давайте файлам изображений подробные, информативные названия без спама и малопонятных символов.

Плохо:

kupit-sumki-ryukzaki-nedorogo-adidas.jpg – спам ключевыми словами;

IMG436432.jpg – неинформативно.

Хорошо:

sumka-adidas-originals-black-1.jpg;

sumka-adidas-originals-black-front.jpg.

Alt

Атрибут alt содержит текстовую альтернативу изображения. Используются в случаях, когда браузер не отображает фотографию: отображение отключено в настройках браузера, низкая скорость интернет-соединения и др. Приложения для озвучивания контента веб-страниц используют этот текст для описания изображений.

Пример применения атрибута alt в изображениях на сайте Texterra.ru

Alt влияет на ранжирование и релевантность сайта в поиске и на попадание изображений в поисковую выдачу по картинкам.

Текст в alt должен содержать максимально точное описание изображения и одно ключевое слово, которое не расходится с контекстом. Из-за спама ключевиками в теге изображение может выпасть из поиска по картинкам, а весь сайт — из поисковой выдачи.

Плохо:

<img src="girl.jpg" alt=""/> - пустой атрибут alt;

<img src="girl.jpg" alt="девушка"/> - неинформативно;

<img src="girl.jpg" alt="фото девушка в купальнике красивая стройная девочка стройняшка красотка секси на пляже блондинка пляж ницца франция смотреть бесплатно без регистрации и смс"/> - спам;

Хорошо:

<img src="girl.jpg" alt="красивая девушка на пляже"/>

Title изображений

Содержимое атрибута title выводится в белом прямоугольнике, когда пользователь наводит курсор на изображение.

Title "Кот гимнаст"

Title влияет на оптимизацию лишь косвенно - через поведенческие факторы. Просматривать картинки на сайте приятнее, когда есть возможность узнать, что на них изображено. Особенно если это не всегда понятно.

Требования к тексту атрибута title те же, что и к alt, кто того, что наличие ключевых слов в нем роли не играет.

В продолжении материала о самостоятельном SEO-аудите сайта:

  • Оптимизация тегов H (h1-h6)
  • Уровень вложенности страниц и количество внутренних ссылок
  • Исходящие ссылки
  • Анкоры
  • Микроразметка (schema.org и opengraph)
  • Наличие скрытого контента display:none
  • Объем и уникальность контента на каждой странице
  • Ключевые слова
  • Тошнота
  • SSL-сертификат

Источник