Чистка семантического ядра

Опубликовано Чт, 09/06/2016 - 17:48 пользователем wshurik

Мы спарсили запросы и у нас получился список различных слов. В нем конечно же присутствуют нужные слова, а так же и мусорные – пустые, не тематические, не актуальные и т.д. Поэтому их надо почистить.

Ненужные слова я не удаляю, а перемещаю их в группы, потому что:

Они в дальнейшем могут стать пищей для размышления и приобрести актуальность.
Исключаем вероятность случайного удаления слов.
При парсинге или добавление новых фраз, они не будут добавляться, если поставить галочку.

Я иногда забывал её ставить, поэтому в предыдущей статье расписывал, что настраиваю парсинг в одной группе и парсю ключи только в ней, чтобы сбор не дублировался:

Вы можете работать так или так, кому как удобно.

Сбор частотностей

Собираем у всех слов через direct, базовую частотность [W] и точную [“!W”]. Не забываем выставить регион – Россия, если делаете сайт под российскую аудиторию.

Все что не собралось, дособираем через wordstat.

Чистка однословников и не формат

Фильтруем по однословникам, смотрим их и убираем не нужные. Есть такие однословники по которым нет смысла продвигаться, они не однозначные или дублируют другой однословный запрос.

Например, у нас тематика — болезни сердца. По слову “сердце” нет смысла продвигаться, не понятно, что человек имеет ввиду — это слишком широкий и неоднозначный запрос.

Так же смотрим, по каким словам не собралась частотность – это либо в словах содержатся спец символы, либо слов в запросе более 7. Переносим их в неформат. Малая вероятность что такие запросы вводят люди.

Чистка по общей и точной частотности

Все слова с общей частотностью [W] от 0 до 1 убираем.

Так же убираю и все от 0 до 1 по точной частотностью [”!W”].

Разношу их по разным группам.

В дальнейшем в этих словах можно найти нормальные логические ключевые слова. Если ядро маленькое, то можно сразу вручную все слова с нулевой частотностью пересмотреть и оставить, которые как вам кажется вводят люди. Это поможет охватить тематику полностью и возможно, по таким словам будут переходить люди. Но естественно эти слова надо использовать в последнюю очередь, потому что по ним большого трафика точно не будет.

Значение от 0 до 1 тоже берется исходя от тематики, если ключевых слов много, то можно фильтровать и от 0 до 10. То есть все зависит от широты вашей тематики и ваших предпочтений.

Чистка по полноте охвата

Теория здесь такова: например, есть слово – “форум”, его базовая частотность составляет 8 136 416, а точная частотность 24 377, как видим отличие более чем в 300 раз. Поэтому можно предположить, что данный запрос пустой, он включает очень много хвостов.

Поэтому, по всем словам, я рассчитываю, такое KEI:

Точная частотность / Базовая частотность * 100% = полнота охвата

Чем меньше процент, тем больше вероятность что слово пустое.

В KeyCollector эта формула выглядит вот так:

YandexWordstatQuotePointFreq / (YandexWordstatBaseFreq+0.01) * 100

Здесь тоже все зависит от тематики и количества фраз в ядре, поэтому можно убирать полноту охвата меньше 5%. А где ядро большое то можно не брать и 10-30%.

Чистка по неявным дублям

Чтобы почистить неявные дубли, нам необходимо по ним собрать частотность Adwords и ориентироваться по ней, потому что она учитывает порядок слов. Экономим ресурсы, поэтому будем собирать этот показатель не у всего ядра, а только у дублей.

Таким способом мы нашли и отметили все не явные дубли. Закрываем вкладку — Анализ неявных дублей. Они у нас отметились в рабочей группе. Теперь отобразим только их, потому что съем параметров происходит только тех фраз, которые у нас показаны в группе на данный момент. И только потом запускаем парсинг.

Ждем, когда Adwords снимет показатели и заходим в анализ неявных дублей.

Выставляем вот такие параметры умной групповой отметки и нажимаем – выполнить умную проверку. Таким способом у нас в группе дублей не отметятся только самые высокочастотные запросы по Adwords.

Все дубли лучше конечно еще пробежаться и глянуть вручную, вдруг там что-то выставилось не так. Особенно уделить внимание группам, где нет показателей частотности, там дубли отмечаются случайно.

Все что вы отмечаете в анализе неявных группах, это проставляется и в рабочей группе. Так что после завершения анализа, просто закрываете вкладку и переносите все отмеченные неявные дубли в соответствующую папку.

Чистка по стоп словам

Стоп слова я тоже делю на группы. Отдельно заношу города. Они могут пригодится в дальнейшем, если мы надумаем делать каталог организаций.

Отдельно заношу слова содержащие в себе слова фото, видео. Вдруг они когда-нибудь пригодятся.

А так же, “витальные запросы”, например википедия, отношу сюда и форум, а так же в мед теме сюда могут относится – малышева, комаров и т.д.

Все так же зависит от тематики. Можно еще делать отдельно и коммерческие запросы – цена, купить, магазин.

Получается вот такой список групп по стоп словам:

Чистка накрученных слов

Это касается конкурентных тематик, их частенько накручивают конкуренты, чтобы ввести вас в заблуждение. Поэтому необходимо собрать сезонность и отсеять все слова с медианой равной 0.

А так же, можно глянуть соотношение базовой частотности к средней, большая разница может тоже указывать на накрутку запроса.

Но надо понимать, что эти показатели могут говорить и о том, что это новые слова по которым только недавно появилась статистика или они просто сезонные.

Чистка по гео

Обычно проверка по гео для информационных сайтов не требуется, но на всякий случай распишу этот момент.

Если есть сомнения, что часть запросов геозависимые, то лучше это проверить через сбор Rookee, он хоть бывает и ошибается, но намного реже чем проверка этого параметра по Яндексу. Потом после сбора Rookee стоит проверить все слова вручную, которые указались как геозависимые.