Говоря простым языком, LSI – это способ определения тематики текста по содержащимся в нем словам. Например, если в документе встречаются слова «зимняя», «протектор», «шипы» – то, вероятнее всего, это текст про шины. А если – «сковорода», «запекать», «соус» – то это что-то, относящееся к кулинарии.
...<Тут было длинное и подробное научное объяснение, что же такое LSI, но по причине его нудности переносим эту увлекательную часть в конец статьи, чтобы наши читатели не заснули в самом начале.>...
Как поставить LSI на службу SEO?
Опыт показывает, что LSI-тексты немного лучше ранжируются и гораздо реже попадают под спам-санкции. Однако, как проводить анализ? Откуда взять релевантные слова? Как оценить текст на соответствие тематике?
Хорошо, если копирайтер глубоко разбирается в вопросе, тогда LSI-текст получится сам собой. А что если нет? Тогда на помощь должна прийти автоматизация. Ниже поговорим о четырёх возможных подходах к ней:
Метод 1. Использование подсветок
Это то, что лежит на поверхности, и потому легко используется. Что подсвечивает поиск? Во-первых, это синонимы. Во-вторых, геоуказание (для геозависимых запросов) и в-третьих, какие-то тематичные слова. Например:
Зеленой рамкой выделены синонимы.
Желтой – геоуказание.
И красной – дополнительные слова подсветки.
Но сколько слов мы можем «вытащить» из подсветок: от 3 до 5? Иногда чуть больше, но всегда меньше десяти. Для полноценного написания тематического текста это не годится. Поэтому профессионалы этот способ не используют.
Метод 2. Подсчет с использованием сторонних коллекций
«Спарсить весь интернет» – задача дорогостоящая, и для целей LSI – сродни забиванию гвоздей микроскопом. Ведь только один объём данных составит не один десяток террабайт. Плюс, нам придется столкнуться с задачей фильтрации спама и дублей.
Можно попробовать использовать уже готовые коллекции. Например – корпус русского языка или тексты «Википедии». Но здесь серьезную роль начинает играть специфика коллекции. Вряд ли литературные тексты или информационные статьи Wikipedia помогут нам в написании текста для коммерческой страницы, продающей дизельные генераторы.
Стоит отметить, что весьма неплохие результаты получил Рамблер, когда применил методику LSI к своей коллекции поисковых запросов. Однако результаты получились, скорее, применимы для расширения семантики, чем для написания текстов.
Метод 3. Подсчет на основании топа Яндекса
Основная идея подхода состоит в допущении: если документы попали в топ Яндекса, значит они тематичны. И, в общем-то, это допущение в ряде случаев верно. Но поскольку LSI-слова сами по себе являются достаточно слабым фактором, то уже на средне-конкурентных запросах мы часто будем сталкиваться с некачественным топом. Как результат, попытка провести LSI анализ приведет не к бусту страницы, а только к копированию чужих ошибок.
К плюсам метода однозначно стоит отнести простоту реализации. Достаточно вытащить документы из топ-10 Яндекса и посчитать количество вхождений каждого слова в каждом из этих документов.
В качестве основных минусов подхода следует выделить неприменимость по отношению к средне- и низко-конкурентных запросам.
Метод 4. Подсчет с использованием всей коллекции Яндекса
Этот метод является наиболее точным, поскольку мы начинаем оперировать той же коллекцией, что и Яндекс. Скачивать интернет не требуется, более того, Яндекс уже проделал за нас определенную часть работы, исключив из поиска множество дублей и спама. Для поиска по своей коллекции он уже предоставил нам отличные инструменты в виде языка поисковых запросов.
На чем же построен метод с использованием коллекции Яндекса? Мы подаем к Яндексу запросы пытаясь построить 2 униграммные языковые модели:
- Модель порождения слова запросом.
- Модель порождения запроса словом.
Звучит сложно, но на самом деле принцип здесь - простой.
Модель порождения слова запросом сводится к ответу на вопрос: если в документе встретился запрос, какова вероятность встретить в нем слово? Например, если в документе встретился запрос «шины bridgestone», какова вероятность появления в нем слова «зимняя»?
Модель порождения запроса словом сводится к ответу на вопрос: если в документе встретилось слово, какова вероятность встретить в нем запрос? Например, если в документе встретилось слово «шипованная», какова вероятность обнаружить в нем же запрос «зимняя резина»?
На практике для комплексной оценки двух моделей получается недостаточно, и необходимо использовать третью – «нормализующую» модель, основанную на удалении терминов и запроса друг от друга. Это не соответствует принципам LSI, о которых я писал выше, но необходимо при работе с такой «грязной» коллекцией как веб-документы, где содержательные тексты не прошли очистку от «обвязки» в виде меню/хедеров/футеров и прочей служебной информации.
Именно на этом методе построены модули «Акварель» и «Акварель-генератор» в системе Just-Magic.org. Довольно забавно наблюдать, как система работает с анализом текстов. Например, практически из любого текста она готова сделать готовый словарь спичрайтера Владимира Владимировича. Читайте только зеленые слова:
(На скриншоте представлен анализ текста про керамзитобетонные блоки, который был проведен по запросу «владимир путин»)
При этом система практически не зависит от качества текстов в топе. Например, вот как отрабатывает по запросу «сауна на двоих» анализатор, основанный на топ-10:
А вот как это делает «Акварель»:
Как можно заметить, «Акварель» «не поддалась» на часто встречающиеся в топе слова и забраковала их, как нерелевантные. Также качество топа не сказывается на результатах работы «Акварель-генератора», который создает список релевантных слов и словосочетаний. Вот примеры словосочетаний, которые он находит по данному запросу:
- романтический ужин
- русская баня
- финская сауна
- турецкого хаммама
- комфортного отдыха
- романтического вечера
Несмотря на явные плюсы, подобный метод имеет и свои минусы. Во-первых, он очень ресурсоемок: на проверку одного слова тратится 3 XML-запроса; а на составление списка при помощи «Акварель-генератора» уходит в среднем 2300 XML-запросов. В итоге проверка таким способом получается значительно дороже остальных, которые сегодня доступны практически бесплатно.
Во-вторых, метод чувствителен к среднему качеству коллекции текстов в интернете. Например, для запроса «синхрофазотрон» он определит слово «является» как очень релевантное, из-за того, что фраза «не всякий синхрофазотрон является коллайдером», часто встречается в интернете. Ну а попытка создать/проверить информационную статью по запросу «покраска бампера ваз» заведомо обречена на провал из-за засилья коммерческих текстов по данному запросу.
Как применять LSI?
На практике применение подхода LSI может использоваться в двух случаях: когда есть необходимость простимулировать дополнительный «пинок» по высококонкурентным запросам и обеспечить защиту сайта от текстового спам-фильтра.
Почему так получается? LSI-слова – достаточно слабый фактор по сравнению с теми же вхождениями, поэтому к ним стоит обращаться, когда вся базовая оптимизация уже проведена. Как её делать я подробно описывал в своей статье «Непорочное продвижение».
По высококонкурентным запросам нам приходится «давить» сразу всеми факторами, ибо в условиях большого их числа и нормализации каждого (приведения в интервал от 0 до 1) результат по ВК-запросам будет только при оптимизации всех вещей, до которых можем дотянуться.
Что же касается защиты от спам-фильтров, то это основная задача, ради которой задумывалась система. В спам-алгоритмах LSI имеет куда более значительный вес, чем в ранжировании. И если ваш сайт уже попал под санкции – переписывание текстов при помощи «Акварели» или аналогичных LSI-инструментов позволяет выйти из под санкций. А изначальное их написание с использованием LSI – не дает под них попасть.
Дополнение к статье, которое было ее началом
Что скрывается под аббревиатурой LSI?
Если объяснять простым языком, LSI – это способ определения тематики текста и группировки текстов по тематичности. Метод основан на анализе взаимосвязей между коллекцией документов и терминами (словами), которые в них содержатся.
Каковы основные принципы LSI?
- Текст представляется в виде «мешка слов»: то есть, порядок слов в и их близость друг к другу значения не имеют.
- Документ относится к той или иной тематике/группе на основании терминов (слов), которые в нем содержатся и частоты этих терминов (количества раз, которые они встречаются в документе).
- Каждое слово имеет единственное значение. Это не совсем корректное допущение, но оно необходимо для построения модели.
Что делает LSI?
Анализирует большой объём документов и на основе встречающихся в них слов относит документ к той или иной тематике.
Как технически работает LSI?
Фактически это сингулярное разложение терм-документной матрицы, которое позволяет выловить ключевые составляющие этой матрицы и проигнорировать шумы. Но не будем о сложном и неприменимом, а для желающих разобраться предлагаю хорошую статью про LSI на habrahabr.