Какие регулярные выражения нужны PPC-специалисту

Регулярное выражение — это формула, с помощью которой мы фильтруем нужные текстовые строки в системах аналитики и таблицах или вытаскиваем из них определенные данные. Чаще всего PPC-специалисты используют регулярные выражения при работе с Google Analytics, Яндекс.Метрикой, GTM, Wordstat, Key Collector и Google Sheets.

В этом материале мы поговорим об особенностях работы с регулярными выражениями, их возможностях и разберем несколько нетривиальных примеров использования.

Где и как используются регулярные выражения

Регулярные выражения (или синтаксис RegExp) применяются на разных этапах работы с рекламой: для сбора семантики, настройки сегментов, настройки аналитики на сайте и работы с отчетами. Вот основные операции с регулярными выражениями в разных системах:

  1. Google Analytics и Яндекс.Метрика: работа с фильтрами и отчетами, настройка целей, сегментов и аудиторий.

  2. Google Tag Manager: настройка триггеров и переменных.

  3. Wordstat: подбора семантики.

  4. Key Collector: подбор семантики и фильтрация данных.

  5. Excel и Google Таблицы: фильтрация, извлечение нужных данных.

Основные операторы регулярных выражений и их значения
Символ Значение

*

0 или более предшествующи х символов

.

Один любой символ

+

1 или более предыдущих символов

?

0 или 1 предыдущий символ

|

Оператор ИЛИ

( )

Группировка

[ ]

Список символов, один из которых может присутствовать в тексте

-

Границы последовательности символов в квадратных скобках

^

Начало строки

$

Конец строки

{ }

Количество повторений предыдущего символа

\

Экранирование специальных символов

\s

Символ пробела

\S

Любой символ, отличный от пробела

\d

Цифровой символ

\D

Любой символ, отличный от цифры

\w

Любой буквенный символ латинского алфавита, цифровой символ или символ подчеркивания    

\W  

 Любой символ кроме буквы латинского алфавита, цифры и символа подчеркивания  

Регулярные выражения могут быть жадными и скупыми:

  • * — жадный шаблон, вытаскивает максимально длинную строку;

  • *? — скупой шаблон, вытаскивает данные до первого совпадения.

Жадные регулярные выражения вытаскивают из ссылки данные до последнего слэша
Жадные регулярные выражения вытаскивают из ссылки данные до последнего слэша

В справочном центре Google вы можете узнать о них чуть больше. А для проверки правильности настройки регулярных выражений используйте сервис RegExr.

Сервис RegExr

Применение в Google Analytics

Регулярные выражения в Google Analytics чаще всего используют для настройки целей, фильтров, отчетов, сегментов и аудиторий. Давайте разберем несколько примеров.

У клиента на сайте было две формы заявок, после заполнения которых открывались две разные страницы с благодарностью. Чтобы не делать две отдельные цели, настраиваем одну через регулярные выражения: \/thank\/|\/send\-contact\.php.

  • \ — переводим «/» и «.» в обычные символы;

  • | — между страницами thank you page.

Пример использования регулярных выражений в Google Analytics для настройки цели

Пример использования регулярных выражений в Google Analytics для настройки цели

Вот еще один пример — про работу с отчетом по поисковым запросам. Допустим, нам нужно вывести в отчет только запросы, содержащие фразу «агентство интернет-маркетинга». Чтобы учесть все варианты написания слова «агентство» с ошибками и опечатками, используем выражение агент?ств[ао], где:

  • т? означает, что предыдущий символ присутствует или отсутствует в тексте;

  • [ао] — присутствует любой из перечисленных символов;

Использование регулярных выражений в отчете Google Analytics: фильтрация запросов

Использование регулярных выражений в отчете Google Analytics: фильтрация запросов

Аналогичный пример — отчет по поисковым запросам для компании, оформляющей филиппинские визы:

  • филип+ины: п+ означает предыдущий символ, присутствует один и более раз;

  • филип{1,2}ины: п{1,2} — предыдущий символ используется от 1 до 2 раз.

Фильтрация запросов в Google Analytics

С помощью регулярных выражений можно исключить трафик для определенного диапазона IP-адресов. Например, так: 178\.165\.69\.\d{1,3}

  • \ — переводим «.» в обычные символы;

  • \d{1,3} — выбрали все цифры, которые будут присутствовать от 1 до 3 раз, то есть, по сути, задали диапазон от 0 до 999 (хотя диапазон в IP-адресах от 0 до 255).

Настройка фильтра по IP-адресам в Google Analytics

Настройка фильтра по IP-адресам в Google Analytics

И еще один вариант фильтрации IP-адресов: 178\.165\.69\.(1[0-9][0-9]|200):

  • \ — переводим «.» в обычные символы;

  • (1[0-9][0-9]|200) — выбрали числа от 100 до 199 или 200.

Шаблон фильтра

Шаблон фильтра

Регулярные выражения в Google Tag Manager

Чаще всего регулярные выражения в GTM применяются при настройке триггеров и переменных, которые отправляют события в Google Analytics.

Триггер для отслеживания длительности сеанса будет срабатывать на любой странице сайта
Триггер для отслеживания длительности сеанса будет срабатывать на любой странице сайта

Операторы Wordstat

Операторы Wordstat не относятся к регулярным выражениям, но принцип использования очень похож. Вот операторы, которые можно использовать в сервисе:

  • «" — кавычки фиксируют слова в запросе, но допускают все возможные окончания и любой порядок слов;

  • ! — восклицательный знак фиксирует окончание слова;

  • + — плюс будет полезен для поиска запросов с предлогами и союзами;

  • — — минус поможет избавиться от стоп-слов и получить только нужные запросы;

  • | — это оператор «или», позволит получать запросы сразу по нескольким условиям, например, купить машину (недорого|ваз);

  • () — скобки группируют слова в запросе, в совокупности с оператором «или» позволяет извлекать запросы по комбинированным условиям.

  • [] — квадратные скобки фиксируют порядок слов в поисковом запросе.

Частотность по всем вариантам связок ключевых слов

Запрос собирает частотность по всем вариантам связок ключевых слов. Между словами в группах стоит оператор «или», благодаря которому не нужно вручную искать статистику по каждому запросу: купить теплицу, заказать теплицу, теплица цена, купить парник, заказать парник, парник цена.

 

 

Регулярные выражения Key Collector

При помощи регулярных выражений в Key Collecor можно составлять сложные конструкции для фильтрации данных. При использовании фильтра по регулярному выражению используется стандартный синтаксис RegExp.

Популярные варианты использования регулярных выражений:

  • \d+ — выбрать все фразы, содержащие цифры;

  • ^скачать — выбрать все фразы, начинающиеся со слова «скачать»;

  • скачать$ — выбрать все фразы, заканчивающиеся на слово «скачать»;

  • скачать — выбрать все фразы, содержащие слово «скачать»;

  • скачать|купить|продать — выбрать все фразы, содержащие любое из слов «скачать», «купить» или «продать»;

  • ^пластиковые(.*)цены$ — выбрать все фразы, начинающиеся на «пластиковые» и заканчивающиеся на «цены». Комбинация (.*) в регулярном выражении означает последовательность символов любой длины.

  • ^(\S+\s\S+)$ — выбрать все фразы, содержащие точно два слова;

  • ^(\S+\s\S+\s\S+)$ — выбрать все фразы, содержащие точно три слова; таким образом можно собрать фразы, содержащие до пяти конкретных слов.

Использование фильтра в Key Collector

Использование фильтра в Key Collector: выражение выберет все фразы, начинающиеся на «пластиковые» и заканчивающиеся на «цены». Комбинация (.* ) означает последовательность символов любой длины

Если комбинировать в работе операторы Wordstat и Key Collector, то можно существенно ускорить подбор семантики.

Настройка сбора запросов в Key Collector с использованием операторов Wordst

Настройка сбора запросов в Key Collector с использованием операторов Wordst

Использование в Excel

Чтобы Excel мог извлекать данные с помощью регулярных выражений RegExp, необходимо добавить модуль в редактор Visual Basic. Для этого:

  1. Нажимаем клавиши Alt и F11, чтобы открыть Visual Basic.
  2. Вверху меню нажимаем на Insert, затем на Module.
  3. Вставляем код:

    Public Function RegExpExtract(Text As String, Pattern As String, Optional Item As Integer = 1) As String      On Error GoTo ErrHandl      Set regex = CreateObject("VBScript.RegExp")      regex.Pattern = Pattern      regex.Global = True      If regex.Test(Text) Then          Set matches = regex.Execute(Text)          RegExpExtract = matches.Item(Item - 1)          Exit Function      End If  ErrHandl:      RegExpExtract = CVErr(xlErrValue)  End Function  
  4. Закрываем Visual Basic

Закрываем Visual Basic

Разберем пример использования. Для настройки контекстной рекламы интернет-магазина шин клиент предоставил выгрузку товаров. Данные в ней были плохо сегментированы, поэтому, чтобы вытащить нужную информацию, использовали регулярные выражения. Так, комбинация ^\d+\/\d+ помогла вынести размеры шин — все цифры до и после слэша в начале каждой строки. Эти данные можно использовать для написания объявлений.

Пример работы

Вместо вывода

Регулярные выражения — удобный инструмент. Они помогают собирать и обрабатывать данные при сборе семантики, работе с текстами объявлений, анализе данных и других. Знание базовых принципов работы регулярных выражений значительно ускоряет и упрощает работу специалиста по контекстной рекламе и веб-аналитика.

Источник