Регулярное выражение — это формула, с помощью которой мы фильтруем нужные текстовые строки в системах аналитики и таблицах или вытаскиваем из них определенные данные. Чаще всего PPC-специалисты используют регулярные выражения при работе с Google Analytics, Яндекс.Метрикой, GTM, Wordstat, Key Collector и Google Sheets.
В этом материале мы поговорим об особенностях работы с регулярными выражениями, их возможностях и разберем несколько нетривиальных примеров использования.
Где и как используются регулярные выражения
Регулярные выражения (или синтаксис RegExp) применяются на разных этапах работы с рекламой: для сбора семантики, настройки сегментов, настройки аналитики на сайте и работы с отчетами. Вот основные операции с регулярными выражениями в разных системах:
-
Google Analytics и Яндекс.Метрика: работа с фильтрами и отчетами, настройка целей, сегментов и аудиторий.
-
Google Tag Manager: настройка триггеров и переменных.
-
Wordstat: подбора семантики.
-
Key Collector: подбор семантики и фильтрация данных.
-
Excel и Google Таблицы: фильтрация, извлечение нужных данных.
Символ | Значение |
---|---|
* |
0 или более предшествующи х символов |
. |
Один любой символ |
+ |
1 или более предыдущих символов |
? |
0 или 1 предыдущий символ |
| |
Оператор ИЛИ |
( ) |
Группировка |
[ ] |
Список символов, один из которых может присутствовать в тексте |
- |
Границы последовательности символов в квадратных скобках |
^ |
Начало строки |
$ |
Конец строки |
{ } |
Количество повторений предыдущего символа |
\ |
Экранирование специальных символов |
\s |
Символ пробела |
\S |
Любой символ, отличный от пробела |
\d |
Цифровой символ |
\D |
Любой символ, отличный от цифры |
\w |
Любой буквенный символ латинского алфавита, цифровой символ или символ подчеркивания |
\W |
Любой символ кроме буквы латинского алфавита, цифры и символа подчеркивания |
Регулярные выражения могут быть жадными и скупыми:
-
* — жадный шаблон, вытаскивает максимально длинную строку;
-
*? — скупой шаблон, вытаскивает данные до первого совпадения.
В справочном центре Google вы можете узнать о них чуть больше. А для проверки правильности настройки регулярных выражений используйте сервис RegExr.
Применение в Google Analytics
Регулярные выражения в Google Analytics чаще всего используют для настройки целей, фильтров, отчетов, сегментов и аудиторий. Давайте разберем несколько примеров.
У клиента на сайте было две формы заявок, после заполнения которых открывались две разные страницы с благодарностью. Чтобы не делать две отдельные цели, настраиваем одну через регулярные выражения: \/thank\/|\/send\-contact\.php.
-
\ — переводим «/» и «.» в обычные символы;
-
| — между страницами thank you page.
Пример использования регулярных выражений в Google Analytics для настройки цели
Вот еще один пример — про работу с отчетом по поисковым запросам. Допустим, нам нужно вывести в отчет только запросы, содержащие фразу «агентство интернет-маркетинга». Чтобы учесть все варианты написания слова «агентство» с ошибками и опечатками, используем выражение агент?ств[ао], где:
-
т? означает, что предыдущий символ присутствует или отсутствует в тексте;
-
[ао] — присутствует любой из перечисленных символов;
Использование регулярных выражений в отчете Google Analytics: фильтрация запросов
Аналогичный пример — отчет по поисковым запросам для компании, оформляющей филиппинские визы:
-
филип+ины: п+ означает предыдущий символ, присутствует один и более раз;
-
филип{1,2}ины: п{1,2} — предыдущий символ используется от 1 до 2 раз.
Фильтрация запросов в Google Analytics
С помощью регулярных выражений можно исключить трафик для определенного диапазона IP-адресов. Например, так: 178\.165\.69\.\d{1,3}
-
\ — переводим «.» в обычные символы;
-
\d{1,3} — выбрали все цифры, которые будут присутствовать от 1 до 3 раз, то есть, по сути, задали диапазон от 0 до 999 (хотя диапазон в IP-адресах от 0 до 255).
Настройка фильтра по IP-адресам в Google Analytics
И еще один вариант фильтрации IP-адресов: 178\.165\.69\.(1[0-9][0-9]|200):
-
\ — переводим «.» в обычные символы;
-
(1[0-9][0-9]|200) — выбрали числа от 100 до 199 или 200.
Шаблон фильтра
Регулярные выражения в Google Tag Manager
Чаще всего регулярные выражения в GTM применяются при настройке триггеров и переменных, которые отправляют события в Google Analytics.
Операторы Wordstat
Операторы Wordstat не относятся к регулярным выражениям, но принцип использования очень похож. Вот операторы, которые можно использовать в сервисе:
-
«" — кавычки фиксируют слова в запросе, но допускают все возможные окончания и любой порядок слов;
-
! — восклицательный знак фиксирует окончание слова;
-
+ — плюс будет полезен для поиска запросов с предлогами и союзами;
-
— — минус поможет избавиться от стоп-слов и получить только нужные запросы;
-
| — это оператор «или», позволит получать запросы сразу по нескольким условиям, например, купить машину (недорого|ваз);
-
() — скобки группируют слова в запросе, в совокупности с оператором «или» позволяет извлекать запросы по комбинированным условиям.
-
[] — квадратные скобки фиксируют порядок слов в поисковом запросе.
Запрос собирает частотность по всем вариантам связок ключевых слов. Между словами в группах стоит оператор «или», благодаря которому не нужно вручную искать статистику по каждому запросу: купить теплицу, заказать теплицу, теплица цена, купить парник, заказать парник, парник цена.
Регулярные выражения Key Collector
При помощи регулярных выражений в Key Collecor можно составлять сложные конструкции для фильтрации данных. При использовании фильтра по регулярному выражению используется стандартный синтаксис RegExp.
Популярные варианты использования регулярных выражений:
-
\d+ — выбрать все фразы, содержащие цифры;
-
^скачать — выбрать все фразы, начинающиеся со слова «скачать»;
-
скачать$ — выбрать все фразы, заканчивающиеся на слово «скачать»;
-
скачать — выбрать все фразы, содержащие слово «скачать»;
-
скачать|купить|продать — выбрать все фразы, содержащие любое из слов «скачать», «купить» или «продать»;
-
^пластиковые(.*)цены$ — выбрать все фразы, начинающиеся на «пластиковые» и заканчивающиеся на «цены». Комбинация (.*) в регулярном выражении означает последовательность символов любой длины.
-
^(\S+\s\S+)$ — выбрать все фразы, содержащие точно два слова;
-
^(\S+\s\S+\s\S+)$ — выбрать все фразы, содержащие точно три слова; таким образом можно собрать фразы, содержащие до пяти конкретных слов.
Использование фильтра в Key Collector: выражение выберет все фразы, начинающиеся на «пластиковые» и заканчивающиеся на «цены». Комбинация (.* ) означает последовательность символов любой длины
Если комбинировать в работе операторы Wordstat и Key Collector, то можно существенно ускорить подбор семантики.
Настройка сбора запросов в Key Collector с использованием операторов Wordst
Использование в Excel
Чтобы Excel мог извлекать данные с помощью регулярных выражений RegExp, необходимо добавить модуль в редактор Visual Basic. Для этого:
- Нажимаем клавиши Alt и F11, чтобы открыть Visual Basic.
- Вверху меню нажимаем на Insert, затем на Module.
-
Вставляем код:
Public Function RegExpExtract(Text As String, Pattern As String, Optional Item As Integer = 1) As String On Error GoTo ErrHandl Set regex = CreateObject("VBScript.RegExp") regex.Pattern = Pattern regex.Global = True If regex.Test(Text) Then Set matches = regex.Execute(Text) RegExpExtract = matches.Item(Item - 1) Exit Function End If ErrHandl: RegExpExtract = CVErr(xlErrValue) End Function
- Закрываем Visual Basic
Разберем пример использования. Для настройки контекстной рекламы интернет-магазина шин клиент предоставил выгрузку товаров. Данные в ней были плохо сегментированы, поэтому, чтобы вытащить нужную информацию, использовали регулярные выражения. Так, комбинация ^\d+\/\d+ помогла вынести размеры шин — все цифры до и после слэша в начале каждой строки. Эти данные можно использовать для написания объявлений.
Вместо вывода
Регулярные выражения — удобный инструмент. Они помогают собирать и обрабатывать данные при сборе семантики, работе с текстами объявлений, анализе данных и других. Знание базовых принципов работы регулярных выражений значительно ускоряет и упрощает работу специалиста по контекстной рекламе и веб-аналитика.