Парсинг выдачи Гугла

Опубликовано Пт, 03/09/2010 - 18:14 пользователем wshurik

И так для начала нам нужно определиться что мы хотим парсить. Гесты, форумы, определнные CMSки, борды и пр. У всех у них есть определенные отличительные признаки, по которым с помощью операторов Гугла можно найти их в индексе. Сегодня хочу показать вам пример парсинга сайтов на DLE.
Нам понадобиться:
- Пасрес Байрона (Hkey free C++ Google parser) parser.rar [288,82 Kb] (cкачиваний: 79)
-

Список доменны зон

- в аттаче .txt файлом zones.zip [664 b] (cкачиваний: 51)
- И программа Befouler (строкоизвращатель) befouler.zip [31,13 Kb] (cкачиваний: 64) Внимание! Требует наличия в системной директории Windows библиотеки msvbvm50.dll,
скачать dll можно по ссылке: http://www.filesearch.ru/cgi-bin/s?query=msvbvm50.dll
Думаю ни для кого не секрет, что независимо от того стоит-ли на сайте ЧПУ или нет, DLE можно найти в 99% случаев по форме регистрации.
index.php?do=register

На данный момент гугл мне выдает, что результатов 344 000. Неплохо. Но вся проблема в том, что он показывает только первые 200 результатов. Для того, чтобы спарсить максимальное количество сайтов нужно будет немного подумать и применить некоторые операторы Гугла:
inurl:
Это значит, что будут найдены сайты, вернее страницы, в адресе которых находится указанные нами символы.
site:
Ищет ключевое слово исключительно на страницах указанного сайта или доменной зоны.
intitle:
Ищет страницы, в теге Title которых используется ключевое слово или фраза

Для этого берем наш строкоизвращатель и делаем следующее: (все картинки кликабельны)

Сначала загружаем наш .txt файла с зонами, затем выбираем пункт "добавить в начало каждой строки" и затем в "исходной подстроке" пишем

inurl:"index.php?do=register" site:.

Нажимаем старт и в правом окошке у нас получается исходный код. Копируем его и сохраняем где нам удобно.

Теперь с помощью данных запросов мы сможем увидеть все DLE сайты в каждой указанной нами доменной зоне. Тем самым мы сможем спарсить большее количество сайтов, но их все-равно окажеться мало. Опять-же только в зоне .ru гугл выдает 104 000 сайтов. Для этого нам поможет очередной оператор, это

intitle

- позволяет искать сайты, с указанным словом в заголовке страницы. Как нам подобрать эти слова? Можем например воспользоваться списком Пастухова:

ТОП 1000 самых популярных ключевых слов в Яндексе

или-же самому написать нужнее слова.

ТОП 1000 в .txt фармате, почищен от п0рн0

top-1000.zip [5,18 Kb] (cкачиваний: 21)

Далее берем наш строкоизвращатель и делаем следующее для зоны .ru

Берем наш файл с ТОП 1000, выбираем пункт "вставить в начало каждой строки" и в "исхондной подстроке" пишем: inurl:"index.php?do=register" site:.ru intitle:"

Далее сохраняем то, что у нас получилось справа, снова открываем его в строкоизвращателе, выбираем пункт "добавить в кажду строку" и добавляем кавычки (") (естественно без скобок). Все, у нас получилось почти 1000 поисковых запросов к Гуглу в зоне .ru, которые помогут нам отобрать максимальное количество сайтов на ДЛЕ из выдачи. По каждому запросу в выдаче от 5 до 50 сайтов, а запросов у нас 1000! Далее просто перебираем через блокнот путем замены самые популярные зоны: .com, .info, .biz, .net Лично я больше не стал брать, думаю этого хватит.

(правка - заменить)

Думаю из скриншота все понятно.

Теперь открываем наш парсер, загружаем для начала наш файл со словами и начинаем парсить. Обязательно поставьте задержку в 11-13 сек (13000) Это поможет вам избавиться от постоянной капчи, но даже если она у вас появляется, в программке есть минибраузер, где вы сможете ввести код капчи и спокойно продолжить парсинг.

После парсинга жмем кнопку "очистить дубли" и вуаля, у нас есть достаточно приличная база сайтов на DLE Не забудьте только отпрарсить другие популярные и просто другие зоны.

Способо показан для одного движка, но так можно сделать практически с каждым, главное найти общие признаки у CMS

google

гугль

парсинг

Парсинг выдачи Гугла

Комментарии

Парсинг гугла и яндекса

Вы здесь

Парсинг выдачи Гугла

Комментарии