Урок от black_dante.
И так для начала нам нужно определиться что мы хотим парсить. Гесты, форумы, определнные CMSки, борды и пр. У всех у них есть определенные отличительные признаки, по которым с помощью операторов Гугла можно найти их в индексе. Сегодня хочу показать вам пример парсинга сайтов на DLE.
Нам понадобиться:
- Пасрес Байрона (Hkey free C++ Google parser)
-
- в аттаче .txt файлом
- И программа Befouler (строкоизвращатель) Внимание! Требует наличия в системной директории Windows библиотеки msvbvm50.dll,
скачать dll можно по ссылке: http://www.filesearch.ru/cgi-bin/s?query=msvbvm50.dll
Думаю ни для кого не секрет, что независимо от того стоит-ли на сайте ЧПУ или нет, DLE можно найти в 99% случаев по форме регистрации.
index.php?do=register
На данный момент гугл мне выдает, что результатов 344 000. Неплохо. Но вся проблема в том, что он показывает только первые 200 результатов. Для того, чтобы спарсить максимальное количество сайтов нужно будет немного подумать и применить некоторые операторы Гугла:
inurl:
Это значит, что будут найдены сайты, вернее страницы, в адресе которых находится указанные нами символы.
site:
Ищет ключевое слово исключительно на страницах указанного сайта или доменной зоны.
intitle:
Ищет страницы, в теге Title которых используется ключевое слово или фраза
Для этого берем наш строкоизвращатель и делаем следующее: (все картинки кликабельны)
Сначала загружаем наш .txt файла с зонами, затем выбираем пункт "добавить в начало каждой строки" и затем в "исходной подстроке" пишем
inurl:"index.php?do=register" site:.
Нажимаем старт и в правом окошке у нас получается исходный код. Копируем его и сохраняем где нам удобно.
Теперь с помощью данных запросов мы сможем увидеть все DLE сайты в каждой указанной нами доменной зоне. Тем самым мы сможем спарсить большее количество сайтов, но их все-равно окажеться мало. Опять-же только в зоне .ru гугл выдает 104 000 сайтов. Для этого нам поможет очередной оператор, это
intitle
- позволяет искать сайты, с указанным словом в заголовке страницы. Как нам подобрать эти слова? Можем например воспользоваться списком Пастухова:
ТОП 1000 самых популярных ключевых слов в Яндексе
или-же самому написать нужнее слова.
ТОП 1000 в .txt фармате, почищен от п0рн0
Далее берем наш строкоизвращатель и делаем следующее для зоны .ru
Берем наш файл с ТОП 1000, выбираем пункт "вставить в начало каждой строки" и в "исхондной подстроке" пишем: inurl:"index.php?do=register" site:.ru intitle:"
Далее сохраняем то, что у нас получилось справа, снова открываем его в строкоизвращателе, выбираем пункт "добавить в кажду строку" и добавляем кавычки (") (естественно без скобок). Все, у нас получилось почти 1000 поисковых запросов к Гуглу в зоне .ru, которые помогут нам отобрать максимальное количество сайтов на ДЛЕ из выдачи. По каждому запросу в выдаче от 5 до 50 сайтов, а запросов у нас 1000! Далее просто перебираем через блокнот путем замены самые популярные зоны: .com, .info, .biz, .net Лично я больше не стал брать, думаю этого хватит.
(правка - заменить)
Думаю из скриншота все понятно.
Теперь открываем наш парсер, загружаем для начала наш файл со словами и начинаем парсить. Обязательно поставьте задержку в 11-13 сек (13000) Это поможет вам избавиться от постоянной капчи, но даже если она у вас появляется, в программке есть минибраузер, где вы сможете ввести код капчи и спокойно продолжить парсинг.
После парсинга жмем кнопку "очистить дубли" и вуаля, у нас есть достаточно приличная база сайтов на DLE Не забудьте только отпрарсить другие популярные и просто другие зоны.
Способо показан для одного движка, но так можно сделать практически с каждым, главное найти общие признаки у CMS
Комментарии
Опубликовано Ср, 05/10/2011 - 19:46 пользователем Анонимный (не проверено) Постоянная ссылка (Permalink)
Парсинг гугла и яндекса
Добрый день, нашел парсер Webparser _http://cybermake.ru/download/download_web_parser.php Кто что скажет ? спасибо