Восстановление сайтов не в индексе из вебархива

Опубликовано Ср, 22/09/2010 - 22:14 пользователем wshurik

Сегодня расскажу как я нахожу контент для своих блогов, сплогов и прочих бело-серых ресов. Тема не сказать, что очень новая, но я ее немного доработал и чуток автоматизировал, так что очень многим будет полезна. Суть идеи такова: есть сайт http://web.archive.org, который собирает в свой архив содержимое почти всех сайтов аж с 1996 года. Очень многие из этих сайтов уже закрылись/проэкспайрились/побанились, но их содержимое все еще бережно хранится этим замечательным сервисом. Как вы уже догадались будем выковыривать оттуда непроиндексированный гуглом уникальный контент. Наверное можно придумать не один способ как сделать это быстро и максимально качественно, но я пользуюсь своей методикой и она меня устраивает, сейчас опишу что и как я делаю:

1. Чтобы быть почти уверенным, что контент на сайтах уникальный, я ищу только проэкспайтенные домены, которых уже нет в индексе гугла. Поскольку мне нужен не любой контент, а только интересующей меня тематики я отбираю домены по кейвордам в них содержащимся. Специально для этого написал небольшую утилиту, для упрощения поиска таких доменов. Скачать.

Программа парсит список проэкспайреных .com доменов с сайта JustDropped.com и отфильтровывает подходящие нам домены. В поле «Дата» вбиваем ту дату в которую мы хотели бы найти подходящие домены. В поле «Кейворды» вбиваем по одному на строку кеи которые нам хотелось бы чтобы содержались в имени домена. Давим «Получить список», немного ждем пока скачается список и жмем «Отфильтровать», если количество доменов нас устраивает переходим к пункту 2, если же нет – повторяем еще раз со сменой даты или кеев. Домены будут дописываться в текущий список с каждой фильтрацией.

2. Теперь нам нужно проверить, содержатся ли какие-то из этих доменов в архиве web.archive.org. Под это дело я тоже написал небольшую программу, но надобность в ней отпала когда я узнал как это можно делать с помощью SeoQuake. Устанавливаем SeoQuake. Жмем правой кнопкой мыши на сеоквейковской иконке и выбираем «Ckeck/Compare URLs and domains…»

В появившееся поле вбиваем отпаршенные домены и жмем OK. Теперь, когда список загружен нам нужно проверить все эти домены на наличие в архиве. Для этого жмем вопросительный знак рядом с колонкой Age и ждем некоторое время пока идет проверка и сортируем по убыванию. Долно получиться что-то вроде этого:

Если у домена стоит дата, то это значит, что он содержится в архиве. Жмем по дате, получаем что-то подобное:

3. Теперь уже тут давим по датам и смотри содержание сайта. Проверяем уникальность контента и нагребаем его лопатами. При хорошей усидчивости можно в день особо не напрягаясь доставать по 100-150 разнотематических уникальных статей. Я уже дошел до того, что просто складываю в отдельные файлы на будущее, т.к. девать уже некуда. Буду рад комментариям, замечаниям или идеям об использовании такой, или какой-либо другой схемы.

Автора автора

HwoR

восстановление сайтов

уникальный контент

Вы здесь

Восстановление сайтов не в индексе из вебархива