Парсинг поисковой выдачи Яндекса в Yahoo Pipes + новый скрипт для автопостинга в сплоги на blogger.com

Опубликовано в (Yahoo Pipes, Контент, Сплоги) | автор splogmaster | 17-02-2009

Тэги: , , , , , , , , ,

Выкладываю свою рабочую трубу для парсинга результатов поиска Яндекса по нужному ключевому запросу. Yahoo Pipes не дружит с URL-ми, где в значении передаваемых параметров присутствуют русские буквы - это скорее глюк, чем особенность. Пэтому делать сложные трубы для генерации русскоязычного контента практически невозможно. Максимум, что можно сделать, это простую трубу, которая по нужному запросу тянет контент с нужного сайта: это может быть выдача любого поисковика, поиск картинок и т.д.

Собственно, вот сама труба, генерирующая с результатов поисковой выдачи Яндекса 1 пост для сплога:

yahoo-pipes-yandex-parser

На входе 2 параметра: key - ключевой запрогс и page - номер страницы выдачи.

Затем с помощью URL Builder “строим” URL, по которому открывается нужная нам страница результатов поисковой выдачи по нужному запросу.

Модулем Fetch Page грабим контент от первого блока/снипета до последнего (всего на странице 10 блоков).

Поскольку в Yahoo Pipes есть ограничение на размер (не больше 250кб) данных, которые можно за один раз передать модулю Regex для их последующей модификации, нам придется разбить сграбленый контент на куски, чтобы потом каждый кусок пропустить через Regex и убрать ненужный мусор;

Ну и в самом конце мы формируем элементы title и description нашего фида.

Исходник трубы для парсинга поисковой выдачи Яндекса

Я повторюсь, эта труба относится к категории простых труб, и эту трубу нельзя использовать внутри других труб из-за глюков с русскими символами в URL. Поэтому для полноценного использования такой трубы нам необходимо обратиться к какким-нибудь внешним скриптам/сервисам.

После заполучения списка ТОП 1000 самых дорогих русских ключевых слов по версии Google Adsense я решил попробовать сделать хотя бы 1000 сплогов на blogger.com под Adsense. Список запросов есть, труба для генерации контента по нужному запросу есть, осталось прикрутить все это к скрипту для автопостинга в сплоги на blogger.com - у меня много вариантов скриптов, все они базируются на первой версии скрипта, о котором я писал в Создание сплогов на blogger.com (blogspot.com) .

Как вы помните, основной проблемой при осуществлении автопостинга в большое количество сплогов была проблема с нагрузкой на сервер - для каждого сплога создавался свой скрипт автопостинга, который вызывался через крон по расписанию с интервалом 1-3 часа, при большом количестве cron-заданий сервер тупо вешается.

С  недавних пор я использую ОДИН скрипт автопостинга, который обслуживает сразу 1000 сплогов на blogger.com. Получается один скрипт, одно cron-задание, вызов задания каждые 2-5 минут, автопостинг происходит в 10 случайных блогов за раз - нагрузка на сервер оказывается в разы меньше, чем раньше, и теперь один плешивенький сервер за 150р. может обслуживать 5-10 тысяч сплогов.

Возвращаемся к нашим сплогам под Adsense. Писать про скрипты мне надоело, поэтому вот сам скрипт, который обслуживает сразу много сплогов, постит контент, взятый с трубы-генератора контента из результатов выдачи Яндекса по базе ТОП 1000 самых дорогих русских ключевых слов по версии Google Adsense:

Скачать скрипт в архиве. Скрипт работает следующим образом: есть массив с блогами, есть массив с ключевыми запросами - берем рандомно 10 блогов, берем рандомно 10 запросов, берем контент по рандомному клчевому запросу с рандомной страницы выдачи Яндекса, ну и пости в каждый из 10-ти рандомных блогов. Таким образом, за одно выполнение скрипта обслуживается 10 сплогов - если хотите, можете попробовать обслуживать за раз большее количество сплогов, у меня ни времени, ни желания на такие эксперименты нет.

Ну и самое главное: за сплоги могут забанить ваш Adsense-аккаунт - один мой аккаунт не банят уже полгода, другой мой аккаунт забанили на вторую неделю, так что дело случая.

Сайт дня: заработок в интернете - WebJunk





Комментарии:

Оставить комментарий