Парсинг поисковой выдачи Яндекса в Yahoo Pipes + новый скрипт для автопостинга в сплоги на blogger.com
Опубликовано в (Yahoo Pipes, Контент, Сплоги) | автор splogmaster | 17-02-2009
Тэги: AdSense, blogger, Cron, PHP, Yandex, автопостинг, контент для сплогов, парсинг, скрипт, труба
Выкладываю свою рабочую трубу для парсинга результатов поиска Яндекса по нужному ключевому запросу. Yahoo Pipes не дружит с URL-ми, где в значении передаваемых параметров присутствуют русские буквы - это скорее глюк, чем особенность. Пэтому делать сложные трубы для генерации русскоязычного контента практически невозможно. Максимум, что можно сделать, это простую трубу, которая по нужному запросу тянет контент с нужного сайта: это может быть выдача любого поисковика, поиск картинок и т.д.
Собственно, вот сама труба, генерирующая с результатов поисковой выдачи Яндекса 1 пост для сплога:
На входе 2 параметра: key - ключевой запрогс и page - номер страницы выдачи.
Затем с помощью URL Builder “строим” URL, по которому открывается нужная нам страница результатов поисковой выдачи по нужному запросу.
Модулем Fetch Page грабим контент от первого блока/снипета до последнего (всего на странице 10 блоков).
Поскольку в Yahoo Pipes есть ограничение на размер (не больше 250кб) данных, которые можно за один раз передать модулю Regex для их последующей модификации, нам придется разбить сграбленый контент на куски, чтобы потом каждый кусок пропустить через Regex и убрать ненужный мусор;
Ну и в самом конце мы формируем элементы title и description нашего фида.
Исходник трубы для парсинга поисковой выдачи Яндекса
Я повторюсь, эта труба относится к категории простых труб, и эту трубу нельзя использовать внутри других труб из-за глюков с русскими символами в URL. Поэтому для полноценного использования такой трубы нам необходимо обратиться к какким-нибудь внешним скриптам/сервисам.
После заполучения списка ТОП 1000 самых дорогих русских ключевых слов по версии Google Adsense я решил попробовать сделать хотя бы 1000 сплогов на blogger.com под Adsense. Список запросов есть, труба для генерации контента по нужному запросу есть, осталось прикрутить все это к скрипту для автопостинга в сплоги на blogger.com - у меня много вариантов скриптов, все они базируются на первой версии скрипта, о котором я писал в Создание сплогов на blogger.com (blogspot.com) .
Как вы помните, основной проблемой при осуществлении автопостинга в большое количество сплогов была проблема с нагрузкой на сервер - для каждого сплога создавался свой скрипт автопостинга, который вызывался через крон по расписанию с интервалом 1-3 часа, при большом количестве cron-заданий сервер тупо вешается.
С недавних пор я использую ОДИН скрипт автопостинга, который обслуживает сразу 1000 сплогов на blogger.com. Получается один скрипт, одно cron-задание, вызов задания каждые 2-5 минут, автопостинг происходит в 10 случайных блогов за раз - нагрузка на сервер оказывается в разы меньше, чем раньше, и теперь один плешивенький сервер за 150р. может обслуживать 5-10 тысяч сплогов.
Возвращаемся к нашим сплогам под Adsense. Писать про скрипты мне надоело, поэтому вот сам скрипт, который обслуживает сразу много сплогов, постит контент, взятый с трубы-генератора контента из результатов выдачи Яндекса по базе ТОП 1000 самых дорогих русских ключевых слов по версии Google Adsense:
Скачать скрипт в архиве. Скрипт работает следующим образом: есть массив с блогами, есть массив с ключевыми запросами - берем рандомно 10 блогов, берем рандомно 10 запросов, берем контент по рандомному клчевому запросу с рандомной страницы выдачи Яндекса, ну и пости в каждый из 10-ти рандомных блогов. Таким образом, за одно выполнение скрипта обслуживается 10 сплогов - если хотите, можете попробовать обслуживать за раз большее количество сплогов, у меня ни времени, ни желания на такие эксперименты нет.
Ну и самое главное: за сплоги могут забанить ваш Adsense-аккаунт - один мой аккаунт не банят уже полгода, другой мой аккаунт забанили на вторую неделю, так что дело случая.
Сайт дня: заработок в интернете - WebJunk
Возможно, не скромный вопрос - гмаил-акки покупаете или регаете? Сейчас вроде проблема с регалками, говорят, не работают, гугля хитрый стал, однако…
gmail-аккаунты я покупаю на http://kak-tak.com/acc/ по 2 цента за штуку
а если на такие сплоги вешать не адсенс а чтонть типа фида с умакса или какойть другой ппс? или вообще какойнть попандер?.. я так понимаю же что сплоги получаются не для людей - тупо трафик чтобы сливать..
и ещё - на нулледе видел предолжения о реге акков на блоггер по 15уе за 1000…) это не реклама потому ссылок не даю..
П.С.
опс.. оказывается предложение по 15уе. уже не действительно.. и по вашей ссылке сейчас по 45уе. уже цена…
кризис млин.. инфляция…((((((((((
Джоновской регалкой вполне себе можно и бесплатно регать, если через прокси.
Может кто-то объяснит, на blogspote принимают письма от admin, адрес админа на Gmail, на одном Gmail 25 блогов. Вопрос как отправлять письма на blogger.com с другого адреса?
О каких письмах на blogspote идет речь? письма, с текста которых на блогах создаются посты? если да, то тут https://splogmaster.ru/splogi/sozdanie-splogov-na-bloggercom-blogspotcom все написано
Да, спасибо. Немного не о том, не разобрался сразу.
а ты сразу же на сплоги вешаешь попандер? или лучше подождать пока проиндексируются и траф пойдет?
вешаю сразу. ждать нельзя, ибо как только пойдет траф - так сразу будет бан, почти во всех случаях
Прив! А что думаешь насчет графических фидов? Тут уже спрашивали - UMAX, ему подобные, фарма… Не хочется AdSence аккаунт палить…
поскольку я использовал ТОП запросов в адсенсе, то сюда нужно ставить именно адсенс. Под графические PPC фиды я думаю нужен контент по другим ключевикам, и русский язык наверное не в тему будет. То, что адсенс универсален и подойдет под любые язык и тему контента - это очевидно, чего не скажешь о всяких PPC, тизерах и т.д.
Можно как то прикрутить к трубе, которая по кеям парсит еще и трубу которая эти кеи собирает?
1ая берет кеи, отдает 2ой трубе, а та в свою очередь уже собирает контент?
мне к примеру надо сделать под 100к ключевиков на тематику медицина.(ключи есть)
мне просто вписать мыла блогов и список кеев в скрипт?
или что-то еще нужно?
прикрутить ничего нельзя, “трубу в трубе” нельзя использовать с русскоязычными кеями
bell387, в общих чертах ничего больше делать не нужно. ваши кеи и ваши блоггерские мылы - это все что от вас требуется. Но не вздумайте все 100к кеев вбивать в один скрипт, например, закиньте каждые 1000 кеев в свой файл и в скрипте подгружайте кеи из случайно выбранного файла
подскажите с какого хостинга данный скрипт пойдет в исходном виде?(что б изменить только свои имейлы)
заранее спасибо!
любой хостинг, где разрешены сокеты и установлено PHP-расширение simplexml