Парсинг поисковой выдачи Яндекса в Yahoo Pipes + новый скрипт для автопостинга в сплоги на blogger.com

Опубликовано в (Yahoo Pipes, Контент, Сплоги) | автор splogmaster | 17-02-2009

Тэги: , , , , , , , , ,

Выкладываю свою рабочую трубу для парсинга результатов поиска Яндекса по нужному ключевому запросу. Yahoo Pipes не дружит с URL-ми, где в значении передаваемых параметров присутствуют русские буквы - это скорее глюк, чем особенность. Пэтому делать сложные трубы для генерации русскоязычного контента практически невозможно. Максимум, что можно сделать, это простую трубу, которая по нужному запросу тянет контент с нужного сайта: это может быть выдача любого поисковика, поиск картинок и т.д.

Собственно, вот сама труба, генерирующая с результатов поисковой выдачи Яндекса 1 пост для сплога:

yahoo-pipes-yandex-parser

На входе 2 параметра: key - ключевой запрогс и page - номер страницы выдачи.

Затем с помощью URL Builder “строим” URL, по которому открывается нужная нам страница результатов поисковой выдачи по …

Основы парсинга html-страниц в Yahoo Pipes

Опубликовано в (Yahoo Pipes) | автор splogmaster | 09-12-2008

Тэги: , , , ,

Сразу определимся с терминологией: под парсингом html-страницы в Yahoo Pipes я понимаю граббинг (от слова grabber, т.е. схватить и утащить) всей html-страницы или ее части с последующим, по мере необходимости, преобразованием "схваченного".

В общих чертах для задач парсинга в Yahoo Pipes нам нужны только 2 модуля: Fetch Page для граббинга и модуль Regex для преобразований с помощью регулярных выражений.

Модуль Fetch Page группы Source:

Модуль Fetch Page

Поле URL - сюда вбивается адрес веб-страницы, которую мы собрались сграбить/спарсить; Поле Cut content from - если нам …