Основы парсинга html-страниц в Yahoo Pipes

Опубликовано в (Yahoo Pipes) | автор splogmaster | 09-12-2008

Тэги: , , , ,

Сразу определимся с терминологией: под парсингом html-страницы в Yahoo Pipes я понимаю граббинг (от слова grabber, т.е. схватить и утащить) всей html-страницы или ее части с последующим, по мере необходимости, преобразованием "схваченного".

В общих чертах для задач парсинга в Yahoo Pipes нам нужны только 2 модуля: Fetch Page для граббинга и модуль Regex для преобразований с помощью регулярных выражений.

Модуль Fetch Page группы Source:

Модуль Fetch Page

Поле URL - сюда вбивается адрес веб-страницы, которую мы собрались сграбить/спарсить; Поле Cut content from - если нам …

Описание модулей Yahoo Pipes

Опубликовано в (Yahoo Pipes) | автор splogmaster | 08-12-2008

Тэги: , , , , , ,

Это будет второй вводный в Yahoo Pipes пост (первым был Практическое знакомство с Yahoo Pipes), после чего я буду писать о решении в Yahoo Pipes конкретных, имеющих непосредственное отношение к сплоггерству, задач.

В этом посте я хочу кратко, своими словами исходя из опыта работы с Yahoo Pipes дать описание функциональным модулям, с помощью которых собираются трубы. Модули в Yahoo Pipes сгруппированы по "объекту приложения", т.е. одни модули предназначены для работы с потоком данных, другие для работы со строками и т.д. На рабочем столе модули, разбитые по группам, расположены в левой его части:

Рабочий стол Yahoo Pipes

И так, группы …

Уникальный сервис Yahoo! Pipes

Опубликовано в (Yahoo Pipes) | автор splogmaster | 11-10-2008

Тэги: , , , , , , , , , , , , , ,

Что такое Yahoo! Pipes? в двух словах это веб-сервис с GUI (графический пользовательский интерфейс) на базе чистого Ajax, который предназначен для объединения, фильтрации, преобразования RSS лент, веб-страниц, других источников контента и сервисов. Yahoo! Pipes (они же просто Трубы) дает возможность получать потоки данных из различных источников, изменять их, создавать схемы и правила по управлению полученным/входящим контентом, и выдавать на выходе, - в контексте создания сплогов, - RSS поток.
Я считаю, что при создании сплога основным моментом является источник контента для него, а поскольку ничего лучшего, ничего более универсального, чем Yahoo! Pipes, человечество еще не изобрело/выложило в паблик, то изучению данного инструмента следует уделить особое внимание. Замечу, что универсальность Yahoo! Pipes не совсем “универсальная” в том плане, что для каждого конкретного случая нужно создавать свою трубу.
Мое …