Основы парсинга html-страниц в Yahoo Pipes
Опубликовано в (Yahoo Pipes) | автор splogmaster | 09-12-2008
Тэги: Fetch Page, HTML, Regex, контент для сплогов, парсинг
Сразу определимся с терминологией: под парсингом html-страницы в Yahoo Pipes я понимаю граббинг (от слова grabber, т.е. схватить и утащить) всей html-страницы или ее части с последующим, по мере необходимости, преобразованием "схваченного".
В общих чертах для задач парсинга в Yahoo Pipes нам нужны только 2 модуля: Fetch Page для граббинга и модуль Regex для преобразований с помощью регулярных выражений.
Модуль Fetch Page группы Source:
Поле URL - сюда вбивается адрес веб-страницы, которую мы собрались сграбить/спарсить; Поле Cut content from - если нам …