Регулярные выражения в Yahoo Pipes
Опубликовано в (Yahoo Pipes) | автор splogmaster | 05-11-2008
Тэги: Regex, информация, конструктор, модуль, примеры, регулярные выражения, синтаксис, ссылки
Регулярные выражения - это механизм поиска определенных текстовых фрагментов в строке/тексте, основанный на использовании специальных шаблонов/масок/ или образцов/правил. Рекомендую для ознакомления с темой почитать о регулярных выражениях в википедии. Чтобы понять и увидеть на примерах, как это все работает, посетите следующие места:
- Регулярные выражения. Синтаксис, примеры - именно эта статья стала для меня отправной точкой. Легкий язык, примеры, разжевывание - все что нужно для новичка;
- Синтаксис регулярных выражений - подойдет как справочник-таблица по специальным символам в регулярных выражениях;
- Регулярные выражения (шаблоны) - специальные символы, правила. Лишним не будет.
- Регулярные выражения. Примеры, документация, шаблоны - хороший сайт, много информации, много примеров решения конкретных задач. Так же на этом сайте есть Конструктор регулярных выражений - позволяет быстро сконструировать и протестировать регулярные выражения.
- Проверка регулярных выражений - аналог упомянутого выше конструктора регулярных выражений.
В Yahoo Pipes для работы с регулярными выражениями существует специальный модуль Regex (он находится в Операторах) - именно используя этот модуль совершаются все допустимые видоизменения потока данных. Если хотите научиться управлять трубами - научитесь управлять Regex. В основе парсинга HTML-страниц лежат именно регулярные выражения, без регулярных выражений вы не сможете выжать из Yahoo Pipes практически ничего.
Мой блог находят по следующим фразам
[...] Сразу определимся с терминологией: под парсингом html-страницы в Yahoo Pipes я понимаю граббинг (от слова grabber, т.е. схватить и утащить) всей html-страницы или ее части с последующим, по мере необходимости, преобразованием "схваченного". В общих чертах для задач парсинга в Yahoo Pipes нам нужны только 2 модуля: Fetch Page для граббинга и модуль Regex для преобразований с помощью регулярных выражений. [...]