Мысли о генераторе контента на основе Yahoo Pipes
Опубликовано в (Yahoo Pipes, Контент) | автор splogmaster | 10-11-2008
Тэги: HTML, Regex, rss, генератор контента, идеи, мысли
Мысли у меня есть. Есть и частичные реализации. Пока что поделюсь только мыслями, попозже будут и реализации.
Под контентом я понимаю некое целое, составными частями которого являются текст, картинки и видео, - для буржуев возможно еще и подкасты, - вот таким я вижу контент для сплогов. Под генерацией контента я понимаю "найти все составные части и собрать их в единое целое".
И так, нам нужно сделать 3 вспомогательных параметрических трубы, каждая из которых будет выполнять свою определенную часть работы: первая труба будет на выходе выдавать нам картинку, вторая - видео, и третья - текст. В качестве входного параметра будет использоваться ключевой запрос, по которому нам нужен контент. Результирующая главная труба будет объединять результаты работы 3-х вспомогательных труб и на выходе выдавать RSS-фид со сгенерированным по нужному ключевику контентом.
Вот такой простой алгоритм:
Теперь мысли о реализации генератора контента на Yahoo Pipes:
- Картинки - в Yahoo Pipes есть готовый модуль для поиска картинок на Flickr.com. Нам остается только создать html-шаблон для этого куска контента c с помощью модуля Regex;
- Видео - как простейший вариант возьмем youtube и поиск видео от гугла. И снова создать html-шаблон;
- Текст - самый важный кусок контента и самый обширный по количеству источников. Если подойдет простой голый текст, то нам даже не потребуется ничего парсить - выдача результатов поиска по ключевому запросу в виде RSS-фида есть во многих местах, нам останется только скомбинировать RSS-потоки из разных источников;
- Объединений кусков контента в один фид - обращаемся к главной трубе, передаем ей наш кейворд - внутри трубы происходит обращение ко всем вспомогательным трубам, тянутся куски контента по нужному кейворду, все это комбинируется/мэшапится, выдавая в итоге RSS-фид для наполнения сплогов. Так же в главной трубе можно подключить какие-нибудь полезные дополнительные возможности, например, перелинковку постов на сплогах.
Заметьте, я говорю о генерации контента, а не о генерации текста, поэтому никаких цепей Маркова, никаких заумных алгоритмов по синонимизации и уникализации текста я не затрагиваю.
Так же я не рассматривал один важный вопрос: сплог это не сателит, вся сила сплога в том, что он наполняется с течением времени, нам нужно создать иллюзию живого блога, на котором регулярно появляются новые посты, поэтому нам не подойдет вариант генератора контента, когда мы по нужному кейворду сразу получим контента на 100 постов. Нам нужно создавать на сплоге по 2-5 постов каждый день, и вовсе не обязательно привязывать один сплог к одному единственному кейворду.
Последняя мысль: Yahoo Pipes это конструктор, и по мере накопления опыта ваши конструкции будут становится все более масштабными и универсальными.
Насчет человекообразности поста ( с видео и тумбами) очень правильная мысль, с моей точки зрения.
А насчет уникальности текста как в зтой трубе? Или сборка из кусков текста обшего поста для сплога нормально пойдет?
Я сторонник мнения, что поисковики смотрят на контент “в целом”, а на разбирают по кусочкам, определяя уникальность каждого из них. Труба не может генерировать текст, трубы прекрасно справляются с тем, для чего они и были созданы - мэшап информации из различных источников. Был у меня сплог с контентом вида “картинка+текст+картинка”, текст брался с результатов поиска в различных местах - за 2 месяца своей жизни сплог принес более 300к хостов, имея на пике по 16к просмотров за сутки. Потом конечно же сплог забанили, но вряд ли из-за контента.
Согласен, но картинки часто будет не совпадать с текстом.
С той же Бритни как в примере, на некоторых фото она не присутствует. Там её тачки и т.п.
Генератор контента призван пустить пыль в глаза роботу, а не человеку
Тогда и картинка может быть любой тематики. Гугл ведь ещё не умеет их распознавать?
блин, да можно ваще везде черный квадрат вставлять:) генератор хоть и для роботов, но все-таки хочется его как-то очеловечить - для генератора без разницы по какому запросу тянуть картинки, все равно их нужно тянуть
[...] методы по получению халявного контента типа Romb.ru и на основе Yahoo Pipes от сплогмастера, а так же можно найти [...]
Как тогда монетизировать подобного рода сайты (для роботов)?
На СДЛ не тянет, контекст не поставишь.
Кроме popunder нет вариантов? Может ссылки продавать в сапе.
Кстати, немного поколдовав с трубами и поразмыслив понял пару вещей.
Перевод с англ.яз на русский нечетабелен. Т.е. блог не примет даже сапа наверное. А так было бы неплохо.
Я уже даже написал трубу-парсер блога космополитан, но там столько всяких слэнговых выражений, что переводчик не справляется.
ну у меня та подобного рода сайтах прекрасно стоит адсенс. Правда, один мой акаунт на адсенсе забанили сраху же за такие сайты, а вот другой акаунт чувствует себя прекрасно, так что тут как повезет. Попандер уже не поставишь, т.к. отмирает данный вид монетизации, буржуйский трафик вообще некуда лить кроме кодеков и прочей полувирусни.
В сапу берут любые сайты, лишь бы они были в индексе яндекса. У меня есть переводной сайт, гугл и тот его забанил, а яндекс почему-то его взлюбил - в сапе уже четвертый месяц. Но под сапу все же не советую делать сплоги на окутровенном говноконтенте, домены все-таки не копейки стоят, а вероятность что сайт не попадет под бан яндекса слишком уж маленькая.
Можно кстати ещё к вордперсу прекрутить синонимайзер - тогда будет ещё лучше. Но текст наверное тонет вообще не четабельным.
Интересно как Яша вычисляет такой переводной контент, Человеку то понятно быстро спалить, а вот ПС =/
Как мне известно синонимайзер под WP есть только под англ.
У меня нет статистических данных, что Яша повычислял мои переводные сплоги:) Да и если делать сплоги под яндекс и под сапу, то результативнее будет найти нормальный контент, проблем с этим вроде бы нету. Только недавно для себя открыл, что в сети куча ресурсов, которые яндексом вообще не индексируются - открыл исходя из результатов индексации своих сплогов
Раз уж тут пошел какой-то разговор, отчитаюсь: блог давно не обновлялся по следующим причинам: я заболел физически, у меня депрессия из-за проблемы “куда теперь сливать буржуский траф ввиду последних событий с попандер.ру”, и почти все свое время я трачу на эксперименты со сплогами в русскоязычном сегменте трафика и с кинотрафиком - результатов экспериментов пока нет.
Выздоравливай!
Это ты про блогспот? “недавно для себя открыл, что в сети куча ресурсов, которые яндексом вообще не индексируются”
ну блогспот я еще не рассматривал, но думаю, яндекс его не очень любит:)
Посмотрите в качестве источника текста и картинок: берет граббингом комбинирует и выдает в RSS - http://romb.ru/
Народ, кто-будь пробовал пользоваться парсером, который на romb.ru Если да, то скажите стоящая вещь или фуфло какое?
да вроде тоже самое что и трубы