Re: парсер rss

2010-02-10 Пенетрантность Nikolay Panov
> Есть задача: забрать rss с сайта, выдрать из него ссылки на полную новость
> (поле link, наск. помню), и отдать их [ссылки] по одной на выход [вгету с
> параметрами].

На python это с десяток строк (можно и без вгета, а сразу выкачивать).

> Есть условие: строго консольно, писанины - макс. правка конфига (предложение
> написать скрипт и т.д. не рассматриваются).

С таким условием, вам на ближайшую фриланс-биржу. Долларов за 30 вам
там это легко напишут.

Have a nice day,
   Nikolay.


Re: парсер rss

2010-02-10 Пенетрантность Alexey Pechnikov
Hello!

On Wednesday 10 February 2010 01:54:00 Nicholas wrote:
> Из консоли работает php - может взять Drupal + модули: Common 
> syndication parser и FeedAPI Node Views, через веб все что надо 
> настроить и из консоли cron.php запускать ;) ?

Даже в качестве шутки производит гнетущее впечатление.

Best regards, Alexey Pechnikov.
http://pechnikov.tel/


Re: парсер rss

2010-02-09 Пенетрантность Константин

Приветствую всех.


Константин wrote:
Есть задача: забрать rss с сайта, выдрать из него ссылки на полную 
новость (поле link, наск. помню), и отдать их [ссылки] по одной на 
выход [вгету с параметрами].
Есть условие: строго консольно, писанины - макс. правка конфига 


Из консоли работает php - может взять Drupal + модули: Common 
syndication parser и FeedAPI Node Views, через веб все что надо 
настроить и из консоли cron.php запускать ;) ?


Да, есть такой вариант, но: FeedAPI в таком режиме (пробовал) не 
выкачивает по rss-ссылке всю страницу, а для каждого анонса в rss-ленте 
создает отдельную. страницу и его (анонс) туда сует, о полной странице 
речи нет. Т.е. не то, что надо.


--
С уважением,
Константин Шувалов


--
To UNSUBSCRIBE, email to debian-russian-requ...@lists.debian.org
with a subject of "unsubscribe". Trouble? Contact listmas...@lists.debian.org



Re: парсер rss

2010-02-09 Пенетрантность Serhiy Storchaka
Константин wrote:
> [Для rss2mail тоже, подозреваю, придется нечто руками писать, чего
> хотелось бы сильно избежать, но похоже...]
> 
> Да, знакомо. Но, как понимаю, там требуется знание питона? Тогда см.
> "условие" выше, ибо питон не знаю.

Ну, в любом случае писать придётся. Немного, несколько строчек. Не на
Питоне, так на Руби, на Перле (есть аналогичные библиотеки), да хотя бы на
шелле.

Например:
wget -O - $rssurl \
| xmlstarlet sel -T -t -m '/rss/channel/item/link' -v . -n \
| xargs wget



-- 
To UNSUBSCRIBE, email to debian-russian-requ...@lists.debian.org
with a subject of "unsubscribe". Trouble? Contact listmas...@lists.debian.org



Re: парсер rss

2010-02-09 Пенетрантность Иван Лох
On Tue, Feb 09, 2010 at 07:35:24PM +0300, Константин wrote:
> Приветствую всех.
> 
> Есть задача: забрать rss с сайта, выдрать из него ссылки на полную
> новость (поле link, наск. помню), и отдать их [ссылки] по одной на
> выход [вгету с параметрами]

xsltproc f.xslt http://www.rian.ru/export/rss2/index.xml

f.xslt


http://www.w3.org/1999/XSL/Transform"; >


#!/bin/sh



wget 


.


-- 
To UNSUBSCRIBE, email to debian-russian-requ...@lists.debian.org
with a subject of "unsubscribe". Trouble? Contact listmas...@lists.debian.org



Re: парсер rss

2010-02-09 Пенетрантность Константин

Приветствую.


Есть задача: забрать rss с сайта, выдрать из него ссылки на полную
новость (поле link, наск. помню), и отдать их [ссылки] по одной на выход
[вгету с параметрами].

Есть условие: строго консольно, писанины - макс. правка конфига
(предложение написать скрипт и т.д. не рассматриваются).

Есть вопрос: есть ли :) в репах что-либо реализующее заявленную
функциональность?

google:feedparser


[Для rss2mail тоже, подозреваю, придется нечто руками писать, чего
хотелось бы сильно избежать, но похоже...]

Да, знакомо. Но, как понимаю, там требуется знание питона? Тогда см.
"условие" выше, ибо питон не знаю.

Впрочем, засунув пример (см. ниже) в test.py (добавив в начале ссылку на 
питон и убрав >>>, ибо ругается [или оно надо в файле? ЧЯНДТ?]) - скрипт 
явно что-то делает, но р-тов, описанных в примере (сохранение в домашней 
директории rss.xml) не производит. Что тогда не так делаю?


Используется пример  (Example: Parsing a feed from a remote URL) с 
дефолтного сайта. По описанию "The following example assumes you are on 
Windows, and that you have saved a feed at c:\incoming\atom10.xml."


но нигде не вижу никакого xml`a. ЧЯНДТ?

[уточнение - питона я все же не знаю, что-то где-то мог и напутать!].

--
пример с сайта:

>>> import feedparser
>>> d = feedparser.parse('http://feedparser.org/docs/examples/atom10.xml')
>>> d['feed']['title']
u'Sample Feed'
--

--
С уважением,
Константин Шувалов


--
To UNSUBSCRIBE, email to debian-russian-requ...@lists.debian.org
with a subject of "unsubscribe". Trouble? Contact listmas...@lists.debian.org



Re: парсер rss

2010-02-09 Пенетрантность Sergey Korobitsin
Tue, Feb 09, 2010 at 19:35 +0300 Константин воздействовал на энтропию:
> Приветствую всех.
> 
> Есть задача: забрать rss с сайта, выдрать из него ссылки на полную
> новость (поле link, наск. помню), и отдать их [ссылки] по одной на
> выход [вгету с параметрами].
> 
> Есть условие: строго консольно, писанины - макс. правка конфига
> (предложение написать скрипт и т.д. не рассматриваются).
> 
> Есть вопрос: есть ли :) в репах что-либо реализующее заявленную
> функциональность?

Можно взять rss2email и выдрать оттуда нужную функциональность (парсер
ссылок там точно есть). Ну, или не выдирать, а отправлять письма на
какой-нибудь email, где потрошение ссылок будет делать procmail.
Вариантов масса, в общем.

-- 
Bright regards, Sergey Korobitsin | http://the-brights.net/ --
  Arta Software, http://arta.kz/  | illuminating and elevating
  xmpp:underta...@jabber.arta.kz  | the naturalistic worldview

--
Человечество не будет знать счастья, пока последнего бюрократа 
не удавят кишкой последнего капиталиста.
  -- Situationist International 


-- 
To UNSUBSCRIBE, email to debian-russian-requ...@lists.debian.org
with a subject of "unsubscribe". Trouble? Contact listmas...@lists.debian.org



Re: парсер rss

2010-02-09 Пенетрантность Serhiy Storchaka
Константин wrote:
> Есть задача: забрать rss с сайта, выдрать из него ссылки на полную
> новость (поле link, наск. помню), и отдать их [ссылки] по одной на выход
> [вгету с параметрами].
> 
> Есть условие: строго консольно, писанины - макс. правка конфига
> (предложение написать скрипт и т.д. не рассматриваются).
> 
> Есть вопрос: есть ли :) в репах что-либо реализующее заявленную
> функциональность?
> 
> Заранее благодарю.
> 
> ЗЫЖ гугл юзал. не помогло толком.

google:feedparser



-- 
To UNSUBSCRIBE, email to debian-russian-requ...@lists.debian.org
with a subject of "unsubscribe". Trouble? Contact listmas...@lists.debian.org