Hi Jigal,

You can do this by activating the scoring-depth plugin and setting
scoring.depth.max to 1 in nutch-site.xml
For the scheduling simply set

<property>
<name>db.fetch.interval.default</name>
<value>86400</value>


</property>

in nutch-site.xml

Filtering URLs from being indexed based on the content could be done by
writing a custom IndexingFilter and get it to set the NutchDocument to null
e.g based on an arbitrary metadata key set by a custom ParseFilter.

Hope it helps

Julien


2016-04-06 10:38 GMT+01:00 Jigal van Hemert | alterNET internet BV <
ji...@alternet.nl>:

> Hi,
>
> Probably not too complex for those who are used to fiddling with the
> configuration, but I could use some pointer on how to achieve the
> following.
>
> One site is indexed by Nutch. Now it should be limited to the pages that
> are linked in the seed URL (no further crawling necessary). Furthermore all
> pages must be revisited daily (and new pages must be indexed daily too).
>
> Another wish is to exclude pages with certain content on them. Currently we
> do this by a delete query after Nutch finishes. We can keep it this way,
> but I wondered if there was a smarter option.
>
> Thanks in advance for pointing me in the right direction.
>
> --
>
>
> Met vriendelijke groet,
>
>
> Jigal van Hemert | Ontwikkelaar
>
>
>
> Langesteijn 124
> 3342LG Hendrik-Ido-Ambacht
>
> T. +31 (0)78 635 1200
> F. +31 (0)848 34 9697
> KvK. 23 09 28 65
>
> ji...@alternet.nl
> www.alternet.nl
>
>
> Disclaimer:
> Dit bericht (inclusief eventuele bijlagen) kan vertrouwelijke informatie
> bevatten. Als u niet de beoogde ontvanger bent van dit bericht, neem dan
> direct per e-mail of telefoon contact op met de verzender en verwijder dit
> bericht van uw systeem. Het is niet toegestaan de inhoud van dit bericht op
> welke wijze dan ook te delen met derden of anderszins openbaar te maken
> zonder schriftelijke toestemming van alterNET Internet BV. U wordt
> geadviseerd altijd bijlagen te scannen op virussen. AlterNET kan op geen
> enkele wijze verantwoordelijk worden gesteld voor geleden schade als gevolg
> van virussen.
>
> Alle eventueel genoemde prijzen S.E. & O., excl. 21% BTW, excl. reiskosten.
> Op al onze prijsopgaven, offertes, overeenkomsten, en diensten zijn, met
> uitzondering van alle andere voorwaarden, de Algemene Voorwaarden van
> alterNET Internet B.V. van toepassing. Op al onze domeinregistraties en
> hostingactiviteiten zijn tevens onze aanvullende hostingvoorwaarden van
> toepassing. Dit bericht is uitsluitend bedoeld voor de geadresseerde. Aan
> dit bericht kunnen geen rechten worden ontleend.
>
> ! Bedenk voordat je deze email uitprint, of dit werkelijk nodig is !
>



-- 

*Open Source Solutions for Text Engineering*

http://www.digitalpebble.com
http://digitalpebble.blogspot.com/
#digitalpebble <http://twitter.com/digitalpebble>

Reply via email to