Hi Jigal, You can do this by activating the scoring-depth plugin and setting scoring.depth.max to 1 in nutch-site.xml For the scheduling simply set
<property> <name>db.fetch.interval.default</name> <value>86400</value> </property> in nutch-site.xml Filtering URLs from being indexed based on the content could be done by writing a custom IndexingFilter and get it to set the NutchDocument to null e.g based on an arbitrary metadata key set by a custom ParseFilter. Hope it helps Julien 2016-04-06 10:38 GMT+01:00 Jigal van Hemert | alterNET internet BV < ji...@alternet.nl>: > Hi, > > Probably not too complex for those who are used to fiddling with the > configuration, but I could use some pointer on how to achieve the > following. > > One site is indexed by Nutch. Now it should be limited to the pages that > are linked in the seed URL (no further crawling necessary). Furthermore all > pages must be revisited daily (and new pages must be indexed daily too). > > Another wish is to exclude pages with certain content on them. Currently we > do this by a delete query after Nutch finishes. We can keep it this way, > but I wondered if there was a smarter option. > > Thanks in advance for pointing me in the right direction. > > -- > > > Met vriendelijke groet, > > > Jigal van Hemert | Ontwikkelaar > > > > Langesteijn 124 > 3342LG Hendrik-Ido-Ambacht > > T. +31 (0)78 635 1200 > F. +31 (0)848 34 9697 > KvK. 23 09 28 65 > > ji...@alternet.nl > www.alternet.nl > > > Disclaimer: > Dit bericht (inclusief eventuele bijlagen) kan vertrouwelijke informatie > bevatten. Als u niet de beoogde ontvanger bent van dit bericht, neem dan > direct per e-mail of telefoon contact op met de verzender en verwijder dit > bericht van uw systeem. Het is niet toegestaan de inhoud van dit bericht op > welke wijze dan ook te delen met derden of anderszins openbaar te maken > zonder schriftelijke toestemming van alterNET Internet BV. U wordt > geadviseerd altijd bijlagen te scannen op virussen. AlterNET kan op geen > enkele wijze verantwoordelijk worden gesteld voor geleden schade als gevolg > van virussen. > > Alle eventueel genoemde prijzen S.E. & O., excl. 21% BTW, excl. reiskosten. > Op al onze prijsopgaven, offertes, overeenkomsten, en diensten zijn, met > uitzondering van alle andere voorwaarden, de Algemene Voorwaarden van > alterNET Internet B.V. van toepassing. Op al onze domeinregistraties en > hostingactiviteiten zijn tevens onze aanvullende hostingvoorwaarden van > toepassing. Dit bericht is uitsluitend bedoeld voor de geadresseerde. Aan > dit bericht kunnen geen rechten worden ontleend. > > ! Bedenk voordat je deze email uitprint, of dit werkelijk nodig is ! > -- *Open Source Solutions for Text Engineering* http://www.digitalpebble.com http://digitalpebble.blogspot.com/ #digitalpebble <http://twitter.com/digitalpebble>