Jigal!

If they are not reindexed, they are probably not being refetched at all, for 
some awkward reason. Are you using adaptive scheduling? In you case, you don't 
need it, you force refetch every day. And it might just be your problem as 
adaptive scheduling has this weird property.

There are some discussions on this on the list. Check it out.

M.

 
 
-----Original message-----
> From:Jigal van Hemert | alterNET internet BV <ji...@alternet.nl>
> Sent: Tuesday 12th July 2016 13:43
> To: user <user@nutch.apache.org>
> Subject: Indexed URLs not re-indexed
> 
> Hi,
> 
> With a configuration that forces re-indexing daily
> (db.fetch.interval.default=86400 and db.fetch.interval.max=86400) there is
> now a new strange phenomenon. Sometimes the URLs change (title is embedded
> in URL) and these pages are not re-indexed. Alle the URLs linked on the
> seed page are indexed, but the ones that are not present on the seed page
> seem to be forgotten.
> scoring.depth.max=2 to only use URLs from the seed page, but I would expect
> previously indexed URLs to be revisited (and then to be removed if they
> produce a 404).
> 
> Any ideas for diagnosis and checking the cause?
> 
> -- 
> 
> 
> Met vriendelijke groet,
> 
> 
> Jigal van Hemert | Ontwikkelaar
> 
> 
> 
> Langesteijn 124
> 3342LG Hendrik-Ido-Ambacht
> 
> T. +31 (0)78 635 1200
> F. +31 (0)848 34 9697
> KvK. 23 09 28 65
> 
> ji...@alternet.nl
> www.alternet.nl
> 
> 
> Disclaimer:
> Dit bericht (inclusief eventuele bijlagen) kan vertrouwelijke informatie
> bevatten. Als u niet de beoogde ontvanger bent van dit bericht, neem dan
> direct per e-mail of telefoon contact op met de verzender en verwijder dit
> bericht van uw systeem. Het is niet toegestaan de inhoud van dit bericht op
> welke wijze dan ook te delen met derden of anderszins openbaar te maken
> zonder schriftelijke toestemming van alterNET Internet BV. U wordt
> geadviseerd altijd bijlagen te scannen op virussen. AlterNET kan op geen
> enkele wijze verantwoordelijk worden gesteld voor geleden schade als gevolg
> van virussen.
> 
> Alle eventueel genoemde prijzen S.E. & O., excl. 21% BTW, excl. reiskosten.
> Op al onze prijsopgaven, offertes, overeenkomsten, en diensten zijn, met
> uitzondering van alle andere voorwaarden, de Algemene Voorwaarden van
> alterNET Internet B.V. van toepassing. Op al onze domeinregistraties en
> hostingactiviteiten zijn tevens onze aanvullende hostingvoorwaarden van
> toepassing. Dit bericht is uitsluitend bedoeld voor de geadresseerde. Aan
> dit bericht kunnen geen rechten worden ontleend.
> 
> ! Bedenk voordat je deze email uitprint, of dit werkelijk nodig is !
> 

Reply via email to