Hmm, yes. It can have many differenty causes. Let us know. It's probably going to be another ahá.
Markus -----Original message----- > From:Jigal van Hemert | alterNET internet BV <ji...@alternet.nl> > Sent: Wednesday 22nd June 2016 9:43 > To: user <user@nutch.apache.org> > Subject: Re: Number of crawled links from seed page > > Hi Markus, > > Thanks for your answer. > > 2016-06-21 13:59 GMT+02:00 Markus Jelsma <markus.jel...@openindex.io>: > > > > > Have you set this parameter to 182? Probably not but anyway. > > > > <property> > > <name>db.max.outlinks.per.page</name> > > <value>100</value> > > > > No, I set it to 5000 (just to be on safe side). I'm beginning to think it > might simply be a very long document that exceeds the page size limit. I'll > test this when I have time for this project in my planning. > > > > <description>The maximum number of outlinks that we'll process for a > > page. > > If this value is nonnegative (>=0), at most db.max.outlinks.per.page > > outlinks > > will be processed for a page; otherwise, all outlinks will be processed. > > </description> > > </property> > > > > Markus > > > > > > > > -----Original message----- > > > From:Jigal van Hemert | alterNET internet BV <ji...@alternet.nl> > > > Sent: Thursday 16th June 2016 16:56 > > > To: user <user@nutch.apache.org> > > > Subject: Number of crawled links from seed page > > > > > > Hi, > > > > > > On the seed page there are a few hundred links (approx. 400) in a large > > > list of items that must be indexed. I already made sure that the number > > of > > > inbound and outbound links in the settings are large enough (10000 and > > > 5000), but unfortunately only the first 182 links are fetched for > > crawling > > > in the second iteration (the first is only the seed page). > > > > > > url regex filter is already in place to ignore all distracting URLs on > > the > > > page and these work correctly. > > > > > > Which other settings affect the number of links that are followed on a > > seed > > > page? > > > > > > -- > > > > > > > > > Met vriendelijke groet, > > > > > > > > > Jigal van Hemert | Ontwikkelaar > > > > > > > > > > > > Langesteijn 124 > > > 3342LG Hendrik-Ido-Ambacht > > > > > > T. +31 (0)78 635 1200 > > > F. +31 (0)848 34 9697 > > > KvK. 23 09 28 65 > > > > > > ji...@alternet.nl > > > www.alternet.nl > > > > > > > > > Disclaimer: > > > Dit bericht (inclusief eventuele bijlagen) kan vertrouwelijke informatie > > > bevatten. Als u niet de beoogde ontvanger bent van dit bericht, neem dan > > > direct per e-mail of telefoon contact op met de verzender en verwijder > > dit > > > bericht van uw systeem. Het is niet toegestaan de inhoud van dit bericht > > op > > > welke wijze dan ook te delen met derden of anderszins openbaar te maken > > > zonder schriftelijke toestemming van alterNET Internet BV. U wordt > > > geadviseerd altijd bijlagen te scannen op virussen. AlterNET kan op geen > > > enkele wijze verantwoordelijk worden gesteld voor geleden schade als > > gevolg > > > van virussen. > > > > > > Alle eventueel genoemde prijzen S.E. & O., excl. 21% BTW, excl. > > reiskosten. > > > Op al onze prijsopgaven, offertes, overeenkomsten, en diensten zijn, met > > > uitzondering van alle andere voorwaarden, de Algemene Voorwaarden van > > > alterNET Internet B.V. van toepassing. Op al onze domeinregistraties en > > > hostingactiviteiten zijn tevens onze aanvullende hostingvoorwaarden van > > > toepassing. Dit bericht is uitsluitend bedoeld voor de geadresseerde. Aan > > > dit bericht kunnen geen rechten worden ontleend. > > > > > > ! Bedenk voordat je deze email uitprint, of dit werkelijk nodig is ! > > > > > > > > > -- > > > Met vriendelijke groet, > > > Jigal van Hemert | Ontwikkelaar > > > > Langesteijn 124 > 3342LG Hendrik-Ido-Ambacht > > T. +31 (0)78 635 1200 > F. +31 (0)848 34 9697 > KvK. 23 09 28 65 > > ji...@alternet.nl > www.alternet.nl > > > Disclaimer: > Dit bericht (inclusief eventuele bijlagen) kan vertrouwelijke informatie > bevatten. Als u niet de beoogde ontvanger bent van dit bericht, neem dan > direct per e-mail of telefoon contact op met de verzender en verwijder dit > bericht van uw systeem. Het is niet toegestaan de inhoud van dit bericht op > welke wijze dan ook te delen met derden of anderszins openbaar te maken > zonder schriftelijke toestemming van alterNET Internet BV. U wordt > geadviseerd altijd bijlagen te scannen op virussen. AlterNET kan op geen > enkele wijze verantwoordelijk worden gesteld voor geleden schade als gevolg > van virussen. > > Alle eventueel genoemde prijzen S.E. & O., excl. 21% BTW, excl. reiskosten. > Op al onze prijsopgaven, offertes, overeenkomsten, en diensten zijn, met > uitzondering van alle andere voorwaarden, de Algemene Voorwaarden van > alterNET Internet B.V. van toepassing. Op al onze domeinregistraties en > hostingactiviteiten zijn tevens onze aanvullende hostingvoorwaarden van > toepassing. Dit bericht is uitsluitend bedoeld voor de geadresseerde. Aan > dit bericht kunnen geen rechten worden ontleend. > > ! Bedenk voordat je deze email uitprint, of dit werkelijk nodig is ! >