Hmm, yes. It can have many differenty causes. Let us know. It's probably going 
to be another ahá.

Markus

 
 
-----Original message-----
> From:Jigal van Hemert | alterNET internet BV <ji...@alternet.nl>
> Sent: Wednesday 22nd June 2016 9:43
> To: user <user@nutch.apache.org>
> Subject: Re: Number of crawled links from seed page
> 
> Hi Markus,
> 
> Thanks for your answer.
> 
> 2016-06-21 13:59 GMT+02:00 Markus Jelsma <markus.jel...@openindex.io>:
> 
> >
> > Have you set this parameter to 182? Probably not but anyway.
> >
> > <property>
> >   <name>db.max.outlinks.per.page</name>
> >   <value>100</value>
> >
> 
> No, I set it to 5000 (just to be on safe side). I'm beginning to think it
> might simply be a very long document that exceeds the page size limit. I'll
> test this when I have time for this project in my planning.
> 
> 
> >   <description>The maximum number of outlinks that we'll process for a
> > page.
> >   If this value is nonnegative (>=0), at most db.max.outlinks.per.page
> > outlinks
> >   will be processed for a page; otherwise, all outlinks will be processed.
> >   </description>
> > </property>
> >
> > Markus
> >
> >
> >
> > -----Original message-----
> > > From:Jigal van Hemert | alterNET internet BV <ji...@alternet.nl>
> > > Sent: Thursday 16th June 2016 16:56
> > > To: user <user@nutch.apache.org>
> > > Subject: Number of crawled links from seed page
> > >
> > > Hi,
> > >
> > > On the seed page there are a few hundred links (approx. 400) in a large
> > > list of items that must be indexed. I already made sure that the number
> > of
> > > inbound and outbound links in the settings are large enough (10000 and
> > > 5000), but unfortunately only the first 182 links are fetched for
> > crawling
> > > in the second iteration (the first is only the seed page).
> > >
> > > url regex filter is already in place to ignore all distracting URLs on
> > the
> > > page and these work correctly.
> > >
> > > Which other settings affect the number of links that are followed on a
> > seed
> > > page?
> > >
> > > --
> > >
> > >
> > > Met vriendelijke groet,
> > >
> > >
> > > Jigal van Hemert | Ontwikkelaar
> > >
> > >
> > >
> > > Langesteijn 124
> > > 3342LG Hendrik-Ido-Ambacht
> > >
> > > T. +31 (0)78 635 1200
> > > F. +31 (0)848 34 9697
> > > KvK. 23 09 28 65
> > >
> > > ji...@alternet.nl
> > > www.alternet.nl
> > >
> > >
> > > Disclaimer:
> > > Dit bericht (inclusief eventuele bijlagen) kan vertrouwelijke informatie
> > > bevatten. Als u niet de beoogde ontvanger bent van dit bericht, neem dan
> > > direct per e-mail of telefoon contact op met de verzender en verwijder
> > dit
> > > bericht van uw systeem. Het is niet toegestaan de inhoud van dit bericht
> > op
> > > welke wijze dan ook te delen met derden of anderszins openbaar te maken
> > > zonder schriftelijke toestemming van alterNET Internet BV. U wordt
> > > geadviseerd altijd bijlagen te scannen op virussen. AlterNET kan op geen
> > > enkele wijze verantwoordelijk worden gesteld voor geleden schade als
> > gevolg
> > > van virussen.
> > >
> > > Alle eventueel genoemde prijzen S.E. & O., excl. 21% BTW, excl.
> > reiskosten.
> > > Op al onze prijsopgaven, offertes, overeenkomsten, en diensten zijn, met
> > > uitzondering van alle andere voorwaarden, de Algemene Voorwaarden van
> > > alterNET Internet B.V. van toepassing. Op al onze domeinregistraties en
> > > hostingactiviteiten zijn tevens onze aanvullende hostingvoorwaarden van
> > > toepassing. Dit bericht is uitsluitend bedoeld voor de geadresseerde. Aan
> > > dit bericht kunnen geen rechten worden ontleend.
> > >
> > > ! Bedenk voordat je deze email uitprint, of dit werkelijk nodig is !
> > >
> >
> 
> 
> 
> -- 
> 
> 
> Met vriendelijke groet,
> 
> 
> Jigal van Hemert | Ontwikkelaar
> 
> 
> 
> Langesteijn 124
> 3342LG Hendrik-Ido-Ambacht
> 
> T. +31 (0)78 635 1200
> F. +31 (0)848 34 9697
> KvK. 23 09 28 65
> 
> ji...@alternet.nl
> www.alternet.nl
> 
> 
> Disclaimer:
> Dit bericht (inclusief eventuele bijlagen) kan vertrouwelijke informatie
> bevatten. Als u niet de beoogde ontvanger bent van dit bericht, neem dan
> direct per e-mail of telefoon contact op met de verzender en verwijder dit
> bericht van uw systeem. Het is niet toegestaan de inhoud van dit bericht op
> welke wijze dan ook te delen met derden of anderszins openbaar te maken
> zonder schriftelijke toestemming van alterNET Internet BV. U wordt
> geadviseerd altijd bijlagen te scannen op virussen. AlterNET kan op geen
> enkele wijze verantwoordelijk worden gesteld voor geleden schade als gevolg
> van virussen.
> 
> Alle eventueel genoemde prijzen S.E. & O., excl. 21% BTW, excl. reiskosten.
> Op al onze prijsopgaven, offertes, overeenkomsten, en diensten zijn, met
> uitzondering van alle andere voorwaarden, de Algemene Voorwaarden van
> alterNET Internet B.V. van toepassing. Op al onze domeinregistraties en
> hostingactiviteiten zijn tevens onze aanvullende hostingvoorwaarden van
> toepassing. Dit bericht is uitsluitend bedoeld voor de geadresseerde. Aan
> dit bericht kunnen geen rechten worden ontleend.
> 
> ! Bedenk voordat je deze email uitprint, of dit werkelijk nodig is !
> 

Reply via email to