This was definitely http.content.limit. The 64k size limite was not enough.
I raised it to 256K and now the entire seed page was processed.

Thanks for thinking with me!

2016-06-22 14:12 GMT+02:00 Markus Jelsma <markus.jel...@openindex.io>:

> Hmm, yes. It can have many differenty causes. Let us know. It's probably
> going to be another ahá.
>
> Markus
>
>
>
> -----Original message-----
> > From:Jigal van Hemert | alterNET internet BV <ji...@alternet.nl>
> > Sent: Wednesday 22nd June 2016 9:43
> > To: user <user@nutch.apache.org>
> > Subject: Re: Number of crawled links from seed page
> >
> > Hi Markus,
> >
> > Thanks for your answer.
> >
> > 2016-06-21 13:59 GMT+02:00 Markus Jelsma <markus.jel...@openindex.io>:
> >
> > >
> > > Have you set this parameter to 182? Probably not but anyway.
> > >
> > > <property>
> > >   <name>db.max.outlinks.per.page</name>
> > >   <value>100</value>
> > >
> >
> > No, I set it to 5000 (just to be on safe side). I'm beginning to think it
> > might simply be a very long document that exceeds the page size limit.
> I'll
> > test this when I have time for this project in my planning.
> >
> >
> > >   <description>The maximum number of outlinks that we'll process for a
> > > page.
> > >   If this value is nonnegative (>=0), at most db.max.outlinks.per.page
> > > outlinks
> > >   will be processed for a page; otherwise, all outlinks will be
> processed.
> > >   </description>
> > > </property>
> > >
> > > Markus
> > >
> > >
> > >
> > > -----Original message-----
> > > > From:Jigal van Hemert | alterNET internet BV <ji...@alternet.nl>
> > > > Sent: Thursday 16th June 2016 16:56
> > > > To: user <user@nutch.apache.org>
> > > > Subject: Number of crawled links from seed page
> > > >
> > > > Hi,
> > > >
> > > > On the seed page there are a few hundred links (approx. 400) in a
> large
> > > > list of items that must be indexed. I already made sure that the
> number
> > > of
> > > > inbound and outbound links in the settings are large enough (10000
> and
> > > > 5000), but unfortunately only the first 182 links are fetched for
> > > crawling
> > > > in the second iteration (the first is only the seed page).
> > > >
> > > > url regex filter is already in place to ignore all distracting URLs
> on
> > > the
> > > > page and these work correctly.
> > > >
> > > > Which other settings affect the number of links that are followed on
> a
> > > seed
> > > > page?
> > > >
>


-- 


Met vriendelijke groet,


Jigal van Hemert | Ontwikkelaar



Langesteijn 124
3342LG Hendrik-Ido-Ambacht

T. +31 (0)78 635 1200
F. +31 (0)848 34 9697
KvK. 23 09 28 65

ji...@alternet.nl
www.alternet.nl


Disclaimer:
Dit bericht (inclusief eventuele bijlagen) kan vertrouwelijke informatie
bevatten. Als u niet de beoogde ontvanger bent van dit bericht, neem dan
direct per e-mail of telefoon contact op met de verzender en verwijder dit
bericht van uw systeem. Het is niet toegestaan de inhoud van dit bericht op
welke wijze dan ook te delen met derden of anderszins openbaar te maken
zonder schriftelijke toestemming van alterNET Internet BV. U wordt
geadviseerd altijd bijlagen te scannen op virussen. AlterNET kan op geen
enkele wijze verantwoordelijk worden gesteld voor geleden schade als gevolg
van virussen.

Alle eventueel genoemde prijzen S.E. & O., excl. 21% BTW, excl. reiskosten.
Op al onze prijsopgaven, offertes, overeenkomsten, en diensten zijn, met
uitzondering van alle andere voorwaarden, de Algemene Voorwaarden van
alterNET Internet B.V. van toepassing. Op al onze domeinregistraties en
hostingactiviteiten zijn tevens onze aanvullende hostingvoorwaarden van
toepassing. Dit bericht is uitsluitend bedoeld voor de geadresseerde. Aan
dit bericht kunnen geen rechten worden ontleend.

! Bedenk voordat je deze email uitprint, of dit werkelijk nodig is !

Reply via email to