Hello Jigal - the regex is fine. Do you have a positive + rule also matching that pattern above this negative rule? Markus
-----Original message----- > From:Markus Jelsma <markus.jel...@openindex.io> > Sent: Monday 8th February 2016 14:47 > To: user@nutch.apache.org > Subject: RE: Regex syntax for regex-urlfilter.txt > > Hello Jigal - the regex is fine. Do you have a positive + rule also matching > that pattern above this ne > > -----Original message----- > > From:Jigal van Hemert | alterNET internet BV <ji...@alternet.nl> > > Sent: Monday 8th February 2016 14:31 > > To: user <user@nutch.apache.org> > > Subject: Regex syntax for regex-urlfilter.txt > > > > Hi, > > > > Like many others (looking at google search results for this topic) I also > > have problems with regular expressions in the regex-urlfilter.txt file. I'm > > quite familiar with pretty advanced regular expressions in languages like > > perl, PHP, etc. but in this case it seems to be an issue what needs to be > > escaped, when and how. > > > > -\/Loket\/knowledgebase\/ > > > > This seems to stop URLs containing /Loket/knowledgebase/ > > > > -getProductDetailsAction\.do\?name= > > > > This however doesn't stop URLs containing getProductDetailsAction.do?name= > > > > Is there an overview of the special character for use in this file? How > > must they be escaped if these are used as literal characters? > > In many examples I see URLs without escaped slashes and dots; are these > > just working because a dot matches a dot and slashes don't need to be > > escaped? > > > > -- > > > > > > Met vriendelijke groet, > > > > > > Jigal van Hemert | Ontwikkelaar > > > > > > > > Langesteijn 124 > > 3342LG Hendrik-Ido-Ambacht > > > > T. +31 (0)78 635 1200 > > F. +31 (0)848 34 9697 > > KvK. 23 09 28 65 > > > > ji...@alternet.nl > > www.alternet.nl > > > > > > Disclaimer: > > Dit bericht (inclusief eventuele bijlagen) kan vertrouwelijke informatie > > bevatten. Als u niet de beoogde ontvanger bent van dit bericht, neem dan > > direct per e-mail of telefoon contact op met de verzender en verwijder dit > > bericht van uw systeem. Het is niet toegestaan de inhoud van dit bericht op > > welke wijze dan ook te delen met derden of anderszins openbaar te maken > > zonder schriftelijke toestemming van alterNET Internet BV. U wordt > > geadviseerd altijd bijlagen te scannen op virussen. AlterNET kan op geen > > enkele wijze verantwoordelijk worden gesteld voor geleden schade als gevolg > > van virussen. > > > > Alle eventueel genoemde prijzen S.E. & O., excl. 21% BTW, excl. reiskosten. > > Op al onze prijsopgaven, offertes, overeenkomsten, en diensten zijn, met > > uitzondering van alle andere voorwaarden, de Algemene Voorwaarden van > > alterNET Internet B.V. van toepassing. Op al onze domeinregistraties en > > hostingactiviteiten zijn tevens onze aanvullende hostingvoorwaarden van > > toepassing. Dit bericht is uitsluitend bedoeld voor de geadresseerde. Aan > > dit bericht kunnen geen rechten worden ontleend. > > > > ! Bedenk voordat je deze email uitprint, of dit werkelijk nodig is ! > > >