When I did a dump from one of my fetched segments I found out that nutch doesnt allways handle all characters in the right way.
The example I encountered was http://0862.bizweb.se/Default.aspx when I look in the nutch dump it looks like this: As you can see it doesnt show åäö.  <br /> Vi är ett företag i Halland som hanterar inlösta och uttjänta bilar med inriktning att kunna Ã¥teranvända och Ã¥tervinna sÃ¥ mÃ¥nga bildelar som möjligt. Genom försäljning av begagnade bildelar minskar vi den totala miljöpÃ¥verkan.       </p> If I browse to the side and look at the html code it looks like this. Obviously nutch doesnt download the page as it should, why is that? <br /> Vi är ett företag i Halland som hanterar inlösta och uttjänta bilar med inriktning att kunna återanvända och återvinna så många bildelar som möjligt. Genom försäljning av begagnade bildelar minskar vi den totala miljöpåverkan. </p> <p style="text-align: left">Så välkommen att handla hos oss för en bättre miljö! </p> How ever, I can see that nutch download other pages correct and show åäö. An other question related to when I browse through the dump is the following. I sometimes get the message: <HTML><HEAD> <TITLE>301 Moved Permanently</TITLE> </HEAD><BODY> <H1>Moved Permanently</H1> I suppose that this means that the site is redirected, how can I get nutch to follow the redirection? -- View this message in context: http://www.nabble.com/Why-does-nutch-only-handle-%C3%A5%C3%A4%C3%B6-sometimes--tp23868732p23868732.html Sent from the Nutch - User mailing list archive at Nabble.com.
