When I did a dump from one of my fetched segments I found out that nutch
doesnt allways handle all characters in the right way.

The example I encountered was
http://0862.bizweb.se/Default.aspx

when I look in the nutch dump it looks like this: As you can see it doesnt
show åäö.
 <br />
Vi är ett företag i Halland som hanterar inlösta och uttjänta bilar med
inriktning att kunna återanvända och återvinna så många bildelar som
möjligt. Genom försäljning av begagnade bildelar minskar vi den totala
miljöpåverkan.       </p>


If I browse to the side and look at the html code it looks like this.
Obviously nutch doesnt download the page as it should, why is that?

 <br />
Vi är ett företag i Halland som hanterar inlösta och uttjänta bilar med
inriktning att kunna återanvända och återvinna så många bildelar som
möjligt. Genom försäljning av begagnade bildelar minskar vi den totala
miljöpåverkan.       </p>
<p style="text-align: left">Så välkommen att handla hos oss för en bättre
miljö! </p>


How ever, I can see that nutch download other pages correct and show åäö.


An other question related to when I browse through the dump is the
following. 
I sometimes get the message:

<HTML><HEAD>
<TITLE>301 Moved Permanently</TITLE>
</HEAD><BODY>
<H1>Moved Permanently</H1>

I suppose that this means that the site is redirected, how can I get nutch
to follow the redirection?

-- 
View this message in context: 
http://www.nabble.com/Why-does-nutch-only-handle-%C3%A5%C3%A4%C3%B6-sometimes--tp23868732p23868732.html
Sent from the Nutch - User mailing list archive at Nabble.com.

Reply via email to