I've used XOM for canonicalization: http://www.xom.nu/tutorial.xhtml#d0e1970 On Mar 19, 2015 4:47 PM, "Andy Seaborne" <a...@apache.org> wrote:
> yes - it's a encoding Normal Form C issue. > > If you parse the file with "riot --check" in the preferred form you get a > warning. > > http://stackoverflow.com/questions/5465170/ > http://stackoverflow.com/questions/16002582/ > > The Ω (OHM) is in the text as U+2126 and NFC-8 says U+03A9 (Omega) is > preferred for Normal Form C. > > The output as RDF is correct. rdf:XMLLiteral is required to be Normal > Form C and if the literal lexical is not legal for the datatype, Jena > outputs in the rdf:datatype form. > > Andy > > > On 19/03/15 14:34, Martynas Jusevičius wrote: > >> My wild guess would be that your 1st XMLLiteral is not canonical because >> of >> the special characters should be entities. >> On Mar 19, 2015 3:24 PM, "Paul" <p...@proxml.be> wrote: >> >> Dear, >>> >>> >>> a) case 1 >>> >>> - input into Fuseki >>> >>> <dc:description rdf:parseType="Literal"> >>> <div class="egp">Rond wijwatervat waarvan het onderste deel >>> wordt >>> ingenomen door de kuip. Centraal de afbeelding van een kelk met hostie in >>> stralenkrans,aan weerszijden A en Ω. Op de kuip een kruis</div> >>> </dc:description> >>> >>> - output of sparql DESCRIBE >>> >>> <dc:description rdf:datatype=" >>> http://www.w3.org/1999/02/22-rdf-syntax-ns#XMLLiteral"> >>> <div class="egp">Rond wijwatervat waarvan het onderste >>> deel >>> wordt ingenomen door de kuip. Centraal de afbeelding van een kelk met >>> hostie in stralenkrans,aan weerszijden A en Ω. Op de kuip een >>> kruis</div> >>> </dc:description> >>> >>> >>> b) case 2 >>> >>> - input into Fuseki >>> >>> <dc:description rdf:parseType="Literal"> >>> <div class="egp">twee wijwatervaten. Eenvoudige ronde vorm uit >>> rode marmer met witte en grijze aders. Geen versiering</div> >>> </dc:description> >>> >>> - output of sparql DESCRIBE >>> >>> <dc:description rdf:parseType="Literal"> >>> <div class="egp">twee wijwatervaten. Eenvoudige ronde vorm uit >>> rode marmer met witte en grijze aders. Geen versiering</div> >>> </dc:description> >>> >>> How come the markup is being escaped in case 1? >>> Any idea to avoid this? >>> >>> BTW. requesting turtle as response format doesn't show the problem. >>> >>> dc:description "\n <div class=\"egp\">Rond wijwatervat >>> waarvan het onderste deel wordt ingenomen door de kuip. Centraal de >>> afbeelding van een kelk met hostie in stralenkrans,aan weerszijden A en >>> Ω. >>> Op de kuip een kruis</div>\n "^^rdf:XMLLiteral ; >>> >>> >>> Kind Regards, >>> Paul >>> >>> >>> >>> >> >