Il giorno gio, 22/03/2012 alle 08.12 +0100, bodr...@mail.dm.unipi.it ha
scritto:
[...]
> Mi resterebbe la curiosità di capire perché per sed, se LANG=C
> l'espressione regolare ".*" include senza problemi anche un carattere
> accentato in una codifica sbagliata, mentre altrimenti no...

Ad esempio, se a tua locale attuale è multibyte, come ad esempio UTF-8,
ci sono dei caratteri di iso-8859-1 che non sono validi in utf-8. Nel
senso che che se la loro codifica binaria prevede che il bit più alto
sia a 1, allora in iso-8859-1 si passa tranquillamente al byte
successivo per interpretare il successivo carattere, mentre in UTF-8 si
prende il byte successivo per interpretare lo stesso carattere
(multibyte) e la coppia di byte deve essere una valida sequenza UTF-8.

Difatti mi pare di ricordare che il bit più alto nel primo byte di una
sequenza multibyte UTF-8, indiche che la sequenza continua con il byte
successivo.

Ciao,
G.


--
Per REVOCARE l'iscrizione alla lista, inviare un email a
debian-italian-requ...@lists.debian.org con oggetto "unsubscribe". Per
problemi inviare un email in INGLESE a listmas...@lists.debian.org

To UNSUBSCRIBE, email to debian-italian-requ...@lists.debian.org
with a subject of "unsubscribe". Trouble? Contact listmas...@lists.debian.org
Archive: http://lists.debian.org/1332406956.12632.4.camel@scarafaggio

Rispondere a