Il giorno gio, 22/03/2012 alle 08.12 +0100, bodr...@mail.dm.unipi.it ha scritto: [...] > Mi resterebbe la curiosità di capire perché per sed, se LANG=C > l'espressione regolare ".*" include senza problemi anche un carattere > accentato in una codifica sbagliata, mentre altrimenti no...
Ad esempio, se a tua locale attuale è multibyte, come ad esempio UTF-8, ci sono dei caratteri di iso-8859-1 che non sono validi in utf-8. Nel senso che che se la loro codifica binaria prevede che il bit più alto sia a 1, allora in iso-8859-1 si passa tranquillamente al byte successivo per interpretare il successivo carattere, mentre in UTF-8 si prende il byte successivo per interpretare lo stesso carattere (multibyte) e la coppia di byte deve essere una valida sequenza UTF-8. Difatti mi pare di ricordare che il bit più alto nel primo byte di una sequenza multibyte UTF-8, indiche che la sequenza continua con il byte successivo. Ciao, G. -- Per REVOCARE l'iscrizione alla lista, inviare un email a debian-italian-requ...@lists.debian.org con oggetto "unsubscribe". Per problemi inviare un email in INGLESE a listmas...@lists.debian.org To UNSUBSCRIBE, email to debian-italian-requ...@lists.debian.org with a subject of "unsubscribe". Trouble? Contact listmas...@lists.debian.org Archive: http://lists.debian.org/1332406956.12632.4.camel@scarafaggio