Re: [linux] charset UTF-8 et ISO-8859-1

2005-09-26 Par sujet Pascal Bleser
-BEGIN PGP SIGNED MESSAGE-
Hash: SHA1

Vincent Jamart wrote:
> Merci pour les infos, Philippe et Alain,
> J'ai pour le moment fait un script comme ceci (sur un poste Linux car le 
> shell OS X ne supporte pas  é ou à ou è (??? il est installé en français, 
> 10.4...lapin compris) Donc linux à la rescousse comme d'habitude:
> #!/bin/bash
> find . -name "*.htm*"|while read line do
>   mv $line $line.old
> sed 's/UTF-8/iso-8859-1/g' $line.old >$line
> sed 's/à¨/è/g' $line >$line.old
> sed 's/é/é/g' $line.old >$line
> sed 's/à®/î/g' $line >$line.old
> sed 's/Ã/à/g' $line.old >$line
>   mv $line.old $line
>   rm $line.old
> done

argh, utilise recode ;))


#!/bin/bash
echo -n 'Converting files: '
find . -name '*.htm' | while read file; do
mv "$file" "${file}.old"
if cat "$file" | sed 's/UTF-8/iso-8859-1/gi' \
| recode UTF8..ISO-8859-1 > "$file"; then
rm -f "${file}.old"
echo -n '.'
else
mv -f "${file}.old" "$file"
echo
echo "ERROR while converting $file" >&2
fi
done
echo

- --
mfg,
pab
-BEGIN PGP SIGNATURE-
Version: GnuPG v1.4.0 (GNU/Linux)

iD8DBQFDN/h1r3NMWliFcXcRAkTiAKCOUpoliL4H7KU4PSnb1ed57604GwCgsw5n
hBeBNPaVBA2b/PEwFFUfFw0=
=wbqc
-END PGP SIGNATURE-
___
Linux Mailing List - http://www.unixtech.be
Subscribe/Unsubscribe: http://www.unixtech.be/mailman/listinfo/linux
Archives: http://www.mail-archive.com/linux@lists.unixtech.be
IRC: chat.unixtech.be:6667 - #unixtech
NNTP: news.gname.org - gmane.org.user-groups.linux.unixtech


Re: [linux] charset UTF-8 et ISO-8859-1

2005-09-26 Par sujet Vincent Jamart
Merci pour les infos, Philippe et Alain,

J'ai pour le moment fait un script comme ceci (sur un poste Linux car le 
shell OS X ne supporte pas  é ou à ou è (??? il est installé en français, 
10.4...lapin compris) Donc linux à la rescousse comme d'habitude:

#!/bin/bash
find . -name "*.htm*"|while read line do
  mv $line $line.old
sed 's/UTF-8/iso-8859-1/g' $line.old >$line
sed 's/à¨/è/g' $line >$line.old
sed 's/é/é/g' $line.old >$line
sed 's/à®/î/g' $line >$line.old
sed 's/Ã/à/g' $line.old >$line
  mv $line.old $line
  rm $line.old
done

Je  vais regarder du côté de NVU (et Dreamweaver on sait jamais qui 
modifie les pages), pour par défaut utiliser UTF dans la 
génération/modification des pages 

On Mon, 26 Sep 2005, Philippe JAOUEN wrote:

> Vincent Jamart a écrit :
> > Hello
> > 
> > Petite probleme...
> > J'ai quelques pages HTML qui ont ete generees par iPhoto (en francais pour 
> > des galleries et celui-ci cree les documents avec le charset UTF-8.
> > Ces pages ont ete modifiees pour ajouter des commentaires avec NVU, mais 
> > les textes contiennent une accentuation be_fr. Lorsque ces pages ont ete 
> > sauvees, le charset est reste UTF mais leur visualiation est moche: les 
> > caracteres accentues ont ete remplaces par des signes cabalistiques. J'ai 
> > fait un test avec sed, pour remplacer le string utf8 par iso-8859-1 dans 
> > les headers html, et ensuite ajouter du texte en francais dans la page. Ca 
> > marche, les accents sont OK mais pour les pages generees avant, ca reste 
> > des signes cabalistiques, meme dans le code... 
> > 
> > Petite question donc: comment utiliser ces signes cabalistiques dans mes 
> > commandes sed pour les ramplacer par un string normalise genre "a &ute", 
> > sachant que le signe cabalistique, je ne peux le taper dans un shell...
> > 
> > Par exemple, cette page est typique: 
> > http://www.amaymodelesclub.co.uk/membres/modelismo/p-40/p-40.html
> > 
> > Accesoirement, si un utilsateur OSX/iPhoto savait comment forcer l'export 
> > en iso-8859-1 au lieu de UTF par defaut, ca eviterait tout bricolage dans 
> > le futur.
> > 
> 
> pour éviter un bricolage dans le futur, il faut abandonner iso et
> utiliser utf
> 
> au lieu de sed : recode
> 

___
Linux Mailing List - http://www.unixtech.be
Subscribe/Unsubscribe: http://www.unixtech.be/mailman/listinfo/linux
Archives: http://www.mail-archive.com/linux@lists.unixtech.be
IRC: chat.unixtech.be:6667 - #unixtech
NNTP: news.gname.org - gmane.org.user-groups.linux.unixtech


[linux] log apache avec username non existant

2005-09-26 Par sujet Rémi Letot
Hello,

je viens de voir apparaitre dans mes statistiques de serveur web deux
noms d'utilisateurs qui n'existent pas sur ce serveur. 

J'ai identifié les deux sites dans les logs desquels ces noms
apparaissent, ces deux sites utilisent php, mais à part ça n'ont rien
de commun. D'ailleurs, les pages pour lesquelles ces noms apparaissent
ne demandent aucune authentification.

Tant qu'à faire, j'ai aussi fait un grep sauvage sur ces sites avec le
nom en question, et à part dans les logs ça n'apparait pas.

Je dois m'inquiéter ? C'est possible que des browsers mal configurés
ou buggés utilisent un username d'un certain site sur un autre site ?

A+,
-- 
Rémi

`Debian: giving you the power to shoot yourself in each
 toe individually.' -- with kudos to Greg Lehey
___
Linux Mailing List - http://www.unixtech.be
Subscribe/Unsubscribe: http://www.unixtech.be/mailman/listinfo/linux
Archives: http://www.mail-archive.com/linux@lists.unixtech.be
IRC: chat.unixtech.be:6667 - #unixtech
NNTP: news.gname.org - gmane.org.user-groups.linux.unixtech


Re: [linux] charset UTF-8 et ISO-8859-1

2005-09-26 Par sujet Philippe JAOUEN
Vincent Jamart a écrit :
> Hello
> 
> Petite probleme...
> J'ai quelques pages HTML qui ont ete generees par iPhoto (en francais pour 
> des galleries et celui-ci cree les documents avec le charset UTF-8.
> Ces pages ont ete modifiees pour ajouter des commentaires avec NVU, mais 
> les textes contiennent une accentuation be_fr. Lorsque ces pages ont ete 
> sauvees, le charset est reste UTF mais leur visualiation est moche: les 
> caracteres accentues ont ete remplaces par des signes cabalistiques. J'ai 
> fait un test avec sed, pour remplacer le string utf8 par iso-8859-1 dans 
> les headers html, et ensuite ajouter du texte en francais dans la page. Ca 
> marche, les accents sont OK mais pour les pages generees avant, ca reste 
> des signes cabalistiques, meme dans le code... 
> 
> Petite question donc: comment utiliser ces signes cabalistiques dans mes 
> commandes sed pour les ramplacer par un string normalise genre "a &ute", 
> sachant que le signe cabalistique, je ne peux le taper dans un shell...
> 
> Par exemple, cette page est typique: 
> http://www.amaymodelesclub.co.uk/membres/modelismo/p-40/p-40.html
> 
> Accesoirement, si un utilsateur OSX/iPhoto savait comment forcer l'export 
> en iso-8859-1 au lieu de UTF par defaut, ca eviterait tout bricolage dans 
> le futur.
> 

pour éviter un bricolage dans le futur, il faut abandonner iso et
utiliser utf

au lieu de sed : recode
-- 
Salutations Philippe JAOUEN  GnuPG Key ID: 0x6533CCED
Ferme du Ponctey :   http://www.rurintel.com/ponctey
cidre fermier du Pays de La Risle, Pommeau de Normandie et Calvados AOC

___
Linux Mailing List - http://www.unixtech.be
Subscribe/Unsubscribe: http://www.unixtech.be/mailman/listinfo/linux
Archives: http://www.mail-archive.com/linux@lists.unixtech.be
IRC: chat.unixtech.be:6667 - #unixtech
NNTP: news.gname.org - gmane.org.user-groups.linux.unixtech


Re: [linux] charset UTF-8 et ISO-8859-1

2005-09-26 Par sujet Alain EMPAIN



Vincent Jamart wrote:

Hello

Petite probleme...
J'ai quelques pages HTML qui ont ete generees par iPhoto (en francais pour 
des galleries et celui-ci cree les documents avec le charset UTF-8.
Ces pages ont ete modifiees pour ajouter des commentaires avec NVU, mais 
les textes contiennent une accentuation be_fr. Lorsque ces pages ont ete 
sauvees, le charset est reste UTF mais leur visualiation est moche: les 
caracteres accentues ont ete remplaces par des signes cabalistiques. J'ai 
fait un test avec sed, pour remplacer le string utf8 par iso-8859-1 dans 
les headers html, et ensuite ajouter du texte en francais dans la page. Ca 
marche, les accents sont OK mais pour les pages generees avant, ca reste 
des signes cabalistiques, meme dans le code... 

Petite question donc: comment utiliser ces signes cabalistiques dans mes 
commandes sed pour les ramplacer par un string normalise genre "a &ute", 
sachant que le signe cabalistique, je ne peux le taper dans un shell...


Salut Vincent,

j'ai jeté un petit coup d'oeil sur ta référence :
un cut&paste m'a permi de faire ceci :

echo améliorations apportées | od -bc

il y a 4 bytes pour ton 'é'

echo -e '\303\203\302\251'
é

j'ai fait (par cut&paste)


echo améliorations apportées | sed  's/é/é/g'
améliorations apportées


Voilà, cela marche; début de piste.

Bonne journée,

ALain

Par exemple, cette page est typique: 
http://www.amaymodelesclub.co.uk/membres/modelismo/p-40/p-40.html


Accesoirement, si un utilsateur OSX/iPhoto savait comment forcer l'export 
en iso-8859-1 au lieu de UTF par defaut, ca eviterait tout bricolage dans 
le futur.


Merci






___
Linux Mailing List - http://www.unixtech.be
Subscribe/Unsubscribe: http://www.unixtech.be/mailman/listinfo/linux
Archives: http://www.mail-archive.com/linux@lists.unixtech.be
IRC: chat.unixtech.be:6667 - #unixtech
NNTP: news.gname.org - gmane.org.user-groups.linux.unixtech


--

Dr Alain EMPAIN  <[EMAIL PROTECTED]> <[EMAIL PROTECTED]>
  Bioinformatics, Molecular Genetics,
  Fac. Med. Vet., University of LIEGEe, Belgium
  Bd de Colonster, B43   B-4000 LIEGEe (Sart-Tilman)
WORK: +32 4 366 4159 FAX: +32 4 366 4122
HOME: rue des Martyrs,7  B- 4550 Nandrin
  +32 85 51 2341 GSM: +32 497 70 1764
---
"I worry about my child and the Internet all the time, even though she's
too young to have logged on yet. Here's what I worry about. I worry that
10 or 15 years from now, she will come to me and say 'Daddy, where were
you when they took freedom of the press away from the Internet?'"
--Mike Godwin, Electronic Frontier Foundation
---

___
Linux Mailing List - http://www.unixtech.be
Subscribe/Unsubscribe: http://www.unixtech.be/mailman/listinfo/linux
Archives: http://www.mail-archive.com/linux@lists.unixtech.be
IRC: chat.unixtech.be:6667 - #unixtech
NNTP: news.gname.org - gmane.org.user-groups.linux.unixtech


[linux] charset UTF-8 et ISO-8859-1

2005-09-26 Par sujet Vincent Jamart
Hello

Petite probleme...
J'ai quelques pages HTML qui ont ete generees par iPhoto (en francais pour 
des galleries et celui-ci cree les documents avec le charset UTF-8.
Ces pages ont ete modifiees pour ajouter des commentaires avec NVU, mais 
les textes contiennent une accentuation be_fr. Lorsque ces pages ont ete 
sauvees, le charset est reste UTF mais leur visualiation est moche: les 
caracteres accentues ont ete remplaces par des signes cabalistiques. J'ai 
fait un test avec sed, pour remplacer le string utf8 par iso-8859-1 dans 
les headers html, et ensuite ajouter du texte en francais dans la page. Ca 
marche, les accents sont OK mais pour les pages generees avant, ca reste 
des signes cabalistiques, meme dans le code... 

Petite question donc: comment utiliser ces signes cabalistiques dans mes 
commandes sed pour les ramplacer par un string normalise genre "a &ute", 
sachant que le signe cabalistique, je ne peux le taper dans un shell...

Par exemple, cette page est typique: 
http://www.amaymodelesclub.co.uk/membres/modelismo/p-40/p-40.html

Accesoirement, si un utilsateur OSX/iPhoto savait comment forcer l'export 
en iso-8859-1 au lieu de UTF par defaut, ca eviterait tout bricolage dans 
le futur.

Merci


___
Linux Mailing List - http://www.unixtech.be
Subscribe/Unsubscribe: http://www.unixtech.be/mailman/listinfo/linux
Archives: http://www.mail-archive.com/linux@lists.unixtech.be
IRC: chat.unixtech.be:6667 - #unixtech
NNTP: news.gname.org - gmane.org.user-groups.linux.unixtech