Bonjour, Le jeudi 2 novembre 2017 13:30:03 UTC+1, Christian Quentin a écrit : > Le 02.11.2017 07:59, ptilou a écrit : > > > Bonjour, > > Le mercredi 25 octobre 2017 13:10:02 UTC+2, Christian Quentin a écrit : > Le 25.10.2017 10:53, ptilou a écrit : > > > Bonjour, > > Le lundi 23 octobre 2017 12:00:02 UTC+2, Thomas Savary a écrit : > Enfin une question à laquelle je peux essayer de répondre :-) > > Je suis nul en informatique, mais j'ai une relative maîtrise des > expressions > rationnelles. > Dans ton expression, tu as oublié de protéger le point et le trait d'union. > Par ailleurs, on peut faire plus simple en utilsant \w. > > Essaie : > [\w\.\-]+@[\w\.\-]{2,}\.[a-z]{2,4} > > Cela dit, il faut aussi parfois protéger les contre-obliques, en tout cas > dans > sed. Le plus « drôle », c'est que cela dépend aussi du shell utilisé. > > > Marche pas ! > > $ find . -type f -print | xargs egrep -o > '[\w\.\-]+@[\w\.\-]{2,}\.[a-z]{2,4}' > xargs: guillemets simple non appairés ; par défaut les guillemets sont > particuliers à xargs à moins d'utiliser l'option -0 > grep: ./www._____.com/pics/contents/webzine/communique: No such file or > directory > grep: paris: No such file or directory > grep: design: No such file or directory > grep: week.pdf: No such file or directory > grep: ./www._____.com/pics/contents/webzine/vs: No such file or directory > grep: a: No such file or directory > grep: glass: No such file or directory > grep: house.jpg: No such file or directory > grep: ./www._____.com/pics/webzine/29: No such file or directory > grep: citations: No such file or directory > grep: pour: No such file or directory > > Je n'ai même plus les adresses du webmestre ! > J'ai pas comprie le truc des obliques, moi il faut me donner la bécquée > comme un oisillion mais en code source, je ne suis pas capable de réfléchire > .... > Il faut ce mettre à python, Lxml et BeautifulSoup ? > > Je cherche un truc plus simple, sous windows quand je lance une recherche > il me sort 300 pages avec dans le nom, il y a l'arobase dans le noms, en plus > une dizaines d'exécutables en DOS, je crois que c'est dans ces fichiers si > j'ai télécharger les adresses ? > Je suis le seul à faire du scraping ? > > Ptilou > > > > Les raccourcis pour les caractères alphanumériques varient selon le contexte > dans lequel les regexp sont utilisées, essaie ça en ligne de commande : > > egrep -R '[[:alnum:].\-]+@[[:alnum:]]+\.[[:alpha:]]{2,}' > > > çà ne marche pas ! j'ai essayé man c la : > http://manpagesfr.free.fr/man/man1/Index.1.html > > j'ai besoin d'aide pour mettre tous çà en corollaire ... > Y a des rhume de binaire en ce moment c'est une épidémie ! > > Ptilou > > > > > > > > Curieux... J'ai essayé ça sous bash et ça donne bien le résultat attendu : > egrep -R '[[:alnum:].\-]+@[[:alnum:]]+\.[[:alpha:]]{2,}' > > egrep -R '[[:alnum:]._\-]+@([[:alnum:]]+\.)+[[:alpha:]]{2,}' est un peu plus > complète et repère les emails du type to...@qqpart.co.uk (avec un domaine > composé de 2 parties ou plus) > > Tu lances bien la commande dans un terminal pour faire tes tests ? > OUI !
AUjourd'hui j'ai re-tester le premier qui a marché mais maintenant j'ai les même e-mailS qui sorte, bon je passer pour un spammer ... La je veux récupérer les adresseS de site web donc je tape : $ find . -type f -print | xargs egrep -o '0www.[a-zA-Z0-9._-]{2,}\.[a-z]{2,4}' >www-______.txt Et j'ai les erreurS : grep: le fichier d'entrée « ./www-_______.txt » est aussi en sortie xargs: guillemets simple non appairés ; par défaut les guillemets sont particuliers à xargs à moins d'utiliser l'option -0 grep: ./www._____.com/pics/contents/webzine/c+: No such file or directory grep: horreur.jpg: No such file or directory grep: ./www.______.com/pics/contents/webzine/campagne: No such file or directory grep: mars.jpg: No such file or directory grep: ./www.______.com/pics/contents/webzine/campagne: No such file or directory grep: ▒co: No such file or directory grep: emballages.jpg: No such file or directory [...] Mais j'ai plus rien dans le fichier ... On n'est pas vendredi, mais je suis obliger de faire fonctionner mes doigts, sinon je vais attraper une entorse falangique ;-) Y a une gréve dans la presse les numéro de https://www.closermag.fr/ ; www.voici.fr/ ; https://www.public.fr/ ; people.com/ ; www.purepeople.com/ ; www.gala.fr/ , etc ... non pas été imprimer ? Y a un beug majeure dans le logiciel libre qui fait que les serveurs ne servent plus la bonne soupe ? Ptilou