Désolé pour l'aspect "bourrin" de ma réponse (visiblement ça te choque)
mais il reste encore le problème des domaines qui disparaissent et sont
tout de suite cybersquattés par des "wildcards" publicitaires (peu importe
ce qu'on met dans l'URL, ça affiche la page de pub, il n'y a pas de 404
retourné). Là ce n'est pas une question d'hébergeur car l'hébergeur a
changé. Malheureusement il est difficile de savoir quand un domaine a
dispru et a été remplacé à moins de vérifier les infos WHOIS (qui cependant
indiquent le plus souvent uniquement le registrar mais souvent pas
l'identité du propriétaire; cependant les squatteurs publicitaires de
domaines tombés ont l'habitude de mettre le nom de leur contact ou au moins
un contact pour les mails, ne serait-ce que parce que ces domaines sont
souvent à revendre)
L'ennui c'est que les infos WHOIS ne sont pas dans un format normalisé:
chaque registry a son format avec des différences notables. L'ICANN a bien
essayé de normaliser ça mais avec les nomlbreux anciens TLDs il n'a pas été
possible de leur faire changer leurs méthodes.
Connaitre l'identité d'un site est délicate, même avec des certificats PKI
pour HTTPS (qui est malheureusement encore trop peu déployé, les registrars
facturant les certificats encore trop cher pour nombre de sites).

Mais bon là on parle de l'IGN, et je ne vois pas pourquoi il ne ferait pas
les choses correctement sur son propre domaine qui malgré tout n'a pas
changé, le problème étant ici la mauvaise gestion des contenus sur leurs
serveurs pour garder des URL pertinentes, et qui ne savent pas gérer ça sur
plusieurs CMS qui changent d'un projet à l'autre.

L'IGN n'est pas seule à faire ça, regardez ce que fait Microsoft sur ses
propres sites, y compris de référence, dont les URL changent tous les 2-3
ans à chaque édition d'une version d'Office ou Windows ou d'autres projets
ou SDK, et qui pourtant utilise des URLs plus ou moins anonymisées avec des
identifiants uniques (Microsoft est le premier à utiliser les UUIDs partout
dans ses APIs, mais pas sur son propre site pour indexer les contenus
correctement!) qui devraient normalement pouvoir survivre à des changements
ou ajouts de contenus ou de formats: cherchez une doc dans un SDK, 2 ans
après le lien est mort et même la fonction de recherche ne retourne plus
les bonnes versions et la version décrite ne fonctionne pas de la façon
documentée, ou bien le langage a carrément changé.

Ici on est dans un cas similaire: changement de méthodes, remplacement
complet d'un site par un autre sans préserver la moindre compatibilité ou
au moins fournir des identifiants de rapprochements ou une page utilitaire
affichant d'autres liens pertinents (même sans beaucoup de détails, au
moins une liste. Ca doit se produire quand l'IGN a changé de prestataire et
s'est fait fournir un autre système incompatible avec le précédent et du
jour au lendemain décide d'arrêter un système pour brancher l'autre sans
prévoir aucune migration autre que depuis une seule page d'accueil.



Le 20 janvier 2017 à 21:57, <osm.sanspourr...@spamgourmet.com> a écrit :

> Merci j'avais bêtement recopié la réponse à une question qui portait
> pourtant spécifiquement sur les headers. Professionnellement j'utilise bien
> HEAD quand j'en ai besoin, je ne pensais pas tomber sur une réponse aussi
> bourrine non relevée par un autre internaute.
>
> Vu ta remarque, il vaut mieux sans doute supprimer le -L. Normalement dans
> le cas que tu cites on devrait avoir un 301 ou 302 sauf si l'hébergeur ne
> joue pas le jeu. Non testé.
>
> Jean-Yvon
>
> Le 20/01/2017 à 21:02, Philippe Verdy - verd...@wanadoo.fr a écrit :
>
> Méthode couteuse: les requêtes ici sont des GET mais ça récupère tout
> (même si tu filtres ensuite par un head -n 1). Un HEAD serait plus
> approprié (pour ne récupérer d'abord que les entêtes et pas les pages
> entières) : c'est suffisant pour obtenir un statut 404.
>
> Note: certains sites retournent une page 200 même quand l'URL est invalide
> (un "wildcard" récupère ce qui n'est pas trouvé et affiche une autre page):
> pratique courante sur les sites commerciaux qui veulent afficher mlalgré
> tout leur portail et font à l aplace des recherches plus ou moins liées aux
> termes demandés dans la requête, ce qui n'est pas toujours en grand rapport
> avec ce qu'on cherchait. Idem pour les sites hébergeurs de blogues ou
> "pages perso" des FAI: une URL disparait, l'herbergeur affiche autre chose,
> comme il lui plait...
>
>
>
> _______________________________________________
> Talk-fr mailing list
> Talk-fr@openstreetmap.org
> https://lists.openstreetmap.org/listinfo/talk-fr
>
>
_______________________________________________
Talk-fr mailing list
Talk-fr@openstreetmap.org
https://lists.openstreetmap.org/listinfo/talk-fr

Répondre à