#self (?) - génération de fausses urls - indexation en boucle
La première chose c'est qu'il est possible de naviguer complètement un site à travers des urls qui ne sont pas censées exister par exemple http://www.spip.net/spip.php/cestnimportequoi
Ici les liens pointent vers http://www.spip.net/fr_rubrique91.html donc c'est pas trop grâve.
Dans d'autres sites ce n'est pas le cas http://www.towards.be/site/spip.php/nimportequoi et là, on peux naviguer à l'identique (sans la css, ni les images).
Premier problème: il y a presque moyen de faire une sorte de dos sur un serveur en tapant quelques centaines de liens sur des répertoires bidons sur une page en attendant que google fasse son boulot.
Je ne sais pas comment une première requête de ce type a pu arriver sur le site mais elle a sans doute dû être mise en cache et google est passé par dessus.
http://www.cetri.be/spip.php/squelettes/IMG/pdf/http//:www.johnhoward.ab.ca/PUB/prositu.htm
Ensuite, on obtient via l'usage de la balise suivante (cfr http://www.spip-contrib.net/Formulaire-menu-lang-plat-sans-URL)
$texte .= ''.$valeur.' ';
des urls encore plus exotiques qui si elles sont elles aussi mises en cache provoquent un effet boule de neige.
Bref, les moteurs de recherche qui passent sur un petit serveur peuvent déjà occasionner pas mal de charge, aucune raison de lui permettre de tourner en boucle de manière volontaire ou involontaire.