Moteur de recherche des loisirs créatifs

Retrouvez sur ce site toutes les ressources dont vous avez besoin pour vos activités manuelles et créatives avec notre moteur de recherche et annuaire de sites.
HOME Soumettre un site Nouveaux sites Sites cools Coups de coeur Mot(s)-clé(s) TOP 10 Arborescence
 LOCATION : Moteur de recherche des loisirs créatifs
 



Informations sur le robot du moteur de recherche

PhpDig

Exploration HTTP

PhpDig suit les liens contenus dans les documents fournis par un serveur web, comme n'importe quel navigateur, afin de constituer sa liste de pages à indexer.

Les liens peuvent être contenus dans des AreaMap, résulter d'une redirection, ou être contenus dans des frames. Toute écriture, même approximative, des liens HREF est supportée. Les liens en javascript simple comme window.open() et window.location() sont détectés.

PhpDig ne suit pas les liens externes au site défini comme racine lors de la recherche.

Tout le contenu html servi par le site distant est parcouru, que ce soit du html simple, ou des pages créées dynamiquement. PhpDig se base sur le Mime-Type pour déterminer quel est le type du document.

Indexation Full Text

PhpDig indexe exhaustivement les mots contenus dans un document, exceptés ceux de moins de 3 lettres (par défaut), et ceux contenus dans une liste de mots considérés comme courants.

Les nombres seuls ne sont pas indexés. En revanche, les mots contenant des chiffres le sont. Les underscores dans les mots sont considérés faisant partie des mots, comme des noms de fonctions dans une documentation technique. Le nombre d'occurences d'un mot dans une page est conservé dans l'index pour une meilleure pertinence des résultats. Les mots du titre des pages peuvent être pondérés.

Autres fonctions

PhpDig prend en compte un éventuel fichier robots.txt contenant les chemins des répertoires à exclure de l'indexation. Les balises meta robots sont aussi examinées.

PhpDig peut indexer des sites situés sur un port différent du port 80 par défaut. On peut spécifier un nom et un mot de passe au robot pour indexer les sites protégés par mot de passe. Attention ! Cette dernière fonction peut permettre à des personnes non autorisées de lire des informations protégées. Il est recommandé de créer une instance spécifique de PhpDig, protégée par les mêmes droits d'accès que le site restreint, ainsi que de créer un compte pour le robot lui-même.

Si le serveur renvoie un header Last-Modified, la valeur est mémorisée afin de ne pas effectuer de réindexation inutile. La balise revisit-after est également prise en compte pour la mise à jour de l'index. Si le moteur est configuré pour le faire, les résultats affichent un extrait des pages trouvées, contenant les termes de recherche surlignés ou mis en gras.

Exploration et Indexation

PhpDig lit la page d'origine spécifiée pour l'indexation, et rajoute au fur et à mesure de son exploration les liens trouvés dans une liste de liens à suivre. Lorque aucun nouveau lien n'est trouvé par le moteur, il termine son indexation. Afin de déterminer que faire d'un lien, PhpDig opère ainsi :

  • Il demande au serveur l'en-tête (header HTTP) de l'URI en cours. Si le mime-type du document renvoyé correspond à un document que PhpDig est capable d'indexer, il continue le traitement. Si le serveur renvoie une redirection, PhpDig analyse si la redirection renvoie bien à une URI du même site (ou du même domaine). Le moteur compare ensuite l'en-tête "last-modified" avec la date stockée dans sa base de données en cas de ré-indexation. Si les deux dates sont identiques, l'URI n'est pas traitée. Enfin, PhpDig vérifie que l'URI ne fait pas partie de la liste d'exclusions d'un fichier robots.txt ou d'exclusions définies par l'utilisateur.
  • Dans le cas d'un document HTML, PhpDig lit les meta-tags robots pour savoir si il lui est permis d'indexer et/ou de suivre les liens contenus dans le document.
  • PhpDig télécharge ensuite le document pointé par l'URI dans un fichier temporaire. Le document est tout d'abord indexé : Le contenu textuel est stocké dans un fichier servant à l'affichage des extraits, puis analysé afin d'en extraire les mots-clef. Pour un document HTML, les commentaires définis dans le fichier de configuration déterminent des parties à exclure de l'indexation.
  • Enfin, PhpDig relit le fichier temporaire dans le cas d'un document HTML afin d'en extraire de nouveaux liens. Tous les liens sont analysés afin de déterminer ceux à indexer, ceux qui mènent vers un document inexistant ou protégé, vers un autre site, etc.
  • La procédure d'indexation est exclusive par site : Un site est verrouillé tant qu'une opération (indexation, suppression de branche, etc) est effectuée. Aucune autre opération ne peut être effectuée tant que le verrou est en place.

Empêcher l'indexation de votre site

Pour empêcher le robot PhpDig d'indexer votre site, mettez ceci dans votre fichier robots.txt :

User-agent: phpdig
Disallow: /

Si vous souhaitez bloquer l'indexation d'un fichier particulier, placer la directive "noindex" dans le metatag "robots" :

<meta name="robots" content="noindex" />

 

Obtenir de l'aide sur PhpDig

Un forum consacré à PhpDig est disponible à l'adresse http://www.phpdig.net/ Vous pouvez y poser toutes les questions relatives au programme.


 

AscreeN AscreeN Valid CSS!
Ajouter un site sur le moteur - Informations sur le robot - Référencement par Referencement-fr.com
Copyright © 2003 - 2008 Bruno Manach All rights reserved. Déclaration CNIL n°1039045