Sitemap et l’indexation dans Google

Un sitemap est, littéralement en anglais, le « plan d’un site web ». Il s’agit d’une représentation de l’architecture du site, qui liste les ressources proposées, en général sous forme hiérarchique. Il s’agit en général d’une page web qui permet à l’internaute d’accéder rapidement à l’ensemble des documents proposés sur le site, et facilite le travail des robots d’indexation.
Google a conçu le protocole Sitemaps qui consiste en une représentation du plan des sites en texte ou en XML, à destination exclusive des moteurs de recherche.

Un sitemap est, littéralement en anglais, le « plan d’un site web ». Il s’agit d’une représentation de l’architecture du site, qui liste les ressources proposées, en général sous forme hiérarchique. Il s’agit en général d’une page web qui permet à l’internaute d’accéder rapidement à l’ensemble des documents proposés sur le site, et facilite le travail des robots d’indexation.
Google a conçu le protocole Sitemaps qui consiste en une représentation du plan des sites en texte ou en XML, à destination exclusive des moteurs de recherche.

Intérêt de mettre à disposition un plan de site

Les site maps aident à l’indexation d’un site, car ils permettent de s’assurer que toutes les pages sont accessibles par les robots d’indexation. Ce point est particulièrement important pour les sites basés sur des menus en Flash ou en JavaScript qui ne contiennent pas de liens HTML.

La plupart des moteurs de recherche suivent seulement un nombre fini de liens sur une page, donc pour un site très grand, un site map peut être nécessaire pour que les visiteurs et les moteurs de recherche puissent accéder à toutes les pages.

Le protocole Sitemaps permet à un webmestre d’informer les moteurs de recherche quelles adresses d’un site web sont disponibles pour l’indexation automatique. Proposé initialement par Google, cette technologie a ensuite été adoptée par Live Search, Yahoo, Ask et Exalead.

Il s’agit d’un plan de site (« sitemap ») compréhensible par les robots d’indexation, rédigé sous forme d’un fichier XML ou texte qui répertorie les URL d’un site permettant ainsi d’inclure des informations complémentaires sur chaque adresse, comme sa date de dernière modification, la fréquence de mise à jour et son importance par rapport aux autres adresses du site.

Cela permet donc aux moteurs de recherche d’explorer le site plus intelligemment.

Format XML et texte

Google accepte deux formats pour les sitemaps qui lui sont soumises : XML et texte. Le format de fichier texte est une simple liste des pages avec une URL complète, protocole « http:// » inclus. Le fichier XML standard comporte outre l’URL :

• une périodicité pour scanner la page,

• la date de dernière mise à jour,

• l’importance relative de la page par rapport aux autres pages du site.

Une fois la carte de site enregistrée auprès de Google, vous obtenez des statistiques quant aux recherches sur le moteur qui aboutissent à vos pages.

Tous les moteurs de recherche ne proposant pas d’interface pour soumettre cette liste à leur index, une autre méthode consiste à ajouter le chemin vers le sitemap dans le fichier robots.txt via la syntaxe : Sitemap: http://www.example.org/sitemap.xml.

Voici un excellent générateur de sitemap.

http://www.xml-sitemaps.com/