Qu’est ce que le crawl budget et comment le gérer ? Si votre site comporte plus de 1000 pages, il est essentiel de réfléchir à votre budget crawl. Le concept de budget crawl repose sur l’idée que Google cherche à éviter l’encombrement de son index avec des contenus peu pertinents. Pour ce faire, il limite le crawl, c’est-à-dire la copie de vos pages dans ses data centers, en plaçant certaines d’entre elles dans un index “secondaire” ou, dans le pire des cas, en refusant de les indexer. Cette limitation peut poser un problème, car il arrive que Google n’indexe pas des contenus importants pour le SEO tout en laissant des pages à faible valeur ajoutée encombrer son index. Il est donc crucial d’élaborer une stratégie pour déterminer quelles pages conserver dans l’index et lesquelles exclure. Par exemple, si Google indexe vos conditions générales de vente et plusieurs variantes d’un même produit (comme les versions bleue, rouge, verte, etc.), il est probable que certaines pages de catégories importantes pour vous rencontrent des difficultés d’indexation. Ce serait dommage, n’est-ce pas ? Pages à désindexer pour optimiser votre site Les critères que suit le moteur de recherche à ce sujet ne sont pas toujours clairs, mais on peut identifier trois grandes catégories de pages qui risquent d’encombrer l’index et qui devraient être désindexées : Pages avec contenu dupliqué de type « canonique » : Cela concerne généralement les variations d’un même produit ou service. Par exemple, sur un site e-commerce, si vous proposez plusieurs versions d’un produit, vous devez indiquer à Google une URL « canonique » correspondant à la version « principale » ou « par défaut » de ce produit. Pour chaque page de variation, ajoutez un lien « canonique » vers cette page principale. Pages avec contenu dupliqué de type « variation secondaire » : Cela se produit souvent lorsque vous proposez un produit ou un service lié à une géolocalisation spécifique (comme “cours de piano à Lyon”, “cours de piano à Paris”, “cours de piano à Marseille”). Si seule une variable change d’une page à l’autre, sans contenu textuel significatif, vous risquez d’être considéré comme ayant du contenu dupliqué par Google. La solution consiste à créer des contenus uniques pour chaque version, ce qui nécessite de la créativité et, probablement, l’aide de rédacteurs aux styles variés pour générer de vraies différences sémantiques. Pages « vides » : Souvent, les propriétaires de sites ne réalisent pas qu’il existe de nombreuses pages presque vides sur leur site. Cela peut se produire pour diverses raisons. Par exemple, si vous utilisez WordPress, chaque image que vous téléchargez peut générer une page (une URL propre) contenant uniquement l’image, accompagnée de votre menu et des éléments de navigation. Cela engorge inutilement votre budget crawl et n’améliore même pas votre positionnement dans Google Images.
Qu’est ce que le crawl budget et comment le gérer ? Si votre site comporte plus de 1000 pages, il est essentiel de réfléchir à votre budget crawl. Le concept de budget crawl repose sur l’idée que Google cherche à éviter l’encombrement de son index avec des contenus peu pertinents. Pour ce faire, il limite le crawl, c’est-à-dire la copie de vos pages dans ses data centers, en plaçant certaines d’entre elles dans un index “secondaire” ou, dans le pire des cas, en refusant de les indexer. Cette limitation peut poser un problème, car il arrive que Google n’indexe pas des contenus importants pour le SEO tout en laissant des pages à faible valeur ajoutée encombrer son index. Il est donc crucial d’élaborer une stratégie pour déterminer quelles pages conserver dans l’index et lesquelles exclure. Par exemple, si Google indexe vos conditions générales de vente et plusieurs variantes d’un même produit (comme les versions bleue, rouge, verte, etc.), il est probable que certaines pages de catégories importantes pour vous rencontrent des difficultés d’indexation. Ce serait dommage, n’est-ce pas ? Pages à désindexer pour optimiser votre site Les critères que suit le moteur de recherche à ce sujet ne sont pas toujours clairs, mais on peut identifier trois grandes catégories de pages qui risquent d’encombrer l’index et qui devraient être désindexées : Pages avec contenu dupliqué de type « canonique » : Cela concerne généralement les variations d’un même produit ou service. Par exemple, sur un site e-commerce, si vous proposez plusieurs versions d’un produit, vous devez indiquer à Google une URL « canonique » correspondant à la version « principale » ou « par défaut » de ce produit. Pour chaque page de variation, ajoutez un lien « canonique » vers cette page principale. Pages avec contenu dupliqué de type « variation secondaire » : Cela se produit souvent lorsque vous proposez un produit ou un service lié à une géolocalisation spécifique (comme “cours de piano à Lyon”, “cours de piano à Paris”, “cours de piano à Marseille”). Si seule une variable change d’une page à l’autre, sans contenu textuel significatif, vous risquez d’être considéré comme ayant du contenu dupliqué par Google. La solution consiste à créer des contenus uniques pour chaque version, ce qui nécessite de la créativité et, probablement, l’aide de rédacteurs aux styles variés pour générer de vraies différences sémantiques. Pages « vides » : Souvent, les propriétaires de sites ne réalisent pas qu’il existe de nombreuses pages presque vides sur leur site. Cela peut se produire pour diverses raisons. Par exemple, si vous utilisez WordPress, chaque image que vous téléchargez peut générer une page (une URL propre) contenant uniquement l’image, accompagnée de votre menu et des éléments de navigation. Cela engorge inutilement votre budget crawl et n’améliore même pas votre positionnement dans Google Images.