L'indexation e-commerce, c'est l'art de faire indexer par Google les bonnes pages d'un gros catalogue, et seulement celles-là. Un site de 50 000 produits peut facilement générer dix fois plus d'URLs si les filtres et la pagination ne sont pas maîtrisés. Résultat : Google crawle des pages inutiles et ignore les pages qui font vraiment vendre.
- Les filtres à facettes reçoivent un canonical vers la catégorie parente, sauf si la combinaison a un vrai volume de recherche.
- La pagination profonde (au-delà de la page 3) passe en
noindex, follow. - Le sitemap se segmente par catégorie ou par tranche, dans la limite de 50 000 URLs par fichier.
- Une page produit dépubliée se gère selon ses backlinks : page « épuisé » avec alternatives, ou 301 vers la catégorie.
Ce que mal indexer un gros catalogue vous coûte#
Sur un catalogue de plusieurs milliers de produits, Googlebot ne crawle pas tout, tout le temps : il dispose d'un crawl budget limité. Si les filtres et la pagination génèrent des dizaines de milliers d'URLs sans valeur, le robot épuise ce budget sur du vide et laisse vos pages produit stratégiques hors de l'index. Concrètement : des produits invisibles sur Google alors qu'ils sont en stock. Les cinq règles ci-dessous concentrent l'exploration sur ce qui rapporte.
Règle 1 : canonical sur les filtres à facettes#
Ce que ça évite : qu'une même page catégorie existe en cent versions (?couleur=rouge&taille=42) que Google traite comme des doublons. Le canonical désigne la version de référence et fait disparaître le bruit.
La règle : canonical vers la catégorie parente, sauf si une combinaison de filtres correspond à une vraie requête avec du volume (par exemple « chaussures rouges »), auquel cas elle mérite sa propre URL propre et indexée.
Le canonical sur un filtre, pour vos devs
<!-- /chaussures?couleur=rouge&taille=42 -> canonical vers la catégorie -->
<link rel="canonical" href="https://monsite.fr/chaussures" />
<!-- Exception : /chaussures/rouge a du volume -> canonical vers elle-même -->
<link rel="canonical" href="https://monsite.fr/chaussures/rouge" />Règle 2 : noindex sur la pagination profonde#
Ce que ça évite : que les pages 4, 5, 6… d'une catégorie consomment du crawl alors qu'elles ne rankent presque jamais. On les garde crawlables (follow, pour que le robot atteigne les produits) mais hors de l'index (noindex).
Le noindex conditionnel, pour vos devs
// app/categorie/[slug]/page.tsx
export async function generateMetadata({ searchParams }: Props): Promise<Metadata> {
const page = Number(searchParams.page ?? 1)
return { robots: page > 3 ? 'noindex, follow' : 'index, follow' }
}Règle 3 : un sitemap segmenté#
Ce que ça change : au-delà de 50 000 URLs par fichier, on passe à un sitemap index qui pointe vers plusieurs sitemaps segmentés (par catégorie ou par tranche). Bonus concret : vous suivez alors l'indexation segment par segment dans la Search Console, donc vous voyez vite quelle partie du catalogue décroche. Avant de segmenter, vérifiez d'abord les erreurs de sitemap qui bloquent l'indexation.
Le sitemap index, pour vos devs
<!-- public/sitemap-index.xml -->
<sitemapindex>
<sitemap><loc>https://monsite.fr/sitemap-categories.xml</loc></sitemap>
<sitemap><loc>https://monsite.fr/sitemap-products-1.xml</loc></sitemap>
<sitemap><loc>https://monsite.fr/sitemap-products-2.xml</loc></sitemap>
</sitemapindex>Règle 4 : hreflang pour les variantes de langue ou de région#
Ce que ça évite : que vos versions française, belge ou suisse d'une même fiche se cannibalisent. Le hreflang dit à Google quelle version servir à quel public.
Les balises hreflang, pour vos devs
<link rel="alternate" hreflang="fr-FR" href="https://monsite.fr/produit/123" />
<link rel="alternate" hreflang="fr-BE" href="https://monsite.be/produit/123" />
<link rel="alternate" hreflang="x-default" href="https://monsite.fr/produit/123" />Règle 5 : gérer les pages produits dépubliées#
Ce que ça préserve : l'autorité accumulée par une fiche produit retirée. Le bon réflexe dépend de ce que la page a gagné :
- Backlinks ou trafic organique : garder la page en ligne, mention « produit épuisé » et alternatives proposées.
- Aucun signal : redirection 301 vers la catégorie parente, qui récupère l'essentiel de l'autorité.
- À éviter : la 404 sèche, qui jette tout le capital SEO de la page.
Par où commencer#
Le premier réflexe : comparer le nombre de pages indexées (rapport de couverture dans la Search Console) au nombre de pages réellement utiles de votre catalogue. Un écart important, dans un sens comme dans l'autre, signale un problème de canonicals, de filtres ou de sitemap. C'est souvent la première cause quand des pages n'apparaissent pas sur Google.
Ensuite, croiser les logs serveur avec la liste des URLs stratégiques pour voir où Googlebot passe réellement son temps. C'est le cœur de notre audit SEO technique sur les sites e-commerce : concentrer l'autorité et le crawl sur ce qui rapporte.
Questions fréquentes
Qu'est-ce que le crawl budget en SEO ?
Le crawl budget est la quantité de pages que Googlebot accepte d'explorer sur votre site sur une période donnée. Sur un gros catalogue, si le robot gaspille ce budget sur des URLs de filtres ou de pagination inutiles, il néglige les pages qui comptent.
Faut-il indexer les pages de filtres à facettes ?
Par défaut, non : un canonical vers la catégorie parente évite la duplication. L'exception, ce sont les combinaisons qui correspondent à une vraie requête avec du volume de recherche : celles-là méritent leur propre URL propre et indexée.
Comment gérer une page produit supprimée du catalogue ?
Si la page a des backlinks ou du trafic organique, gardez-la en ligne avec une mention produit épuisé et des alternatives. Sinon, une redirection 301 vers la catégorie parente préserve l'essentiel de l'autorité.
Combien d'URLs un sitemap peut-il contenir ?
50 000 URLs et 50 MB maximum par fichier. Au-delà, il faut un sitemap index qui référence plusieurs sitemaps segmentés, par catégorie ou par tranche, ce qui facilite aussi le suivi de l'indexation par segment.