seodev
SEO Technique

Indexation e-commerce : règles d'URL, 50 000 pages

Pagination, filtres à facettes, canonical et sitemaps segmentés : nos règles d'URL pour indexer 50 000 pages produit sans gaspiller le crawl budget.

FT
Fathellah TAHIRI
18 fév. 20264 min

L'indexation e-commerce, c'est l'art de faire indexer par Google les bonnes pages d'un gros catalogue, et seulement celles-là. Un site de 50 000 produits peut facilement générer dix fois plus d'URLs si les filtres et la pagination ne sont pas maîtrisés. Résultat : Google crawle des pages inutiles et ignore les pages qui font vraiment vendre.

À retenir
  • Les filtres à facettes reçoivent un canonical vers la catégorie parente, sauf si la combinaison a un vrai volume de recherche.
  • La pagination profonde (au-delà de la page 3) passe en noindex, follow.
  • Le sitemap se segmente par catégorie ou par tranche, dans la limite de 50 000 URLs par fichier.
  • Une page produit dépubliée se gère selon ses backlinks : page « épuisé » avec alternatives, ou 301 vers la catégorie.

Ce que mal indexer un gros catalogue vous coûte#

Sur un catalogue de plusieurs milliers de produits, Googlebot ne crawle pas tout, tout le temps : il dispose d'un crawl budget limité. Si les filtres et la pagination génèrent des dizaines de milliers d'URLs sans valeur, le robot épuise ce budget sur du vide et laisse vos pages produit stratégiques hors de l'index. Concrètement : des produits invisibles sur Google alors qu'ils sont en stock. Les cinq règles ci-dessous concentrent l'exploration sur ce qui rapporte.

Règle 1 : canonical sur les filtres à facettes#

Ce que ça évite : qu'une même page catégorie existe en cent versions (?couleur=rouge&taille=42) que Google traite comme des doublons. Le canonical désigne la version de référence et fait disparaître le bruit.

La règle : canonical vers la catégorie parente, sauf si une combinaison de filtres correspond à une vraie requête avec du volume (par exemple « chaussures rouges »), auquel cas elle mérite sa propre URL propre et indexée.

Le canonical sur un filtre, pour vos devs

<!-- /chaussures?couleur=rouge&taille=42 -> canonical vers la catégorie -->
<link rel="canonical" href="https://monsite.fr/chaussures" />
 
<!-- Exception : /chaussures/rouge a du volume -> canonical vers elle-même -->
<link rel="canonical" href="https://monsite.fr/chaussures/rouge" />

Règle 2 : noindex sur la pagination profonde#

Ce que ça évite : que les pages 4, 5, 6… d'une catégorie consomment du crawl alors qu'elles ne rankent presque jamais. On les garde crawlables (follow, pour que le robot atteigne les produits) mais hors de l'index (noindex).

Le noindex conditionnel, pour vos devs

// app/categorie/[slug]/page.tsx
export async function generateMetadata({ searchParams }: Props): Promise<Metadata> {
  const page = Number(searchParams.page ?? 1)
  return { robots: page > 3 ? 'noindex, follow' : 'index, follow' }
}

Règle 3 : un sitemap segmenté#

Ce que ça change : au-delà de 50 000 URLs par fichier, on passe à un sitemap index qui pointe vers plusieurs sitemaps segmentés (par catégorie ou par tranche). Bonus concret : vous suivez alors l'indexation segment par segment dans la Search Console, donc vous voyez vite quelle partie du catalogue décroche. Avant de segmenter, vérifiez d'abord les erreurs de sitemap qui bloquent l'indexation.

Le sitemap index, pour vos devs

<!-- public/sitemap-index.xml -->
<sitemapindex>
  <sitemap><loc>https://monsite.fr/sitemap-categories.xml</loc></sitemap>
  <sitemap><loc>https://monsite.fr/sitemap-products-1.xml</loc></sitemap>
  <sitemap><loc>https://monsite.fr/sitemap-products-2.xml</loc></sitemap>
</sitemapindex>

Règle 4 : hreflang pour les variantes de langue ou de région#

Ce que ça évite : que vos versions française, belge ou suisse d'une même fiche se cannibalisent. Le hreflang dit à Google quelle version servir à quel public.

Les balises hreflang, pour vos devs

<link rel="alternate" hreflang="fr-FR" href="https://monsite.fr/produit/123" />
<link rel="alternate" hreflang="fr-BE" href="https://monsite.be/produit/123" />
<link rel="alternate" hreflang="x-default" href="https://monsite.fr/produit/123" />

Règle 5 : gérer les pages produits dépubliées#

Ce que ça préserve : l'autorité accumulée par une fiche produit retirée. Le bon réflexe dépend de ce que la page a gagné :

  • Backlinks ou trafic organique : garder la page en ligne, mention « produit épuisé » et alternatives proposées.
  • Aucun signal : redirection 301 vers la catégorie parente, qui récupère l'essentiel de l'autorité.
  • À éviter : la 404 sèche, qui jette tout le capital SEO de la page.

Par où commencer#

Le premier réflexe : comparer le nombre de pages indexées (rapport de couverture dans la Search Console) au nombre de pages réellement utiles de votre catalogue. Un écart important, dans un sens comme dans l'autre, signale un problème de canonicals, de filtres ou de sitemap. C'est souvent la première cause quand des pages n'apparaissent pas sur Google.

Ensuite, croiser les logs serveur avec la liste des URLs stratégiques pour voir où Googlebot passe réellement son temps. C'est le cœur de notre audit SEO technique sur les sites e-commerce : concentrer l'autorité et le crawl sur ce qui rapporte.

Questions fréquentes

Qu'est-ce que le crawl budget en SEO ?

Le crawl budget est la quantité de pages que Googlebot accepte d'explorer sur votre site sur une période donnée. Sur un gros catalogue, si le robot gaspille ce budget sur des URLs de filtres ou de pagination inutiles, il néglige les pages qui comptent.

Faut-il indexer les pages de filtres à facettes ?

Par défaut, non : un canonical vers la catégorie parente évite la duplication. L'exception, ce sont les combinaisons qui correspondent à une vraie requête avec du volume de recherche : celles-là méritent leur propre URL propre et indexée.

Comment gérer une page produit supprimée du catalogue ?

Si la page a des backlinks ou du trafic organique, gardez-la en ligne avec une mention produit épuisé et des alternatives. Sinon, une redirection 301 vers la catégorie parente préserve l'essentiel de l'autorité.

Combien d'URLs un sitemap peut-il contenir ?

50 000 URLs et 50 MB maximum par fichier. Au-delà, il faut un sitemap index qui référence plusieurs sitemaps segmentés, par catégorie ou par tranche, ce qui facilite aussi le suivi de l'indexation par segment.

#ecommerce#indexation#crawl-budget
Partager cet article
FT
Fathellah TAHIRI
Fondateur seodev

Fondateur de seodev, l'agence dev et SEO. On y conçoit des sites, des SaaS et des apps solides, avec le référencement pensé dans le code dès le départ : visibles sur Google au lancement et conçus pour convertir. On écrit ici ce qu'on déploie en production.

Discuter de votre projet

Ce qu'on applique vraiment, par email

Nos méthodes de terrain en dev web, mobile, SaaS et SEO, pas de théorie recopiée. Un email quand on publie, jamais de spam.

Un projet en tête ?

On en parle gratuitement et on vous dit ce qui est faisable, dans quel délai et à quel prix.

Obtenir mon devis gratuit →
  • Réponse sous 24h
  • Sans engagement
  • Prix fixe sur le devis
SEO Technique

Référencement naturel : le guide complet

Le guide complet du référencement naturel pour une PME : comment être visible sur Google, par où commencer, ce que ça coûte et combien de temps ça prend.

Fathellah TAHIRI4 min
SEO Technique

Audit de site web : 4 signaux qui coûtent cher

Un audit de site web révèle ce qui vous fait perdre des visiteurs et des clients sans que vous le voyiez. Les 4 signaux à vérifier sur votre site.

Fathellah TAHIRI6 min
SEO Technique

Pourquoi votre site n'apparaît pas sur Google

Site lancé mais absent des résultats Google ? Les 5 causes les plus fréquentes et les actions concrètes pour corriger ça, par ordre de priorité.

Fathellah TAHIRI4 min
Retour au blog