Méthodologie · V1 · Relevé du 11 mai 2026

Le standard de readiness IA pour vos pages produit.

Nous analysons à la fois ce qu’un agent IA standard peut lire sur votre page, et ce que ChatGPT & Gemini arrivent réellement à comprendre depuis votre URL. Ces analyses alimentent un score sur 100 transparent, explicable critère par critère.

Relevé

Relevé du 11 mai 2026

Lectures

2 modes parallèles (moyenne arithmétique)

Sous-scores

3 dimensions · 25 % · 45 % · 30 %

Moteur

Rule-based + AI URL retrieval strict

Providers IA

Gemini url_context · OpenAI web_search

Cibles

ChatGPT · Gemini · Perplexity

Scoring

/100 pondéré

§ I · Double lecture

Deux scores en parallèle, un global défendable.

Chaque page auditée produit deux scores indépendants, moyennés pour donner le global. Le mode agent-agnostic mesure ce qu’un crawler externe non-privilégié arrive à lire de votre page. Le mode IA majeures mesure ce que Gemini et OpenAI observent réellement quand ils consultent l’URL. L’écart entre les deux raconte une histoire concrète : page universellement lisible, dépendance à des accords privés, ou trou dans les agents IA malgré un HTML correct.

Ce qu’un agent générique non-privilégié voit

Agent agnostic

Notre crawler externe lit l’HTML, le rendu Playwright, le JSON-LD et les signaux Schema.org. C’est la mesure « brute », celle qui s’applique à n’importe quel agent qui n’aurait pas d’accord ou d’allowlist privée avec la marque.

→Fetch direct + rendu navigateur Playwright
→Parsing JSON-LD Schema.org Product / Offer / Review
→robots.txt, sitemap, llms.txt, sondes bots GPTBot / OAI-SearchBot / Googlebot / Google-Extended
→Cascade Bright Data Web Unlocker si WAF intercepte

Ce que Gemini & OpenAI observent par leurs propres canaux

IA majeures

Strict URL retrieval depuis chaque provider, sans connaissance préalable ni source tierce. On mesure ce qu’ils lisent réellement de l’URL (status de récupération, citation, extraction de faits).

→Gemini : gemini-2.5-pro + tool url_context (uniquement, google_search désactivé), rejet si url_retrieval_status ≠ SUCCESS
→OpenAI : gpt-5.5 + tool web_search (tool_choice required), citation match strict du pathname cible
→Prompt strict : interdiction d’utiliser sa connaissance, de déduire depuis l’URL, ou de consulter une source tierce
→Statut de confiance : verified_by_both, single_provider, conflict ou not_observable

Lecture du delta entre les deux modes

Les deux hauts : page agent-ready universellement, lisible par tous les agents génériques comme par Gemini / OpenAI.
IA majeures haut, agent-agnostic bas : la page dépend probablement d’accords ou d’allowlists privées (Gemini / OpenAI). Risqué pour les agents non listés.
IA majeures bas, agent-agnostic haut : balisage HTML correct mais quelque chose empêche Gemini / OpenAI (timeout, paywall, rendu JS-only).
Les deux bas : vrai problème de readiness - à corriger en priorité.

§ II · Can agents reach the page and read it?

Reach & read

Atteignabilité technique et lisibilité de la page produit. Inclut nos signaux crawler (mode agent-agnostic) ET la confirmation que Gemini / OpenAI ont effectivement lu l’URL (mode IA majeures).

Pondération

25 %

Du score global (pondération : 25 % · 45 % · 30 %).

Critères évalués

01
Fetch HTTP(S) et canonical
Statut 200, redirections maîtrisées, canonical alignée avec l’URL auditée. Si notre IP cloud est bloquée par un WAF, escalade automatique vers Bright Data (résidentiel). Sinon le critère est marqué « Non mesurable ».
02
robots.txt, meta robots, X-Robots-Tag
Pas de blocage involontaire des crawlers utiles (GPTBot, OAI-SearchBot, Googlebot, Google-Extended). Lecture de l’intention déclarée par le site.
03
Sondes bot empiriques
Quand Bright Data Custom Headers est activé : on requête la page avec User-Agent = GPTBot, OAI-SearchBot, Googlebot, Google-Extended depuis un proxy résidentiel. Critère pénalisant. Sans la feature : sondes diagnostic non pénalisantes (IP cloud).
04
Sitemap, llms.txt et TTFB
Sitemap XML exposé, fichier llms.txt présent (bonus à faible poids), TTFB seuilé (≤ 800 ms = vert).
05
HTML brut vs rendu navigateur
Diagnostic : nom, prix, disponibilité, description, JSON-LD dans le HTML initial vs après hydratation. Indéterminé quand le WAF nous bloque.
06
Chunkabilité
Intertitres informatifs, specs en structure extractible (table / dl / schema), paragraphes courts, ancres id - pour le RAG et l’extraction par agents.
07
Gemini a récupéré l’URL
url_context retourne URL_RETRIEVAL_STATUS_SUCCESS pour la page cible.
08
OpenAI a cité l’URL cible
La réponse OpenAI référence le pathname cible (citation match strict).
09
Extraction IA effective
Au moins un des deux providers a fini par sortir des faits produit ; confiance multi-provider évaluée séparément.

§ III · Can agents extract facts?

Product Data Completeness

Faits produit observables. Côté agent-agnostic : Schema.org Product / Offer parsed depuis notre crawler. Côté IA majeures : faits réellement extraits par Gemini/OpenAI depuis l’URL.

Pondération

45 %

Du score global (pondération : 25 % · 45 % · 30 %).

Critères évalués

01
Schema.org Product (agent-agnostic)
JSON-LD valide avec name, description, brand, image, sku, identifiers (GTIN / MPN), Offer (price, currency, availability, shippingDetails, hasMerchantReturnPolicy), AggregateRating, Review, BreadcrumbList.
02
Cohérence HTML / JSON-LD (agent-agnostic)
Le nom, le prix et la disponibilité du JSON-LD doivent aussi apparaître dans le HTML visible. Pondération renforcée.
03
Entité produit (agent-agnostic)
GTIN avec checksum GS1, marque alignée page / schema, cohérence nom (title / H1 / og:title / Product.name), un seul Product principal, cohérence URL / slug.
04
Faits IA-observed (IA majeures)
Gemini et OpenAI renvoient un JSON strict : name, brand, price, currency, availability, description, imageUrls, identifiers, specs, rating, reviewsCount, useCases, audience, differentiators, decisionSupport, evidence, sourceUrls.
05
Confiance multi-provider (IA majeures)
verified_by_both = 100, single_provider = 70, conflict = 45, not_observable = 0. Conflits détectés sur name / brand / price / currency / availability.
06
Preuves textuelles
Citations littérales courtes (≤ 200 chars) extraites de la page lue. Garde-fou anti-hallucination.

§ IV · Can agents decide?

Semantic Decisioning

Densité éditoriale décisionnelle. Côté agent-agnostic : extraction par règles + embeddings sémantiques. Côté IA majeures : ce que Gemini/OpenAI sortent comme cas d’usage, audience, différenciateurs et preuves.

Pondération

30 %

Du score global (pondération : 25 % · 45 % · 30 %).

Critères évalués

01
Description décisionnelle
Description suffisamment riche pour qu’un agent explique le produit (matière, usage, bénéfices, contraintes).
02
Cas d’usage
Quand utiliser le produit, dans quel contexte. Schema, section, embeddings ou extraction IA.
03
Audience
Product.audience.audienceType ou section dédiée. Côté IA : audience explicitée par les providers.
04
Différenciation
Product.additionalProperty riche, section « Pourquoi nous », innovations, exclusivités. Côté IA : différenciateurs cités sans hallucination.
05
FAQ et aide à la décision
FAQPage Schema.org, guide tailles, comparatifs, contraintes pratiques observables.
06
Spécifications
Product.additionalProperty (≥ 5 entrées) ou <dl>. Côté IA : specs extraites comme paires nom / valeur.
07
Avis
AggregateRating + Product.review structurés, ou widget tiers reconnu (Trustpilot, Yotpo, Loox…). Côté IA : rating et volume d’avis effectivement observés.
08
Hiérarchie Hn et métadonnées
Un seul H1, ordre H2/H3 cohérent, title (25–70 chars) + meta description (80–220 chars) alignés.

§ V · Cascade anti-WAF

Un audit qui n’est pas bloqué par un WAF.

Sur un site protégé par Cloudflare, Datadome, Akamai ou Imperva, notre IP cloud sortante peut être interceptée. Plutôt que de pénaliser injustement le score Reach & read, on utilise une cascade explicite avec provenance tracée dans le rapport.

1 · Direct
Fetch HTTPS depuis nos serveurs avec UA Chrome de référence et header X-Dataiads-Audit signé HMAC. La majorité des audits s’arrêtent ici.
2 · Bright Data
Si un challenge WAF est détecté → escalade vers Web Unlocker (proxy résidentiel + rendu JS). Les critères concernés portent un badge via BD dans le rapport audit.
3 · Indéterminé
Si BD échoue aussi (très rare), les critères concernés sortent du calcul (poids effectif 0). Le sous-score reste honnête plutôt qu’injustement zéroté.

Tous les fetchs d’un audit (HTML, robots.txt, sitemap, llms.txt, sondes bot) embarquent un token HMAC court. Les acteurs e‑commerce peuvent autoriser Dataiads via une règle WAF basée sur ce header - sans avoir à allowlister notre IP cloud (risqué côté sécu).

Configurer le bypass d’audit côté WAF →

§ VI · Transparence

Voir ce que le moteur a réellement lu.

Sur chaque rapport d’audit complété, un panneau latéral « Données extraites » expose d’abord ce que Gemini/OpenAI ont observé (faits, sources, preuves, confiance), puis le JSON-LD, le HTML brut et le HTML rendu Playwright. Objectif : distinguer la donnée réellement vue par les agents de nos diagnostics techniques.

§ VII · Principes

Quatre principes qui tiennent la méthodologie.

Double lecture parallèle

Chaque page auditée produit deux scores indépendants : agent-agnostic (notre crawler) et IA majeures (Gemini + OpenAI URL retrieval). Le score global est la moyenne arithmétique des deux. L’écart est lui-même un signal métier.

Déterministe et explicable

Critères binaires ou seuilés, pondérés et documentés. Côté IA : JSON strict avec preuves textuelles, statut de récupération provider et matching pathname strict. Chaque point du score s’explique critère par critère.

Pas d’hallucination IA

Gemini et OpenAI sont contraints par un prompt strict qui interdit la connaissance préalable, la déduction depuis l’URL et les sources tierces. Citations rejetées si elles ne matchent pas le pathname cible. Quand un provider ne lit pas l’URL, le score reste honnête plutôt qu’inventé.

Adaptée au marché

Benchmark sectoriel calculé par marché (FR par défaut, BE, CH, LU, CA, ES, IT, DE, UK, US). Score sectoriel spécifique au marché du retailer, pas une moyenne mondiale.