Neodia
04/07/2025
Nous avons identifiés les 9 familles de crawlers essentiels pour faire référencer votre entreprise dans les chatbots comme ChatGPT. Eh oui, si vous pensiez que Bing et Indexnow étaient l’alpha et l’omega du GEO, GSO et AEO, vous avez tout faux !
Bing n’alimente pas le cœur des modèles de ChatGPT, mais seulement leur RAG.
Lorsque vous envoyez un prompt à ChatGPT, c’est, avant tout, le cœur de son LLM qui répond, le modèle lui-même (GPT4, GPT4.1, GPT 4.5, o3, o4-mini-high…).
Ce modèle est entraîné à partir des données collectées par des crawlers spécifiques.
Les crawlers propriétaires « cœur de LLM »
Ce sont ceux qu’OpenAI contrôle en direct et qui fournissent les données qui permettront d’entraîner chaque modèle.
Le nom du crawler principal d’OpenAI qui récupère ce type de données : GPTBo
2. Les crawlers partenaires mutualisés
Commoncrawl est une association organisation à but non lucratif qui collecte et met à disposition des milliards de pages web pour la recherche, l'analyse ou l’entrainement des LLMs.
Commoncrawl joue un rôle essentiel pour l'entrainement des LLMs
Les systèmes de collecte de données structurées ou non structurées spécifiques
Les LLMs sont entraînés sur des données comme des livres (avec/sans copyright, avec/sans autorisation), les archives de media ou des corpus de lois/réglementaires.
Ce ne sont pas des crawlers au sens propre, mais des systèmes cousins.
Les crawlers multimodaux
LAION crawle le web pour créer des bases de textes et d’images utilisées pour l’entrainement de LLM multimodaux.
Les crawlers de contenus UGC
Des crawlers OpenAI sont dédiés aux contenus des forums ou de réseaux sociaux (StackExchange, Reddit, etc…)
Les crawlers polyvalents / couteaux suisses
Applebot-extended, Amazonbot, Facebookbot, Duckassistbot… collectent des informations à usage multiple (afficher des résumés de pages dans Facebook, enrichir SIRI ou les "réponses IA de Duckducgo, entrainer les LLMs d’Apple ou d'Alexa…).
Lorsque le coeur du LLM ne suffit pas, ChatGPT peut compléter ses réponses avec les données issues des crawlers RAG.
Les crawlers RAG / « recherche web » partenaires
ChatGPT peut aussi décider qu'il a besoin de compléter ses réponses en sollicitant les données de... Bing !
Les crawlers propriétaires RAG / « recherche web »
Ces crawlers alimentent, comme Bing, une sorte d'index complémentaire.
Nom du crawler de ce type chez OpenAI : OAI-SearchBot
En marge de cela, on trouve aussi ...
Les crawlers propriétaires « temps réel »
Liste des crawlers des chatbots utilise pour la Generative Engine Optimization (GEO) Nous avons identifiés les 9 familles de crawlers essentiels pour faire référencer votre entreprise dans les chatbots comme ChatGPT. Eh oui, si vous pensiez...
http://expertfacebookmarketing.com/component/content/article/96-comparaison-de-lefficacite-de-facebook-contre-google-pour-un-site-decommerce
Etude de cas ecommerce: analyse du ROI de Facebook et de Google pour un site de cosmétique allemand
Part du trafic renvoyé par Facebook sur le site : 19%
Part du trafic renvoyé par Google sur le site : 13%
Taux de conversion du trafic renvoyé par Facebook : 1,5%
Taux de conversion du trafic renvoyé par Google : 2,8%
Panier moyen : 85€ pour le trafic issu de Facebook, 65€ pour le trafic issu de Google
Part dans le CA du site pour Facebook : 5%
Part dans le CA du site pour Google : 18%
Comparaison de l'efficacité de Facebook et de Google pour un site d'ecommerce. Site d'information sur le marketing sur Facebook.
Cliquez ici pour réclamer votre Listage Commercial.
Téléphone
Site Web
Adresse
17 Rue Etex
Paris
75018