SEOQuantum Open Nav

Pourquoi le TF*IDF ne permet pas d’optimiser vos contenus

Par
le Mardi 15 octobre 2019 - Mise à jour Samedi 02 mars 2024
Inside this article
Temps de lecture : 10 minutes

De nombreux outils ou consultants SEO reposent leurs créations et/ou optimisations de contenus sur la méthode du TF*IDF. Bien que le TF IDF nous donne l’impression d’améliorer nos contenus, il ne résout en réalité pas les problèmes de référencement.

En apprenant plus sur son emploi et son fonctionnement, vous découvrirez que l’utilisation du TF-IDF peut induire en erreur vos optimisations de contenus.

Qu’est-ce que le TF*IDF ?

Le TF-IDF (pour Term Frequency et Inverse Document Frequency) est une mesure utilisée pour déterminer la pertinence d’un terme dans un document. La formule prend en compte la fréquence d’un terme (TF) dans un document donné ainsi que le nombre de documents contenant ce mot (IDF). Le TF IDF permet de distinguer les éléments différenciants (ici les mots) d'un document à l'autre.

Pour en savoir plus sur la méthode et son calcul, rendez-vous ici https://www.seoquantum.com/billet/optimisez-vos-contenus-mots-rares

 

Google utilise-t-il la méthode TF IDF ? Cette mesure est-elle toujours pertinente ?

Google (via John Mueller) a laissé entendre que l’utilisation de cette méthode par le moteur de recherche est limitée. Il évoque le TF-IDF pour la première fois alors qu’il aborde le sujet de l’exclusion des mots vides.

Cela n’est pas surprenant étant donné l’avancement de la base de données knowledge Graph et des algorithmes Colibri et Rankbrain. Google est en effet en constante évolution. Sa compréhension du langage ne cesse de s’améliorer alors qu’il apprend à faire face aux ambiguïtés du langage humain.

Google améliore aussi sa capacité à gérer les requêtes avec des significations multiples. Malgré tout, l’algorithme est loin d’être parfait. Comme nous le verrons, cela pose un sérieux défi à ceux qui utilisent la méthode d’analyse TF-IDF pour l’optimisation des contenus.

Dans un monde où l’IA, les réseaux neuronaux et l’apprentissage automatique sont la norme, le TF-IDF est obsolète. C’est un peu comme comparer une Renault 4L à une Tesla.

Pourquoi le TF-IDF nous donne-t-il l’impression de fonctionner ?

Malgré l’utilisation limitée par Google de cette technologie datée, de nombreux consultants SEO et outils sémantiques apprécient le TF-IDF. Pourquoi ?

Le TF-IDF est un concept relativement méconnu au sein de la communauté SEO. Parce que cette méthode d’analyse ne leur est pas familière, beaucoup d’experts SEO ou d’outils pensent à tort qu’il s’agit d’une technologie de pointe. Cela lui confère un certain prestige.

Peu connaissent l’histoire du TF-IDF. La plupart ne connaissent ni son véritable âge (les années 1970) ni son véritable objectif. Indice : cette méthode n’a pas été créée pour l’optimisation des contenus. Pour en savoir plus, rendez-vous sur les travaux de G. Salton et K. Spärck Jones.

Les experts SEO pensent que le TF-IDF joue un rôle important dans le fonctionnement des algorithmes de recherche de Google. Parce que plusieurs brevets et quelques publications y font référence, il existe une supposition erronée quant au rôle que cette technologie joue.

Le TF-IDF apparait comme une méthode sophistiquée pour la plupart des consultants SEO. Il est rare que ces derniers aient été formés en science des données. C’est pourquoi il leur est facile de supposer que la complexité apparente de cette méthode se traduise par son efficacité.

Qui n’aimerait pas utiliser une technologie sophistiquée et révolutionnaire permettant l’optimisation des moteurs ? Cela semble si prometteur !

Sauf que ce n’en est pas une.

6 difficultés rencontrés avec le TF IDF

Il existe un certain nombre d’outils SEO, gratuits ou peu coûteux, qui promettent de vous aider à optimiser vos contenus à l’aide de la méthode d’analyse TF-IDF. Tous ces outils présentent les problèmes suivants.

Le TF-IDF est une approche primitive

Le TF-IDF permet de mesurer l’importance d’un document au sein d’un corpus, en fonction d’un terme donné. Ses compétences sont limitées, notamment lorsque vous utilisez des synonymes. En effet, un document considéré comme très pertinent pour « bébé » pourra être ignoré pour le terme « nourrisson ».

Google, quant à lui, sait que les mots « bébé » et « nourrisson » sont fortement liés (ce sont des synonymes). Il comprend qu’une page pertinente pour l’un est probablement pertinente pour l’autre, sauf s’il y a des indices de contexte dans le reste de la requête qui prouvent le contraire. Ceci est basé sur la co-occurrence ainsi que sur la probabilité qu’ils soient tous deux utilisés dans des contextes similaires.

L’utilisation du TF pour déterminer l’importance d’un terme est une mesure imparfaite

Déterminer l’importance d’un terme en fonction de sa fréquence d’utilisation dans une SERP est une mesure imparfaite.

Si les intentions de recherche d’une moitié du corpus diffèrent de l’autre moitié, le poids du terme (son importance) sera de 50 %. Cependant, si tous les documents de ce corpus utilisent un mot commun, ce dernier sera considéré comme étant le terme le plus important sans distinction de l’intention.

Donc, vous allez devoir choisir et vous concentrer sur une seule intention. Mais l’outil vous en dissuadera, car seulement cinq résultats utilisent le terme. Il vous indiquera qu’il y a seulement cinq résultats sur 10.

L’IDF permet quant à lui de contrebalancer la mesure du TF pour déterminer la rareté (les éléments différenciant) d’une page.

L’utilisation de la méthode s’appuie sur les SERP de Google

Les outils sémantiques utilisant TF-IDF exploitent généralement les 10 ou 20 premiers résultats d’une SERP sans étudier les raisons pour lesquelles ces pages contiennent ces sujets soulevant ainsi deux biais :

  1. Les pages peuvent devoir leur « bon » positionnement à des facteurs autres que le contenu comme le netlinking par exemple
  2. L’utilisation d’un nombre peu important de documents affecte de manière significative la qualité des résultats. Ces outils ne prennent pas en compte les contenus de qualité médiocre ou les textes courts.

La marge d’erreur est si élevée que même en tenant compte des faiblesses de ces outils, vous n’aurez pas les informations nécessaires pour prendre des décisions éclairées.

Je vous suggère de gagner du temps en utilisant d’autres outils plus efficaces. Il est important d’analyser tous les contenus qui abordent votre sujet.

La méthode d’analyse TF-IDF ainsi que les outils qui calculent la densité de mot-clé ne le permettent pas. Si vous suivez leurs conseils, vous aurez autant de chances de réussir que si vous aviez joué au tiercé.

Le TF-IDF analyse et regroupe des pages dont les objectifs sont différents

Sélectionner toutes les pages apparaissant parmi les premiers résultats de Google crée d’autres problèmes. Vous risquez d’inclure des pages trop générales, trop spécifiques ou en lien avec un autre secteur d’activité que le vôtre.

De plus, le TF-IDF ne comprend pas les intentions de recherche.

En d’autres termes, si vous avez un contenu de qualité, axé sur une intention de recherche différente, vous serez induit en erreur.

Si vous avez un contenu de mauvaise qualité dont le référencement hors-site web a été bien optimisé, vous serez là aussi, dirigé vers la mauvaise voie. Si vous hésitez entre plusieurs intentions, l’outil ne sera pas non plus efficace.

En bleu, les pages ayant un objectif informationnel, en vert les pages ayant un objectif commercial et en jaune un objectif transactionnel.

Les outils qui utilisent la méthode TF-IDF ne prennent en compte que des pages

En se limitant aux pages, ces outils n’ont pas conscience de l’entièreté de votre site web.

Écrire une seule page sur un sujet ne suffit généralement pas à optimiser les contenus. Pour bien faire, vous devrez créer d’autres contenus qui augmenteront votre pertinence thématique et permettront l’utilisation de textes d’ancre et de liens internes.

Chez SEOQuantum, nous avons créé le crawler sémantique pour vous aider dans cette tâche.

Une note qui n’a aucune signification

Donner une note à une page en fonction de sa conformité avec le TF-IDF semble au premier abord être une bonne idée. Mais si vous ne pouvez pas en apprendre davantage sur le site web ou la page, cette information est dénuée de sens et n’est pas exploitable.

Prenez en considération que la page avec la note la plus élevée peut :

  • avoir un objectif différent du vôtre
  • Avoir beaucoup plus ou beaucoup moins d’autorité
  • Avoir plusieurs objectifs
  • Couvrir plusieurs sujets

Nous croyons en l'IA et à son aide précieuse dans l'enrichissement des contenus, notamment par des concepts-clés. Ici pour babyphone, l'IA a distingué 3 concepts : les fonctions de l'appareil, l'émission d'ondes et afin la distance de l'émetteur.

Au secours, mon rédacteur utilise le TF IDF

Les outils utilisant la méthode TF-IDF favorisent de mauvaises habitudes chez les rédacteurs et les experts SEO. Ils essaient de construire les contenus autour de mots qui ne sont pas adaptés ou encore ajoutent des sections qui ne correspondent pas à l’intention de recherche.

Même s’il est possible de trouver l’inspiration grâce à cette liste, elle est loin de constituer une vraie solution.

Que se passe-t-il quand vous créez une liste de mots-clés à l’aide de cette méthodologie ? Les sujets et les intentions des différents termes varieront. La personne qui recevra cette liste ne saura pas quoi en faire. C’est juste inefficace.

 

Le TF-IDF : les avantages

Malgré son inefficacité et son inexactitude, il semble qu’il y ait de la valeur à utiliser ce type d'approche. Cette méthode permet entre autres de vous inspirer ou vous faire découvrir un sujet auquel vous n’aviez pas pensé. Mais aussi elle peut vous aider à vous rendre compte que vous avez suroptimisé votre page (trop de mots-clés...).

Conclusion

La méthode TF-IDF fournit-elle suffisamment d’informations pour optimiser vos rédactions de contenus ? Pas du tout.

Cette méthodologie a plus de 50 ans et joue un rôle très limité dans le fonctionnement des algorithmes de recherche de Google. Ce n’est pas une technologie de pointe.

Vos pages doivent être complètes et de qualité (principe du contenu pilier).

Le modèle TF-IDF ne vous aidera pas à atteindre ce but.

Les moteurs de recherche utilisent parfois le modèle TF-IDF en complément d’autres facteurs.

Ce n’est qu’un des éléments permettant de faire des recherches dans le cadre de l’optimisation des contenus. Les outils SEO utilisant TF-IDF ne sont pas des solutions complètes. Ils ne vous fourniront pas les informations nécessaires pour prendre des décisions éclairées.

Vous pourriez aussi bien faire confiance à votre rédacteur pour prendre ces décisions.

Autres ressources :

Need to go further?

If you need to delve deeper into the topic, the editorial team recommends the following 5 contents:

Moyenne des notes : 3.7 (6 votes)

Alors, prêts à booster votre référencement naturel ?

Testez notre version d'essai gratuitement et sans engagement.

Essayer pendant 14 jours