Optimisation contenu, mots rares

Optimisez vos contenus avec les mots rares

Anthony SEOQuantum

L'optimisation sémantique des contenus en SEO passe par l'évalution des termes d'un corpus. L’une des méthodes pour déterminer la pertinence des mots dans un texte est l’analyse de la fréquence des termes. La fréquence des termes (TF : term frequency) n'est qu'une partie de la fameuse méthode TF-IDF pour la récupération d'informations. L'autre partie est la fréquence inverse des documents (IDF : inverse document frency), faisons un zoom sur l’IDF.

L’article de cette semaine explique la façon dont l’IDF fonctionne. Mon objectif est de vous montrer l'importance de créer du contenu qui présente un caractère unique. Bien entendu, il existe de nombreuses raisons autres que le SEO : réputation, notoriété,….

Qu’est-ce que la fréquence inverse de document (IDF)?

Prenons un exemple:

Tableau mots IDF

Dans la pratique, la première étape consiste à mesurer la fréquence d’apparition des termes dans le corpus (un ensemble de documents). Dans cet exemple, nous voyons que le mot "les" apparaît dans chaque document, cela n'offre aucune information pour distinguer les documents.

Cependant, le mot "enfant" apparaît dans seulement 1000 des documents. De toute évidence, ce mot offre un élément de différenciation pour les documents qui le contiennent. C'est une mesure de la rareté d'un terme.

La fréquence des documents mesure la ressemblance (le fait que les documents possèdent des termes similaires dans leur contenu), ici nous préférons mesurer la rareté.

La  formule ressemble à ceci:

IDF équation

Pas d’inquiétudes, voici l’explication. Pour chaque terme, nous prenons le nombre total de documents dans le corpus et le divisons par le nombre de documents contenant notre terme. Cela nous donne la mesure de la rareté du terme. Cependant, nous ne voulons pas que le calcul résultant indique que le mot «enfant» est 500 fois plus important que le mot «jeu», nous prenons le Log Base 10 du résultat, pour linéariser ce calcul. D’un point de vue de moteur de recherche, « Enfant » est donc 10x plus important que le terme « jeu » dans ce corpus.

Voici le tableau des IDF pour les termes:

IDF Log10

Vous pouvez constater que le meilleur score revient au terme qui est le plus rare.

A quoi me sert l’IDF ?

« L’IDF comme une mesure de l'unicité » : en cela les moteurs de recherche peuvent identifier ce qui rend un document donné unique et spécial. Pour ma part, l’IDF apporte beaucoup plus de valeur et d’information que la fréquence d’apparition des termes (densité de mots clés).

Prenons un exemple :

Exemple : recherche jeux extérieur

Vous souhaitez vous positionner parmi l'un des 36 millions des sites qui apparaissent pour la requête de recherche "jeux d’extérieur," vous avez donc en concurrence des millions de sites. Vos chances d’être positionné en TOP10 dans Google pour ce terme basé sur la qualité de votre contenu sont proche de zéro. La seule façon pour vous d’être classé sur cette SERP compétitive et de travailler d’autres facteurs de référencement comme le netlinking, les réseaux sociaux...

Si vous êtes un nouveau sur ce marché, mon conseil est de chercher une alternative différente : vous devriez utiliser des termes supplémentaires afin de compléter la demande de l’internaute. Dans notre exemple, si nous ajoutons le mot « idée » pour « idée de jeux d’extérieur » le nombre de résultats est seulement de 340 000. Avouez-le, c’est nettement moins concurrentiel.

Ce que nous enseigne la stratégie de l'IDF

L’IDF souligne l'importance de l'unicité dans les contenus que nous créons. Oui, cette stratégie d’unicité ne génère pas autant de visiteurs que si vous étiez classé sur un mot-clé plus générique, mais si vous êtes nouveau sur un marché concurrentiel, vous ne pourrez pas vous positionner dans le TOP 10 seulement avec votre contenu.

Comment trouver en SEO les mots rares ?

Sur l’outil sémantique SEO Quantum, nous utilisons un indice dans nos analyses WORDPRINT basé sur Okapi BM25, une version évoluée du TF*IDF et probablement utilisé par Google. Cet indice se mesure de 0 à 10000, une valeur de 10000 signifie que la lexie est omniprésente dans l'analyse. C’est grâce à cette analyse du Wordprint pour « jeu d’extérieur » que j’ai trouvé les mots rares suivant :

  • Idée
  • Protection
  • Echelle
  • Filet
  • ...

Wordprint jeux extérieur

Si vous pouvez choisir un nombre plus restreint de mots-clés avec beaucoup moins de concurrences et créer du contenu autour de ces demandes, vous pouvez commencer à vous positionner plus facilement  et ainsi obtenir des visiteurs et monétiser votre audience : il s’agit d’une stratégie SEO ROIste.

Conclusion

Lorsque j’ai débuté en 2003, j’étais persuadé que l’analyse et la stratégie de mots-clés reposaient sur la volumétrie de recherches. Avec le temps, cette stratégie s’est trouvée être longue, douloureuse et hasardeuse.  

Assez rapidement, j’ai compris l’importance de sortir des « sentiers battus » en se démarquant grâce à la fréquence de document inverse (IDF). La création de contenu qui apporte un nouvel angle est souvent un moyen très puissant de débuter votre stratégie de référencement.

Boostez votre visibilité grâce à la sémantique

Optimisez vos contenus SEO grâce au deep learning.
SEOQuantum est l'outil qui vous apporte une aide indispensable à la rédaction de contenus SEO performants.

Téléchargez gratuitement le modèle rédactionnel SEO

Recevez dès maintenant par e-Mail mon modèle rédactionnel SEO au format Word. Modèle que j'utilise au quotidien pour créer des contenus SEO performants générant visites et leads !