Skip links

Analyse sémantique – Méthodologie de recherche d’intentions utilisateurs

Cet article, initialement publié sur LinkedIn en 2018, est le fruit de plusieurs mois de réflexions et de travaux empiriques visant à perfectionner la traditionnelle recherche de mots-clefs lors de la phase de planification stratégique en référencement naturel. C’est cette méthodologie qui est en partie appliquée au cours de notre prestation de profilage d’audience et qui est livrée ici, dans son intégralité, en toute transparence.

1. Préambule

Depuis le rachat de Freebase en 2007 et le lancement de Colibri en 2013, Google n’est plus un simple index de résultats de recherches où les mots d’une requête sont séparés de leur contexte : le moteur est devenu un graphe où les informations sont reliées les unes aux autres par des relations sémantiques complexes. Mieux encore, l’on parle même aujourd’hui de moteur de réponse. Les process et méthodologies d’autrefois au travers desquelles le suivi de la sacro-sainte position permettait de piloter la rentabilité d’un site sont devenus caduques ; il apparaît aujourd’hui que les positions sont devenues mouvantes en fonction non seulement du passif navigationnel de l’internaute, mais aussi de la position géographique ou de l’appareil utilisé. De même, l’arrivée des featured snippets (la position zéro) ou encore du People Also Ask (des réponses à des questions données directement par le moteur dans les SERP) bouleversent l’affichage traditionnel des résultats organiques, depuis longtemps malmenés par les liens publicitaires, les rich snippets et autres gmaps qui les repoussent toujours plus loin sous la ligne de flottaison. Dans ces conditions, le suivi à la position n’a plus grand sens : on parlera désormais de suivi de visibilité, avec analyse des performances d’audience et de rentabilité sous des outils de web analytics, de même que l’on ne parle plus d’expression ou de mot-clef, mais d’intention utilisateur.

2. De la requête à l’intention utilisateur

Les définitions varient, mais l’on peut traditionnellement déterminer trois grands types de requêtes tapées sur un moteur de recherche :

  • Informationnelle, où les utilisateurs cherchent à se renseigner à propos de quelque chose. L’utilisateur ne sait pas où peut se trouver l’information recherchée. Un parcours de navigation typique induit donc la consultation de plusieurs sites / pages de résultats de recherche.
  • Navigationnelle, où les utilisateurs savent déjà ce qu’ils recherchent. Il peut s’agir d’une marque ou d’un site déjà identifié par l’internaute.
  • Transactionnelle, où l’utilisateur s’inscrit dans une démarche de conversion (produit ou service).

Quelle que soit la typologie de requête, chacune fait l’objet d’une interprétation sémantique de la part du moteur de recherche, l’objectif n’étant plus de proposer, dans les résultats de recherche, des pages comportant les mots-clefs de la requête, mais des pages apportant une réponse précise au besoin de l’utilisateur. La distinction est peut-être subtile, mais les effets produits sont résolument différents. Les mots d’une requête ont maintenant moins d’importance que l’intention de recherche en elle-même.

Cette constatation entraîne plusieurs conséquences notables. La première d’entre elle est relative à la recherche d’expressions à potentiel d’audience et de conversion : il ne s’agit plus de se reposer sur un réservoir de mots-clefs que l’on peut ensuite injecter au sein des contenus d’un site mais d’articuler les contenus eux-mêmes autour des intentions utilisateurs définies lors de la phase d’analyse sémantique. Cela rend obsolète la méthode suivant laquelle il fallait créer une page par expression-clef comme il était parfois d’usage lors de la phase de conception d’arborescence. Corollaire logique de cette observation, ce sont également les fondamentaux de la rédaction web qui sont remis en question : comment optimiser au plus près un texte pour un moteur de recherche ? Les fantasmes sur les prétendues densités de mots-clefs au sein d’un contenu n’ont plus cours, de même que l’utilisation répétée d’une expression-clef est devenue contre-productive ; en ce sens, l’étude de ahref de 2016 sur les principaux facteurs de ranking est très claire, les mots-clefs ont une importance toute relative dans le processus de visibilité d’une page dans les résultats de recherche, ce qui nous ramène, une fois de plus, vers l’intention utilisateur et la manière dont celle-ci est désormais traitée par le moteur de recherche.

3. Méthodologie de recherche d’intentions utilisateurs

La méthodologie de recherche d’intentions qui est ici proposée ne se prétend pas exhaustive ni miraculeuse. Paradoxalement, elle repose principalement sur l’analyse et le traitement d’expressions utilisateurs issues de Google Suggest, ce qui contredit, à première vue, tout ce qui a été exposé jusqu’ici. Les expressions issues de Google Suggest constituent toutefois un formidable matériau de base à partir duquel il est possible de dessiner les principales typologies d’intentions par rapport à une thématique donnée, levier intéressant que cette méthode cherche ici à exploiter.

Une clarification s’impose peut-être avant tout développement supplémentaire quant aux intentions utilisateurs. Pour rappel, les expressions suggérées par Google Suggest sont issues des requêtes les plus recherchées par les internautes par rapport à un mot-clef ou une expression donnée. Le découpage de ces expressions par associations d’occurrences permet donc d’obtenir des indications sur ce qui est le plus recherché par l’utilisateur, et par conséquent de définir ses principales intentions.

Au sein d’un moteur de recherche, l’expression d’une intention repose de fait sur un ou plusieurs mots-clefs, mais l’on aura ici compris que ce ne sont guère ces mots-clefs qui priment, mais l’intention qui se cache derrière, d’où encore une fois l’utilisation d’expressions afin de bâtir les typologies d’intentions.

3.0. Process

La méthodologie ici exposée est découpée en cinq étapes différentes :

  1. Récolte des expressions initiales à partir des services / produits clients.
  2. Récolte des expressions utilisateurs.
  3. Circonscription des typologies d’intentions.
  4. Redécoupage des intentions.
  5. Préparation de l’écriture des contenus.

S’il fallait résumer la chose de manière synthétique, nous pourrions aboutir à ce schéma :

Expressions initiales > Expressions utilisateurs > Intentions

3.1. Récolte des expressions initiales

Cette première phase désigne la création d’une liste exhaustive d’expressions à partir des produits, des services ou des informations proposés par le site. Lors d’une campagne d’acquisition d’audience, ce sont en effet ces éléments qui requièrent une optimisation à des fins de visibilité dans les résultats de recherche, il est donc important d’être le plus rigoureux possible dans la construction de cette liste d’expressions. C’est à partir de cette dernière que seront collectées les requêtes Google Suggest.

Il est possible de se poser plusieurs questions pour la définition des expressions initiales :

  • Quel est le secteur d’activités du site ?
  • Que propose / Que vend le site ?
  • Quelles requêtes sont susceptibles de taper les utilisateurs pour trouver le site ?
  • Quelles requêtes sont susceptibles de taper les utilisateurs pour convertir sur le site ?

Si le site propose plusieurs types de produits ou de services, ce qui est généralement le cas, le plus simple est encore de créer des groupes d’expressions afin de bien segmenter la liste initiale.

Une fois que les expressions initiales ont été définies, il est important de vérifier si ces expressions sont bien « comprises » des moteurs de recherches. Si le moteur de Google ne cesse de s’affiner et présente la plupart du temps des résultats très cohérents, notamment grâce à Colibri, il peut parfois arriver que la recherche retourne des résultats décontextualisés lorsque l’intention initiale est mal comprise. Il vaut mieux, dans ce cas, supprimer l’expression incriminée plutôt que de prendre le risque de développer la visibilité du site sur un segment d’intention qui n’est pas le sien.

3.2. Récolte des expressions utilisateurs

Cette phase est relative à la collecte des requêtes Google Suggest. Ainsi, comme énoncé précédemment, l’objectif est de récolter pour chaque expression initiale l’ensemble des requêtes tapées par les internautes au sein du moteur de recherche. Plusieurs outils permettent de réaliser cette étape, keywordtool.io par exemple, l’un des plus connus. On remarquera que cet outil autorise également la collecte des expressions des Suggest Bing, Amazon ou encore Youtube, ce qui permet d’enrichir les datasets existants ou de construire des intentions en fonction d’une plateforme donnée.

La récolte des expressions utilisateurs peut donner lieu à des rectifications opérées sur la liste d’expressions initiales, lorsque l’on s’aperçoit notamment qu’une expression ne retourne aucun résultat particulier ou que les internautes utilisent en priorité d’autres mots-clefs (auquel cas il est nécessaire de les réutiliser afin de pouvoir circonscrire les intentions).

Les expressions collectées peuvent en outre retourner des résultats décontextualisés de la thématique cible, c’est-à-dire qui ne concernent pas le produit / le service sur le(s)quel(s) nous souhaitons développer la visibilité. Le premier réflexe serait de les supprimer ; ce serait une erreur. Puisqu’un dataset d’expressions est le reflet de la catégorisation moteur pour une thématique donnée, ce même dataset est à considérer dans sa globalité – il serait dangereux d’écarter des expressions sous prétexte qu’elles ne nous plaisent pas alors que chacune d’entre elle porte le germe d’une intention particulière par rapport aux mots-clefs requêtés. S’il y a trop d’expressions décohérentes, c’est que l’expression initiale manque de précision par rapport au produit / service cible.

Au terme de l’exercice, un grand nombre d’expressions utilisateurs devraient avoir été collectées, réparties au sein d’un fichier Excel par exemple, lui-même subdivisé en plusieurs onglets calqués sur les sous-groupes préalablement établis. C’est à partir de ces listes de données que seront construites les différentes intentions.

3.3. Circonscription des typologies d’intentions

La troisième phase est relative à la construction des typologies d’intentions à partir des expressions utilisateurs issues du Suggest. C’est le cœur de la méthodologie ici exposée.

Il existe aujourd’hui différents outils sémantiques permettant de faciliter le travail de recherche d’intentions (1.frVisibilisseoquantum…). La méthode de construction d’intentions utilisateurs détaillée ci-dessous repose sur deux modes opératoires différents utilisant chacun un outil bien particulier.

On ne manquera toutefois pas de rappeler qu’aucun logiciel au monde ne saurait, pour l’instant, se suppléer au cerveau humain, et donc à la logique et à la réflexion.

A l’heure du tout-automatisé, cette précision est aussi importante qu’utile puisque cela suppose une prise de recul et une certaine proactivité de l’exécutant.

3.4. Construction d’intentions par ngram

Le premier mode opératoire repose sur l’utilisation des ngram pour construire les typologies d’intentions. Son principal avantage est de délivrer, à partir de statistiques, des données et des informations précises ; a contrario, son principal inconvénient est son coût substantiel en temps, puisque le calcul des différentes occurrences et leur catégorisation en intentions est aussi long que laborieux. Pour cette raison, ce mode opératoire n’est pas forcément conseillé.

La construction d’intentions par ngram requiert l’utilisation d’un outil de compteur de mots (outils-atypicom.fralyze.infowordcounttools.com) permettant ainsi de connaître quels sont les termes les plus fréquents, ou quels termes sont le plus souvent associés entre eux. Il est ainsi possible de savoir quels sont les mots-clefs les plus recherchés par les internautes, et donc de pouvoir ensuite bâtir les principales intentions.

Concrètement, chacune des listes d’expressions issues du Suggest devra être analysée via un compteur de mots afin d’en déterminer les principales occurrences.

L’objectif est ensuite de catégoriser chaque synonyme ou mot-clef corollaire dans sa catégorie d’intention afférente. Ainsi, si l’on retrouve parmi la liste de ngram le mot-clef « coût », on le rangera dans la catégorie d’intention « Prix », et l’on additionnera sa fréquence au nombre de fréquence du mot-clef « Prix ». Problématique identique si l’on retrouve le mot-clef « tarif » dans la liste de ngram. Autre exemple, si l’on trouve le mot-clef « conseil » dans la liste de ngram, on le rangera dans la catégorie d’intention « Demande d’information », avec addition de sa fréquence au nombre de fréquences existantes.

Ce long travail de recherche et de catégorisation permet donc, peu à peu, de définir les principales intentions utilisateurs par rapport à une liste d’expressions Suggest. En fin de compte, on devrait obtenir un tableau récapitulatif des intentions pour chaque groupe d’expressions. Exemple avec un graphique :

Il est toujours intéressant de construire une synthèse globale des intentions au niveau des groupes et des sous-groupes définis en amont, lors de la phase de récolte des expressions initiales. Cela permet notamment de dégager les intentions qui priment parmi les nombreuses expressions requêtées par les internautes pour trouver un service ou un produit par rapport à une thématique donnée.

3.5. Construction d’intentions avec Tropes

Le second mode opératoire repose sur l’utilisation de Tropes.

Tropes est un logiciel d’analyse sémantique de textes qui existe depuis 1994. Son noyau d’analyse sémantique se fonde sur une logique de résolution de problèmes qui fait largement appel à l’Intelligence artificielle et qui fut un précurseur des algorithmes de certains moteurs de recherche.

La fonction première de Tropes est ici quelque peu détournée puisque ce ne sont pas des textes, mais des listes d’expressions qui sont analysées afin d’en déterminer rapidement les univers sémantiques. Ces univers sémantiques seront ensuite transformés en intentions.

La méthodologie fondée sur Tropes présente exactement les avantages et inconvénients inverses de celle utilisant les ngram : les analyses sont très rapides et le gain de temps substantiel, néanmoins les statistiques ne sont pas forcément précises. Ce n’est pas grave : en l’espèce, de simples tendances sont suffisantes pour construire des typologies d’intentions.

Ainsi, puisque la fonction de l’outil a été détournée, les résultats présentés sont à prendre avec précaution et supposent une prise de recul de la part de l’exécutant.

Tout comme les ngram, chacune des listes d’expressions issues du Suggest devra être analysée sous Tropes. Le logiciel accepte l’ouverture de nombreux types de fichiers (PDF, Word, PPT, txt…), par convention nous utiliserons des listes d’expressions sous format TXT afin d’éviter d’éventuelles erreurs de formatage.

L’ouverture d’un fichier sous Tropes donne immédiatement lieu à l’analyse du texte. Trois éléments en particulier vont nous intéresser :

Sous Tropes, l’univers de référence correspond au contexte global du texte. Il s’agit d’une fonction qui affiche dans un ordre décroissant les Univers de référence des mots du texte. Les univers de référence regroupent dans des classes d’équivalents les principaux mots/thèmes du texte qui a été analysé. Il y a deux niveaux d’univers de référence : le premier affiche le contexte général et le second affiche le contexte détaillé.

Les références utilisées constituent une fonction qui affiche les substantifs utilisés dans le texte regroupés en classes d’équivalents et organisés selon leur fréquence dans un ordre décroissant, c’est-à-dire la plus haute fréquence en premier. Chaque ligne contient le nombre d’occurrences du terme, suivi du terme en question. En cliquant sur une ligne, le contenu de la classe apparaît dans l’écran central. Les mots qui composent la classe apparaissent en bleu.

Dernier élément qui peut être intéressant, les relations, qui est une fonction affichant les relations de co-occurrence entre les classes d’équivalents. Elle les affiche triées par fréquence décroissante. Chaque ligne contient le nombre d’occurrences et la relation correspondante. Cette fonction permet notamment de répondre à la question : sur quoi porte le texte ?

Concrètement, ce sont les univers de référence qui vont nous permettre d’avoir une idée des typologies d’intentions pour une liste d’expressions utilisateurs. Les références nous donnent des statistiques quant aux mots les plus fréquemment utilisés (unigram), et les relations les associations d’occurrences les plus fréquentes (bigram).

La consultation du premier univers de référence suffit dans la plupart des cas. Il est toutefois nécessaire de vérifier, dans l’écran de droite, quels mots-clefs ont été attribués aux différents univers en question pour s’assurer de leur cohérence. Une fois encore, comme la fonction originelle de l’outil a été détournée, les univers de référence présentent souvent des anomalies que l’exécutant de l’analyse devra ensuite corriger.

Quoi qu’il en soit, l’exécutant de l’analyse doit se confronter à un travail de modification et / ou de fusion des univers de référence afin d’obtenir des typologies d’intentions viables et utiles, comme vu précédemment avec l’exemple des matériaux. Il s’agira, dans ce cas, d’additionner les fréquences des univers de référence fusionnés afin d’obtenir une estimation des différentes forces d’intentions. Attention cependant à ne pas mélanger les univers de référence de premier ou de second niveau : seul l’un des deux doit servir de base à l’analyse.

Tout comme l’analyse avec la méthode des ngram, il est ensuite intéressant de tirer une synthèse globale et graphique des principales typologies d’intentions afin de savoir lesquelles priment parmi les utilisateurs.

3.6. Redécoupage des intentions

Cette phase, facultative, est relative à un besoin de granularité des intentions utilisateurs, lorsque l’on souhaite identifier par rapport à un produit ou un service, au sein de la Longue Traîne, le maximum d’intentions possibles.

Cela suppose la répétition de deux opérations :

  1. La collecte de nouvelles expressions utilisateurs du Suggest.
  2. La définition des intentions de ces expressions via la méthode des ngram ou Tropes.

3.7. Préparation de l’écriture des contenus

Cette dernière phase permet de mener à bien deux éléments :

  1. La conception d’une arborescence optimisée répondant aux besoins utilisateurs.
  2. Et, surtout, la création de la structure des contenus textes du site.

On rappellera à toute fin utile qu’une arborescence optimisée, que l’on peut également désigner sous le vocable d’architecture sémantique, désigne au sein d’un site web une typologie d’organisation de l’information ordonnée et hiérarchisée selon des critères sémantiques (ou selon des critères d’intentions, si l’on souhaite prolonger la comparaison). Toute élaboration d’arborescence doit s’accompagner en amont d’un travail d’analyse sémantique, autrement quoi il n’est pas possible de présenter à l’utilisateur une information correspondant strictement à ses attentes.

L’analyse sémantique permet aussi de pourvoir à la création de la structure des contenus, c’est-à-dire de désigner quels éléments doivent être particulièrement mis en avant au sein des textes du site. Ces éléments reprennent les typologies d’intentions qui ont été définies préalablement, par ordre décroissant de préférence, afin de placer, en amont du texte, les éléments qui sont essentiels pour l’internaute. Attention, chose qui a été passée sous silence et sur laquelle nous n’avons sans doute pas assez insisté, la définition de typologies d’intentions ne dispense pas de rechercher les mots-clefs et leurs synonymes nécessaires à la rédaction d’un contenu optimisé. Des outils tels que 1.fr sont d’excellents compléments à ce sujet.

Nous ne détaillerons pas davantage les méthodologies de construction d’arborescence et d’élaboration de structure / écriture des contenus puisque cela n’est pas l’objet de cet article.

4. Rémanence dans les résultats de recherche

Il est toujours utile de corroborer de manière empirique si les intentions utilisateurs qui ont été définies lors de l’analyse sémantique sont bien le reflet de la catégorisation moteur pour une thématique donnée. En d’autres termes, est-ce que les résultats de recherche naturels comportent bien des traces des principales préoccupations utilisateurs ? C’est ce que l’on peut désigner sous le nom de rémanence dans les SERP.

Si nous reprenons l’exemple des terrasses pour piscine, nous devrions d’abord disposer d’une synthèse des intentions utilisateurs comme suit, où l’intention « Matériaux » prime largement sur les autres :

Les sites visibles en première page des résultats de recherche naturels ne sont pas là par hasard : le moteur les considère comme particulièrement pertinents par rapport à la demande utilisateur. Il s’agira donc de comparer les résultats retournés en première page par rapport aux intentions circonscrites. Ci-dessous, un extrait des résultats de recherche pour la requête « terrasse piscine » :

Il est intéressant de constater que le premier résultat de recherche comporte en title « Quel matériau pour ma plage de piscine », et que le deuxième résultat est relatif à des revêtements pour abords de piscine, donc des matériaux, ce qui corrobore de prime abord les intentions utilisateurs définies lors de la phase d’analyse sémantique. Nous avons toutefois remarqué, pour l’expression « terrasse piscine », que c’était essentiellement le bois qui primait parmi les requêtes utilisateurs. Les résultats de recherche comportent-ils la trace de cette intention ? Cette fois, nous avons volontairement étendu l’affichage des résultats de recherche à 100 résultats afin d’obtenir une vision globale, et calculé le nombre de fois où l’occurrence « bois » revenait parmi les résultats :

Le résultat est éloquent puisque « bois » revient 63 fois parmi les 100 premiers résultats naturels, ce qui valide l’hypothèse selon laquelle les matériaux, et plus particulièrement le bois, rentrent au cœur des intentions utilisateurs pour les terrasses de piscine.

Même exercice avec l’expression « coach sportif » :

La géolocalisation est ici primordiale puisque les utilisateurs recherchent en priorité un coach sportif à proximité de chez-eux. Les utilisateurs souhaitent ensuite disposer d’un coach à domicile, de surcroît diplômé, et veulent obtenir des informations sur les prix ou les tarifs. Enfin, certaines requêtes sont relatives à de la recherche d’emploi.

Voici un extrait des résultats de recherche pour la requête « coach sportif » :

Les résultats de recherche naturels sont géolocalisés par défaut, ce qui confirme que le moteur a bien saisi le principal intérêt des utilisateurs. Si l’on étend maintenant l’affichage des résultats de recherche à 100 résultats afin de calculer les occurrences des mots-clefs, on obtient le résultat suivant :

Le mot-clef « diplôme » n’a pas été représenté ici (seulement 10 occurrences), mais on retrouve bien, peu ou prou, nos principales intentions utilisateurs.