Choisir ses mots pour écrire

IMG_7465Quels mots utiliser pour écrire efficacement ? Les linguistes se posent la question depuis un moment. Les rédacteurs trouvent leurs propres réponses. Essayons de faire le point.

Quels mots utiliser pour écrire efficacement ? Forcément, des mots que le lecteur connaît : n’attendez pas le moindre effort de sa part. Le mot inconnu provoque l’incompréhension, ou fait fuir le lecteur. Il faudra l’expliquer.

Le vocabulaire moyen maîtrisé est assez difficile à estimer. On se heurte à ce qu’est la définition d’un mot (le verbe à l’infinitif ou toutes ses formes conjuguées), aux synonymies, aux homonymies, à ce que « connaître » un mot veut dire : l’avoir déjà vu, être capable d’en donner une définition précise ? Il faudrait distinguer le nombre de mots qu’une personne est à même d’employer et le nombre de mots qu’elle est capable de comprendre.

En 2007, le linguiste Alain Bentolila a rendu un rapport au ministre de l’Education Nationale. Pour lui, le vocabulaire se rétrécit. On estime que 55% des Français maîtrisent entre 5 000 et 6 000 mots, mais 10% ne s’exprimeraient qu’avec 400 à 500 mots. Les inégalités apparaissent dès le plus jeune âge. 20% des élèves maîtrisent 1 200 mots à leur entrée en CP, mais ils sont autant à y faire leurs premiers pas avec 200 à 250 mots de vocabulaire seulement. Il faudrait maîtriser un vocabulaire de 2500 à 3000 mots pour s’en sortir dans les situations de la vie courante, les relations avec l’administration, etc.

Selon les études plus optimistes d’Alain Lieury, le vocabulaire moyen en fin de primaire serait de 9 000 mots, et de 26 000 mots en fin de troisième. L’adulte cultivé posséderait un vocabulaire de plusieurs dizaines de milliers de mots.

Par comparaison, le Trésor de la Langue Française contient 100 000 mots. Le Petit Larousse, pas loin de 62 000 mots. La richesse de la langue, sa capacité à exprimer les nuances, sont évidentes, mais si l’on souhaite être compris par le plus grand nombre, il conviendra de réduire la palette des mots employés. D’autant que le vocabulaire technique ajoute de la complexité, et ne cesse de s’étendre… Le vocabulaire spécialisé des sciences est en constant développement : le Dictionnaire de la chimie de Duval, loin d’être exhaustif puisqu’on distingue plus de 100 000 matières colorantes, comptait déjà 26 400 entrées en 1935, mais plus de 70 000 en 1977

Mais n’allez pas croire que c’est forcément niveler la forme du discours. Jean Racine emploie moins de 1300 mots différents pour écrire sa pièce Andromaque.

L’étude des textes littéraires nous apprend quels mots sont utilisés par les auteurs au fil des XIXème et XXème siècle. Des chercheurs se sont penchés sur 1000 textes publiés pendant ces deux siècles dans une étude statistique publiée en 1971 riche d’enseignement sur la fréquence d’utilisation des mots dans la langue française.

On apprend ainsi que les mots les plus utilisés sont courts et fonctionnels : de, la. Les moins utilisés sont inconnus de la plupart des gens, et plus longs : aaisant, zymase.

IMG_7463François Richaudeau (1920-2012) a longuement travaillé sur l’écriture et la lecture. Il a mené des études fondatrices sur la lisibilité et l’écriture efficace en français. Son livre Ecrire avec efficacité publié chez Albin Michel en 1992 est aujourd’hui épuisé. Je m’en inspire ici à de nombreuses reprises.

François Richaudeau y compare l’usage de couples de mots synonyme dans les textes des XIXème et XXème siècle. Dire (4 lettres) y est utilisé 259 179 fois alors que les huit lettres du verbe exprimer n’apparaissent que 8644 fois. Voir (4 lettres) est riche de 149 662 occurrences. Regarder (8 lettres) apparaît 41 742 fois. Les mots les plus courts sont plus utilisés. Plus rapides à écrire, ils sont aussi plus vite lus, plus efficaces, donc.

Plus efficaces, mais aussi moins précis. Le verbe faire a ainsi, dans le Littré, 82 sens répertoriés, de « Donner l’être ou la forme. Dieu a fait l’homme à son image. Dieu a fait le monde en six jours » à « Être, arriver. Comment se fait-il que vous ne soyez pas venu ? Il s’est fait des fentes dans cette muraille. Il se fit un grand silence. Il s’est fait des choses qu’on ne sait pas ». C’est beaucoup. Faire, être, avoir, dire, voir sont des verbes faibles, des verbes fourre-tout. Si ils sont lisibles, ils manquent aussi de précision et appauvrissent le style de celui qui les utilise sans modération.

  • Les imprimeurs sont au sous-sol.

Quelle pauvreté !

  • Les imprimeurs travaillent au sous-sol.
  • Les imprimeurs se saoulent au sous-sol.

Autre exemple.

  • Pauline fait à manger.

Quelle pauvreté !

  • Pauline prépare un cassoulet.
  • Pauline ouvre une boîte.

Et d’un coup, le lecteur en sait plus, sans qu’on soit allé chercher dans le vocabulaire des mots abscons ou obsolètes qui le mettent en difficulté.

A la fin des années 1930, George Kingsley Zipf embauche des étudiants pour établir la liste des mots utilisés par James Joyce dans Ulysse, et, pour chaque mot, noter combien de fois il apparaît dans le texte afin d’établir un classement par ordre de fréquence. Les mots les plus utilisés sont les plus usuels, des mots outils, nécessairement courts : le, un, à, en… Les mots utilisés une seule fois sont les mots les plus rares, voire les plus incongrus. Zipf mit alors évidence que la fréquence d’usage d’un mot est inversement proportionnelle à son rang dans le classement.

Concrètement, le mot le plus populaire est deux fois plus utilisé que le deuxième, trois fois plus que le troisième, etc. Cette loi se vérifie dans toutes les langues, dans tous les textes et chez tous les écrivains.

Pour Zipf, c’est là une application de la « loi du moindre effort » : l’auteur serait un feignant qui se repose sur les multiples sens d’un mot pour se faire comprendre alors que celui qui écoute aurait intérêt à un vocabulaire précis, sans ambiguïté et donc diversifié. La tension entre la flemme de l’un et le désir de précision de l’autre expliquerait la répartition particulière des mots.

La loi de Zipf s’observe dans bien d’autre domaine que les textes, comme la répartition de la taille des villes. Il s’agirait en fait d’une loi statistique plus générale. Et elle n’aurait pas grand-chose à voir avec « la loi du moindre effort ».

Ces études demandaient à l’époque des trésors de patience, les ordinateurs d’aujourd’hui sont bien plus rapides à les mener, Zipf démontre deux choses grâce à ses étudiants : les mots les moins utilisés sont les plus longs et ceux dont la structure phonétique est la plus complexe.

Le linguiste italien Giulio Lepschy conclut lui, en 1968, que les mots les plus utilisés sont les plus courts, les plus anciens, les plus simples, et ceux qui recouvrent le sens le plus large.

Des études plus récentes, sur des corpus plus modernes, montre l’intérêt du vocabulaire le plus simple pour toucher un large public. Les chercheurs Varun Jewalikar et Nash Vail ont étudié les paroles des chansons de 93 artistes parmi les plus vendus dans le monde dans ne étude réalisée pour le site spécialisé MusixMatch grâce à la base de données du site, qui recense plus de 7 millions de chansons en 38 langues. Les 100 chansons comprenant le plus de mots de chaque artiste ont été prises en compte.

EminemLe grand vainqueur est Eminem, avec 8 818 mots différents alors que la moyenne est de 2 677 mots. En deuxième position, Jay-Z (6 899 mots). Enfin, le rappeur Tupac Shakur, assassiné en 1996, (6 569 mots). Kanye West est quatrième (5 069 mots), suivi par le chanteur folk et prix Nobel de littérature Bob Dylan (4 883 mots) et les Black Eyed Peas (4 539 mots). Les artistes qui ont réalisé les plus grosses ventes d’albums de tous les temps ne s’illustrent pas en haut du classement : les Beatles (76e, 1 872 mots), Elvis Presley (38e, 2 531 mots) ou Michael Jackson (42e, 2 503 mots). Parmi les plus mauvais, le sirupeux Barry White (88e, 1 731 mots), The Police (73e, 1 885 mots), Nirvana (83e, 1 835 mots), ACDC (87e, 1 788 mots) ou les Spice Girls (91e, 1 497 mots). Mais plus de mots différents dans 100 chansons des Spice Girls que dans l’Andromaque de Racine, donc.

La pauvreté du vocabulaire des chansons fait régulièrement couler de l’encre, comme si il était le reflet du vocabulaire de ceux qui les écoutent. Dans une tribune du magazine américain Time adressée à la chanteuse Rihanna en 2012, la rédaction du service musique s’inquiétait : la chanson Diamonds ne contient que 67 mots et Where Have You Been 40 mots. Diamonds aurait été écrite en 14 minutes…

Pour autant, l’écriture efficace, professionnelle, celle des articles, des comptes-rendus, des courriers n’est pas celle de la littérature, ni de la chanson. Elle vise l’efficacité et ne saurait se satisfaire d’approximations. Elle doit s’adapter au lecteur, et à son propre niveau de vocabulaire. Pour simplifier la communication au sein de Tesla, le fondateur et PDG de l’entreprise, Elon Musk, a ainsi envoyé un email à ses employés afin qu’ils cessent de s’exprimer avec des termes complexes :

« De façon générale, toute chose qui requiert une explication entrave la communication. Nous ne voulons pas que les gens mémorisent un glossaire simplement pour travailler au sein de Tesla ».

L’échelle Dubois Buyse

Disposer d’une liste du vocabulaire courant normalement compris par l’ensemble des lecteurs serait évidemment intéressant. Si une telle liste n’existe pas sous cette forme, on peut néanmoins s’appuyer sur des travaux pédagogiques. Ainsi, l’échelle Dubois Buyse regroupe 4000 mots qui devraient être connus par tous les élèves français entre 6 et 16 ans, durant leur scolarité. Ces mots sont répartis selon 42 échelons, de la sixième à la seconde. La liste sert à la constitution d’exercices de français accessible à chaque niveau. Voici quelques mots que tout un chacun devrait donc être à même de définir : bosselé, hermine ou paletot. Trois mots choisis à l’échelon 28, et donc de niveau cinquième. Le dernier niveau, en seconde, contient seulement deux mots, pas simples à orthographier : bâiller et dahlia.

On trouve facilement sur Internet la liste des mots de l’échelle Dubois Buyse.

Le français fondamental

IMG_7464Le français fondamental est une liste de mots et d’indications grammaticales élaborée au début des années 1950 en vue de l’enseignement du français aux étrangers et aux populations de l’Union française alors que la France souhaitait améliorer la diffusion de sa langue dans le monde. Une série d’enquêtes menées dans les années 1950 et 1960 montre qu’un nombre restreint de mots est employé de façon usuelle, à l’oral et à l’écrit et en toutes circonstances ; ainsi qu’un nombre limité de règles grammaticales nécessaires au fonctionnement de la langue.

Le français fondamental est constitué d’un premier lexique, limité à moins de 1 500 mots, complété d’un deuxième lexique de quelque 1 700 mots. Les listes définitives ont été établies par une commission de pédagogues et de grammairiens, après examen des résultats du dépouillement de diverses enquêtes. Les deux degrés du français fondamental constituent une base pour l’apprentissage de la langue usuelle, aussi bien dans le cadre du français langue étrangère que du français langue maternelle.

Si le français fondamental a eu une vraie influence, notamment sur l’enseignement du français langue étrangère, il a été rejeté dans les années 1970. Il marque cependant une démarche visant à établir un « corpus de base » correspondant aux capacités minimale d’une personne lisant et parlant le français.

Un outil possible pour déterminer quels sont les mots connus est le fichier Gougenheim. Il présente pour 8774 mots leur fréquence et pour les mots de fréquence supérieure à 20 leur répartition (nombre de textes dans lesquels ils apparaissent). Le corpus sur lequel, il est basé est un corpus de langue oral basé sur un ensemble d’entretiens avec 275 personnes. C’est donc non seulement un corpus de langue orale mais aussi de langue produite, dans le sens où les personnes interrogées avaient une conversation courante ce qui n’est pas forcément le cas dans des corpus radiophoniques ou télévisuels. Le corpus original comprend 163 textes et 312.135 mots. Cette base est tirée du livre « L’élaboration du français fondamental » écrit par G. Gougenheim, P. Rivenc, R. Michéa et A. Sauvageot. On la trouve facilement sur Internet.

Une autre base en ligne permet d’accéder aux statistiques d’utilisation des mots dans la littérature : lexique.org. Il faut cependant distinguer cette base de celles qui correspondent à l’usage général puisqu’elle est constituée d’œuvres d’écrivains, et ne reflètent donc pas nécessairement les usages des lecteurs.

A titre d’exemple, afin de se rendre compte des possibilités d’expression avec un vocabulaire restreint, il est possible d’écouter chaque jour « Le journal en français facile » de Radio France International. Lors de sa présentation en 2001, il était présenté comme un journal « de 10 minutes, réalisé avec 300 mots pour être compris par le plus grand nombre, avec volontairement des redondances afin d’apprendre la langue en même temps que l’actualité ».

Le lexique administratif

lexique administratifEn 2002, l’état français a diffusé pour la première fois le Lexique des termes administratifs. Ce document, mis à jour, est disponible au téléchargement. Le lexique repose sur l’analyse du langage administratif observé dans plusieurs milliers de courriers et de formulaires provenant de différentes administrations. Il contient 4000 mots ou expressions de différents types :

• des mots et expressions techniques tels que assignation, recours gracieux, séquestre qui relèvent de différentes branches du droit (administratif, civil, fiscal, social, etc.) et dont le sens précis n’est connu que des spécialistes;

• des mots et des expressions rares tels que nonobstant, arguer du fait que, faire fond sur qui appartiennent à un registre très soutenu, mal maîtrisé par beaucoup d’usagers;

• des expressions composées de mots assez courants mais dont l’emploi peut mettre votre interlocuteur mal à l’aise ou le troubler, tels que délai de rigueur, se trouver dans l’impossibilité de, s’il advenait que, sous le timbre de.

Qui sait, par exemple, que les aboutissants sont les terrains qui touchent une propriété sur ses petits côtés ? Et que ce sont eux qu’on retrouve dans l’expression, imagée, les tenants et les aboutissants ?

L’introduction du lexique rappelle deux principes majeurs.

Tout d’abord : « Ses suggestions ne seront valables et utiles que dans la mesure où vous les adapterez à vos besoins et à ceux de vos destinataires. Car en tant qu’agent rédacteur, vous êtes la personne la mieux placée pour rédiger une lettre à un usager : vous connaissez la situation juridique ou administrative à traiter, vous avez des informations sur votre interlocuteur et vous construisez un véritable rapport avec lui. » C’est à celui qui rédige de s’adapter à celui qui lit.

Ensuite : « une lecture rapide de l’ensemble des articles vous permettra de voir que des mots et des expressions qui vous sont très familiers et que vous utilisez spontanément peuvent être difficiles à comprendre ou perturbants pour certaines personnes. » Il est toujours difficile de prendre conscience des difficultés de lecture ou de compréhension de ses interlocuteurs, et d’autant plus que baigne dans un milieu culturel conforme à ses propres capacités et habitudes.

Le mot journalistique

Les journalistes ont pour mission d’écrire pour le plus grand nombre. Dans les écoles de journalistes, on définit les mots qu’ils doivent privilégier selon plusieurs critères. Ce sont des mots courts, simples, concrets.

Les mots courts ont de nombreux avantages : plus vite écrits, plus vite lus. Ils sont plus accessibles aux lecteurs les moins à l’aise. En outre, ils sont généralement mieux connus. Les mots de 3 à 6 lettres sont plus faciles à lire que les mots de 5 à 8 lettres. Au-delà de huit lettres, un mot devient potentiellement difficile à lire. Ces données sont cependant à prendre avec prudence : il a été mis en évidence qu’elles dépendent d’autres facteurs : le nombre de phonèmes et de syllabes, mais aussi le nombre de mots voisins orthographiquement ou la fréquence du mot. Un voisin orthographique est un mot qui diffère du mot cible par une lettre seulement (page et pige, par exemple). Un mot court, connu, au nombre de phonèmes restreints et qui aura peu de ressemblance orthographique avec d’autres mots sera d’autant plus facile à lire (New et al, 2006).

Comment le cerveau lit

IMG_7467Les études de psychologie cognitive consacrées à la lecture sont nombreuses. Le livre Psychologie cognitive de la lecture de Ludovic Ferrand et Pauline Ayora (éditions De Boeck, 2015) en rappelle quelques-unes qui corroborent ou affinent les choix de mots que l’on peut faire dans un texte.

Il est ainsi prouvé qu’on reconnait plus facilement un mot que l’on rencontre fréquemment dans la langue écrite qu’un mot qu’on rencontre moins fréquemment. C’est l’effet de fréquence.

L’effet de familiarité, lui, repose sur l’expérience personnelle du lecteur. Les mots acquis tôt dans la vie sont plus vite reconnus que les mots acquis plus tardivement. C’est sans doute lié à la fréquence cumulée : plus le lecteur a été mis tôt en présence d’un mot, plus il aura lu ce mot, et plus il le reconnaîtra facilement.

Les mots les plus courts sont généralement les plus concrets. Et plus ce qu’on écrit est concret, plus cela parle au lecteur. Un trou plutôt qu’une anfractuosité, un nuage plutôt qu’un strato-cumulus, la mémoire plutôt que l’empan mnésique. Le journaliste donne à voir.

Les mots concrets décrivent des réalités qui peuvent être expérimentées par les sens (on peut toucher une table, pas une idée). Des chercheurs ont démontré en 1988 que les mots concrets sont plus vite lus que les mots abstraits, ce qui étaye ce qui était jusque-là une simple intuition.

La simplicité permet au message de mieux passer : on préférera éviter les périphrases emberlificotées. Ainsi, on écrira plutôt « bleu » que « de la couleur d’un ciel d’été ». Ce choix permet également de gagner en densité.

Ce dont il faut se méfier

  • Jargon

Le jargon, c’est le vocabulaire propre à un métier. Celui qui permet aux pairs de parler, avec précision, de ce qu’ils ont en commun. On ne l’utilisera que dans ce cadre-là : ce sont généralement des mots inconnus des lecteurs non-spécialistes. Chacun jargonne dès qu’il connait un sujet, et la quantité de jargon acceptable dépend de l’audience, de ce que l’émetteur du message et son récepteur partagent. Plus l’on s’adresse aux non-spécialistes, plus le jargon doit être chassé. Et, attention : chacun est spécialiste de quelque chose. C’est un enjeu central de l’écriture.

  • Sigles

Le sigle est, souvent, une particularité du jargon. On y applique donc la même attention. Qui sait ce qu’on sigle veut dire ? Dois-je expliquer ce qu’est la SNCF ? Non, si je m’adresse à des Français, oui, certainement, si mon public est francophone, mais habite parfois à ‘autre bout du monde. Le mieux est d’éviter alors le sigle et de parler, par exemple, de la société nationale des chemins de fer… Le sigle développé, au moins, est clair (pour cette fois).

  • Néologismes

Le néologisme, c’est la création de mots nouveaux. Une activité dans laquelle l’homme excelle, et parfois pour rien : le nombre de mots existants est déjà important.

La création de mots nouveaux se fait trop souvent par l’ajout d’un suffixe comme –ité, -itude, -isme, -ition. Cela rallonge les mots et leur confère une abstraction qu’ils n’avaient pas au départ. Rien qui facilite la lecture.

La création de mots nouveaux se justifie lorsqu’apparaît une réalité nouvelle. L’on nomme ce qui n’existait pas avant. Officiellement, la Commission d’enrichissement de la langue française est chargée de  l’enrichissement du vocabulaire spécialisé par la création terminologique et la néologie. Elle est placée sous l’autorité du Premier ministre depuis 1996. En 2018, elle avait officialisé pus de 7 900 termes pour nommer en français les réalités nouvelles et les innovations scientifiques et techniques. On peut les trouver ici : http://www.culture.fr/franceterme

Avant ou parallèlement à l’officialisation, les néologismes sont créés par l’usage. Usage qui rentre parfois en concurrence avec les versions officielles.

Pour le rédacteur, les difficultés sont multiples. Le néologisme est un mot souvent inconnu, ce qui est le propre de la nouveauté. Il convient donc de l’expliquer. Son usage ne se fait pas à la légère, jusqu’au moment où le néologisme s’intègre dans le vocabulaire courant. Tout mot a commencé sa carrière comme un néologisme.

  • Impropriétés

La faute d’orthographe ou de syntaxe est à bannir. Elle freine la lecture de celui ou celle qui la repère, et elle peut entraîner une incompréhension, voire un contresens. La moindre des choses est donc de respecter la grammaire. Etant donné ses subtilités, ce n’est pas toujours simple. Mais primordial.

Attention également à employer les mots comme il convient, et non l’un pour l’autre. La maîtrise du vocabulaire c’est, d’abord, la maîtrise du sens. Dans la liste des pièges :

–        les homonymes qui se prononcent de la même façon mais dont l’orthographe n’est pas la même et qui ont des sens différents, comme sensé et censé

–        les homophones grammaticaux qui se prononcent de la même façon mais qui s’écrivent différemment et n’ont pas la même nature grammaticale comme ou et où

–        les paronymes qui se ressemblent sans être de vrais homonymes. Ils ne se prononcent/ne s’écrivent pas exactement de la même façon mais sont tellement proches qu’on peut tout de même facilement les confondre, comme inclinaison et inclination.

  • Répétitions

En psychologie cognitive de la lecture, l’effet de répétition est particulièrement robuste : un mot sera d’autant plus facilement reconnu qu’il a été précédemment soumis au lecteur. Un mot rare, un mot nouveau que l’on souhaite soumettre à la lecture, seront d’autant plus acquis qu’on le répète, dans le même texte ou au fil de textes différents. Et la lecture sera d’autant plus rapide qu’on a déjà lu le mot précédemment.

L’effet de répétition va à l’encontre de ce que beaucoup considèrent comme « bien écrire ». Dès l’école primaire, on apprend à chasser la répétition. Et, dans un texte, le maire est ensuite appelé par son nom, puis devient le premier magistrat, le premier édile, l’élu, le représentant du peuple : on tourne autour du pot au lieu de simplement répéter : le maire, et son nom, autant de fois que nécessaire.

Le fonctionnement d’Internet, et des moteurs de recherche en particulier, incite également à la répétition si l’on souhaite que les textes soient correctement référencé : on n’hésite pas à répéter un mot-clé important dans une page web. Les moteurs de recherche font cependant des progrès constants, et l’on sait aujourd’hui que pour un référencement optimal sur un sujet donné il convient de couvrir de la manière la plus exhaustive possible le champ sémantique relatif à ce sujet. Le champ sémantique, c’est l’ensemble du vocabulaire associé à un thème donné.

2 réflexions au sujet de « Choisir ses mots pour écrire »

  1. Dans ce texte très interessant, tu as utilisé 3647 mots dont 1256 distincts, dont « mot » 80 fois et « vocabulaire » 20 fois et « journaliste » que 3 fois, dont 2 fois au pluriel.

    1. Parfaite illustration, involontaire, de la supériorité du mot « mot » sur le mot « vocabulaire », lié à la loi du moindre effort et au nombre de syllabes. Merci.

Laisser un commentaire

Votre adresse de messagerie ne sera pas publiée. Les champs obligatoires sont indiqués avec *

Ce site utilise Akismet pour réduire les indésirables. En savoir plus sur comment les données de vos commentaires sont utilisées.