MÉLUSINE

De la mesure avant toute chose

PUBLICATIONS DIVERSES

« De la mesure avant toute chose », préface à Étienne Brunet, Comptes d’auteurs I, études statistiques, de Rabelais à Gracq. Paris, Honoré Champion, 2009, pp. 8-17.

Étienne Brunet est un linguiste fort connu pour ses travaux statistiques portant sur les grands textes de la littérature française ‘(voir sa notice sur Wikipedia). Nous nous sommes connus lors des rencontres que Bernard Quemada, directeur de l’INaLF (Institut National de la Langue Française) organisait à Nancy. Étienne dirigeait un centre d’études lexicales à Nice, tandis que je représentais les chercheurs de mon laboratoire du CNRS à Meudon. Lorsqu’il me parla de l’ouvrage qu’il pensait intituler « Comptes d’auteurs », avec un jeu de mots familier tout à fait pertinent, je ne pus lui refuser la préface qui suit, où je cherchais surtout à faire mieux connaître l’immense travail de cet infatigable trouveur. Il faut dire que nous avions les mêmes jeux sur les mots, puisque j’avais intitulé en 1991 Comptes A rebours un essai collectif sur l’œuvre de Huysmans. Dois-je préciser que ces livres ne nous ont jamais rapporté un sou ?

Etienne Brunet, Écrits choisis Volume 1 : Comptes d’auteurs. Études statistiques. De Rabelais à Gracq. Textes édités par Damon Mayaffre, préface Henri Béhar, Champion, Paris, Collection Lettres numériques, 2009.

Notice : En recueillant seize études et un DVD associé, ce livre d'Étienne Brunet participe au renouveau des recherches littéraires. Les grands auteurs de trois siècles de littérature française, de Du Bellay à Gracq, de Rabelais à Le Clézio, sont relus en articulant la poétique traditionnelle et l'herméneutique numérique en devenir. L'auteur combine lecture qualitative et lecture quantitative assistée par ordinateur. Il met l'hypothèse de travail à l'épreuve de la machine et appuie l'intuition du chercheur par la statistique textuelle. Loin d'être minoré, le plaisir du texte s'en trouve vivifié. Si l'accent est souvent mis sur la dimension lexicale et thématique des œuvres, le lecteur trouvera aussi l'étude des parties du discours chez Balzac, des enchaînements syntaxiques chez Flaubert, des temps verbaux chez Zola, de la phrase chez Proust, des rimes chez Hugo, Verlaine ou Rimbaud, etc. Surtout, et pour la première fois, il trouvera associés de manière complémentaire dans ce volume les conclusions arrêtées de trente-cinq ans d'analyses littéraires et l'outil de recherche qui les a permises. Sur le DVD, la consultation des bases traitées par le logiciel HYPERBASE permet à la fois la lecture hypertextuelle d'une masse considérable de textes (Rabelais, Corneille, Racine, Rousseau, Hugo, Sand, Giraudoux, Colette, France, etc.) et la mise en œuvre, dans de nouvelles analyses, de la méthodologie de traitement présentée. Étienne Brunet est professeur émérite à l'Université de Nice et fondateur du laboratoire Bases, Corpus et Langage. Il est spécialiste d'informatique et de statistique appliquées aux études de textes, et l'auteur du logiciel Hyperbase. Il a publié des ouvrages sur Hugo, Zola, Proust, Giraudoux, et sur le vocabulaire français de 1789 à nos jours.

Voir comptes rendus de cet ouvrage :

Texte de ma préface :

De la mesure avant toute chose

J’ai toujours été frappé par cette césure (dont je suis moi-même la victime) entre la connaissance des mathématiques et celle de la littérature, entre ce que Pascal nommait, avec le vocabulaire de son temps, l’esprit de géométrie et l’esprit de finesse, ou pour le dire plus trivialement, entre les chiffres et les lettres. Le jeu télévisé le plus ancien, le plus populaire, et le plus regardé se nomme « Des chiffres et des lettres ». Associant deux séquences, « le mot le plus long » et « le compte est bon », il est réputé reposer sur les compétences en calcul et sur la connaissance du vocabulaire des candidats. Alors que j’avais la responsabilité du département audio-visuel et informatique de l’université, je trouvais le couloir menant aux salles techniques trop austère et l’avais fait égayer par un poste de télévision, fonctionnant en permanence. Il suffisait d’un seul coup d’œil pour constater que cette émission recueillait le maximum de téléspectateurs spontanés. Je suppose que ceux-ci joignaient sans difficulté aucune des compétences en calcul et en vocabulaire. Paradoxalement, la fréquentation n’était plus la même dans les salles de cours qui annonçaient des programmes de statistique lexicale ! Pourquoi ce qui s’annonce comme jeu, et qui requiert des compétences dans les domaines si éloignés des mathématiques et du vocabulaire, devient-il rébarbatif, incompréhensible, obscur, lorsque l’on en traite sérieusement ? Pourquoi le même étudiant séduit par l’émission ne se saisirait-il pas des questions qu’inlassablement Étienne Brunet pose à la littérature, et je dirais même à la grande littérature ?

*   *   *

En effet, celui-ci, refusant la césure initiale évoquée ci-dessus, s’est spécialisé dans l’étude chiffrée des grands ensembles littéraires. Et là encore, je ne laisse pas de m’étonner du comportement global de nos contemporains, qui apprécient avec le plus grand sérieux les sondages quotidiens que leur prodigue la presse, examinent les analyses factorielles des correspondances (AFC) des magazines en hochant savamment du bonnet, mais prétendent ignorer le nombre de mots d’A la recherche du temps perdu, la longueur moyenne de chacune de ses phrases, etc. comme s’il y avait là un sacrilège, une atteinte à la majesté, à l’éminente dignité des Lettres ! Après sa thèse sur la structure et l’évolution du vocabulaire de Jean Giraudoux (1), Étienne Brunet a dédié ses jours et ses nuits, en quelque sorte, à la mise en valeur des textes engrangés sur les ordinateurs de l’ex-Trésor de la langue française (devenu par la suite l’Institut national de la langue française et maintenant le Centre national de ressources textuelles et lexicales). L’ensemble du vocabulaire français depuis la Révolution (2) d’abord, puis les grands massifs que sont les œuvres de Marcel Proust, d’Émile Zola, de Victor Hugo, toujours à partir des données stockées à Nancy, soigneusement complétées et révisées par ses soins (3). Non sans avoir, au passage, contribué, par des index et des concordances, à la constitution du corpus rousseauiste (4). À tout cela s’ajoutent, depuis 1995, des publications numériques, sous la forme privilégiée du CD-Rom, choisi pour sa capacité de stockage, sa maniabilité et l’éternelle durée qui lui était alors prédite. Le lecteur aurait intérêt à se familiariser avec son Rabelais, son Balzac (disponible aussi sur Internet), son Rimbaud, son Pascal, son Proust, en somme avec l’infinie production qu’il élabore dans son personnel laboratoire niçois et confie généreusement aux éditeurs assez lucides pour les diffuser et les distribuer (5). Je ne mentionnerai que pour mémoire le premier ouvrage du genre, considéré comme un prototype de ce qu’aurait pu devenir le support d’étude d’une œuvre littéraire sous l’œil de son auteur, le CD-Rom Julien Gracq, retiré de la vente au dernier moment, ou encore le Paul Éluard, sur lesquels je reviendrai nécessairement. Outre les facilités documentaires que procurent de tels ouvrages (concordances, contextes, listes de mots, etc.), ils permettent un grand nombre d’études auxquelles s’adonne Étienne Brunet dans les articles présentement réunis. En résumé, celles-ci portent sur la statistique des grands corpus, leur structure, leur évolution interne, leurs grandes tendances, les mots en expansion ou en régression, la richesse et la variété lexicale, les spécificités internes à l’œuvre ou externes (par rapport à une période, un genre donné, etc.). Je n’aurai pas l’outrecuidance de discuter ici la notion complexe et fort subjective de « richesse lexicale », tant débattue ailleurs. Il suffit de savoir qu’Étienne Brunet a conçu pour cela son indice W, détaillé dans sa thèse sur Giraudoux. Avec lui, nul ne peut ignorer les caractéristiques essentielles du vocabulaire dans les œuvres de nos grands écrivains et même, plus généralement, dans les textes français du XVIe siècle à nos jours.

*   *   *

Au commencement, et compte tenu de cette fracture constitutive de nos esprits, les rares littéraires qui s’aventuraient dans l’étude statistique du vocabulaire devaient s’adresser à l’ingénieur ou au technicien, en formulant poliment une requête qui ne devait comporter aucune lacune : — Oh ! Vénérable grand maître de la Machine, pourrais-tu, dans ta magnanimité sans pareille, me procurer une sortie de toutes les fins de romans enregistrés dans tes augustes machines ? — Oui, mon petit, mais ça va prendre du temps. — Pas grave, si je peux en prendre texte pour des études inégalables !

Au bout du compte, après avoir attendu quelques mois, je vis arriver chez moi (le lecteur aura compris que je parle de ma seule expérience) un énorme paquet de sorties d’ordinateur me donnant tout simplement les textes en question dans l’ordre inverse ! Sans doute mal formulée, ma question, mal comprise, avait produit un monstre. Plus avisé que moi, et plus courageux, Étienne Brunet, fin littéraire comme chacun sait, s’est mué en statisticien d’abord, en analyste-programmeur ensuite, incontestablement conquis par le langage Pascal ! Car tout en lui nous parle de Pascal, l’auteur des Provinciales mais aussi l’inventeur du calcul des probabilités et de la machine à calculer dite Pascaline ! Il est lui-même le témoin et l’acteur de l’évolution, que dis-je, de la révolution qui nous fit passer en quelques années de l’informatique à la micro-informatique, et de la machine isolée au réseau mondial. Après avoir travaillé sur les grosses machines de Sophia-Antipolis, il a su, sans rien réduire de ses ambitions de chercheur, s’adapter à l’ordinateur personnel, ayant d’abord dompté le transfert des données par les différents réseaux qui se sont succédé jusqu’au règne universel d’Internet. Simultanément, les programmes dédiés à l’étude du vocabulaire ont évolué, passant de l’examen des formes graphiques aux catégories du discours. On se lamente toujours : les machines ne savent « lire » ou repérer qu’une chaine de mots, une suite de lettres séparées par une ponctuation ou un espace blanc. Ne serait-ce qu’avec cette limite, il est possible d’examiner le lexique d’un auteur, et, par l’étude des co-occurrences, de passer à ce que Brunet nomme des « thèmes » ou champs lexicaux (je dirais plutôt concepts-clé) : le bestiaire de Colette, les couleurs chez Rimbaud, le temps chez Proust, le vocabulaire religieux... De là l’ambition de caractériser la « vision du monde » de chaque auteur, d’autres disent « les univers lexicaux », par la seule approche statistique. Mais, heureusement, d’autres programmes (CORDIAL, FRANTEXT) deviennent assez sûrs pour étiqueter objectivement les catégories grammaticales et permettre, lorsque l’étude l’exige, une lemmatisation du vocabulaire, autrement dit sa réduction à l’état du dictionnaire. Je précise que pour l’examen d’un texte littéraire et plus précisément de la poésie, la lemmatisation m’a toujours paru manquer son objet, comme si l’on voulait décrire un pavillon de banlieue avec les normes de Le Corbusier. Mais je conçois que lorsqu’on s’intéresse aux grands ensembles, on éprouve le besoin de les définir dans leurs plus grandes lignes, par catégories normalisées. De même, on veut aller jusqu’à l’étude de la structure syntaxique des textes. Et si les logiciels pour ce faire ne sont pas tout à fait au point, on peut y remédier par un rapide détour, dont Étienne Brunet est le maître, les mots grammaticaux indiquant la subordination, par exemple ; la ponctuation donnant le rythme, la longueur des phrases... Outre ces ouvrages monumentaux à longue portée, le maître de la statistique lexicale s’est fait une obligation de produire un certain nombre d’outils qu’il a mis à la disposition de la communauté des chercheurs et du public intéressé. Leur titre exact indique assez leur objet et leur utilité :

  • CD-rom THIEF (Tools for Helping Interrogation and Exploitation of Frantext), base statistique pour Mac et PC, on line et off line (12 tranches chronologiques, de 1500 à 1990, 117 millions de mots), InaLF (Nice), 1996.
  • CD-rom BALZAC (prototype), en collaboration avec le Professeur Kiriu (Tokyo), version Mac et PC, 1996.
  • BALZAC SUR INTERNET, en collaboration avec le Professeur KIRIU (Tokyo). Concordances et contextes de la Comédie humaine, (adresse: http://lolita.unice.fr), 1996.
  • CD-rom FRANCIL, Base textuelle sur le français en francophonie (oral, presse et littérature), pour Mac et PC, 76 textes, 4,5 millions de mots, AUPELF-UREF, INaLF (Nice), 1998
  • CD-rom BATELIER (Base de Textes Littéraires pour l'Enseignement et la Recherche), coédition MEN, InaLF et Champion, 1998 (Mac et PC).
  • Base statistique ÉCRIVAINS (70 auteurs du 17e au 20e siècle, 55 millions de mots). Données numériques extraites de Frantext, sur CD-Rom bistandard Mac et PC, INaLF (Nice), 1999, (Mac et Pc).

Outre diverses bases textuelles, non commercialisées, sur La Fontaine, George Sand, Nerval, Baudelaire, Maupassant, Jules Verne, Saint-John Perse, son chef-d’œuvre absolu à mes yeux est incontestablement le logiciel HYPERBASE, qui résume à peu près toutes ses approches, avec ses multiples fonctions documentaires et statistiques. Destiné à un large public, il devrait faire partie de la panoplie de tout étudiant en Lettres et sciences humaines, puisqu’aussi bien il peut traiter des corpus tant littéraires qu’historiques ou journalistiques. La brochure didactique qui l’accompagne est assez claire et explicite pour qu’il soit inutile d’en détailler les différents chapitres. Pour résumer, et dans un esprit conforme à ce que devrait être la recherche en littérature, je dirais que toutes les études ici réunies peuvent être réalisées et vérifiées (au sens scientifique du terme) par le lecteur, pour peu qu’il dispose du texte numérisé. J’ajoute, et ce n’est pas le moindre mérite des travaux d’Étienne Brunet, qu’il sait en rendre compte très clairement, avec cette pointe d’humour giralducienne dont on dit qu’elle est propre aux Normaliens. Ainsi, d’entrée de jeu : « L’ordinateur ignore la pudeur », ou encore à propos des rimes de Victor Hugo, affirmant à la suite de Valéry, non sans l’avoir vérifié par lui-même sur le corpus étudié, que la deuxième est inspirée, la première obtenue par recherche et transpiration. Le portrait qu’il trace de son condisciple Gilbert Cesbron, et la rare évocation de sa jeunesse (à propos de Julien Gracq) me font penser qu’il y a chez lui un romancier refoulé, ou plutôt un narrateur qui se met à l’abri des lois mathématiques pour ne pas laisser affleurer sa personnalité sensible.

*   *   *

Ce volume rassemble des articles qui, d’une façon générale, peuvent servir d’introduction à l’utilisation des outils et des ouvrages mentionnés ci-dessus. Au-delà, il porte témoignage sur l’évolution des sciences et des techniques relatives à cette branche singulière des études littéraires qu’est la statistique lexicale ou lexicométrie ou encore textométrie. On en aura l’illustration la plus nette avec l’article sur Giraudoux. De même, avec respect envers le pionnier que fut Guiraud, Brunet montre discrètement mais fermement ce que la machine autorise d’écrire aujourd’hui au sujet de Rimbaud, qui n’était que conjecture ou approximation chez le compteur de mots. Comme ses prédécesseurs de la Renaissance, l’homme universel qu’il est devenu s’est heurté, au cours de son travail, au problème, hélas incontournable, de la phynance (pour l’écrire comme le Père Ubu), sous son aspect le plus noble évidemment, qui a nom « droit d’auteur » et qui, grâce à l’emprise des héritiers de Walt Disney est désormais porté à 70 ans après la mort de l’écrivain. Ainsi ses réalisations sur Gracq, Éluard, etc., seront-elles disponibles, respectivement en 2077 et 2022, à moins que le législateur ne fasse une exception pour les travaux pédagogiques et de recherche ! Une autre solution, la plus simple mais non la plus réaliste, étant que l’éditeur du logiciel accepte de verser la quote part qui leur revient aux ayants droit. On s’est étonné que j’aie pu produire le CD-rom de la revue Europe (dont Etienne Brunet traite ici même), me demandant souvent lourdement comment j’avais pu surmonter ce délicat problème de droit d’auteur (au lieu d’apprécier les innombrables services qu’un tel ouvrage peut apporter à notre culture). Il n’y a là aucun détournement de la loi, et même aucun secret : c’est le propriétaire du titre (en l’occurrence Les Amis d’Europe, société que je préside) qui a réalisé une édition numérique de sa propre production, favorisant, par là-même, des travaux indispensables comme ceux de notre spécialiste des grands corpus. Le fait qu’il se soit intéressé, tout au long de sa carrière de chercheur, à de grands ensembles, lui permet d’avancer (toujours avec la prudence du Père Goriot) quelques lois promises à un bel avenir. D’une part, il y a la spécificité de chaque auteur, de chaque œuvre, mesurée à l’aune des autres écrivains de la même époque. Ainsi Flaubert passe du verbe au substantif ; inversement chez Proust le substantif cède la place au verbe, sous l’effet de préoccupations morales. Zola est moins riche que Proust et Giraudoux, mais son vocabulaire est plus concret. D’autre part, il semble bien que tous les corpus traités subissent la loi de prégnance des genres littéraires (cf. l’article sur Flaubert). C’est-à-dire que, quel que soit le corpus examiné, il est dominé par la contrainte du genre littéraire dans lequel il s’inscrit. Mais, dira-t-on, cette loi est peut-être valable pour les textes classiques, elle n’a aucune pertinence pour les œuvres de l’avant-garde, qui s’inscrivent en faux contre la typologie traditionnelle des genres ! Je puis témoigner, par mes propres observations, qu’il n’en est rien. À un certain niveau, toute œuvre littéraire finit par s’inscrire dans l’un des grands genres qui structurent le discours littéraire (prose, théâtre, poésie, correspondance, etc.). À cela s’ajoute une loi encore mystérieuse (dans la mesure où elle n’a pas été validée universellement), celle du vieillissement de l’artiste, se traduisant par la progression des verbes et la régression des substantifs au cours du temps.

*   *   *

Après une grande espérance, la réaction la plus générale que j’ai pu observer devant ces travaux de statistique lexicale, est de déception. On veut tout et tout de suite de la machine. Lorsque celle-ci, après un temps de calcul de plus en plus court, nous sort, par exemple, les spécificités de chaque chapitre d’un roman, le lecteur s’exclame : « mais je le savais déjà ! », ou encore : « il suffit de lire le texte en question pour savoir qu’il y est d’abord question de... et de... ». Cette réaction première est tout à fait justifiée. Cependant, je ferai remarquer à mon interlocuteur que son savoir n’était qu’intuitif et subjectif. Encore fallait-il prouver cette particularité du chapitre examiné, et l’établir scientifiquement, de manière incontestable ! Qu’on ne dise pas que le chercheur ne nous apprend rien, ou encore que la montagne accouche d’une souris ! Il nous prouve toujours quelque chose. Enfin la science de la littérature à laquelle nous aspirons tous (à côté de la critique, quelle que soit son obédience) peut s’appuyer sur des faits tangibles, incontestables et vérifiables. Tant et si bien qu’Étienne Brunet s’amuse souvent à vérifier « le sens commun », c’est-à-dire les opinions reçues à propos de tel ou tel auteur, de tel ou tel texte. « Enfin Malherbe vint » pour épurer le langage : on verra dans les pages qui suivent de quelle manière cela s’est produit. Mais Victor Hugo n’a pas mis le bonnet rouge à son dictionnaire ! Inversement, nous produisons des « illusions de lecture » en série et à n’importe quel sujet. Notre chercheur s’en vient remettre les choses en place, tranquillement et avec certitude. Savant de la Renaissance par sa capacité à concilier l’approche mathématique et littéraire des textes, Etienne Brunet a le même souci de répandre ses découvertes à l’ensemble du genre humain. Je ne connais pas de chercheur plus généreux, moins soucieux de sa gloire personnelle. Outre ces propriétés inhérentes au savant, il faut ajouter ce que la machine ne saurait nous dire : la qualité de lecture, la profondeur, la finesse qu’il apporte à l’examen des œuvres dont on peut s’assurer qu’il les connait mieux que quiconque.

Complément :

Mesures et démesure dans les lettres françaises au XXe siècle : hommage à Henri Béhar, professeur à la Sorbonne Nouvelle : théâtre, surréalisme et avant-gardes, informatique littéraire. Paris : H. Champion, 2007. 525 p. ; 23 x 16 cm. Une exploration des audaces et des expérimentations littéraires du XXe siècle selon plusieurs axes liés aux travaux et aux centres d'intérêt de H. Béhar, professeur émérite à la Sorbonne nouvelle : les rapports du théâtre et du réel, le surréalisme et les avant-gardes, le mythe platonicien de l'androgyne, l'informatique littéraire dans ses liens avec l'édition, la recherche, l'enseignement.


  1. Le Vocabulaire de Giraudoux. Structure et Évolution. Éditions Slatkine, Genève, l978, 688 p.
  2. Le Vocabulaire français de 1789 à nos jours, d’après les données du Trésor de la langue française. Préface de Paul Imbs. 1982. TLQ 17. 3 vol. 1836 p.
  3. Le Vocabulaire de Proust, avec l'Index complet et synoptique de A la recherche du temps perdu, Slatkine-Champion, 1918 p., 3 vol., 1983 (préface de J.Y. Tadié) ; Le Vocabulaire de Zola, suivi de l'Index complet et synoptique des Rougon-Macquart, 3 tomes, 472 p., 646 p., 357 p. et 5500 p. sur microfiches normalisées, Slatkine- Champion, 1985 (préface de H. Mitterand) ; Le vocabulaire de Victor Hugo, 1988, éditions Slatkine-Champion. Vol.1, 484 p., vol. 2, 637 p., vol. 3, 556 p., +27 microfiches normalisées contenant l'index synoptique des œuvres de Hugo (6878 p.).
  4. Index de l'Émile, XLIII-LIII, 583 p. Slatkine, 1980 ; Concordance de l'Émile, XV, 720 p. 1980 ; Index des Lettres écrites de la montagne, 344 p., 1983 ; Index des Considérations sur le gouvernement de Pologne et Index-concordance du Projet de constitution pour la Corse, 288 p., 1986 (en collaboration avec Léo Launay) ; Index de l'œuvre théâtrale et lyrique de J.-J. Rousseau (pour Le Devin de village, p. 375-390, en collaboration avec A. et G. Fauconnier), 1986.
  5. Je ne mentionne ici que les disques disponibles dans le commerce : CD-ROM RABELAIS, en collaboration avec Marie-Luce Demonet, version Mac et PC (avec l'aide de la Bibliothèque Nationale de France, de la Bibliothèque Municipale de Lyon, et du Centre National du Livre), éditions Les Temps qui courent, Paris, 1995 ; CD-ROM RIMBAUD, Éditions Champion, Paris, 1999, (Mac et Pc) ; CD-ROM PROUST, Éditions Champion, Paris, 1999, (Mac et Pc) ; CD-ROM PASCAL, Éditions Champion, Paris, 1999, (Mac et Pc) ; CD-ROM RABELAIS, Éditions Champion, Paris, 1999, (Mac et Pc).

ARTICLE PRÉCÉDENT
ARTICLE SUIVANT