Sur le tableau lexicométrique des déclarations de politique générale, on peut voir, pour chaque discours, le nombre total d’occurrences (ou « taille ») et le nombre de formes distinctes (ou « vocabulaire »).
La forme lexicale "de" est généralement la plus employée (fmax). C’est le cas pour tous les Premiers ministres à une exception près : la déclaration de Michel Rocard en 1991, pour l’entrée de la France dans la première guerre du Golfe ; c’est "la".
Quoi qu’il en soit, la forme de fréquence maximale n’apparaît qu’une fois dans la colonne « formes ».
Une forme de fréquence 1 (n’apparaissant qu’une seule fois dans tout le corpus) est appelée « hapax ». Le nombre d’hapax donne une indication sur la richesse du vocabulaire employé. En effet, quelqu’un qui emploie beaucoup d’hapax révèle un souci d’éviter la répétition.
On peut également comparer la taille et le vocabulaire, c’est-à-dire diviser le nombre de formes distinctes par le nombre de formes total ; on obtient le type-token ratio (TTR).
Cet indice présente l’inconvénient de dépendre fortement de la longueur des corpus et ne peut donc être utilisé que pour comparer des textes de longueur équivalente. D’autres indices, faisant intervenir les rangs, sont cités par Lebart & Salem (1994, p.247). On se référera, également, à l’ouvrage de Labbé, Thoiron & Serant (1988).
A titre d’illustration, on peut représenter graphiquement la richesse : en abscisses, les premiers ministres sont rapportés par taille croissante et en ordonnées, le type-token ratio :
La relation entre la taille et la richesse est confirmée, mais on peut s’intéresser aux déclarations qui s’écartent le plus de la ligne de tendance (regression linéaire) :
Discours plus riches que la tendance : Chaban-Delmas, Messmer, Chirac (86), Rocard (88), Cresson (92), Fillon ;
Discours plus pauvres que la tendance : Chirac (87), Juppé (95 & 96), Balladur, Villepin, Raffarin.


