Le premier calcul possible est la distribution d’une forme (en ligne) dans les différentes parties du corpus (en colonnes).
Si l’on considère une forme lexicale particulière dans un corpus, les occurrences de cette forme peuvent se distribuer de façon équilibrée dans toutes les parties. Au contraire certaines parties peuvent révéler une fréquence de cette forme plus élevée que d’autres. Le premier cas est celui où la distribution se ferait "au hasard", et constitue une frontière au-delà ou en deçà de laquelle la forme présentera un "écart au hasard". On pourra alors déterminer si telle forme est plus ou moins spécifique de telle partie.
On peut également distinguer :
- une spécificité positive : forme sur-employée dans une partie par rapport à l’ensemble du corpus ou forme caractéristique, il s’agit d’une présence significative ;
- une spécificité négative : forme sous-employée dans cette partie par rapport au reste du corpus, il s’agit d’une absence significative.
Exemple : Prenons la forme
lexicale "France".
Quelle est sa distribution ? Est-elle représentée
de
façon équivalente dans toutes les déclarations
de
politique générale ?
Sur le graphe
des fréquences absolues on lira, en abscisses les déclarations
et, en ordonnées, le nombre d’occurrences de "France" dans
chacune des déclarations.
Le graphe
des fréquences relatives est identique, mais donne
la proportion d’utilisation de "France" par rapport nombre de mots de
chaque déclaration.
Sur le graphe
de spécificité on lira la
spécificité qui
pourra être positive (vers le haut) ou négative
(vers le
bas).
Mis à jour le mercredi 9 avril 2008


