L’analyse statistique des données textuelles repose sur des calculs permettant de rendre compte des similitudes qui existent entre les lignes et les colonnes du tableau précédent.
Plusieurs familles de méthodes permettent ces opérations :
le calcul des réponses caractéristiques, ou spécificités, permet de construire le profil de chacune des déclarations de politique générale : on recherche les formes lexicales que chaque Premier ministre privilégie, mais aussi celles qu’il évite. Autrement dit, on peut obtenir une caractérisation de chacune des formes du corpus par ses spécificités dans les différentes parties du corpus, ou rassembler pour chaque partie les formes de spécificité qu’elle atteste.
les méthodes factorielles produisent des représentations graphiques, sortes de cartes figurant les formes ou les déclarations : les proximités "géométriques" sur les cartes traduisent ainsi les liens statistiques.
les méthodes de classification automatique opèrent des regroupements en classes du vocabulaire mais aussi des parties et livrent des sous-index (Reinert, à paraître).
les calculs de distance permettent de porter un diagnostic de proximité ou d’éloignement entre des textes et une représentation graphique sous forme d’arbres de distances.


