Corpus français – L’encyclopédie vivante du français

Le Corpus français est une base de données composée de près de 37 millions de phrases, soit environ 700 millions de mots. Le corpus, dédié à l’étude du français contemporain écrit est composé en trois parties :

  • Informations tirées de journaux francophones (plus de 19 millions de phrases)
  • Pages web (plus de 11 millions de phrases)
  • Wikipédia (près de 6 millions de phrases)

L’information délivrée par cette base de données est tout simplement incroyable. Le site s’utilise comme un moteur de recherche et les résultats affichés sont encyclopédiques. Des citations sont proposées, et des mots similaires ou en rapport sont aussi indiqués ainsi que des graphiques.

Sur la page principale du site, avant d’effectuer une recherche on peut indiquer quel corpus on veut prendre en compte : le web (www), Wikipédia, les journaux ou tout.

On a donc une véritable encyclopédie vivante de la langue française contemporaine alimentée par Internet, le site Wikipédia et les journaux.

Voici ce que dit l’aide en ligne sur le site :

Le Corpus français est une base de textes de français contemporain comprenant 700 millions de mots. Il a été constitué à l’Université de Leipzig, dans le cadre des travaux de recherche du projet Leipzig Corpora Collection.
Le Corpus français est l’une des plus grandes bases de données du français ; il s’adresse à la fois au grand public et aux universitaires pour une utilisation dans le cadre d’études sur le français contemporain.

Pour commencer la recherche, il convient d’écrire le mot-clé dans la fenêtre prévue à cet effet et de cliquer sur « recherche ». Sur la page de résultats, on trouvera les informations suivantes:

  • rappel du mot-clé,
  • nombre total d’occurrences dans l’ensemble de la base de données,
  • catégorie de fréquence du mot-clé, ou fréquence relative en fonction du le plus courant du Corpus français,
  • liste d’exemples et lien vers des exemples supplémentaires contenant le mot-clé,
  • liste des mots qui présentent une affinité importante avec le mot-clé, c’est-à-dire des mots qui apparaissent souvent dans les mêmes phrases que le mot-clé,
  • liste des mots qui sont des voisins de gauche pertinents du mot-clé, c’est-à-dire des mots qui apparaissent fréquemment juste avant le mot-clé dans la même phrase,
  • liste des mots qui sont des voisins de droite pertinents du mot-clé, c’est-à-dire des mots qui apparaissent fréquemment juste après le mot-clé dans la même phrase,
  • graphes illustrant les relations sémantiques entre le mot-clé et les mots qui présentent une fréquence importante dans les mêmes phrases.
En utilisant un point d’interrogation (?) pour n’importe quelle lettre ou un astérisque (*) pour n’importe quelle suite de lettres, avant ou après le mot-clé, vous pouvez effectuer des recherches plus différenciées. Les résultats de la recherche apparaissent comme une liste de termes contenant le mot-clé. Pour accéder à la page de résultats de chacun de ces termes, il suffit de cliquer sur les mots individuels de la liste.
Ci-dessous un exemple avec le mot Bimbo