corpus
Définition
Un corpus est un ensemble organisé et structuré de textes, de documents ou de données, rassemblés dans un but précis, généralement pour une étude, une analyse ou une recherche. En linguistique, c'est une collection de textes écrits ou de transcriptions de paroles, utilisée pour étudier comment une langue fonctionne réellement. Par exemple, un linguiste peut créer un corpus de tweets pour analyser l'évolution de l'argot sur les réseaux sociaux. En histoire, un corpus peut être un ensemble de lettres ou de journaux intimes d'une même période. L'idée clé est que ce n'est pas une simple pile de documents, mais un échantillon représentatif et méthodiquement constitué pour répondre à une question de recherche. Aujourd'hui, avec l'informatique, on parle beaucoup de "corpus numériques", qui sont de vastes collections de textes électroniques analysables par des logiciels. Construire un bon corpus demande de définir des critères de sélection clairs (par exemple : quels auteurs ? quelle période ? quel type de textes ?) pour que les conclusions tirées de son analyse soient valables.
Définition simple
Un corpus est une collection organisée de textes ou de documents (comme des articles, des livres ou des enregistrements) que l'on rassemble pour les étudier et en tirer des informations. C'est comme une boîte à outils remplie d'exemples pour comprendre une langue ou un sujet.
✏️Exemples d'utilisation
- •"Pour son mémoire, l'étudiante a constitué un corpus de vingt romans fantastiques publiés au XXIe siècle."
- •"Les chercheurs analysent un large corpus de discours politiques pour y détecter les thématiques récurrentes."
- •"Ce dictionnaire a été rédigé à partir de l'analyse d'un corpus de plusieurs millions de mots tirés de la presse écrite."
💡À retenir
Le concept de corpus est fondamental dans la recherche moderne. Il permet de passer des impressions subjectives ("je trouve que...") à des observations objectives fondées sur des preuves concrètes. Travailler sur un corpus, c'est faire parler les données elles-mêmes. Que ce soit pour vérifier l'usage d'un mot, comprendre le style d'un écrivain ou étudier des discours politiques, le corpus sert de terrain d'observation solide. Son importance a explosé avec le traitement automatique des langues, où les algorithmes d'intelligence artificielle s'entraînent sur d'immenses corpus textuels pour générer des traductions ou comprendre le langage.
