French Treebank

Documentation

Documentation

Formats

Le corpus est disponible en quatre versions :

Type de fichier : Text*
Stations de travail : PC, Unix, MacOS
Format : XML

Choix d’annotation

Pour comprendre les choix d’annotation, merci de consulter la documentation :

Annotation morphosyntaxique (mots simples et mots composés)

Une étiquette morphosyntaxique comprend les champs suivants :

Pour les parties du discours, nous reprenons les étiquettes traditionnelles, sauf pour les pronoms personnels faibles (catégorie Clitique) et les mots étrangers (en citation, sans recatégorisation) étiquette comme tels (ET).

Les chiffres, les abréviations et la plupart des signes typographiques (y compris %) reçoivent une étiquette lexicale (le plus souvent NC).

Nous distinguons 13 categories lexicales, pour les mots simples comme pour les mots composés :

Chaque catégorie a des sous-catégories (qual, indef, int) pour les adjectifs par exemple, fort et faible pour les ponctuation, sauf les verbes. Certaines catégories ont des flexions : genre, nombre pour D, A, NP, NC, PRO, Cl ; nombre, personne, mode + temps pour V

Mots composés : sont notés comme composés (compound=yes) aussi bien les mots composés grammaticaux (peut-être) que les mots composés lexicaux, y compris les noms propres (Parti Communiste) qui correspondent à des entités nommées). Selon le contexte, une même séquence bien que est étiquetée mot composés (Cc) ou non (Adv + Cs). Certains mots composés peuvent être discontinus (maillot (doré) deux-pièces)

Annotation en constituants

Nous avons fait le choix d’annotations de surface, avec des structures assez plates, compatibles avec des cadres syntaxiques variés. Une version convertie automatiquement en dépendances lexicales existe également.

Nous distinguons 12 étiquettes syntagmatiques :

Nous annotons les constituants majeurs, avec des structures internes assez plates. Nous avons peu de syntagmes unaires (NP dominant un pronom ou un nom propre, AP pour un adjectif attribut ou épithète postnominal, VN dominant un verbe…): un adverbe seul ne forme pas un AdP.

Pour certaines séquences très contraintes (dates, adresses…), il est difficile de déterminer la tête et nous avons un NP sans constituants internes.

Nous n’avons pas de constituants discontinus.

De façon à être compatible avec différentes théories, nous n’avons pas de categories vides, ni de syntagme à tête fonctionnelle (DP ou CP). Nous autorisons des syntagmes sans tête (NP elliptique sans nom, phrases sans verbe...).

Pour les syntagmes verbaux, nous distinguons le noyau verbal (réduit aux clitiques, auxiliaires, negation et verbe), syntagme verbal infinitif et syntagme verbal participial (hors temps composés). Nous n’avons pas de syntagme verbal interne à une phrase simple à verbe conjugué.

Nous distinguons un syntagme coordonné, introduit par une conjonction de coordination: il n’est pas forcément inclus dans un autre syntagme (sauf SENT)

Annotation fonctionnelle

Nous annotons les fonctions grammaticales associées aux constituants majeurs et qui qui dépendent d'un verbe (ou d'un VN). Les autres fonctions (épithète, complément de nom, d’adjectif…) peuvent se déduire de la structure en constituants.

Nous distinguons 8 étiquettes fonctionnelles :

Un constituant a une seule fonction (au plus) sauf le noyau verbal qui porte les fonctions de ses clitiques internes (VN:SUJ/OBJ: je le vois)

Nous ne codons pas le sujet implicite de l’infinitif (souvent identique au sujet ou au complément du verbe principal).

Nous annotons les fonctions syntaxiques de surface : le sujet du passif est SUJ, le NP post-verbal à l’impersonnel est OBJ (Il est venu 3 hommes).

Les parenthétiques ont généralement la fonction MOD.

Les relatives n’ont pas de fonction, sauf celles qui sont extraposées ou clivées (MOD). Les syntagmes COORD n’ont pas de fonction sauf en cas coordinations multiples, ou chaque COORD a la même fonction ((COORD:SUJ:Ni Paul) (COORD:SUJ:ni Marie) ne viendra).

Dans la même phrase plusieurs constituants peuvent avoir la même fonction, ((NP:SUJ Paul) (VN:SUJ ment-il) ?).

Nous ne notons pas explicitement le lien entre tête et dépendants ; les dépendances à distance ne sont pas prises en compte ((NP:OBJ: Que) (VN:SUJ: veux-tu) (VPinf:OBJ: faire) ?)

Exemples

Historique des versions

L’actuelle version est la v1.0. Il s’agit de la première version complète du Corpus arboré pour le français, ce qui signifie que c’est la première fois que 100 % des phrases disposent d’un étiquetage morpho-syntaxique complet :

Avant la v1.0, plusieurs versions beta ont coexisté pour lesquelles seules quelques phrases disposaient des fonctions grammaticales.

Voici une liste de quelques-unes de ces versions :