Un corpus de référence pour le français
Une ressource lexicale et syntaxique richement annotée (et validée manuellement) pour les linguistes, utilisable en TAL.
- Projet initié en 1997, avec le soutien de l'IUF, du CNRS et du CNRTL
- 21 550 phrases (environ 664 500 tokens) du journal Le Monde (1990-1993)
- métadonnées : auteur, date, domaine (par article)
- Annotations lexicales (catégories, sous-catégories, flexion, mots composés avec composants) et syntaxiques (constituants majeurs, fonctions grammaticales) validées
- Corpus annoté téléchargeable (version 1.0 2016) en plusieurs formats (xml, Tiger-xml, PTB, CoNLL)
Le corpus arboré est diffusé gratuitement à des fins de recherche, sous réserve de la signature des conditions d’utilisation
Nous contacter pour obtenir une licence permettant une utilisation commerciale et le développement de produits dérivés
Citation : Abeillé, A., L. Clément, and F. Toussenel. 2003. "Building a treebank for French", in A. Abeillé (ed) Treebanks, Kluwer, Dordrecht. (p.165-187)
Le corpus a été annoté par des outils automatiques dédiés (Clément 2001) et corrigé à la main par plusieurs passages successifs sur les différentes annotations (mots composés, catégories lexicales, flexion, constituants majeurs, fonctions syntaxiques…)
Il est toujours possible que des erreurs subsistent. Si vous repérez une erreur potentielle, merci de vérifier dans les guides qu’il ne s’agit pas d’un choix d’annotation ; sinon, merci de nous la signaler.
Exemples d’annotation syntaxique
Sélectionnez une phrase
Sélectionnez le format de sortie
Affichage du format
			
			Une quinzaine de militaires libériens ont été transférés à Abidjan.
			<SENT argument="ETR" author="MINANGOY ROBERT" date="1990-01-19" nb="1015" textID="456">
    <NP fct="SUJ">
        <w cat="D" ee="D-ind-fs" ei="Dfs" lemma="un" mph="fs" subcat="ind">Une</w>
        <w cat="N" ee="N-C-fs" ei="NCfs" lemma="quinzaine" mph="fs" subcat="C">quinzaine</w>
        <PP>
            <w cat="P" ee="P" ei="P" lemma="de">de</w>
            <NP>
                <w cat="N" ee="N-C-mp" ei="NCmp" lemma="militaire" mph="mp" subcat="C">militaires</w>
                <AP>
                    <w cat="A" ee="A-qual-mp" ei="Amp" lemma="libérien" mph="mp" subcat="qual">libériens</w>
                </AP>
            </NP>
        </PP>
    </NP>
    <VN>
        <w cat="V" ee="V--P3p" ei="VP3p" lemma="avoir" mph="P3p" subcat="">ont</w>
        <w cat="V" ee="V--Kms" ei="VKms" lemma="être" mph="Kms" subcat="">été</w>
        <w cat="V" ee="V--Kmp" ei="VKmp" lemma="transférer" mph="Kmp" subcat="">transférés</w>
    </VN>
    <PP fct="P-OBJ">
        <w cat="P" ee="P" ei="P" lemma="à">à</w>
        <NP>
            <w cat="N" ee="N-P-ms" ei="NPms" lemma="Abidjan" mph="ms" subcat="P">Abidjan</w>
        </NP>
    </PP>
    <w cat="PONCT" ee="PONCT-S" ei="PONCTS" lemma="." subcat="S">.</w>
</SENT>
			
(SENT (NP-SUJ (D Une) (N quinzaine) (PP (P de) (NP (N militaires) (AP (A libériens))))) (VN (V ont) (V été) (V transférés)) (PP-P_OBJ (P à) (NP (N Abidjan))) (PONCT .))
			<s id="-1015">
    <graph root="-1015_1008">
        <terminals>
            <t id="-1015_1" word="Une" pos="D" lemma="un" num="s" subcat="ind" gen="f"/>
            <t id="-1015_2" word="quinzaine" pos="N" lemma="quinzaine" num="s" subcat="c" gen="f"/>
            <t id="-1015_3" word="de" pos="P" lemma="de"/>
            <t id="-1015_4" word="militaires" pos="N" lemma="militaire" num="p" subcat="c" gen="m"/>
            <t id="-1015_5" word="libériens" pos="A" lemma="libérien" num="p" subcat="qual" gen="m"/>
            <t id="-1015_6" word="ont" pos="V" pers="3" lemma="avoir" num="p" tense="pst" mood="ind"/>
            <t id="-1015_7" word="été" pos="V" lemma="être" num="s" tense="past" gen="m" mood="part"/>
            <t id="-1015_8" word="transférés" pos="V" lemma="transférer" num="p" tense="past" gen="m" mood="part"/>
            <t id="-1015_9" word="à" pos="P" lemma="à"/>
            <t id="-1015_10" word="Abidjan" pos="N" lemma="Abidjan" num="s" subcat="p" gen="m"/>
            <t id="-1015_11" word="." pos="PONCT" lemma="." subcat="s"/>
        </terminals>
        <nonterminals>
            <nt id="-1015_1001" cat="AP" >
                <edge label="" idref="-1015_5"/>
            </nt>
            <nt id="-1015_1002" cat="NP" >
                <edge label="" idref="-1015_4"/>
                <edge label="" idref="-1015_1001"/>
            </nt>
            <nt id="-1015_1003" cat="PP" >
                <edge label="" idref="-1015_3"/>
                <edge label="" idref="-1015_1002"/>
            </nt>
            <nt id="-1015_1004" cat="NP" fct="SUJ">
                <edge label="" idref="-1015_1"/>
                <edge label="" idref="-1015_2"/>
                <edge label="" idref="-1015_1003"/>
            </nt>
            <nt id="-1015_1005" cat="VN" >
                <edge label="" idref="-1015_6"/>
                <edge label="" idref="-1015_7"/>
                <edge label="" idref="-1015_8"/>
            </nt>
            <nt id="-1015_1006" cat="NP" >
                <edge label="" idref="-1015_10"/>
            </nt>
            <nt id="-1015_1007" cat="PP" fct="P_OBJ">
                <edge label="" idref="-1015_9"/>
                <edge label="" idref="-1015_1006"/>
            </nt>
            <nt id="-1015_1008" cat="SENT" >
                <edge label="SUJ" idref="-1015_1004"/>
                <edge label="" idref="-1015_1005"/>
                <edge label="P_OBJ" idref="-1015_1007"/>
                <edge label="" idref="-1015_11"/>
            </nt>
        </nonterminals>
    </graph>
</s>
			
1	Une	un	D	DET	sentid=flmf3_01000_01499ep-1015|g=f|n=s|s=ind	2	det	2	det
2	quinzaine	quinzaine	N	NC	g=f|n=s|s=c	8	suj	8	suj
3	de	de	P	P	_	2	dep	2	dep
4	militaires	militaire	N	NC	g=m|n=p|s=c	3	obj.p	3	obj.p
5	libériens	libérien	A	ADJ	g=m|n=p|s=qual	4	mod	4	mod
6	ont	avoir	V	V	m=ind|n=p|p=3|t=pst	8	aux.tps	8	aux.tps
7	été	être	V	VPP	g=m|m=part|n=s|t=past	8	aux.pass	8	aux.pass
8	transférés	transférer	V	VPP	g=m|m=part|n=p|t=past	0	root	0	root
9	à	à	P	P	_	8	p_obj	8	p_obj
10	Abidjan	Abidjan	N	NPP	g=m|n=s|s=p	9	obj.p	9	obj.p
11	.	.	PONCT	PONCT	s=s	8	ponct	8	ponct
			
			Aussi s’est-elle évertuée à torpiller tous les projets en faveur de Rhône-Rhin.
			<SENT argument="ECO" author="FAUJAS ALAIN" date="1990-01-19" nb="1067" textID="464">
        <w cat="ADV" ee="ADV" ei="ADV" lemma="aussi">Aussi</w>
        <VN fct="SUJ">
            <w cat="CL" ee="CL-refl-3fs" ei="CL3fs" lemma="il" mph="3fs" subcat="refl">s'</w>
            <w cat="V" ee="V--P3s" ei="VP3s" lemma="être" mph="P3s" subcat="">est</w>
            <w cat="CL" ee="CL-suj-3fs" ei="CL3fs" lemma="il" mph="3fs" subcat="suj">-elle</w>
            <w cat="V" ee="V--Kfs" ei="VKfs" lemma="évertuer" mph="Kfs" subcat="">évertuée</w>
        </VN>
        <VPinf fct="A-OBJ">
            <w cat="P" ee="P" ei="P" lemma="à">à</w>
            <VN>
                <w cat="V" ee="V--W" ei="VW" lemma="torpiller" mph="W" subcat="">torpiller</w>
            </VN>
            <NP fct="OBJ">
                <w cat="A" ee="A-ind-mp" ei="Amp" lemma="tout" mph="mp" subcat="ind">tous</w>
                <w cat="D" ee="D-def-mp" ei="Dmp" lemma="le" mph="mp" subcat="def">les</w>
                <w cat="N" ee="N-C-mp" ei="NCmp" lemma="projet" mph="mp" subcat="C">projets</w>
                <PP>
                    <w cat="P" compound="yes" ee="P" ei="P" lemma="en faveur de"> 
                        <w catint="P">en</w>
                        <w catint="N">faveur</w>
                        <w catint="P">de</w> 
                    </w>
                    <NP>
                        <w cat="N" ee="N-P-ms" ei="NPms" lemma="Rhône" mph="ms" subcat="P">Rhône</w>
                        <w cat="PONCT" ee="PONCT-W" ei="PONCTW" lemma="-" subcat="W">-</w>
                        <w cat="N" ee="N-P-ms" ei="NPms" lemma="Rhin" mph="ms" subcat="P">Rhin</w>
                    </NP>
                </PP>
            </NP>
        </VPinf>
        <w cat="PONCT" ee="PONCT-S" ei="PONCTS" lemma="." subcat="S">.</w>
</SENT>
			
(SENT (ADV Aussi) (VN-SUJ (CL s') (V est) (CL -elle) (V évertuée)) (VPinf-A_OBJ (P à) (VN (V torpiller)) (NP-OBJ (A tous) (D les) (N projets) (PP (P (P en) (N faveur) (P de)) (NP (N Rhône) (PONCT -) (N Rhin))))) (PONCT .))
			<s id="-1067">
    <graph root="-1067_1008">
        <terminals>
            <t id="-1067_1" word="Aussi" pos="ADV" lemma="aussi"/>
            <t id="-1067_2" word="s'" pos="CL" pers="3" lemma="il" num="s" subcat="refl" gen="f"/>
            <t id="-1067_3" word="est" pos="V" pers="3" lemma="être" num="s" tense="pst" mood="ind"/>
            <t id="-1067_4" word="-elle" pos="CL" pers="3" lemma="il" num="s" subcat="suj" gen="f"/>
            <t id="-1067_5" word="évertuée" pos="V" lemma="évertuer" num="s" tense="past" gen="f" mood="part"/>
            <t id="-1067_6" word="à" pos="P" lemma="à"/>
            <t id="-1067_7" word="torpiller" pos="V" lemma="torpiller" mood="inf"/>
            <t id="-1067_8" word="tous" pos="A" lemma="tout" num="p" subcat="ind" gen="m"/>
            <t id="-1067_9" word="les" pos="D" lemma="le" num="p" subcat="def" gen="m"/>
            <t id="-1067_10" word="projets" pos="N" lemma="projet" num="p" subcat="c" gen="m"/>
            <t id="-1067_11" word="en" pos="P" catint="P"/>
            <t id="-1067_12" word="faveur" pos="N" catint="N"/>
            <t id="-1067_13" word="de" pos="P" catint="P"/>
            <t id="-1067_14" word="Rhône" pos="N" lemma="Rhône" num="s" subcat="p" gen="m"/>
            <t id="-1067_15" word="-" pos="PONCT" lemma="-" subcat="w"/>
            <t id="-1067_16" word="Rhin" pos="N" lemma="Rhin" num="s" subcat="p" gen="m"/>
            <t id="-1067_17" word="." pos="PONCT" lemma="." subcat="s"/>
        </terminals>
        <nonterminals>
            <nt id="-1067_1001" cat="VN" fct="SUJ">
                <edge label="" idref="-1067_2"/>
                <edge label="" idref="-1067_3"/>
                <edge label="" idref="-1067_4"/>
                <edge label="" idref="-1067_5"/>
            </nt>
            <nt id="-1067_1002" cat="VN" >
                <edge label="" idref="-1067_7"/>
            </nt>
            <nt id="-1067_1003" cat="P" lemma="en_faveur_de" compound="yes">
                <edge label="" idref="-1067_11"/>
                <edge label="" idref="-1067_12"/>
                <edge label="" idref="-1067_13"/>
            </nt>
            <nt id="-1067_1004" cat="NP" >
                <edge label="" idref="-1067_14"/>
                <edge label="" idref="-1067_15"/>
                <edge label="" idref="-1067_16"/>
            </nt>
            <nt id="-1067_1005" cat="PP" >
                <edge label="" idref="-1067_1003"/>
                <edge label="" idref="-1067_1004"/>
            </nt>
            <nt id="-1067_1006" cat="NP" fct="OBJ">
                <edge label="" idref="-1067_8"/>
                <edge label="" idref="-1067_9"/>
                <edge label="" idref="-1067_10"/>
                <edge label="" idref="-1067_1005"/>
            </nt>
            <nt id="-1067_1007" cat="VPinf" fct="A_OBJ">
                <edge label="" idref="-1067_6"/>
                <edge label="" idref="-1067_1002"/>
                <edge label="OBJ" idref="-1067_1006"/>
            </nt>
            <nt id="-1067_1008" cat="SENT" >
                <edge label="" idref="-1067_1"/>
                <edge label="SUJ" idref="-1067_1001"/>
                <edge label="A_OBJ" idref="-1067_1007"/>
                <edge label="" idref="-1067_17"/>
            </nt>
        </nonterminals>
    </graph>
</s>
			
1	Aussi	aussi	ADV	ADV	sentid=flmf3_01000_01499ep-1067	5	mod	5	mod
2	s'	le/lui	CL	CLR	g=f|n=s|p=3|s=refl	5	aff	5	aff
3	est	être	V	V	m=ind|n=s|p=3|t=pst	5	aux.tps	5	aux.tps
4	-elle	il	CL	CLS	g=f|n=s|p=3|s=suj	5	suj	5	suj
5	évertuée	évertuer	V	VPP	g=f|m=part|n=s|t=past	0	root	0	root
6	à	à	P	P	_	5	a_obj	5	a_obj
7	torpiller	torpiller	V	VINF	m=inf	6	obj.p	6	obj.p
8	tous	tout	A	ADJ	g=m|n=p|s=ind	10	mod	10	mod
9	les	le	D	DET	g=m|n=p|s=def	10	det	10	det
10	projets	projet	N	NC	g=m|n=p|s=c	7	obj	7	obj
11	en	en	P	P	mwehead=P+|pred=y	10	dep	10	dep
12	faveur	faveur	N	NC	g=f|n=s|s=c|pred=y	11	dep_cpd	11	dep_cpd
13	de	de	P	P	pred=y	11	dep_cpd	11	dep_cpd
14	Rhône	Rhône	N	NPP	g=m|n=s|s=p	11	obj.p	11	obj.p
15	-	-	PONCT	PONCT	s=w	14	ponct	14	ponct
16	Rhin	Rhin	N	NPP	g=m|n=s|s=p	14	mod	14	mod
17	.	.	PONCT	PONCT	s=s	5	ponct	5	ponct
			
			La diminution paraît, toutefois, moins nette en France et en Italie.
			<SENT argument="ECO" author="LEMONDE" date="1990-01-19" nb="1093" textID="467">
    <NP fct="SUJ">
        <w cat="D" ee="D-def-fs" ei="Dfs" lemma="le" mph="fs" subcat="def">La</w>
        <w cat="N" ee="N-C-fs" ei="NCfs" lemma="diminution" mph="fs" subcat="C">diminution</w>
    </NP>
    <VN>
        <w cat="V" ee="V--P3s" ei="VP3s" lemma="paraître" mph="P3s" subcat="">paraît</w>
    </VN>
    <w cat="PONCT" ee="PONCT-W" ei="PONCTW" lemma="," subcat="W">,</w>
    <w cat="ADV" ee="ADV" ei="ADV" lemma="toutefois">toutefois</w>
    <w cat="PONCT" ee="PONCT-W" ei="PONCTW" lemma="," subcat="W">,</w>
    <AP fct="ATS">
        <w cat="ADV" ee="ADV" ei="ADV" lemma="moins">moins</w>
        <w cat="A" ee="A-qual-fs" ei="Afs" lemma="net" mph="fs" subcat="qual">nette</w>
    </AP>
    <PP fct="MOD">
        <w cat="P" ee="P" ei="P" lemma="en">en</w>
        <NP>
            <w cat="N" ee="N-P-fs" ei="NPfs" lemma="France" mph="fs" subcat="P">France</w>
        </NP>
        <COORD>
            <w cat="C" ee="C-C" ei="CC" lemma="et" subcat="C">et</w>
            <PP>
                <w cat="P" ee="P" ei="P" lemma="en">en</w>
                <NP>
                    <w cat="N" ee="N-P-fs" ei="NPfs" lemma="Italie" mph="fs" subcat="P">Italie</w>
                </NP>
            </PP>
        </COORD>
    </PP>
    <w cat="PONCT" ee="PONCT-S" ei="PONCTS" lemma="." subcat="S">.</w>
</SENT>
			
(SENT (NP-SUJ (D La) (N diminution)) (VN (V paraît)) (PONCT ,) (ADV toutefois) (PONCT ,) (AP-ATS (ADV moins) (A nette)) (PP-MOD (P en) (NP (N France)) (COORD (C et) (PP (P en) (NP (N Italie))))) (PONCT .))
			<s id="-1093">
    <graph root="-1093_1009">
        <terminals>
            <t id="-1093_1" word="La" pos="D" lemma="le" num="s" subcat="def" gen="f"/>
            <t id="-1093_2" word="diminution" pos="N" lemma="diminution" num="s" subcat="c" gen="f"/>
            <t id="-1093_3" word="paraît" pos="V" pers="3" lemma="paraître" num="s" tense="pst" mood="ind"/>
            <t id="-1093_4" word="," pos="PONCT" lemma="," subcat="w"/>
            <t id="-1093_5" word="toutefois" pos="ADV" lemma="toutefois"/>
            <t id="-1093_6" word="," pos="PONCT" lemma="," subcat="w"/>
            <t id="-1093_7" word="moins" pos="ADV" lemma="moins"/>
            <t id="-1093_8" word="nette" pos="A" lemma="net" num="s" subcat="qual" gen="f"/>
            <t id="-1093_9" word="en" pos="P" lemma="en"/>
            <t id="-1093_10" word="France" pos="N" lemma="France" num="s" subcat="p" gen="f"/>
            <t id="-1093_11" word="et" pos="C" lemma="et" subcat="c"/>
            <t id="-1093_12" word="en" pos="P" lemma="en"/>
            <t id="-1093_13" word="Italie" pos="N" lemma="Italie" num="s" subcat="p" gen="f"/>
            <t id="-1093_14" word="." pos="PONCT" lemma="." subcat="s"/>
        </terminals>
        <nonterminals>
            <nt id="-1093_1001" cat="NP" fct="SUJ">
                <edge label="" idref="-1093_1"/>
                <edge label="" idref="-1093_2"/>
            </nt>
            <nt id="-1093_1002" cat="VN" >
                <edge label="" idref="-1093_3"/>
            </nt>
            <nt id="-1093_1003" cat="AP" fct="ATS">
                <edge label="" idref="-1093_7"/>
                <edge label="" idref="-1093_8"/>
            </nt>
            <nt id="-1093_1004" cat="NP" >
                <edge label="" idref="-1093_10"/>
            </nt>
            <nt id="-1093_1005" cat="NP" >
                <edge label="" idref="-1093_13"/>
            </nt>
            <nt id="-1093_1006" cat="PP" >
                <edge label="" idref="-1093_12"/>
                <edge label="" idref="-1093_1005"/>
            </nt>
            <nt id="-1093_1007" cat="COORD" >
                <edge label="" idref="-1093_11"/>
                <edge label="" idref="-1093_1006"/>
            </nt>
            <nt id="-1093_1008" cat="PP" fct="MOD">
                <edge label="" idref="-1093_9"/>
                <edge label="" idref="-1093_1004"/>
                <edge label="" idref="-1093_1007"/>
            </nt>
            <nt id="-1093_1009" cat="SENT" >
                <edge label="SUJ" idref="-1093_1001"/>
                <edge label="" idref="-1093_1002"/>
                <edge label="" idref="-1093_4"/>
                <edge label="" idref="-1093_5"/>
                <edge label="" idref="-1093_6"/>
                <edge label="ATS" idref="-1093_1003"/>
                <edge label="MOD" idref="-1093_1008"/>
                <edge label="" idref="-1093_14"/>
            </nt>
        </nonterminals>
    </graph>
</s>
			
1	La	le	D	DET	sentid=flmf3_01000_01499ep-1093|g=f|n=s|s=def	2	det	2	det
2	diminution	diminution	N	NC	g=f|n=s|s=c	3	suj	3	suj
3	paraît	paraître	V	V	m=ind|n=s|p=3|t=pst	0	root	0	root
4	,	,	PONCT	PONCT	s=w	3	ponct	3	ponct
5	toutefois	toutefois	ADV	ADV	_	3	mod	3	mod
6	,	,	PONCT	PONCT	s=w	3	ponct	3	ponct
7	moins	moins	ADV	ADV	_	8	mod	8	mod
8	nette	net	A	ADJ	g=f|n=s|s=qual	3	ats	3	ats
9	en	en	P	P	_	3	mod	3	mod
10	France	France	N	NPP	g=f|n=s|s=p	9	obj.p	9	obj.p
11	et	et	C	CC	s=c	9	coord	9	coord
12	en	en	P	P	_	11	dep.coord	11	dep.coord
13	Italie	Italie	N	NPP	g=f|n=s|s=p	12	obj.p	12	obj.p
14	.	.	PONCT	PONCT	s=s	3	ponct	3	ponct