1 |
Collecting and annotating corpora for three under-resourced languages of France: Methodological issues
|
|
|
|
In: ISSN: 1934-5275 ; EISSN: 1934-5275 ; Language Documentation & Conservation ; https://hal.archives-ouvertes.fr/hal-03273196 ; Language Documentation & Conservation, University of Hawaiʻi Press 2021, 15, pp.316-357 ; http://hdl.handle.net/10125/74645 (2021)
|
|
BASE
|
|
Show details
|
|
2 |
Collecting and annotating corpora for three under-resourced languages of France: Methodological issues
|
|
|
|
BASE
|
|
Show details
|
|
3 |
Collecting and annotating corpora for three under-resourced languages of France: Methodological issues
|
|
Bernhard, Delphine; Ligozat, Anne-Laure; Bras, Myriam; Martin, Fanny; Vergez-Couret, Marianne; Erhart, Pascale; Sibille, Jean; Todirascu, Amalia; Boula de Mareüil, Philippe; Huck, Dominique. - : University of Hawaii Press, 2021
|
|
Abstract:
In contrast to French, the vast majority of regional languages of France can be considered as under-resourced. In this article, we present the results of a research project aiming to produce annotated resources for three regional languages of France: Alsatian, Occitan, and Picard. These languages cover three different language families (Germanic and two subfamilies of Romance, Oïl and Oc languages) and different sociolinguistic situations. Yet, they all face issues common to many under-resourced languages: lack of human and financial resources and presence of geolinguistic variation. The originality of this project is that it brought together researchers from different fields (sociolinguistics, descriptive linguistics, dialectology, natural language processing, digital humanities) to work together towards the common goal of developing annotated corpora for Alsatian, Occitan, and Picard. This created a favorable and stimulating working environment which could not have been achieved had different research groups worked independently, each on a single language. This article details the annotation process, with a special focus on the delimitation of the tokens and the definition of the part-of-speech tags. ; National Foreign Language Resource Center
|
|
Keyword:
Alsatian; annotations; corpus; Occitan; part-of-speech; Picard; tokenization
|
|
URL: http://hdl.handle.net/10125/74645
|
|
BASE
|
|
Hide details
|
|
4 |
Enseigner le picard au XXIème siècle : pour qui, comment ?
|
|
|
|
In: Variation et enseignement des langues le cas des langues à faible diffusion ; https://hal.archives-ouvertes.fr/hal-03215161 ; Variation et enseignement des langues le cas des langues à faible diffusion, 2020 (2020)
|
|
BASE
|
|
Show details
|
|
12 |
Espaces et lieux de la langue en Picardie au XXIème siècle. Retour sur un travail de thèse de doctorat
|
|
|
|
In: ISSN: 0220-665X ; Bien dire et bien aprandre - Revue de médiévistique ; https://hal.archives-ouvertes.fr/hal-01552667 ; Bien dire et bien aprandre - Revue de médiévistique, Centre d'études médiévales et dialectales, 2017, Le picard moderne : un état de la recherche, pp.177-186 (2017)
|
|
BASE
|
|
Show details
|
|
13 |
Le projet RESTAURE, un tremplin pour le picard
|
|
|
|
In: ISSN: 1270-2412 ; La Bretagne Linguistique ; https://hal.archives-ouvertes.fr/hal-01552677 ; La Bretagne Linguistique, Centre de Recherche Bretonne et Celtique, 2017 (2017)
|
|
BASE
|
|
Show details
|
|
14 |
« PICARTEXT : une expérience de base de données en langue régionale »
|
|
|
|
In: ISSN: 0220-665X ; Bien dire et bien aprandre - Revue de médiévistique ; https://hal.archives-ouvertes.fr/hal-01552650 ; Bien dire et bien aprandre - Revue de médiévistique, Centre d'études médiévales et dialectales, 2017, Le picard moderne : un état de la recherche, pp. 187-196 (2017)
|
|
BASE
|
|
Show details
|
|
15 |
« L'évolution du modèle lexicographique français : vers une « picardisation » ? »
|
|
|
|
In: Dictionnaires, culture numérique et décentralisation de la norme dans l’espace francophone ; https://hal.archives-ouvertes.fr/hal-01552641 ; Dictionnaires, culture numérique et décentralisation de la norme dans l’espace francophone, Sep 2016, Sherbrooke, Canada (2016)
|
|
BASE
|
|
Show details
|
|
16 |
Activités de médiation et pratiques langagières dans les institutions « totalitaires » : entre tension, reproduction et créativité.
|
|
|
|
In: ISSN: 1583-2236 ; SCF-LSA ; https://hal.archives-ouvertes.fr/hal-03586730 ; SCF-LSA, UNIVERSITATEA DIN PITEŞTI, 2016 (2016)
|
|
BASE
|
|
Show details
|
|
18 |
PICARTEXT : a computerized resource for picard ; PICARTEXT : Une ressource informatisée pour la langue picarde
|
|
|
|
In: 22ème Traitement Automatique des Langues Naturelles, Caen, 2015 ; https://hal.archives-ouvertes.fr/hal-01305544 ; 22ème Traitement Automatique des Langues Naturelles, Caen, 2015, Jun 2015, Caen, France (2015)
|
|
BASE
|
|
Show details
|
|
19 |
PICARTEXT : Une ressource informatisée pour la langue picarde
|
|
|
|
In: 22ème Traitement Automatique des Langues Naturelles, Caen ; 22ème Traitement Automatique des Langues Naturelles ; https://hal.archives-ouvertes.fr/hal-01292724 ; 22ème Traitement Automatique des Langues Naturelles, Jun 2015, Caen, France (2015)
|
|
BASE
|
|
Show details
|
|
20 |
Le patrimoine numérisé et la recherche appliquée en TAL: PICARTEXT
|
|
|
|
In: 2e journée professionnelle du réseau Occitanica CIRDOC ; https://hal.archives-ouvertes.fr/hal-01417252 ; 2e journée professionnelle du réseau Occitanica CIRDOC, May 2015, Béziers, France (2015)
|
|
BASE
|
|
Show details
|
|
|
|