1 |
Strategies to select examples for Active Learning with Conditional Random Fields
|
|
|
|
In: CICLing 2017 - 18th International Conference on Computational Linguistics and Intelligent Text Processing ; https://hal.archives-ouvertes.fr/hal-01621338 ; CICLing 2017 - 18th International Conference on Computational Linguistics and Intelligent Text Processing, Apr 2017, Budapest, Hungary. pp.1-14 (2017)
|
|
BASE
|
|
Show details
|
|
2 |
Direct vs. indirect evaluation of distributional thesauri
|
|
|
|
In: Proceedings of the International Conference on Computational Linguistics, COLING ; International Conference on Computational Linguistics, COLING ; https://hal.archives-ouvertes.fr/hal-01394739 ; International Conference on Computational Linguistics, COLING, Dec 2016, Osaka, Japan (2016)
|
|
BASE
|
|
Show details
|
|
3 |
Distributional Thesauri for Information Retrieval and vice versa
|
|
|
|
In: Proceedings of Language and Resource Conference, LREC ; Language and Resource Conference, LREC ; https://hal.archives-ouvertes.fr/hal-01394770 ; Language and Resource Conference, LREC, May 2016, Portoroz, Slovenia (2016)
|
|
BASE
|
|
Show details
|
|
4 |
Thésaurus distributionnels pour la recherche d'information et vice-versa
|
|
|
|
In: Conférence en Recherche d’Information et Applications ; https://hal.archives-ouvertes.fr/hal-01226532 ; Conférence en Recherche d’Information et Applications, Mar 2015, Paris, France (2015)
|
|
BASE
|
|
Show details
|
|
5 |
Thésaurus distributionnels pour la recherche d'information et vice-versa
|
|
|
|
In: ISSN: 1279-5127 ; EISSN: 1963-1014 ; Document Numérique ; https://hal.archives-ouvertes.fr/hal-01226551 ; Document Numérique, Lavoisier, 2015, 18 (2-3), ⟨10.3166/DN.18.2-3.101-121⟩ (2015)
|
|
BASE
|
|
Show details
|
|
6 |
Stratégies de sélection des exemples pour l’apprentissage actif avec des champs aléatoires conditionnels
|
|
|
|
In: Actes de la conférence TALN 2015 ; Conférence TALN 2015 ; https://hal.archives-ouvertes.fr/hal-01206847 ; Conférence TALN 2015, Jun 2015, Caen, France (2015)
|
|
Abstract:
National audience ; Nowadays, many NLP problems are modelized as supervised machine learning tasks. Consequently, the cost of the expertise needed to annotate the examples is a widespread issue. Active learning offers a framework to that issue, allowing to control the annotation cost while maximizing the classifier performance, but it relies on the key step of choosing which example will be proposed to the expert.In this paper, we examine and propose such selection strategies in the specific case of Conditional Random Fields (CRF) which are largely used in NLP. On the one hand, we propose a simple method to correct a bias of certain state-of-the-art selection techniques. On the other hand, we detail an original approach to select the examples, based on the respect of proportions in the datasets. These contributions are validated over a large range of experiments implying several tasks and datasets, including named entity recognition, chunking, phonetization, word sens disambiguation. ; Beaucoup de problèmes de TAL sont désormais modélisés comme des tâches d’apprentissage supervisé.De ce fait, le coût des annotations des exemples par l’expert représente un problème important. L’apprentissage actif (active learning) apporte un cadre à ce problème, permettant de contrôler le coût d’annotation tout en maximisant, on l’espère, la performance de la tâche visée, mais repose sur le choix difficile des exemples à soumettre à l’expert. Dans cet article, nous examinons et proposons des stratégies de sélection des exemples pour le cas spécifique des champs aléatoires conditionnels (Conditional Random Fields, CRF), outil largement utilisé en TAL. Nous proposons d’une part une méthode simple corrigeant un biais de certaines méthodes de l’état de l’art. D’autre part, nous détaillons une méthode originale de sélection s’appuyant sur un critère de respect des proportions dans les jeux de données manipulés. Le bien-fondé de ces propositions est vérifié au travers de plusieurs tâches et jeux de données, incluant reconnaissance d’entités nommées, chunking, phonétisation, désambiguïsation de sens.
|
|
Keyword:
[INFO.INFO-AI]Computer Science [cs]/Artificial Intelligence [cs.AI]; [INFO.INFO-CL]Computer Science [cs]/Computation and Language [cs.CL]; [INFO.INFO-LG]Computer Science [cs]/Machine Learning [cs.LG]; active learning; apprentissage actif; apprentissage semi-supervisé; champs aléatoires conditionnels; conditional random fields; CRF; semi-supervised learning; statistical test of proportion; test statistique de proportion
|
|
URL: https://hal.archives-ouvertes.fr/hal-01206847
|
|
BASE
|
|
Hide details
|
|
7 |
Generating and using probabilistic morphological resources for the biomedical domain
|
|
|
|
In: Proceedings of the 9th edition of the Language Resources and Evaluation Conference, LREC 2014 ; 9th edition of the Language Resources and Evaluation Conference, LREC 2014 ; https://hal.archives-ouvertes.fr/hal-01027778 ; 9th edition of the Language Resources and Evaluation Conference, LREC 2014, May 2014, Reykjavik, Iceland. 7 p (2014)
|
|
BASE
|
|
Show details
|
|
8 |
Improving distributional thesauri by exploring the graph of neighbors
|
|
|
|
In: Proc of 25th International Conference on Computational Linguistics, COLING 2014 ; International Conference on Computational Linguistics, COLING 2014 ; https://hal.archives-ouvertes.fr/hal-01027545 ; International Conference on Computational Linguistics, COLING 2014, Aug 2014, Dublin, Ireland. 12 p (2014)
|
|
BASE
|
|
Show details
|
|
|
|