1 |
Plongements Interprétables pour la Détection de Biais Cachés
|
|
|
|
In: à paraître : Actes de la 28e Conférence sur le Traitement Automatique des Langues Naturelles. Volume 1 : conférence principale ; Traitement Automatique des Langues Naturelles (TALN 2021) ; https://hal.archives-ouvertes.fr/hal-03265888 ; Traitement Automatique des Langues Naturelles (TALN 2021), 2021, Lille, France. pp.64-80 ; https://talnrecital2021.inria.fr/articles-acceptes/ (2021)
|
|
Abstract:
International audience ; A lot of current semantic NLP tasks use semi-automatically collected data, that are often prone to unwanted artifacts, which may negatively affect models trained on them. With the more recent shift towards more complex, and less interpretable, pre-trained general purpose models, these biases may lead to undesirable correlations getting integrated into end-user applications. Recently a few methods have been proposed to train word embeddings with better interpretability. We propose a simple setup which exploits these representations to preemptively detect easy-to-learn lexical correlations in various datasets. We evaluate a few popular interpretable embedding models for English for this purpose, using both an intrinsic evaluation, and a large set of downstream semantic tasks, and we make use of the embeddings’ interpretable quality in order to diagnose potential biases in the associated datasets. ; De nombreuses tâches sémantiques en TAL font usage de données collectées de manière semiautomatique, ce qui est souvent source d’artefacts indésirables qui peuvent affecter négativement les modèles entraînés sur celles-ci. Avec l’évolution plus récente vers des modèles à usage générique pré-entraînés plus complexes, et moins interprétables, ces biais peuvent conduire à l’intégration de corrélations indésirables dans des applications utilisateurs. Récemment, quelques méthodes ont été proposées pour entraîner des plongements de mots avec une meilleure interprétabilité. Nous proposons une méthode simple qui exploite ces représentations pour détecter de manière préventive des corrélations lexicales faciles à apprendre, dans divers jeux de données. Nous évaluons à cette fin quelques modèles de plongements interprétables populaires pour l’anglais, en utilisant à la fois une évaluation intrinsèque, et un ensemble de tâches sémantiques en aval, et nous utilisons la qualité interprétable des plongements afin de diagnostiquer des biais potentiels dans les jeux de données associés.
|
|
Keyword:
[INFO.INFO-CL]Computer Science [cs]/Computation and Language [cs.CL]; Biais; Interprétabilité; Plongements lexicaux
|
|
URL: https://hal.archives-ouvertes.fr/hal-03265888 https://hal.archives-ouvertes.fr/hal-03265888/document https://hal.archives-ouvertes.fr/hal-03265888/file/24.pdf
|
|
BASE
|
|
Hide details
|
|
2 |
Prédire l'aspect linguistique en anglais au moyen de transformers
|
|
|
|
In: à paraître : Actes de la 28e Conférence sur le Traitement Automatique des Langues Naturelles. Volume 1 : conférence principale ; Traitement Automatique des Langues Naturelles (TALN 2021) ; https://hal.archives-ouvertes.fr/hal-03265894 ; Traitement Automatique des Langues Naturelles (TALN 2021), 2021, Lille, France. pp.209-218 ; https://talnrecital2021.inria.fr/articles-acceptes/ (2021)
|
|
BASE
|
|
Show details
|
|
3 |
Composition of Embeddings : Lessons from Statistical Relational Learning
|
|
|
|
In: Proceedings of SEM 2019 ; 8th Joint Conference on Lexical and Computational Semantics (SEM 2019) ; https://hal.archives-ouvertes.fr/hal-02397476 ; 8th Joint Conference on Lexical and Computational Semantics (SEM 2019), Jun 2019, Minneapolis, United States. pp.33-43 (2019)
|
|
BASE
|
|
Show details
|
|
4 |
Mining Discourse Markers for Unsupervised Sentence Representation Learning
|
|
|
|
In: Proceedings of the 2019 Conference of the North American Chapter of the Association for Computational Linguistics: Human Language Technologies, Volume 1 (Long and Short Papers) ; Conference of the North American Chapter of the Association for Computational Linguistics: Human Language Technologies (NAACL 2019) ; https://hal.archives-ouvertes.fr/hal-02397473 ; Conference of the North American Chapter of the Association for Computational Linguistics: Human Language Technologies (NAACL 2019), Jun 2019, Minneapolis, United States. pp.3477-3486 (2019)
|
|
BASE
|
|
Show details
|
|
5 |
Content vs. function words: The view from distributional semantics ...
|
|
|
|
BASE
|
|
Show details
|
|
6 |
Content vs. function words: The view from distributional semantics
|
|
|
|
In: Sinn und Bedeutung; Bd. 22 Nr. 1 (2018): Proceedings of Sinn und Bedeutung 22; 1-21 ; Proceedings of Sinn und Bedeutung; Vol 22 No 1 (2018): Proceedings of Sinn und Bedeutung 22; 1-21 ; 2629-6055 (2019)
|
|
BASE
|
|
Show details
|
|
8 |
Lexical vs. logical words: the view from Distributional Semantics
|
|
|
|
In: Proceedings fo Sinn und Bedeutung ; https://halshs.archives-ouvertes.fr/halshs-02381667 ; Proceedings fo Sinn und Bedeutung, 2018, Berlin, Germany (2018)
|
|
BASE
|
|
Show details
|
|
9 |
Content vs. function words: the view from distributional semantics
|
|
|
|
In: ISSN: 1435-9588 ; ZAS Papers in Linguistics (ZASPiL) ; https://jeannicod.ccsd.cnrs.fr/ijn_03247051 ; ZAS Papers in Linguistics (ZASPiL), Leibniz-Zentrum Allgemeine Sprachwissenschaft (ZAS) 2018, Proceedings of Sinn und Bedeutung 22, 1, 60, pp.1-21. ⟨10.21248/zaspil.60.2018.451⟩ ; https://zaspil.leibniz-zas.de/article/view/451 (2018)
|
|
BASE
|
|
Show details
|
|
10 |
Content vs. function words: the view from distributional semantics ...
|
|
|
|
BASE
|
|
Show details
|
|
11 |
Système d’ensemble pour la classification de tweets, DEFT 2017
|
|
|
|
In: Atelier Défi Fouille de Textes : Analyse d'opinion et langage figuratif dans des tweets en français@ TALN/RECITAL 2017 (DEFT 2017) ; https://hal.archives-ouvertes.fr/hal-03120281 ; Atelier Défi Fouille de Textes : Analyse d'opinion et langage figuratif dans des tweets en français@ TALN/RECITAL 2017 (DEFT 2017), Jun 2017, Orléans, France. pp.27-31 ; http://talnarchives.atala.org/ateliers/2017/DEFT/2.pdf (2017)
|
|
BASE
|
|
Show details
|
|
12 |
Types, meanings and co-composition in lexical semantics
|
|
|
|
In: Modern Perspectives in Type-Theoretical Semantics ; https://hal.archives-ouvertes.fr/hal-03131888 ; Chatzikyriakidis, Stergios; Zhaohui, Luo. Modern Perspectives in Type-Theoretical Semantics, 98, Springer, pp.135--161, 2017, Studies in Linguistics and Philosophy book series (SLAP), 978-3319504209. ⟨10.1007/978-3-319-50422-3_6⟩ ; https://link.springer.com/chapter/10.1007/978-3-319-50422-3_6 (2017)
|
|
BASE
|
|
Show details
|
|
14 |
Integrating Type Theory and Distributional Semantics: A Case Study on Adjective–Noun Compositions
|
|
|
|
In: ISSN: 0891-2017 ; EISSN: 1530-9312 ; Computational Linguistics ; https://hal-ens.archives-ouvertes.fr/hal-01678831 ; Computational Linguistics, Massachusetts Institute of Technology Press (MIT Press), 2016, 42 (4), pp.703 - 725. ⟨10.1162/COLI_a_00264⟩ (2016)
|
|
BASE
|
|
Show details
|
|
16 |
A Generalisation of Lexical Functions for Composition in Distributional Semantics
|
|
|
|
In: Proceedings of the 53rd Annual Meeting of the Association for Computational Linguistics and the 7th International Joint Conference on Natural Language Processing (Volume 1: Long Papers) ; 53rd Annual Meeting of the Association for Computational Linguistics (ACL 2015) ; https://hal.archives-ouvertes.fr/hal-02355284 ; 53rd Annual Meeting of the Association for Computational Linguistics (ACL 2015), Jul 2015, Beijing, China. pp.281-291 (2015)
|
|
BASE
|
|
Show details
|
|
17 |
Lexical semantics today
|
|
|
|
In: The Routledge Handbook of Linguistics - 2015 ; https://hal.archives-ouvertes.fr/hal-03213958 ; Allan Keith. The Routledge Handbook of Linguistics - 2015, Routledge, pp.169--201, 2015, 978-0415832571. ⟨10.4324/9781315718453⟩ ; https://www.routledgehandbooks.com/doi/10.4324/9781315718453.ch11 (2015)
|
|
BASE
|
|
Show details
|
|
18 |
Quantitative methods for identifying systematic polysemy classes
|
|
|
|
In: Proceedings of the 6th Conference on Quantitative Investigations in Theoretical Linguistics ; 6th Conference on Quantitative Investigations in Theoretical Linguistics (QITL 2015) ; https://hal.archives-ouvertes.fr/hal-02397478 ; 6th Conference on Quantitative Investigations in Theoretical Linguistics (QITL 2015), Nov 2015, Tübingen, Germany. pp.1-5 (2015)
|
|
BASE
|
|
Show details
|
|
19 |
Quantitative methods for identifying systematic polysemy classes ...
|
|
|
|
BASE
|
|
Show details
|
|
20 |
Quantitative methods for identifying systematic polysemy classes
|
|
|
|
BASE
|
|
Show details
|
|
|
|