DE eng

Search in the Catalogues and Directories

Page: 1 2 3 4 5...18
Hits 1 – 20 of 359

1
Stratégie Multitâche pour la Classification Multiclasse
In: à paraître : Actes de la 28e Conférence sur le Traitement Automatique des Langues Naturelles. Volume 1 : conférence principale ; Traitement Automatique des Langues Naturelles (TALN 2021) ; https://hal.archives-ouvertes.fr/hal-03265870 ; Traitement Automatique des Langues Naturelles (TALN 2021), 2021, Lille, France. pp.227-236 ; https://talnrecital2021.inria.fr/articles-acceptes/ (2021)
BASE
Show details
2
Intelligence artificielle et discours politique. Quelles plus-values interprétatives ? Application aux corpus parlementaire et présidentiel contemporains
In: L'intelligence artificielle des textes. Des algorithmes à l'interprétation ; https://hal.archives-ouvertes.fr/hal-03347997 ; L'intelligence artificielle des textes. Des algorithmes à l'interprétation, 17, Honoré Champion, pp.131-182, 2021, Lettres numériques, 9782815937467 (2021)
BASE
Show details
3
Simplification automatique de textes biomédicaux en français : les données précises de petite taille aident
In: Actes de la 28e Conférence sur le Traitement Automatique des Langues Naturelles. Volume 1 : conférence principale ; TALN - Traitement Automatique des Langues Naturelles ; https://hal.archives-ouvertes.fr/hal-03509735 ; TALN - Traitement Automatique des Langues Naturelles, Jul 2021, Lille, France (2021)
BASE
Show details
4
Automatic simplification of technical and specialized texts ; Simplification automatique de textes techniques et spécialisés
Cardon, Rémi. - : HAL CCSD, 2021
In: https://hal.archives-ouvertes.fr/tel-03343769 ; Informatique et langage [cs.CL]. Université de Lille, 2021. Français. ⟨NNT : 2021LILUH007⟩ (2021)
BASE
Show details
5
Automatic text simplification of specialized and technical texts ; Simplification automatique de textes techniques et spécialisés
Cardon, Rémi. - : HAL CCSD, 2021
In: https://hal.archives-ouvertes.fr/tel-03343769 ; Informatique et langage [cs.CL]. Université de Lille, 2021. Français (2021)
BASE
Show details
6
Hate speech and offensive language detection using transfer learning approaches ; Détection du discours de haine et du langage offensant utilisant des approches de Transfer Learning
Mozafari, Marzieh. - : HAL CCSD, 2021
In: https://tel.archives-ouvertes.fr/tel-03276023 ; Document and Text Processing. Institut Polytechnique de Paris, 2021. English. ⟨NNT : 2021IPPAS007⟩ (2021)
Abstract: The great promise of social media platforms (e.g., Twitter and Facebook) is to provide a safe place for users to communicate their opinions and share information. However, concerns are growing that they enable abusive behaviors, e.g., threatening or harassing other users, cyberbullying, hate speech, racial and sexual discrimination, as well. In this thesis, we focus on hate speech as one of the most concerning phenomenon in online social media.Given the high progression of online hate speech and its severe negative effects, institutions, social media platforms, and researchers have been trying to react as quickly as possible. The recent advancements in Natural Language Processing (NLP) and Machine Learning (ML) algorithms can be adapted to develop automatic methods for hate speech detection in this area.The aim of this thesis is to investigate the problem of hate speech and offensive language detection in social media, where we define hate speech as any communication criticizing a person or a group based on some characteristics, e.g., gender, sexual orientation, nationality, religion, race. We propose different approaches in which we adapt advanced Transfer Learning (TL) models and NLP techniques to detect hate speech and offensive content automatically, in a monolingual and multilingual fashion.In the first contribution, we only focus on English language. Firstly, we analyze user-generated textual content to gain a brief insight into the type of content by introducing a new framework being able to categorize contents in terms of topical similarity based on different features. Furthermore, using the Perspective API from Google, we measure and analyze the toxicity of the content. Secondly, we propose a TL approach for identification of hate speech by employing a combination of the unsupervised pre-trained model BERT (Bidirectional Encoder Representations from Transformers) and new supervised fine-tuning strategies. Finally, we investigate the effect of unintended bias in our pre-trained BERT based model and propose a new generalization mechanism in training data by reweighting samples and then changing the fine-tuning strategies in terms of the loss function to mitigate the racial bias propagated through the model. To evaluate the proposed models, we use two publicly available datasets from Twitter.In the second contribution, we consider a multilingual setting where we focus on low-resource languages in which there is no or few labeled data available. First, we present the first corpus of Persian offensive language consisting of 6k micro blog posts from Twitter to deal with offensive language detection in Persian as a low-resource language in this domain. After annotating the corpus, we perform extensive experiments to investigate the performance of transformer-based monolingual and multilingual pre-trained language models (e.g., ParsBERT, mBERT, XLM-R) in the downstream task. Furthermore, we propose an ensemble model to boost the performance of our model. Then, we expand our study into a cross-lingual few-shot learning problem, where we have a few labeled data in target language, and adapt a meta-learning based approach to address identification of hate speech and offensive language in low-resource languages. ; Une des promesses des plateformes de réseaux sociaux (comme Twitter et Facebook) est de fournir un endroit sûr pour que les utilisateurs puissent partager leurs opinions et des informations. Cependant, l’augmentation des comportements abusifs, comme le harcèlement en ligne ou la présence de discours de haine, est bien réelle. Dans cette thèse, nous nous concentrons sur le discours de haine, l'un des phénomènes les plus préoccupants concernant les réseaux sociaux.Compte tenu de sa forte progression et de ses graves effets négatifs, les institutions, les plateformes de réseaux sociaux et les chercheurs ont tenté de réagir le plus rapidement possible. Les progrès récents des algorithmes de traitement automatique du langage naturel (NLP) et d'apprentissage automatique (ML) peuvent être adaptés pour développer des méthodes automatiques de détection des discours de haine dans ce domaine.Le but de cette thèse est d'étudier le problème du discours de haine et de la détection des propos injurieux dans les réseaux sociaux. Nous proposons différentes approches dans lesquelles nous adaptons des modèles avancés d'apprentissage par transfert (TL) et des techniques de NLP pour détecter automatiquement les discours de haine et les contenus injurieux, de manière monolingue et multilingue.La première contribution concerne uniquement la langue anglaise. Tout d'abord, nous analysons le contenu textuel généré par les utilisateurs en introduisant un nouveau cadre capable de catégoriser le contenu en termes de similarité basée sur différentes caractéristiques. En outre, en utilisant l'API Perspective de Google, nous mesurons et analysons la « toxicité » du contenu. Ensuite, nous proposons une approche TL pour l'identification des discours de haine en utilisant une combinaison du modèle non supervisé pré-entraîné BERT (Bidirectional Encoder Representations from Transformers) et de nouvelles stratégies supervisées de réglage fin. Enfin, nous étudions l'effet du biais involontaire dans notre modèle pré-entraîné BERT et proposons un nouveau mécanisme de généralisation dans les données d'entraînement en repondérant les échantillons puis en changeant les stratégies de réglage fin en termes de fonction de perte pour atténuer le biais racial propagé par le modèle. Pour évaluer les modèles proposés, nous utilisons deux datasets publics provenant de Twitter.Dans la deuxième contribution, nous considérons un cadre multilingue où nous nous concentrons sur les langues à faibles ressources dans lesquelles il n'y a pas ou peu de données annotées disponibles. Tout d'abord, nous présentons le premier corpus de langage injurieux en persan, composé de 6 000 messages de micro-blogs provenant de Twitter, afin d'étudier la détection du langage injurieux. Après avoir annoté le corpus, nous réalisons étudions les performances des modèles de langages pré-entraînés monolingues et multilingues basés sur des transformeurs (par exemple, ParsBERT, mBERT, XLM-R) dans la tâche en aval. De plus, nous proposons un modèle d'ensemble pour améliorer la performance de notre modèle. Enfin, nous étendons notre étude à un problème d'apprentissage multilingue de type " few-shot ", où nous disposons de quelques données annotées dans la langue cible, et nous adaptons une approche basée sur le méta-apprentissage pour traiter l'identification des discours de haine et du langage injurieux dans les langues à faibles ressources.
Keyword: [INFO.INFO-SI]Computer Science [cs]/Social and Information Networks [cs.SI]; [INFO.INFO-TT]Computer Science [cs]/Document and Text Processing; Apprentissage en profondeur; BERT; Classification interlinguistique des textes; Cross lingual text classification; Deep learning; Détection de discours de haine; Few-shot learning; Hate speech detection; Language modeling; Meta learning; Modélisation du langage; Réseaux sociaux; Social media; Transfer learning; Transfert d’apprentissage; XLM-RoBERTa
URL: https://tel.archives-ouvertes.fr/tel-03276023/document
https://tel.archives-ouvertes.fr/tel-03276023/file/120699_MOZAFARI_2021.pdf
https://tel.archives-ouvertes.fr/tel-03276023
BASE
Hide details
7
Simplification automatique de textes biomédicaux en français: lorsque des données précises de petite taille aident
In: Actes de la 28e Conférence sur le Traitement Automatique des Langues Naturelles. Volume 1 : conférence principale ; Traitement Automatique des Langues Naturelles ; https://hal.archives-ouvertes.fr/hal-03265887 ; Traitement Automatique des Langues Naturelles, 2021, Lille, France. pp.275-277 (2021)
BASE
Show details
8
L'intelligence artificielle des textes. Présentation
In: L'intelligence artificielle des textes. Des algorithmes à l'interprétation ; https://hal.archives-ouvertes.fr/hal-03344917 ; L'intelligence artificielle des textes. Des algorithmes à l'interprétation, Honoré Champion, pp.9-14, 2021, Lettres numériques, 978-2-7453-5640-6 (2021)
BASE
Show details
9
Towards a corpus of learner texts annotated with discourse relations ; Vers un corpus de textes d’élèves annoté en relations de discours
In: ISSN: 0023-8368 ; EISSN: 1957-7982 ; Langue française ; https://hal.archives-ouvertes.fr/hal-03484102 ; Langue française, Armand Colin, 2021, Écrire de l’école à l’université : corpus, traitements, analyses outillées, 211 (3), pp.115-129. ⟨10.3917/lf.211.0115⟩ ; https://www.cairn.info/revue-langue-francaise-2021-3-page-115.htm (2021)
BASE
Show details
10
Développer la compétence à écrire en français langue seconde chez des adolescent⋅e⋅s en situation de grand retard scolaire : textes identitaires et ateliers d’expression théâtrale plurilingues
Armand, Françoise; Maynard, Catherine. - : Revue des sciences de l’éducation, 2021. : Érudit, 2021
BASE
Show details
11
La post-édition monolingue des textes de spécialité dans le domaine de la musique
Salamanca Zarate, Diego Steven. - : Université de Genève, 2021
BASE
Show details
12
A dissertação argumentativa do ENEM : qualidades discursivas, imitação e improvisação
Cecato, Cleuza. - 2021
BASE
Show details
13
Terminología y fraseología del texto técnico en alemán: características y problemas en la aplicación de la traducción automática
In: Mutatis Mutandis: Revista Latinoamericana de Traducción, ISSN 2011-799X, Vol. 14, Nº. 2, 2021 (Ejemplar dedicado a: Nuevas perspectivas de investigación en la traducción especializada en lenguas románicas: aspectos comparativos, léxicos, fraseológicos, discursivos y didácticos), pags. 285-306 (2021)
BASE
Show details
14
La ideología en los textos administrativos: el análisis contrastivo crítico del léxico como herramienta de reflexión para la traducción jurídica contrahegemónica
In: Mutatis Mutandis: Revista Latinoamericana de Traducción, ISSN 2011-799X, Vol. 14, Nº. 2, 2021 (Ejemplar dedicado a: Nuevas perspectivas de investigación en la traducción especializada en lenguas románicas: aspectos comparativos, léxicos, fraseológicos, discursivos y didácticos), pags. 547-570 (2021)
BASE
Show details
15
Traducción de culturemas en textos turísticos: Tratamiento en español de las voces que designan la vestimenta tradicional coreana
In: Mutatis Mutandis: Revista Latinoamericana de Traducción, ISSN 2011-799X, Vol. 14, Nº. 2, 2021 (Ejemplar dedicado a: Nuevas perspectivas de investigación en la traducción especializada en lenguas románicas: aspectos comparativos, léxicos, fraseológicos, discursivos y didácticos), pags. 307-344 (2021)
BASE
Show details
16
La medicina gráfica como herramienta para la traducción y la adaptación de textos biosanitarios
In: Mutatis Mutandis: Revista Latinoamericana de Traducción, ISSN 2011-799X, Vol. 14, Nº. 2, 2021 (Ejemplar dedicado a: Nuevas perspectivas de investigación en la traducción especializada en lenguas románicas: aspectos comparativos, léxicos, fraseológicos, discursivos y didácticos), pags. 397-426 (2021)
BASE
Show details
17
FlauBERT : Unsupervised Language Model Pre-training for French ; FlauBERT : des modèles de langue contextualisés pré-entraînés pour le français
In: Actes de la 6e conférence conjointe Journées d'Études sur la Parole (JEP, 33e édition), Traitement Automatique des Langues Naturelles (TALN, 27e édition), Rencontre des Étudiants Chercheurs en Informatique pour le Traitement Automatique des Langues (RÉCITAL, 22e édition). Volume 2 : Traitement Automatique des Langues Naturelles ; 6e conférence conjointe Journées d'Études sur la Parole (JEP, 33e édition), Traitement Automatique des Langues Naturelles (TALN, 27e édition), Rencontre des Étudiants Chercheurs en Informatique pour le Traitement Automatique des Langues (RÉCITAL, 22e édition). Volume 2 : Traitement Automatique des Langues Naturelles ; https://hal.archives-ouvertes.fr/hal-02784776 ; 6e conférence conjointe Journées d'Études sur la Parole (JEP, 33e édition), Traitement Automatique des Langues Naturelles (TALN, 27e édition), Rencontre des Étudiants Chercheurs en Informatique pour le Traitement Automatique des Langues (RÉCITAL, 22e édition). Volume 2 : Traitement Automatique des Langues Naturelles, Jun 2020, Nancy, France. pp.268-278 (2020)
BASE
Show details
18
Du bon usage d'ingrédients linguistiques spéciaux pour classer des recettes exceptionnelles
In: Actes de la 6e conférence conjointe Journées d'Études sur la Parole (JEP, 33e édition), Traitement Automatique des Langues Naturelles (TALN, 27e édition), Rencontre des Étudiants Chercheurs en Informatique pour le Traitement Automatique des Langues (RÉCITAL, 22e édition). Volume 2 : Traitement Automatique des Langues Naturelles ; 6e conférence conjointe Journées d'Études sur la Parole (JEP, 33e édition), Traitement Automatique des Langues Naturelles (TALN, 27e édition), Rencontre des Étudiants Chercheurs en Informatique pour le Traitement Automatique des Langues (RÉCITAL, 22e édition). Volume 2 : Traitement Automatique des Langues Naturelles ; https://hal.archives-ouvertes.fr/hal-02784757 ; 6e conférence conjointe Journées d'Études sur la Parole (JEP, 33e édition), Traitement Automatique des Langues Naturelles (TALN, 27e édition), Rencontre des Étudiants Chercheurs en Informatique pour le Traitement Automatique des Langues (RÉCITAL, 22e édition). Volume 2 : Traitement Automatique des Langues Naturelles, 2020, Nancy, France. pp.81-94 (2020)
BASE
Show details
19
Transformations syntaxiques entre niveaux de simplification dans le corpus Newsela
In: Actes de la 6e conférence conjointe Journées d'Études sur la Parole (JEP, 33e édition), Traitement Automatique des Langues Naturelles (TALN, 27e édition), Rencontre des Étudiants Chercheurs en Informatique pour le Traitement Automatique des Langues (RÉCITAL, 22e édition). Volume 3 : Rencontre des Étudiants Chercheurs en Informatique pour le TAL ; 6e conférence conjointe Journées d'Études sur la Parole (JEP, 33e édition), Traitement Automatique des Langues Naturelles (TALN, 27e édition), Rencontre des Étudiants Chercheurs en Informatique pour le Traitement Automatique des Langues (RÉCITAL, 22e édition). Volume 3 : Rencontre des Étudiants Chercheurs en Informatique pour le TAL ; https://hal.archives-ouvertes.fr/hal-02786194 ; 6e conférence conjointe Journées d'Études sur la Parole (JEP, 33e édition), Traitement Automatique des Langues Naturelles (TALN, 27e édition), Rencontre des Étudiants Chercheurs en Informatique pour le Traitement Automatique des Langues (RÉCITAL, 22e édition). Volume 3 : Rencontre des Étudiants Chercheurs en Informatique pour le TAL, Jun 2020, Nancy, France. pp.137-150 (2020)
BASE
Show details
20
Evaluating Anglicisation in Modern Greek : a qualitative and quantitative survey ; L'anglicisation du grec moderne : une étude qualitative et quantitative
Papadopoulou, Ourania. - : HAL CCSD, 2020
In: https://tel.archives-ouvertes.fr/tel-03124144 ; Linguistics. Université de Lyon; Panepistīmio Patrṓn, 2020. English. ⟨NNT : 2020LYSE2037⟩ (2020)
BASE
Show details

Page: 1 2 3 4 5...18

Catalogues
0
0
2
0
0
0
0
Bibliographies
7
0
0
0
0
0
0
0
0
Linked Open Data catalogues
0
Online resources
0
0
0
0
Open access documents
352
0
0
0
0
© 2013 - 2024 Lin|gu|is|tik | Imprint | Privacy Policy | Datenschutzeinstellungen ändern