DE eng

Search in the Catalogues and Directories

Hits 1 – 7 of 7

1
Automatic Normalisation of Early Modern French
In: https://hal.inria.fr/hal-03540226 ; 2022 (2022)
BASE
Show details
2
Variation graphique dans les documents d'Ancien Régime : Nouvelles approches scriptométriques
In: Journée d’étude : « Pour une histoire de la langue ‘par en bas’: textes privés et variation des langues dans le passé » ; https://hal.inria.fr/hal-03357080 ; Journée d’étude : « Pour une histoire de la langue ‘par en bas’: textes privés et variation des langues dans le passé », Sep 2021, Paris, France (2021)
BASE
Show details
3
Normalisation of 16th and 17th century texts in French and geographical named entity recognition
In: 4th ACM SIGSPATIAL International Workshop on Geospatial Humanities ; ACM SIGSPATIAL GeoHumanities'20 ; https://hal-upec-upem.archives-ouvertes.fr/hal-02955867 ; ACM SIGSPATIAL GeoHumanities'20, ACM, Nov 2020, Seattle (virtual), United States. pp.28-34, ⟨10.1145/3423337.3429437⟩ ; https://ludovicmoncla.github.io/sigspatial-geohumanities-2020/ (2020)
BASE
Show details
4
SMS communication : Natural language processing and information extraction ; Communiquer par SMS : Analyse automatique du langage et extraction de l'information véhiculée
Kogkitsidou, Eleni. - : HAL CCSD, 2018
In: https://tel.archives-ouvertes.fr/tel-01968698 ; Linguistique. Université Grenoble Alpes, 2018. Français. ⟨NNT : 2018GREAL012⟩ (2018)
Abstract: This thesis focuses on SMS language and information extraction from the point of view of natural language processing. The starting point of our study is the observation of the differences that most short messages have, using the alpes4science corpora, in comparison with the standard language. The differences are highlighted by the particular morphology of words and by the syntactic and grammar rules that are not respected when the issuer considers that it would not impair the intelligibility of the message.Because of the deviations from the standard language, processing and analyzing noisy messages is still a challenge for any NLP task. Therefore, reducing the gaps is a fundamental step to overcome when designing approaches for automatic SMS processing.We propose a two-step normalization model based on a symbolic and statistical approach. The first step aims to produce an intermediate representation of the SMS by applying local grammars. The second step uses a rule-based machine translation system to convert the intermediate representation to a standard form. The obtained result from this model was evaluated, afterwards, for named entities recognition through a series of tests applied thanks to three other systems. The results have shown that these performances of named entity recognition systems are significantly improved when applied to automatically normalized SMS in comparison with raw and manually normalized corpora.Keywords: computer-mediated communication, SMS language, SMS normalization ; Cette thèse concerne l’analyse automatique des SMS et l'extraction des informations qui y sont contenues. Le point de départ de notre recherche est le constat que la plupart des messages courts, observés dans le corpus alpes4science, présentent des différences en comparaison avec le langage standard. Les différences sont mises en évidence, d’une part, par la morphologie particulière des mots et, d’autre part, par les règles de syntaxe et de grammaire qui ne sont pas respectées lorsque l’émetteur considère que cela ne nuit pas à l’intelligibilité du message. À cause des écarts par rapport à la langue standard, le traitement et l'analyse des messages bruités est toujours un défi pour les tâches du TAL. Par conséquent, réduire les écarts est un défi fondamental que nous surmontons en utilisant l’approche de la normalisation pour la conception d’outils en traitement automatique des SMS.Nous proposons un modèle de normalisation en deux étapes, fondé sur une approche symbolique et statistique. La première étape vise à produire une représentation intermédiaire du message SMS par l’application de grammaires locales, tandis que la deuxième utilise un système de traduction automatique à base de règles pour convertir la représentation intermédiaire vers une forme standard. Le résultat produit par ce modèle a été évalué, par la suite, pour la reconnaissance d'entités nommées au travers d'une série de tests appliqués à l'aide de trois autres systèmes. Les résultats obtenus ont montré que les performances de ces systèmes de reconnaissance d'entités nommées présentent des améliorations significatives lorsqu’ils sont appliqués sur les SMS automatiquement normalisés en comparaison avec le corpus brut et manuellement transcrit.Mots-clés : communication médiée par ordinateur, langage SMS, normalisation des SMS, extraction d’informations
Keyword: [SHS.LANGUE]Humanities and Social Sciences/Linguistics; Communication médiée par ordinateur; Computer-Mediated communication; Information extraction; Langage SMS; Normalisation des SMS; Recherche d'information; SMS language; SMS normalization
URL: https://tel.archives-ouvertes.fr/tel-01968698
https://tel.archives-ouvertes.fr/tel-01968698/document
https://tel.archives-ouvertes.fr/tel-01968698/file/KOGKITSIDOU_2018_diffusion.pdf
BASE
Hide details
5
Alpes4science project : SMS corpus processing and tokenization problems
Kogkitsidou, Eleni [Verfasser]; Antoniadis, Georges [Verfasser]. - Hildesheim : Universität Hildesheim, 2014
DNB Subject Category Language
Show details
6
Alpes4science project : SMS corpus processing and tokenization problems
BASE
Show details
7
Extraction de citations contenues dans des documents brevet
In: 32ème colloque international sur le lexique et la grammaire ; https://hal-upec-upem.archives-ouvertes.fr/hal-01090581 ; 32ème colloque international sur le lexique et la grammaire, Sep 2013, Faro, Portugal. pp.57-64 (2013)
BASE
Show details

Catalogues
0
0
0
0
1
0
0
Bibliographies
0
0
0
0
0
0
0
0
0
Linked Open Data catalogues
0
Online resources
0
0
0
0
Open access documents
6
0
0
0
0
© 2013 - 2024 Lin|gu|is|tik | Imprint | Privacy Policy | Datenschutzeinstellungen ändern