DE eng

Search in the Catalogues and Directories

Hits 1 – 4 of 4

1
Comparaison de deux outils d'analyse de corpus japonais pour l'aide au linguiste, Sagace et MeCab
In: Actes TALN-RECITAL 2014 ; Traitement Automatique des Langues Naturelles ; https://hal.archives-ouvertes.fr/hal-01054370 ; Traitement Automatique des Langues Naturelles, 2014, Marseilles, France. pp.497 (2014)
Abstract: La présente version est la version finale. ; International audience ; Our purpose is to compare two tools used to help linguists analyze large corpora of raw Japanese text. We measure their precision while counting strings of morphs. Each tool is representative of a specific approach. The first tool is based on the statistical morphological analyzer MeCab. It first tokenizes and POS tags the whole sentence before searching and counting strings. The second tool, Sagace, searches and counts within the text as it is. In accordance with our assumptions, Sagace performed slightly worse overall but the difference is not as marked as expected. Taking into account the needs of linguists, Sagace is nevertheless useful for many tasks. ; L'objectif est de comparer deux outils d'analyse de corpus de textes bruts pour l'aide à la recherche en linguistique japonaise. Nous mesurons leur précision dans la tâche de comptage de chaînes de morphes. Les deux outils représentent chacun une approche spécifique. Le premier, un dispositif basé sur l'analyseur morphologique statistique MeCab, segmente et étiquette préalablement les phrases complètes. Le second compte les occurrences de la chaîne dans le texte en l'état. Les performances de Sagace sont globalement un peu inférieures mais la différence est moins importante qu'attendu. Du fait de leur facilité de mise en œuvre, les outils comme Sagace sans analyse morphologique préalable sont donc des outils malgré tout intéressants pour le linguiste.
Keyword: [SHS.LANGUE]Humanities and Social Sciences/Linguistics; Analyseurs morphologique; Corpus; Japanese; Japonais; MeCab; Morphological analyzer; Sagace
URL: https://hal.archives-ouvertes.fr/hal-01054370
https://hal.archives-ouvertes.fr/hal-01054370/file/TALN2014-BLIN.pdf
https://hal.archives-ouvertes.fr/hal-01054370/document
BASE
Hide details
2
Comparaison des temps de traitement de corpus en japonais par Sagace et un système basé sur MeCab
In: https://hal.archives-ouvertes.fr/hal-01054409 ; 2014 (2014)
BASE
Show details
3
Comparaison de deux outils d'analyse de corpus japonais pour l'aide au linguiste, Sagace et MeCab
In: Actes TALN-RECITAL 2014 ; Traitement Automatique des Langues Naturelles ; https://hal.archives-ouvertes.fr/hal-01054370 ; Traitement Automatique des Langues Naturelles, 2014, Marseilles, France. pp.497 (2014)
BASE
Show details
4
Comparaison des temps de traitement de corpus en japonais par Sagace et un système basé sur MeCab
In: https://hal.archives-ouvertes.fr/hal-01054409 ; 2014 (2014)
BASE
Show details

Catalogues
0
0
0
0
0
0
0
Bibliographies
0
0
0
0
0
0
0
0
0
Linked Open Data catalogues
0
Online resources
0
0
0
0
Open access documents
4
0
0
0
0
© 2013 - 2024 Lin|gu|is|tik | Imprint | Privacy Policy | Datenschutzeinstellungen ändern