41 |
Filtering and Measuring the Intrinsic Quality of Human Compositionality Judgments
|
|
|
|
In: Proceedings of the 12th Workshop on Multiword Expressions ; https://hal.archives-ouvertes.fr/hal-01459913 ; Proceedings of the 12th Workshop on Multiword Expressions, 2016, Berlin, Germany. pp.32--37, ⟨10.18653/v1/W16-1804⟩ (2016)
|
|
BASE
|
|
Show details
|
|
42 |
Coleta automática de corpora Web classificados por grau de legibilidade para o portugês
|
|
|
|
BASE
|
|
Show details
|
|
43 |
Criação de ontologias linguísticas automáticas a partir de texto ; Automatic ontology creation from text
|
|
|
|
BASE
|
|
Show details
|
|
44 |
Distinção de grupos linguísticos através de desempenho da linguagem ; Distinction of linguistic groups through linguistic performance
|
|
|
|
BASE
|
|
Show details
|
|
45 |
Construção e avaliação de modelos semânticos distribucionais ; Construction and evaluation of semantic distributional models
|
|
|
|
Abstract:
No estudo do processamento de linguagem natural, os tesauros distribucionais, que representam modelos semânticos de linguagens, são muito utilizados em tarefas que envolvem relações semânticas, tais como respostas a perguntas, simplificação de texto, desambiguação, análise de sentimentos, entre outras. Uma barreira frequentemente encontrada nestas tarefas é a falta destes recursos - seja devido a altos custos de criá-los e extendê-los, difícil acesso ou até mesmo por serem inexistentes para algumas línguas. Muitos esforços são dedicados à construção automática de tesauros, e diferentes técnicas foram desenvolvidas a fim de atingir este objetivo, mas elas precisam ser cuidadosamente avaliadas para garantir que a qualidade dos resultados obtidos seja satisfatória. Este trabalho fará uma comparação entre modelos semânticos distribucionais construídos automaticamente para dois idiomas, português e inglês, para determinar se estas técnicas podem ser aplicadas em linguagens com diferentes características léxicas e sintáticas. Também serão comparadas duas técnicas de construção de tesauros para determinar se elas são equivalentes. Finalmente, será examinado o impacto do tamanho e do tipo de contexto utilizado para cada modelo, assumindo que contextos maiores levam a resultados de maior qualidade. Modelos semânticos construídos automaticamente implicam em uma redução de custos e aumento na abrangência e acessibilidade da área de processamento de linguagem ao permitir a criação destes recursos para idiomas que não possuam tesauros construídos manualmente ou para os quais estes recursos sejam de difícil acesso. ; In Natural Language Processing, distributional thesauri, semantic model language representations, are widely used in tasks that involve semantic relations, such as question answering, text simplification, disambiguation and sentiment analysis. A frequent barrier to these tasks is the lack of resources - either due to the high cost of manually constructing and extending them, difficulty of access or even because they do not exist for some languages. Therefore much effort have been dedicated to the automatic construction of thesauri, and different techniques have been developed in order to reach that goal, but they need to be carefully assessed to ensure the quality of the results obtained with them is satisfactory. This work compares distributional semantic models built automatically for two different languages, Portuguese and English, to determine whether the techniques can be robustly applied to languages with different lexical and syntactics characteristics. Secondly, we compare two different techniques for thesaurus construction, to determine if they are equivalent. Finally we examine the impact of the type and size of context used for each of the model, assuming that larger contexts lead to better quality results. Automatically built semantic models imply in a cost reduction and a raise in coverage and accessibility of the area by enabling the construction of these resources for languages that may not have manually built ones or for languages whose resources have restrict access.
|
|
Keyword:
Automatically built resources; Corpus; Linguística computacional; Natural language processing; Processamento : Linguagem natural; Thesaurus; Thesaurus construction
|
|
URL: http://hdl.handle.net/10183/132028
|
|
BASE
|
|
Hide details
|
|
46 |
Extração multilíngue de termos multipalavra em corpora comparáveis
|
|
|
|
BASE
|
|
Show details
|
|
47 |
Extração multilíngue de termos multipalavra em corpora comparáveis
|
|
|
|
BASE
|
|
Show details
|
|
48 |
Verblexpor : um recurso léxico com anotação de papéis semânticos para o português
|
|
|
|
BASE
|
|
Show details
|
|
49 |
Modelo de Referência para a Simplificação Lexical de Termos Compostos do Inglês
|
|
|
|
BASE
|
|
Show details
|
|
50 |
Simplificação lexical de substantivos e multiword expressions
|
|
|
|
BASE
|
|
Show details
|
|
54 |
Cognitive Aspects of Computational Language Acquisition
|
|
|
|
In: https://hal.archives-ouvertes.fr/hal-00783282 ; Springer, pp.330, 2013, 978-3-642-31863-4 (2013)
|
|
BASE
|
|
Show details
|
|
55 |
Proceedings of the Workshop "Language, Cognition and Computational Models"
|
|
|
|
In: https://hal.archives-ouvertes.fr/hal-00997337 ; 2013 (2013)
|
|
BASE
|
|
Show details
|
|
56 |
Computational Modeling as a Methodology for Studying Human Language Learning
|
|
|
|
In: Cognitive Aspects of Computational Language Acquisition ; https://hal.archives-ouvertes.fr/hal-00783285 ; A. Villavicencio, T. Poibeau, A. Korhonen and A. Alishahi. Cognitive Aspects of Computational Language Acquisition, Springer, pp.1-26, 2013, Theory and Applications of Natural Language Processing, 978-3-642-31863-4 (2013)
|
|
BASE
|
|
Show details
|
|
|
|