DE eng

Search in the Catalogues and Directories

Page: 1 2 3 4
Hits 1 – 20 of 80

1
The Role of human reference translation in machine translation evaluation
Fomicheva, Marina. - : Universitat Pompeu Fabra, 2017
In: TDX (Tesis Doctorals en Xarxa) (2017)
BASE
Show details
2
Phrase table expansion for statistical machine translation with reduced parallel corpora: the Chinese-Spanish case
Han, Jingyi. - : Universitat Pompeu Fabra, 2017
In: TDX (Tesis Doctorals en Xarxa) (2017)
BASE
Show details
3
Pattern-based automatic induction of domain adapted resources for social media analysis
Vázquez Suárez, Silvia. - : Universitat Pompeu Fabra, 2016
In: TDX (Tesis Doctorals en Xarxa) (2016)
BASE
Show details
4
Automatic acquisition of lexical-semantic relations: gathering information in a dense representation
Necşulescu, Silvia. - : Universitat Pompeu Fabra, 2016
In: TDX (Tesis Doctorals en Xarxa) (2016)
BASE
Show details
5
The Structure of the lexicon in the task of the automatic acquisition of lexical information
Romeo, Lauren Michele. - : Universitat Pompeu Fabra, 2015
In: TDX (Tesis Doctorals en Xarxa) (2015)
Abstract: La información de clase semántica de los nombres es fundamental para una amplia variedad de tareas del procesamiento del lenguaje natural (PLN), como la traducción automática, la discriminación de referentes en tareas como la detección y el seguimiento de eventos, la búsqueda de respuestas, el reconocimiento y la clasificación de nombres de entidades, la construcción y ampliación automática de ontologías, la inferencia textual, etc. Una aproximación para resolver la construcción y el mantenimiento de los léxicos de gran cobertura que alimentan los sistemas de PNL, una tarea muy costosa y lenta, es la adquisición automática de información léxica, que consiste en la inducción de una clase semántica relacionada con una palabra en concreto a partir de datos de su distribución obtenidos de un corpus. Precisamente, por esta razón, se espera que la investigación actual sobre los métodos para la producción automática de léxicos de alta calidad, con gran cantidad de información y con anotación de clase como el trabajo que aquí presentamos, tenga un gran impacto en el rendimiento de la mayoría de las aplicaciones de PNL. En esta tesis, tratamos la adquisición automática de información léxica como un problema de clasificación. Con este propósito, adoptamos métodos de aprendizaje automático para generar un modelo que represente los datos de distribución vectorial que, basados en ejemplos conocidos, permitan hacer predicciones de otras palabras desconocidas. Las principales preguntas de investigación que planteamos en esta tesis son: (i) si los datos de corpus proporcionan suficiente información para construir representaciones de palabras de forma eficiente y que resulten en decisiones de clasificación precisas y sólidas, y (ii) si la adquisición automática puede gestionar, también, los nombres polisémicos. Para hacer frente a estos problemas, realizamos una serie de validaciones empíricas sobre nombres en inglés. Nuestros resultados confirman que la información obtenida a partir de la distribución de los datos de corpus es suficiente para adquirir automáticamente clases semánticas, como lo demuestra un valor-F global promedio de 0,80 aproximadamente utilizando varios modelos de recuento de contextos y en datos de corpus de distintos tamaños. No obstante, tanto el estado de la cuestión como los experimentos que realizamos destacaron una serie de retos para este tipo de modelos, que son reducir la escasez de datos del vector y dar cuenta de la polisemia nominal en las representaciones distribucionales de las palabras. En este contexto, los modelos de word embedding (WE) mantienen la “semántica” subyacente en las ocurrencias de un nombre en los datos de corpus asignándole un vector. Con esta elección, hemos sido capaces de superar el problema de la escasez de datos, como lo demuestra un valor-F general promedio de 0,91 para las clases semánticas de nombres de sentido único, a través de una combinación de la reducción de la dimensionalidad y de números reales. Además, las representaciones de WE obtuvieron un rendimiento superior en la gestión de las ocurrencias asimétricas de cada sentido de los nombres de tipo complejo polisémicos regulares en datos de corpus. Como resultado, hemos podido clasificar directamente esos nombres en su propia clase semántica con un valor-F global promedio de 0,85. La principal aportación de esta tesis consiste en una validación empírica de diferentes representaciones de distribución utilizadas para la clasificación semántica de nombres junto con una posterior expansión del trabajo anterior, lo que se traduce en recursos léxicos y conjuntos de datos innovadores que están disponibles de forma gratuita para su descarga y uso. ; La información de clase semántica de los nombres es fundamental para una amplia variedad de tareas del procesamiento del lenguaje natural (PLN), como la traducción automática, la discriminación de referentes en tareas como la detección y el seguimiento de eventos, la búsqueda de respuestas, el reconocimiento y la clasificación de nombres de entidades, la construcción y ampliación automática de ontologías, la inferencia textual, etc. Una aproximación para resolver la construcción y el mantenimiento de los léxicos de gran cobertura que alimentan los sistemas de PNL, una tarea muy costosa y lenta, es la adquisición automática de información léxica, que consiste en la inducción de una clase semántica relacionada con una palabra en concreto a partir de datos de su distribución obtenidos de un corpus. Precisamente, por esta razón, se espera que la investigación actual sobre los métodos para la producción automática de léxicos de alta calidad, con gran cantidad de información y con anotación de clase como el trabajo que aquí presentamos, tenga un gran impacto en el rendimiento de la mayoría de las aplicaciones de PNL. En esta tesis, tratamos la adquisición automática de información léxica como un problema de clasificación. Con este propósito, adoptamos métodos de aprendizaje automático para generar un modelo que represente los datos de distribución vectorial que, basados en ejemplos conocidos, permitan hacer predicciones de otras palabras desconocidas. Las principales preguntas de investigación que planteamos en esta tesis son: (i) si los datos de corpus proporcionan suficiente información para construir representaciones de palabras de forma eficiente y que resulten en decisiones de clasificación precisas y sólidas, y (ii) si la adquisición automática puede gestionar, también, los nombres polisémicos. Para hacer frente a estos problemas, realizamos una serie de validaciones empíricas sobre nombres en inglés. Nuestros resultados confirman que la información obtenida a partir de la distribución de los datos de corpus es suficiente para adquirir automáticamente clases semánticas, como lo demuestra un valor-F global promedio de 0,80 aproximadamente utilizando varios modelos de recuento de contextos y en datos de corpus de distintos tamaños. No obstante, tanto el estado de la cuestión como los experimentos que realizamos destacaron una serie de retos para este tipo de modelos, que son reducir la escasez de datos del vector y dar cuenta de la polisemia nominal en las representaciones distribucionales de las palabras. En este contexto, los modelos de word embedding (WE) mantienen la “semántica” subyacente en las ocurrencias de un nombre en los datos de corpus asignándole un vector. Con esta elección, hemos sido capaces de superar el problema de la escasez de datos, como lo demuestra un valor-F general promedio de 0,91 para las clases semánticas de nombres de sentido único, a través de una combinación de la reducción de la dimensionalidad y de números reales. Además, las representaciones de WE obtuvieron un rendimiento superior en la gestión de las ocurrencias asimétricas de cada sentido de los nombres de tipo complejo polisémicos regulares en datos de corpus. Como resultado, hemos podido clasificar directamente esos nombres en su propia clase semántica con un valor-F global promedio de 0,85. La principal aportación de esta tesis consiste en una validación empírica de diferentes representaciones de distribución utilizadas para la clasificación semántica de nombres junto con una posterior expansión del trabajo anterior, lo que se traduce en recursos léxicos y conjuntos de datos innovadores que están disponibles de forma gratuita para su descarga y uso. ; Lexical semantic class information for nouns is critical for a broad variety of Natural Language Processing (NLP) tasks including, but not limited to, machine translation, discrimination of referents in tasks such as event detection and tracking, question answering, named entity recognition and classification, automatic construction and extension of ontologies, textual inference, etc. One approach to solve the costly and time-consuming manual construction and maintenance of large-coverage lexica to feed NLP systems is the Automatic Acquisition of Lexical Information, which involves the induction of a semantic class related to a particular word from distributional data gathered within a corpus. This is precisely why current research on methods for the automatic production of high- quality information-rich class-annotated lexica, such as the work presented here, is expected to have a high impact on the performance of most NLP applications. In this thesis, we address the automatic acquisition of lexical information as a classification problem. For this reason, we adopt machine learning methods to generate a model representing vectorial distributional data which, grounded on known examples, allows for the predictions of other unknown words. The main research questions we investigate in this thesis are: (i) whether corpus data provides sufficient distributional information to build efficient word representations that result in accurate and robust classification decisions and (ii) whether automatic acquisition can handle also polysemous nouns. To tackle these problems, we conducted a number of empirical validations on English nouns. Our results confirmed that the distributional information obtained from corpus data is indeed sufficient to automatically acquire lexical semantic classes, demonstrated by an average overall F1-Score of almost 0.80 using diverse count-context models and on different sized corpus data. Nonetheless, both the State of the Art and the experiments we conducted highlighted a number of challenges of this type of model such as reducing vector sparsity and accounting for nominal polysemy in distributional word representations. In this context, Word Embeddings (WE) models maintain the “semantics” underlying the occurrences of a noun in corpus data by mapping it to a feature vector. With this choice, we were able to overcome the sparse data problem, demonstrated by an average overall F1-Score of 0.91 for single-sense lexical semantic noun classes, through a combination of reduced dimensionality and “real” numbers. In addition, the WE representations obtained a higher performance in handling the asymmetrical occurrences of each sense of regular polysemous complex-type nouns in corpus data. As a result, we were able to directly classify such nouns into their own lexical-semantic class with an average overall F1-Score of 0.85. The main contribution of this dissertation consists of an empirical validation of different distributional representations used for nominal lexical semantic classification along with a subsequent expansion of previous work, which results in novel lexical resources and data sets that have been made freely available for download and use.
Keyword: 81; Automatic classification; Automatic extraction of lexical information; Cascade classification; Clases semánticas léxicas; Clases semánticas léxicas nominales; Clasificación automática; Clasificación cascada; Clasificación semántica; Classes semàntiques lèxiques; Classes semàntiques lèxiques nominals; Classificació automàtica; Classificació cascada; Classificació semàntica; Complex-types; Distributional hypothesis; Distributional models; Estructura qualia; Extracció automàtica d'informació lèxica; Extracción automática de información léxica; Generative lexicon; Hipòtesi distribucional; Hipótesis distribucional; Lèxic generatiu; Lexical semantic classes; Lexical semantics; Léxico generativo; Modelos distribucionales; Models distribucionals; Nombres; Nominal lexical semantic classes; Noms; Nouns; Polisèmia; Polisemia; Polisemia regular; Polisèmia regular; Polysemy; Qualia roles; Qualia structure; Regular polysemy; Roles de qualia; Rols de qualia; Semantic classification; Semántica distribucional; Semàntica distribucional; Tipos-complejos; Tipus-complexos; Word embeddings
URL: http://hdl.handle.net/10803/325420
BASE
Hide details
6
Verb SCF extraction for Spanish with dependency parsing ; Extracción de patrones de subcategorización de verbos en castellano con análisis de dependencias
Padró Cirera, Montserrat; Garí, Aina; Bel Rafecas, Núria. - : Sociedad Española para el Procesamiento del Lenguaje Natural, 2013
BASE
Show details
7
Annotation of regular polysemy: an empirical assessment of the underspecified sense
Martínez Alonso, Héctor. - : Universitat Pompeu Fabra, 2013
In: TDX (Tesis Doctorals en Xarxa) (2013)
BASE
Show details
8
METANET4U: enhancing the European linguistic infrastructure ; METANET4U: aumentar la infraestructura lingüística europea
Bel Rafecas, Núria; Moreno Bilbao, María Asunción. - : Sociedad Española para el Procesamiento del Lenguaje Natural, 2012
BASE
Show details
9
Los Nombres eventivos no deverbales en español
Resnik, Gabriela. - : Universitat Pompeu Fabra, 2011
In: TDX (Tesis Doctorals en Xarxa) (2011)
BASE
Show details
10
FLaReNet: una red para fomentar los recursos lingüísticos ; Fostering language resources network: FLaReNet
Bel Rafecas, Núria; Calzolari, Nicoletta. - : Sociedad Española para el Procesamiento del Lenguaje Natural, 2009
BASE
Show details
11
El Proyecto CLARIN: Una infraestructura de investigación científica para las Humanidades y las Ciencias Sociales
Bel Rafecas, Núria; Bel, Santiago; Espeja, Sergio. - : Universitat Oberta de Catalunya, 2008
BASE
Show details
12
An open-source lexicon for Spanish
Marimon Felipe, Montserrat; Seghezzi, Natalia Andrea; Bel Rafecas, Núria. - : Sociedad Española para el Procesamiento del Lenguaje Natural, 2007
BASE
Show details
13
El Léxico PAROLE del español
Villegas Montserrat, Marta; Brosa, Isabel; Bel Rafecas, Núria. - : Sociedad Española para el Procesamiento del Lenguaje Natural (SEPLN), 1998
BASE
Show details
14
Handling of missing values in lexical acquisition
Bel Rafecas, Núria. - : ACL (Association for Computational Linguistics)
BASE
Show details
15
Choosing which to use? A study of distributional models for nominal lexical semantic classification
Romeo, Lauren; Lebani, Gianluca E.; Bel Rafecas, Núria. - : ACL (Association for Computational Linguistics)
BASE
Show details
16
The Spanish resource grammar: pre-processing strategy and lexical acquisition
Marimon, Montserrat; Bel Rafecas, Núria; Espeja, Sergio. - : ACL (Association for Computational Linguistics)
BASE
Show details
17
Towards the automatic classification of complex-type nominals
Romeo, Lauren; Mendes, Sara; Bel Rafecas, Núria. - : ACL (Association for Computational Linguistics)
BASE
Show details
18
A cascade approach for complex-type classification
Romeo, Lauren; Mendes, Sara; Bel Rafecas, Núria. - : ACL (Association for Computational Linguistics)
BASE
Show details
19
Lexical entry templates for robust deep parsing
Marimon, Montserrat; Bel Rafecas, Núria. - : ACL (Association for Computational Linguistics)
BASE
Show details
20
Mining and exploiting domain-specific corpora in the PANACEA platform
Bel Rafecas, Núria; Prokopidis, Prokopis; Toral, Antonio. - : ELRA (European Language Resources Association)
BASE
Show details

Page: 1 2 3 4

Catalogues
0
0
0
0
0
0
0
Bibliographies
0
0
0
0
0
0
0
0
0
Linked Open Data catalogues
0
Online resources
0
0
0
0
Open access documents
80
0
0
0
0
© 2013 - 2024 Lin|gu|is|tik | Imprint | Privacy Policy | Datenschutzeinstellungen ändern