1 |
Sujeito oculto às claras: uma abordagem descritivo-computacional / Omitted subjects revealed: a quantitative-descriptive approach
|
|
|
|
In: Revista de Estudos da Linguagem, Vol 29, Iss 2, Pp 1033-1058 (2021) (2021)
|
|
Abstract:
Resumo: Neste trabalho, apresentamos estudos descritivos e computacionais relacionados ao sujeito oculto. Em um primeiro momento, realizamos uma descrição de cunho quantitativo, tomando por base três corpora dos gêneros jornalístico, literário e enciclopédico. Especificamente, quantificamos o sujeito oculto em cada um dos corpora, e encontramos sujeitos omitidos em 24%, 41% e 46% das orações, respectivamente. Em um segundo momento, por meio de uma estratégia baseada em regras, reconstituímos esses sujeitos e os devolvemos aos corpora, com o objetivo de avaliar o quanto a omissão do sujeito é capaz de impactar o aprendizado automático de dependências sintáticas. Os resultados indicam que a reconstituição formal do sujeito pode melhorar a aprendizagem das dependências sintáticas em até 2% quando consideramos a métrica CLAS, evidenciando o papel relevante da modelagem linguística no aprendizado automático. Palavras-chave: descrição linguística; sujeito oculto; omissão de sujeito; dependências sintáticas; linguística computacional; aprendizado de máquina; linguística de corpus. Abstract: In this paper, we present descriptive and computational studies related to omitted subjects. Firstly, we develop a quantitative descriptive study based on three corpora, which consist of journalistic, literary and encyclopedic genres. Specifically, we quantify the omitted subjects in sentences for each of these corpora; omitted subjects were found in 24%, 41% and 46% of their sentences, respectively. Secondly, applying rule-based strategies, we reconstitute those subjects and place them back to the corpora, with the goal of evaluating how much the omission of subjects can impact the automatic learning of syntactic dependencies. The results indicate that the formal subject reconstitution can enhance the learning of syntactic dependencies in up to 2% according to the CLAS metric, highlighting the relevant role of linguistic modeling in the automatic learning process. Keywords: linguistic description; omitted subject; syntactic dependencies; computational linguistics; machine learning; corpus linguistics.
|
|
Keyword:
aprendizado de máquina; computational linguistics; dependências sintáticas; descrição linguística; Language and Literature; linguistic description; linguística computacional; linguística de corpus; machi; omissão de sujeito; omitted subject; P; P1-1091; Philology. Linguistics; sujeito oculto; syntactic dependencies
|
|
URL: https://doaj.org/article/58f7a3d0fef84262ba5dff16aea6e223 https://doi.org/10.17851/2237-2083.29.2.1033-1058
|
|
BASE
|
|
Hide details
|
|
2 |
Periodização automática
|
|
|
|
In: Linguamática, Vol 12, Iss 1 (2020) (2020)
|
|
BASE
|
|
Show details
|
|
3 |
Reported speech verbs in Portuguese: a corpus based descriptive study motivated by computational linguistics
|
|
|
|
In: Fórum Linguístico, Vol 14, Iss 3, Pp 2266-2285 (2017) (2017)
|
|
BASE
|
|
Show details
|
|
6 |
Perspectivas (qualitativas?) na exploração de grandes corpora
|
|
|
|
In: Oslo Studies in Language, Vol 7, Iss 1 (2015) (2015)
|
|
BASE
|
|
Show details
|
|
7 |
As Wordnets do Português
|
|
|
|
In: Oslo Studies in Language, Vol 7, Iss 1 (2015) (2015)
|
|
BASE
|
|
Show details
|
|
8 |
Comparando anotações linguísticas na Gramateca: filosofia, ferramentas e exemplos
|
|
|
|
In: Domínios de Lingu@gem, Vol 9, Iss 2, Pp 11-26 (2015) (2015)
|
|
BASE
|
|
Show details
|
|
9 |
O léxico do corpo e anotação de sentidos em grandes corpora: o projeto Esqueleto
|
|
|
|
In: Revista de Estudos da Linguagem, Vol 23, Iss 3, Pp 641-680 (2015) (2015)
|
|
BASE
|
|
Show details
|
|
11 |
Sobre a construção de um léxico da afetividade para o processamento computacional do português
|
|
|
|
In: Revista Brasileira de Linguística Aplicada, Vol 13, Iss 4, Pp 1031-1059 (2013) (2013)
|
|
BASE
|
|
Show details
|
|
16 |
A lusofonia na Wikipédia em 150 tópicos
|
|
|
|
In: Linguamática, Vol 4, Iss 1 (2012) (2012)
|
|
BASE
|
|
Show details
|
|
17 |
O que é uma resposta? Notas de uns avaliadores estafados
|
|
|
|
In: Linguamática, Vol 4, Iss 1 (2012) (2012)
|
|
BASE
|
|
Show details
|
|
18 |
Balanço do Págico e perspetivas de futuro
|
|
|
|
In: Linguamática, Vol 4, Iss 1 (2012) (2012)
|
|
BASE
|
|
Show details
|
|
19 |
Floresta Sintá(c)tica: Bigger, Thicker and Easier
|
|
|
|
In: http://www.linguateca.pt/documentos/Propor2008_Floresta_Springer.pdf
|
|
BASE
|
|
Show details
|
|
20 |
Second HAREM: Advancing the State of the Art of Named Entity Recognition in Portuguese
|
|
|
|
In: http://www.lrec-conf.org/proceedings/lrec2010/pdf/412_Paper.pdf
|
|
BASE
|
|
Show details
|
|
|
|