Share |
|
Please use this identifier to cite or link to this item:
https://bdtd.ucb.br:8443/jspui/handle/123456789/1356
Type: | Dissertação |
Title: | Extração automática de definições : um estudo de caso em textos legislativos |
Author(s): | Batista, Augusto Herrmann |
First Advisor: | Ferneda, Edílson |
First co-advisor: | Prado, Hércules Antônio do |
Summary: | Neste trabalho, é apresentada uma variação de uma técnica para o processamento automatizado de linguagem natural de textos em língua portuguesa, visando a construção de um glossário a partir de textos de um domínio que contenham definições em meio ao seu conteúdo. Apresentamse os resultados de um estudo de caso a partir de um corpus da área de Direito das Telecomunicações. Seguiu-se a cadeia usual de processamento de linguagem natural: préprocessamento, segmentação e classificação morfossintática. Especificase, então, um conjunto de funções extratoras de características relevantes à tarefa de extração de definições. Seus pesos associados, por sua vez, são determinados por aprendizagem de máquina sobre um corpus de treino que é parte do glossário de referência. Por fim, definições são extraídas a partir do texto e avaliadas com base no corpus de teste, que também é parte do glossário de referência. Os resultados são discutidos com relação a outras técnicas de extração de definições. |
Abstract: | This work presents a variation of an automated technique of natural language processing of Brazilian Portuguese texts intended for building a glossary from domain specific texts that contain definitions amongst its content. The results of a case study on applying the technique to a corpus of texts on telecommunications regulations are shown. The usual chain of natural language processing has been followed: preprocessing, segmentation, and partofspeech tagging. A set of feature extraction functions is then specified for extracting definitions. The associated weights are then determined by applying a machine learning technique on a training corpus, which is part of the reference glossary. At lest, the definitions are extracted from the texts and evaluated upon a test corpus, which is also part of the reference glossary. The results are then discussed in light of other definition extraction techniques. |
Keywords: | indexação processamento de linguagem natural (computação) análise de conteúdo (comunicação) ciência da informação gestão do conhecimento information extraction definition extraction natural language processing |
CNPq: | CNPQ::CIENCIAS SOCIAIS APLICADAS::CIENCIA DA INFORMACAO |
Language: | por |
Parents: | BR |
Publisher: | Universidade Católica de Brasília |
Institution Abbreviation: | UCB |
Department: | Informática |
Program: | Programa de Pós-Graduação em Gestão do Conhecimento e da Tecnologia da Informação |
Citation: | BATISTA, Augusto Herrmann. Extração automática de definições : um estudo de caso em textos legislativos. 2011. 99 f. Dissertação (Mestrado em Informática) - Universidade Católica de Brasília, Brasília, 2011. |
Access Type: | Acesso Aberto |
URI: | https://bdtd.ucb.br:8443/jspui/handle/123456789/1356 |
Document date: | 16-Dec-2011 |
Appears in Collections: | Programa de Pós-Graduação em Gestão do Conhecimento e da Tecnologia da Informação |
Files in This Item:
File | Description | Size | Format | |
---|---|---|---|---|
Augusto Herrmann Batista.pdf | 9.01 MB | Adobe PDF | Download/Open Preview |
Items in DSpace are protected by copyright, with all rights reserved, unless otherwise indicated.