Detalhes dos Anais Veja o resumo do trabalho

Publicado no Encontro de Saberes 2017

Evento: XXV Seminário de Iniciação Científica

Área: CIÊNCIAS EXATAS E DA TERRA

Subárea: Ciência da Computação

Órgão de Fomento: Fundação de Amparo à Pesquisa do Estado de Minas Gerais

Título
Desenvolvimento de uma ferramenta para tratar o problema de ambiguidade de ocorrências de nomes de entidades
Autores
CHRISTIAN FELIPE ARAUJO TEIXEIRA (Autor)
Anderson Almeida Ferreira (Orientador)
Guilherme Tavares de Assis (Co-Orientador)
Resumo
Dados disponíveis na Web são, na maioria das vezes, de grande valia nas mais diversas áreas do conhecimento, no entanto, manuseá-los não é uma tarefa trivial. Nem sempre são encontrados em uma forma estruturada, podendo estar semiestruturados ou não estruturados. Além disso, dados de uma mesma entidade estão distribuídos em múltiplas fontes, possivelmente com erros ou com valores de atributos similares aos de outras. Um problema comumente encontrado nesses dados é a ambiguidade de nomes, que ocorre em diversos tipos de entidades, como pessoas, localizações e produtos. Esse problema acontece quando um mesmo nome pode referenciar entidades distintas ou quando diversos nomes ou variações de um nome se referem à uma mesma entidade. Com o objetivo de construir um ambiente de resolução de entidades, este projeto propôs um arcabouço que, dado um conjunto de menções a entidades com seus respectivos atributos, tenta resolvê-lo, reconhecendo menções que se referem à uma mesma entidade e assim mesclando seus atributos, bem como distinguindo menções a entidades parecidas porém distintas, permitindo que diversos tipos de entidades possam ser desambiguadas, que vários algoritmos possam ser aplicados dentre os processos da resolução e que outros novos possam ser adicionados. Foi desenvolvida uma aplicação Web como arcabouço, visando o alcance a usuários e facilidade de acesso. Ele foi dividido em três componentes, a saber: Pré-Processamento, Blocking e Desambiguação. Todos esses componentes foram desenvolvidos e, para cada, foram adicionados alguns algoritmos correspondentes à sua tarefa. Além disso, foram desenvolvidos também os módulos de Gestão de Usuários e de Leitura e Saída de dados. Como trabalhos futuros, pretende-se adicionar vários algoritmos à ferramenta de acordo com seus respectivos componentes. Além disso, pretende-se também adicionar novos componentes, como um de análises de algoritmos e outro de avaliações de experimentos, no intuito de aumentar o seu alcance.
Voltar Visualizar PDF