Publicado no Encontro de Saberes 2017
Evento: XXV Seminário de Iniciação Científica
Área: CIÊNCIAS EXATAS E DA TERRA
Subárea: Ciência da Computação
Órgão de Fomento: Conselho Nacional de Desenvolvimento Científico e Tecnológico
Título |
Aperfeiçoamento automáticos dos conjuntos de termos utilizados em processos de coleta temática de páginas da Web baseada em gênero |
Autores |
GILSON FARIA COSTA (Autor) Guilherme Tavares de Assis (Orientador) Anderson Almeida Ferreira (Co-Orientador) |
Resumo |
A recente popularização de acesso à Web vem provocando um extraordinário aumento no volume de informações que é produzido e consumido. Nesse contexto, tornam-se fundamentais o desenvolvimento e o aperfeiçoamento de mecanismos que promovam o acesso à informação disponibilizada na Web, de maneira fácil, rápida e precisa. Coletores tradicionais não são capazes de identificar sub-espaços relevantes na Web relacionado a um tópico específico de interesse; entretanto, coletores temáticos são ferramentas capazes de resolver, de maneira eficaz e eficiente, o problema mencionado. Geralmente, um processo de coleta temática necessita, como parâmetro de entrada, de um conjunto bem definido de termos que expressam o tópico de interesse desejado; dependendo de tal conjunto de termos, a eficácia de um determinado processo de coleta pode não ser satisfatória. Logo, com o objetivo de aperfeiçoar automaticamente os conjuntos de termos necessários para a realização de processos de coleta temática relativos a uma abordagem de coleta baseada em gênero, foram propostas duas estratégias neste trabalho. Experimentos de validação das estratégias foram realizados, gerando resultados que melhoraram as medidas de precisão e F1 em até 88.9% e 32.1%, respectivamente, em processos de coleta cujos conjuntos de termos não foram adequadamente estabelecidos. É importante mencionar que os resultados obtidos neste trabalho proporcionaram a escrita e a consequente aceitação de um artigo internacional, intitulado Automatic improvement of the terms used for focused crawling processes on Web pages, para a 16a edição da International Conference WWW/Internet (ICWI 2017), que ocorrerá entre os dias 18 e 20 de outubro de 2017 em Algarve - Portugal. |