Detalhes dos Anais Veja o resumo do trabalho

Publicado no Encontro de Saberes 2015

Evento: XXIII Seminário de Iniciação Científica

Área: CIÊNCIAS EXATAS E DA TERRA

Subárea: Ciência da Computação

Título
DETERMINAÇÃO AUTOMÁTICA DE LIMITES DE SIMILARIDADE EM PROCESSOS DE COLETA TEMÁTICA DE PÁGINAS DA WEB BASEADA EM GÊNERO
Autores
GUSTAVO OLIVEIRA DE SIQUEIRA (Autor)
GUILHERME TAVARES DE ASSIS (Orientador)
Resumo
Coletores temáticos apresentam o propósito de coletar páginas da Web que sejam relevantes a um tópico de interesse específico do usuário. Visando melhorar a eficácia e a eficiência de processos de coleta temática, foi proposta e desenvolvida, pelo orientador deste projeto, uma abordagem para coleta temática onde o tópico de interesse pode ser expresso por termos que descrevem o conteúdo e o gênero (estilo) das páginas da Web desejadas. Tal abordagem possibilitou a construção de coletores temáticos eficazes, eficientes e escaláveis, caso os limites de similaridade definidos e usados, em tais processos de coleta, sejam adequados. Por meio do limite de similaridade, o coletor verifica, em um processo de coleta, se uma página da Web visitada é ou não relevante em relação ao tópico de interesse. Para validar tal abordagem proposta para coleta temática baseada em gênero, foi estabelecido um limite de similaridade distinto, empiricamente, para cada tópico de interesse considerado. Neste contexto, no intuito de tornar a abordagem menos dependente do usuário, o objetivo principal desse projeto de iniciação científica consistiu na proposta e validação de estratégias para determinação automática de limites de similaridade a serem usados em processos de coleta temática da abordagem baseada em gênero. Tais estratégias visam determinar o valor para tal limite de similaridade por meio: (1) da média aritmética ou ponderada das similaridades das páginas-semente do processo de coleta, geradas automaticamente pela abordagem, em relação aos termos de gênero e conteúdo do tópico em questão; ou (2) do uso dos métodos de agrupamento K-Means e BIRCH. Experimentos de validação das estratégias foram realizados, gerando, como melhor resultado, uma precisão de 99%, ou seja, páginas corretamente classificadas como relevantes, considerando o limite de similaridade obtido automaticamente: resultado bem satisfatório em relação aos resultados do trabalho ao qual este projeto da continuidade.
Voltar Visualizar PDF