Compilação de Corpos Comparáveis EspecializadosDevemos sempre confiar nas Ferramentas de Compilação Semi-automáticas?

  1. Costa, Hernani 1
  2. Dúran Muñoz, Isabel 1
  3. Corpas Pastor, Gloria 1
  4. Mitkov, Ruslan 2
  1. 1 Universidad de Málaga
    info

    Universidad de Málaga

    Málaga, España

    ROR https://ror.org/036b2ww28

  2. 2 University of Wolverhampton
    info

    University of Wolverhampton

    Wolverhampton, Reino Unido

    ROR https://ror.org/01k2y1055

Revista:
Linguamática

ISSN: 1647-0818

Ano de publicación: 2016

Volume: 8

Número: 1

Páxinas: 3-19

Tipo: Artigo

Outras publicacións en: Linguamática

Resumo

Decisões tomadas anteriormente à compilação de um corpo comparável têm um grande impacto na forma em que este será posteriormente construído e analisado.Diversas variáveis e critérios externos são normalmente seguidos na construção de um corpo, mas pouco se tem investigado sobre a sua distribuição de similaridade textual interna ou nas suas vantagens qualitativas para a investigação.Numa tentativa de preencher esta lacuna, este artigo tem como objetivo apresentar uma metodologia simples, contudo eficiente, capaz de medir o grau de similaridade interno de um corpo. Para isso, a metodologia proposta usa diversas técnicas de processamento de linguagem natural e vários métodos estatísticos, numa tentativa bem sucedida de avaliar o grau de similaridade entre documentos. Os nossos resultados demonstram que a utilização de uma lista de entidades comuns e um conjunto de medidas de similaridade distribucional são suficientes, não só para descrever e avaliar o grau de similaridade entre os documentos num corpo comparável, mas também para os classificar de acordo com seu grau de semelhança e, consequentemente, melhorar a qualidade do corpos através da eliminação de documentos irrelevantes.