domingo, 10 de novembro de 2019

Ferramentas de deteção do plágio





Autor: Elisabeth Bik
8 de novembro de 2019





Imagem: Pixabay




Num post anterior, O que é má conduta na pesquisa? Parte 1: Plágio aborda-se o Office of Research Integrity (ORI) e a sua definição dos diferentes tipos de má conduta científica. O ORI define plágio como a "propriação das ideias, processos, resultados ou palavras de outra pessoa sem apresentar o devido crédito ".

Numa outra definição popular de plágio, o termo é usado especificamente para texto escrito ou falado que inclui frases escritas anteriormente por outras pessoas, sem as colocar entre aspas (o que foi feito anteriormente para a definição do ORI) e sem creditar o autor original.

É difícil rastrear a literatura para artigos que roubam ideias ou resultados de outras pessoas, mas é um pouco mais fácil rastrear artigos que reutilizam o texto de outros autores.

Apresentam-se, de seguida, algumas ferramentas para detetar o plágio.


Google Scholar

Para a verificação manual e gratuita de pequenos trechos de texto, a função de pesquisa no Google Scholar é uma ferramenta mais confiável. O Google Académico tem acesso ao texto completo de quase todos os artigos científicos, não apenas ao resumo, e encontrará correspondências exatas apenas se você colocar o termo da pesquisa entre aspas. Por exemplo, tente "Os mamíferos marinhos desempenham papéis essenciais no ecossistema marinho" em https://scholar.google.com/ e você deve encontrar exatamente um documento que contenha essa frase. Você pode até reconhecer o primeiro autor🙂





De facto, o Google Scholar é o que eu costumava encontrar no texto plagiado que marcou o início do meu interesse pela má conduta científica. Usei uma parte de uma frase que escrevi para uma revisão de 2009 publicada na Nutrition Reviews e, em vez de encontrar apenas meu próprio artigo, encontrei vários outros hits.




Observe que meu artigo foi publicado em 2009, enquanto as outras ocorrências de minha frase são de 2012 e 2014. Nota: Desde que fiz essa pesquisa na primavera de 2013, a tese ainda não apareceu.

Se eu encontrei uma frase com 2 ou mais correspondências no Google Scholar, em vez da correspondência única esperada com o artigo original, tentarei mais citações para ver se mais frases do artigo mais recente também têm outras ocorrências mais antigas. Frequentemente, há apenas uma frase, e isso não é motivo de preocupação. Mas, se houver mais frases, esse pode ser um suspeito imitador.

Obviamente, você pode usar o Google comum para pesquisar o resto não científico da Internet, incluindo páginas da Wikipedia, que costumam servir como fonte de texto plagiado.


SimTexter

Se o texto de um artigo suspeito tiver várias ocorrências, conforme encontrado pelo Google Scholar, é hora de comparar lado a lado o artigo suspeito e o artigo original. Para isso, eu uso o SimTexter.

O SimTexter é uma ferramenta excelente e gratuita desenvolvida no laboratório de Debora Weber-Wulff, professora de Mídia e Computação na Hochschule für Technik und Wirtschaft, em Berlim, Alemanha. O blog dela "Copiar, Agitar e Colar " está no meu blog.

O SimTexter é baseado no algoritmo SIM , desenvolvido por Dick Grune e Matty Huntjens.

Para usar o SimTexter, pode carregar o texto (como um arquivo .txt) ou copiar / colar o texto do documento de origem (mais antigo) numa das duas caixas de texto e copiar / colar o texto do documento suspeito (mais recente) na outra caixa de texto. Pode ser necessário fazer alguma formatação para remover alguns erros que podem ocorrer durante a cópia de arquivos PDF, como remover hífens que o PDF introduziu no final de uma linha de texto.

Em seguida, basta clicar em "Comparar" e a saída aparecerá nao ecrã. O SimTexter foi projetado para mostrar blocos de texto contíguo numa cor e muda para uma cor diferente assim que houver uma interrupção.

Aqui está um exemplo da saída do SimTexter. Verá que o trabalho mais recente (à direita) alterou um número no seu resumo, e o marcador do SimTexter mudou para uma cor diferente.






Isso funciona muito bem no caso de se suspeitar que um artigo tenha copiado o texto de um documento de origem específico.

No entanto, os casos que encontrei são quase sempre documentos baseados em vários outros documentos. Portanto, embora eu faça a minha análise principal no SimTexter, colo manualmente o texto suspeito no Google Docs ou no MS Word, usando a mesma cor para cada trabalho de origem diferente. Isso é muito trabalho!

Aqui está um exemplo do mesmo texto suspeito mostrado acima, depois de eu o ter destacado manualmente. Neste caso, havia apenas três documentos de origem diferentes, então usei verde, amarelo e roxo para cada fonte diferente. Como se pode ver, quase não há texto original neste artigo. A maior parte do texto parece ter sido retirada dos três documentos originais listados na parte inferior. Nenhum desses documentos de origem foi listado nas referências.




Outras ferramentas


Grátis: SEO Small Tools possui uma boa ferramenta de plágio gratuita. Porém, não funciona bem para textos científicos. O resumo mostrado acima foi marcado como semelhante ao resumo do NCBI em apenas 23%, e a ferramenta não tem acesso a artigos científicos além dos resumos. 

Pago: Grammarly tem uma ferramenta de plágio. 

Pago: Para verificação em grande escala de muitos documentos, o iThenticate é o software líder. Juntamente com o TurnItIn (fabricado pela mesma empresa), são usadas ​​em várias escolas e universidades dos EUA, bem como por editores científicos. Ela verifica todo o texto usando o seu próprio banco de dados preenchido com artigos científicos e envia um relatório com a percentagem de texto copiado e de que. 



Fonte: Science Integrity Digest-Um blog sobre integridade científica, de Elisabeth Bik, para Harbers-Bik LLC. Consutado em 10/11/2019




Sem comentários: