Skip to topic | Skip to bottom
Home
Ilanet
Ilanet.GarimpagemDeTextosr1.4 - 21 Dec 2020 - 20:10 - GregorioIvanoff

Start of topic | Skip to actions

Programa de computador que lê artigos


Lisa Guernsey, The New York Times, 18/12/2003 < http://www.revistadigital.com.br/tendencias.asp?NumEdicao=235 >.


Michael N. Liebman conhece suas limitações. Mesmo com um Ph.D. e uma longa carreira em pesquisa médica, ele não consegue se inteirar de todos os estudos mais recentes sobre sua área de interesse, o câncer de mama. O Medline, o banco de dados que já abriga mais de 10 milhões de resumos para artigos de revistas especializadas, incorpora de 7 a 8 mil resumos por semana. Apenas uma parcela deles é sobre câncer, mas, mesmo assim, o volume de informações é esmagador.

"Existe simplesmente um excesso de literatura e não se consegue examiná-la toda", disse o dr. Liebman, diretor de informática biomédica do Instituto Família Abramson de Pesquisa do Câncer, da Universidade da Pensilvânia. Mas o dr. Liebman está convencido de que deverão aparecer algum dia novas curas para o câncer de mama se ao menos alguém conseguir ler e sintetizar toda a literatura. Em vista disso, encontrou uma solução: recorrer a um programa de computador que lê os artigos para ele.

"O software não se cansa", diz. O programa também é um leitor veloz: o produto que está usando, de uma empresa de software com sede em Chicago chamada SPSS, tem capacidade para esquadrinhar vertiginosamente 250 mil páginas por hora. Outro produto, da empresa de garimpagem de textos ClearForest, ostenta uma velocidade de 15 mil páginas por hora, mesmo assim suplantando de longe o ritmo humano de meras 60 páginas.

Ninguém, nem o dr. Liebman, é claro, sustenta que esses produtos realmente leiam alguma coisa. Sua finalidade é a "garimpagem de textos", uma técnica que os acadêmicos vêm testando há anos, mas cujos instrumentos apenas recentemente se tornaram comercialmente acessíveis. A perspectiva de fazer uma varredura rápida em pilhas de documentos está despertando interesse entre os pesquisadores e analistas, confrontados com mais material do que são capazes de examinar.

Para os não-iniciados, pode parecer que o Google e outros programas de busca da internet fazem coisa semelhante, uma vez que eles também esquadrinham pilhas de documentos em frações de segundos. Mas, como observam os técnicos, os programas de busca procuram informações, exibindo listas de documentos que contêm determinadas palavras-chave.

Os programas de garimpagem de textos vão além, classificando as informações, estabelecendo ligações entre documentos que, por outros critérios, seriam considerados sem conexão entre si e fornecendo mapas visuais (alguns com aparência de galhos de árvore ou raios de rodas) para conduzir os usuários por novos caminhos cuja existência eles podem não ter percebido.

Atualmente esses programas são empregados por pesquisadores da universidade e por empresas, mas cientistas da informação prevêem que esse quadro deverá mudar. Instrumentos de garimpagem de textos de custo inferior acabarão sendo oferecidos a cidadãos comuns que querem ter uma boa visão de questões médicas ou políticas por meio de documentos de conhecimento público. O técnico em análise de textos Madan Pandit, de Bangalore, Índia, que dirige um site da internet chamado K-Praxis (http://www.k-praxis.com), sugeriu que a garimpagem de textos pode ajudar as pessoas a entender alentados documentos que já estão na internet, como o relatório de 858 páginas sobre o inquérito do Congresso dos Estados Unidos sobre falhas de inteligência relacionadas aos atentados terroristas de 11 de Setembro.

Na maioria dos casos, os softwares de garimpagem de textos se baseiam nos mesmos princípios da garimpagem de dados, que emprega análise estatística para extrair informações de bancos de dados estruturados, como estoques de produtos e dados socioeconômicos sobre faixas de consumidores. Mas a garimpagem de textos começa com informações que não vêm em linhas e colunas bem-arrumadas. Ela opera sobre dados não-estruturados – mensagens de e-mail, artigos de jornal, relatórios internos, transcrições de telefonemas e outras coisas do gênero. A maioria das pessoas que usam software de garimpagem de textos dizem que ele funciona melhor quando operado por pessoas inteligentes, conhecedoras do assunto em questão.

O software de garimpagem de textos também pode falhar ao tentar analisar as nuanças da linguagem. Em outras palavras, em captar a ironia: se você manda uma reclamação por e-mail com referências aos "vendedores tão prestativos, que, sem dúvida, conhecem bem seus clientes", o software de garimpagem de texto poderá acabar classificando o recado como elogio.

Mas os defensores dos programas dizem que, quando o software é usado em conjuntos de textos especializados, pode fazer diferença. Os órgãos de inteligência do governo, por exemplo, podem começar a encontrar conexões entre indivíduos e organizações aparentemente não-ligados entre si. Pessoas encarregadas de acompanhar as novas descobertas de um setor podem usar o software para esquadrinhar, classificar e até resumir milhares de artigos de uma só vez.

Não menos que 80% do cabedal de conhecimentos de uma empresa pode estar em documentos talvez considerados inutilizáveis, dizem analistas do setor. Com a garimpagem, segundo eles, esses textos podem se tornar parte do fluxo de dados que passa pelos sistemas analíticos da empresa.

A história mais conhecida sobre garimpagem de textos envolve Don R. Swanson, professor emérito de ciência da informação da Universidade de Chicago, que, nos anos 1980, resolveu examinar profundamente a literatura médica sobre enxaquecas. Começando apenas com a palavra "enxaqueca", ele baixou resumos de 2.500 artigos e examinou rigorosamente os títulos. Quando certos conceitos lhe chamavam a atenção, ele realizava novas buscas para verificar se aquele conceito existia nos textos integrais de outros artigos sobre enxaqueca.

Certa vez, a referência a um fenômeno neurológico chamado "depressão disseminante" fez com que ele procurasse artigos com esse termo no título. Ao ler esses estudos, detectou que o magnésio era mencionado com freqüência como um preventivo contra essa manifestação. Começaram a aparecer outras ligações com deficiências de magnésio, o que o fez aprofundar sua busca. A correlação entre as dores de cabeça e a deficiência de magnésio foi considerada confirmada por experimentos objetivos. Atualmente, o trabalho do dr. Swanson é considerado significativo tanto no campo dos estudos sobre enxaqueca quanto sobre garimpagem de textos.

Mesmo os aficionados mais ardorosos da garimpagem de textos advertem que o software pode se tornar inútil se seu emprego não for acompanhado pela inteligência humana.

"O essencial é identificar a questão certa, não simplesmente sintetizar dados", disse o dr. Liebman. "Se a pessoa não tiver a pergunta certa, pouco importa a quantidade de dados que ela examine", conclui o cientista.

-- GregorioIvanoff - 16 Aug 2004


Palavras-chave: organização em análise, classificação

-- GregorioIvanoff - 03 Jan 2019
to top


Direitos de cópia © 1999-2024 pelos autores que contribuem. Todo material dessa plataforma de colaboração é propriedade dos autores que contribuem.
Ideias, solicitações, problemas relacionados a Ilanet? Dê sua opinião
Copyright © 1999-2024 by the contributing authors. All material on this collaboration platform is the property of the contributing authors.
Ideas, requests, problems regarding Ilanet? Send feedback