Lingüística de Corpus - Uma Entrevista Com Tony Berber
Lingüística de Corpus - Uma Entrevista Com Tony Berber
Lingüística de Corpus - Uma Entrevista Com Tony Berber
Revista Virtual de Estudos da Linguagem - ReVEL. Vol. 2, n. 3, agosto de 2004. ISSN 1678-8931
[www.revel.inf.br].
1
ReVEL – Quais foram os primeiros estudos baseados em corpora
lingüísticos de que se tem conhecimento? E quais foram os primeiros
estudos baseados em corpora eletrônicos?
2
ou Mac. Isso tudo sem falar nos programas para manuseamento de corpora,
como concordanciadores, extratores de freqüência e etiquetadores.
3
Esse é um projeto de grande envergadura, que precisaria de muito investimento e
de parceiros comerciais, além do financiamento público. Outro elemento que
precisamos é de ferramentas simples para o usuário iniciante. Isso eu digo por
experiência própria, lecionando e orientando dissertações. Não podemos nos
esquecer que boa parte de nosso público é de alunos de cursos de Letras, de
Tradução, por exemplo, que possuem conhecimento básico de informática.
Programas que exijam conhecimento de programação, com instruções via linhas
de comando, por exemplo, são inviáveis para esses alunos. Não quero dizer que
não devamos ter programas assim, claro que não, até porque alunos
‘computeiros’ não se intimidam com linhas de comando e coisas assim. Mas não
podemos nos esquecer de nossos alunos sem grande conhecimento de
informática e de como podemos fornecer meios para incluí-los nas pesquisas com
corpora.
Tony – Já que você levantou a bola... ;-) não poderia deixar de mencionar o meu
‘Lingüística de Corpus’, que saiu este ano (2004) pela editora Manole. Outro
livro, ‘A Língua Portuguesa no Computador’, é uma coletânea organizada por
mim sobre Lingüística de Corpus, PLN e áreas afins, que vai sair este ano
também, pela editora Mercado de Letras, co-edição com a FAPESP.
4
Manning e Schütze seja leitura obrigatória, além de possivelmente ‘Probabilistic
Linguistics’, de Bod , Hay e Jannedy.
Mas além dos livros (que são caros!), lembro que muitas revistas publicam
artigos sobre corpora e podem ser acessadas pela Internet sem precisar pagar
pela aquisição dos artigos. O Portal de Periódicos da CAPES é um recurso
extraordinário (www.periodicos.capes.gov.br) e traz muitas revistas com
trabalhos sobre corpus. Dá um certo trabalho ‘pescar’ os artigos, porque o portal
não permite busca direta, de entrada, por título ou assunto do artigo, mas apenas
do periódico. Mas uma vez encontrado o periódico ou editora, fica fácil baixar
muitos artigos preciosos sobre corpora. Lembro que o Portal CAPES só permite
baixar artigos se for acessado de dentro de uma universidade conveniada. Acessar
diretamente de casa não funciona – você apenas vê o título e o resumo, mas não o
artigo inteiro. A SciELO (www.scielo.br), outro recurso público financiado pela
FAPESP, dispõe a revista DELTA online, também de graça, onde é possível
encontrar vários artigos sobre Lingüística de Corpus. Para o pessoal mais
computacional, indico o site da ACL (Association for Computational Linguistics)
que traz o ACL Anthology, com artigos sobre Lingüística Computacional, também
de graça, em http://acl.ldc.upenn.edu; é um verdadeiro tesouro de artigos atuais
e antigos sobre computação, muitos dos quais sobre corpora. Outro site na
mesma linha é o http://xxx.lanl.gov/cmp-lg/, com milhares de artigos.