Linguística, Informática e Tradução: Mundos Que Se Cruzam

Oslo Studies in Language
7 (1) / 2015
Alberto Simes, Anabela Barreiro, Diana Santos,

Rui Sousa-Silva & Stella E. O. Tagnin (eds.)
Lingustica, Informtica e Traduo:

Mundos que se Cruzam
Homenagem a Belinda Maia

General editors: Atle Grnn and Dag Haug
Issue editors:
Alberto Simes
Anabela Barreiro
Diana Santos
Rui Sousa-Silva
Stella E. O. Tagnin
Universidade do Minho & Linguateca

INESC-ID & Linguateca
University of Oslo & Linguateca
Universidade do Porto
Universidade de So Paulo
Reviewers:
Alberto Simes
Alexandre Rademaker
Ana Maria Brito
Anabela Barreiro
Brett Drury
Cludia Freitas
Cristina Mota
Diana Santos
Eckhard Bick
Eugnio Oliveira
Franoise Bacquelaine
Ftima Oliveira
Hugo Gonalo Oliveira
Isabel Galhano
Jorge Teixeira
Jos Joo Dias de Almeida
Joo Veloso
Lus Costa
Lus Miguel Cabral
Lus Trigo
Maria Jos Finatto
Miriam Leite
Mrio J. Silva
Paula Carvalho
Paulo Rocha
Pavel Brazdil
Rui Sousa-Silva
Signe Oksefjell Ebeling
Stella E. O. Tagnin
Slvia Arajo
Thomas Hsgen

7 (1) / 2015
Alberto Simes, Anabela Barreiro, Diana Santos,

Rui Sousa-Silva & Stella E. O. Tagnin (eds.)
Lingustica, Informtica e Traduo:

Homenagem a Belinda Maia
Oslo Studies in Language, 7(1), 2015.

Simes, Barreiro, Santos, Sousa-Silva & Tagnin (eds.):
Lingustica, Informtica e Traduo: Mundos que se Cruzam.
Oslo, University of Oslo
ISSN 1890-9639
ISBN 978-82-91398-11-2 (printed)
ISBN 978-82-91398-12-9 (electronic)
2015 the authors
Set in LATEX fonts Gentium Book Basic and Linux Libertine.
Cover design by UniPub publishing house.
Printed by Print House AS from camera-ready copy supplied by the editors.
This work is founded by Portuguese National Funds through
Portuguese Science and Technology Foundation (Project PEst-OE/LIN/UI0022/2014)
http://www.journals.uio.no/osla
Contents
Alberto Simes, Anabela Barreiro, Diana Santos, Rui Sousa-Silva e Stella E.O. Tagnin
Para uma ontologia dos estudos de traduo
Thomas J. C. Hsgen
Corpgrafo, Terminologie, Phrasologie
21
Estudo preliminar da anfora num corpus de interpretao

simultnea
39
Slvia Arajo e Ana Correia
A admirao luz dos corpos
57
Diana Santos e Cristina Mota
Emprstimo lexical, conceptualizao e variao: Para a

abordagem sociocognitiva e socioletomtrica dos
estrangeirismos no portugus
79
Augusto Soares da Silva
Automatic Anonymisation of a new Portuguese-English Parallel

Corpus in the Legal-Financial Domain
101
Eckhard Bick and Anabela Barreiro
Japo visto de Portugal: Explorao usando um corpo de textos

jornalsticos
125
Lus Fernando Costa
Pesquisa em educao: perspectivas (qualitativas?) na explo139

rao de grandes corpora
Miriam Leite e Cludia Freitas
ENCADEAr: ENCADEAmento automtico de notcias

Carla Abreu, Jorge Teixeira e Eugnio Oliveira
v
153
vi
CONTENTS
Affinity Mining of Documents Sets via Network Analysis,

Keywords and Summaries
183
Pavel Brazdil, Lus Trigo, Joo Cordeiro, Rui Sarmento, and

Mohammadreza Valizadeh
Traduo automtica, ma non troppo
207
Anabela Barreiro
Estudos de Terminologia no Brasil: dilogos com Portugal
223
Maria Jos Bocorny Finatto
Ensinador Paralelo: Alicerces para uma pedagogia nova
235
Diana Santos e Alberto Simes
A tool at hand gestures and rhythm in listing events:

Case studies of European and African Portuguese speakers
253
Isabel Galhano Rodrigues
Traduo Automtica na Interao com Mquinas
283
Antnio Teixeira, Jos Casimiro Pereira, Pedro Francisco e Nuno Almeida
Reporter fired for plagiarism: a forensic linguistic analysis of

news plagiarism
301
Rui Sousa-Silva
The English R Coming! The never ending story of Portuguese

323
rhotics
Joo Veloso
Two base generated structures for ditransitives in European

Portuguese
337
Ana Maria Brito
Corpus-driven glossaries in translator training courses
359
Stella Esther Ortweiler Tagnin
The identification of indicators of sentiment using a multi-view

self-training algorithm
379
Brett Drury and Alneu de Andrade Lopes
As WordNets do Portugus
397
Hugo Gonalo Oliveira, Valeria de Paiva, Cludia Freitas, Alexandre Rademaker,

Livy Real e Alberto Simes
SentiLex-PT: Principais caractersticas e potencialidades

Paula Carvalho e Mrio J. Silva
425
CONTENTS
vii
Loving and hating in English and Portuguese:

A corpus-based contrastive study
439
Activities with culmination
457
Ftima Oliveira and Antnio Leal
viii
CONTENTS
Simes, Barreiro, Santos, Sousa-Silva & Tagnin (eds.) Lingustica, Informtica e Traduo: Mundos
que se Cruzam, Oslo Studies in Language 7(1), 2015. 18. (ISSN 1890-9639 / ISBN 978-82-9139812-9)
mundos que se cruzam

ALBERTO SIMES, ANABELA BARREIRO, DIANA SANTOS,
R U I S O U S A- S I L V A E S T E L L A E . O . T A G N I N
Preparar um livro de homenagem a Belinda Maia , simultaneamente, uma satisfao e um desafio. E esse desafio reflete-se, no s no nmero e na qualidade
das contribuies daqueles que quiseram e puderam prestar-lhe homenagem, mas
tambm na escolha do prprio ttulo deste livro. As 15 propostas diferentes que
chegaram at ns revelam o entusiasmo e empenho que os autores e editores demonstraram nesta iniciativa. O ttulo, Lingustica, Informtica e Traduo: Mundos que se Cruzam, foi decidido depois de um processo de seleo pelos autores, de entre uma srie de propostas cativantes, incluindo: Lnguas sem fronteiras,
As maravilhas da lngua: What a wonderful word!, Belinda in language wonderland ou
mesmo Belinda through the language-glass. Estes e outros ttulos aludem traduo, criatividade lingustica e ao fascinante domnio das lnguas, inspirando-se
nas obras de Lewis Carroll, Alice no Pas das Maravilhas e Alice do outro lado do espelho obras queridas da Belinda. A lista poderia ser infindvel, considerando
que o contributo da Belinda para a cincia no se esgota nas lnguas, tendo contribudo significativamente para a terminologia, a lingustica e as tecnologias da
linguagem humana, entre outras.
De um ponto de vista prtico, e apesar de vrias conversas prvias sobre o
assunto, o livro comeou de facto em junho de 2014 com a primeira chamada
secreta, claro de contribuies e com a discusso de ideias de como homenagear a Belinda. Fazer com que o projeto avanasse, mantendo simultaneamente
secreta toda a iniciativa, dificultou um pouco as questes operacionais. Por exemplo, o financiamento ou publicao deste volume pela prpria Universidade do
Porto no foi possvel pois, muito provavelmente, viria a ser descoberto. Esta ,
alis, a principal razo de este volume ser publicado por uma universidade estrangeira. Queremos, portanto, explicar que os colegas da Belinda na Universidade do
Porto e no Centro de Lingustica da Universidade do Porto deram o seu apoio e
participaram ativamente e entusiasticamente nesta iniciativa, e que foi apenas a
burocracia, junto com uma vontade dos editores de inovar e de manter a surpresa,
que levou ao presente arranjo.
No decurso da preparao do presente volume, muitos outros colegas, alunos
ou simplesmente admiradores da Belinda quiseram juntar-se mas, por diversas
razes, no o conseguiram fazer. Para evitar omisses que pudessem ser mal interpretadas, decidimos no mencionar os muitos que, embora interessados, vieram a desistir em diferentes fases, sobretudo porque, devido ao critrio de top
[2]
simes, barreiro, santos, sousa-silva & tagnin

secret, poderemos ter, por lapso, deixado de informar muita gente que quereria e poderia ter participado. O que certo que sabemos que este livro tem o
apoio moral de muitos mais do que os autores que conseguiram contribuir nos
prazos apertados que propusemos. Seja como for, agradecemos vivamente a todos os autores que no s apoiaram, mas que contriburam com o seu texto e com
as revises dos outros artigos.
Poderamos aqui descrever todo o processo de construo do livro, todas as
fases, desde as chamadas de artigos at recolha dos comentrios, passando pelas decises sobre formatao, lnguas, transcrio, entre muitas outras tarefas
que, motivados pela dedicao Belinda, fomos realizando ao longo destes ltimos meses; porm, essa descrio no nos parece relevante. O nico aspeto que
parece necessrio realar que a ordem pela qual apresentamos as contribuies
totalmente aleatria. Fizeram-se vrias tentativas para agrupar os artigos em
diferentes seces, mas a verdade que tal seria limitar e contrariar a viso multidisciplinar deste grupo de pessoas inspiradas pela Belinda.
lingustica, informtica e traduo

Passamos a descrever muito rapidamente as diferentes contribuies. Vrios foram os contributos centrados na traduo. Em Traduo automtica, ma non
tropo, Anabela Barreiro discute duas tarefas da traduo automtica que exigem
a interveno de especialistas lingusticos, a pr-edio de texto e a avaliao da
traduo automtica, tendo como objetivo realar a importncia do fator humano
no processo de traduo automtica. Este um aspeto para o qual Belinda Maia
tem chamado repetidas vezes a ateno. Por seu lado, a contribuio de Antnio
Teixeira et al., Traduo automtica na interao com mquina, apresenta dois
casos de aplicao ao portugus de traduo automtica na rea da interao entre os seres humanos e as mquinas: a converso de informao sobre planos de
medicao e o comando por voz.
J na rea do ensino da traduo, em Ensinador paralelo: Alicerces para uma
pedagogia nova, Diana Santos e Alberto Simes apresentam uma nova ferramenta de apoio ao ensino de tradutores que permite produzir exerccios baseados
em tradues j feitas, estudando tambm quatro tradues de Lewis Carroll para
o portugus.
Igualmente com nfase no ensino de traduo, Stella E.O. Tagnin apresenta,
em Corpus-driven glossaries in translator training courses, um relato prtico do
recurso a uma abordagem orientada pelo corpo para a extrao de terminologia
em textos tcnicos. Essa metodologia foi aplicada com bastante sucesso em vrias
ocasies no Curso de Especializao em Traduo da Universidade de So Paulo,
tendo alguns trabalhos resultado em publicaes comerciais.
Num nvel mais terico, o artigo de Thomas Hsgen, Para uma ontologia dos
Estudos de Traduo. Comentrios sobre a proposta de S. Vandepitte (2008), proOSLa volume 7(1), 2015
[3]
pe um conjunto de sugestes para um novo mapa coerente e consistente dos

estudos da traduo, a partir de quatro perspetivas: o acrscimo de termos, a
identificao de outros nveis hierrquicos, a modificao de sinnimos e a sugesto de novas relaes associadas.
Durante a traduo, um dos recursos mais teis a um tradutor o acesso a
terminologia. Nessa direo, o artigo de Maria Jos Finatto, Estudos de Terminologia no Brasil: dilogos com Portugal, contrasta artigos de autores brasileiros e
portugueses, que abordam a identificao de terminologia a partir de corpos, salientando o papel fundamental que Belinda Maia teve como disseminadora dessa
metodologia.
Em relao extrao de terminologia a partir de corpos, Franoise Bacquelaine apresenta a evoluo do Corpgrafo, ferramenta idealizada pela prpria Belinda, em Corpgrafo, terminologie, phrasologie, de 2003 at 2008. Alm disso,
relata duas experincias do uso do Corpgrafo. Na primeira, estuda a neonmia
comparada da terminologia Bluetooth em ingls, francs e portugus. Na segunda, aborda o uso dos quantificadores universais chaque/cada, tout/todo o e tous
les/todos os em francs e em portugus de Portugal.
Sendo o Corpgrafo uma ferramenta baseada na anlise e processamento de
corpos, no de estranhar que vrias tenham sido as contribuies que fazem uso
deste tipo de recurso para os mais diferentes estudos.
Augusto Soares da Silva apresenta um estudo comparativo do sucesso dos estrangeirismos em portugus europeu e portugus brasileiro. No seu artigo Emprstimo lexical, conceptualizao e variao: Para a abordagem sociocognitiva
e socioletomtrica dos estrangeirismos no portugus, o autor aplica o novo modelo sociocognitivo e socioletomtrico do emprstimo lexical ao portugus como
lngua pluricntrica, utilizando um corpo de textos nos domnios do futebol e da
moda.
Por um lado, em A admirao luz dos corpos, Diana Santos e Cristina Mota
estudam o campo da admirao em portugus com base nos corpos da Gramateca,
inspirando-se na tese de doutoramento de Belinda Maia sobre as emoes em ingls e portugus. Por outro lado, Signe Oksefjell, em Love and hate in English
and Portuguese, faz um estudo do par love/hate tambm em ingls e portugus,
inspirando-se no contraste entre o ingls e o noruegus feito h alguns anos por
Stig Johansson.
Em Pesquisa em educao: perspetivas (qualitativas?) na explorao de grandes corpora, Miriam Leite e Cludia Freitas apresentam os resultados de dois
estudos baseados em corpos aplicados investigao educacional: um corpo de
blogues criado e mantido por escolas pblicas e um outro, de materiais de ensino,
usado em escolas pblicas, chamando a ateno para as potencialidades do uso de
corpos no estudo da educao, ao mesmo tempo referindo alguns perigos do uso
acrtico de ferramentas apenas quantitativas.
OSLa volume 7(1), 2015
[4]

Um estudo eminentemente cultural associado representao de um pas na
imprensa de outro o artigo de Lus Costa O Japo visto de Portugal Explorao
usando um corpo de textos jornalsticos, que , como o nome indica, um estudo
exploratrio extraindo informaes de um jornal. O artigo de Carla Abreu, Jorge
Teixeira e Eugnio Oliveira, por seu lado, usa um corpo jornalstico para criar automaticamente novas histrias, em Construo automtica de histrias a partir
de notcias, e um bom exemplo de uma rea ou preocupao que a Belinda sempre defendeu: aplicaes concretas graas ao progresso tecnolgico.
Para que os estudos mencionados acima sejam possveis necessria a existncia de corpos. Nessa vertente, algumas contribuies relatam problemas e desafios na sua construo.
Em Automatic anonymization of a new Portuguese-English parallel corpus
in the legal-financial domain, Eckhard Bick e Anabela Barreiro apresentam um
novo corpo paralelo portugus-ingls do domnio jurdico-financeiro, em que realizaram a anonimizao de entidades mencionadas para efeitos de preservao
da privacidade e proteo de dados, uma questo importante que merece mais
reflexo na rea da traduo.
J Slvia Arajo e Ana Correia, em Estudo preliminar da anfora num corpus de interpretao, apresentam o processo de compilao de um corpo multimdia bidirecional ingls-portugus o Corpo de Interpretao/Per-Fide e
discutem resultados preliminares referentes s relaes anafricas em dados autnticos de interpretao simultnea. Como a anfora uma rea crtica dessa
atividade profissional, as autoras destacam a contribuio que a explorao desse
corpo pode trazer para a formao de intrpretes simultneos.
O estudo da lngua no pode esquecer os fundamentos lingusticos. Nesse sentido, em Activities with culmination, Ftima Oliveira e Antnio Leal propem
um novo tratamento de um fenmeno aspetual, sugerindo a existncia de trs tipos de verbos em portugus: os que no seu significado lexical incluem um ponto
final (tlicos), os que no o incluem nem podem incluir (atlicos) e os proposta
nova alfatlicos, que podem ou no corresponder a um processo culminado.
J no seu estudo sobre a sintaxe do portugus, Ana Maria Brito questiona se
o portugus europeu tem alternncia dativa. Em Two base generated structures
for ditransitives in European Portuguese, a autora recorre ao estudo de certos
factos de ordem de palavras, anteposio, ligao e escopo, concluindo que, embora num sentido distinto do de outras lnguas, esta lngua tem alternncia dativa.
Concentrando-se, por sua vez, no oral, Joo Veloso estuda as mudanas operadas nos rticos do portugus, em Here come the English Rs! The never ending
story of Portuguese rhotics. Utilizando o corpo do Arquivo Dialetal do Centro de
Lingustica da Universidade do Porto, o autor procura identificar e datar mudanas menos estudadas nesta classe consonntica do portugus.
[5]
Mas a comunicao humana inclui, ainda, outras reas, como o artigo A tool
at hand: gestures and rhythm in listing events Case studies of European and
African Portuguese speakers demonstra. Isabel Galhano Rodrigues descreve um
estudo etnogrfico de gestos e linguagem corporal em interao. Baseando-se
num corpo de quatro interaes de falantes de diferentes culturas, a autora analisa aspetos morfolgicos e padres rtmicos como forma de deteo de regularidades e diferenas (culturais) dos gestos.
Como a Belinda props e estudou, enquanto pioneira com base em corpos, uma
das funes da linguagem exprimir emoes e sentimentos. Se na comunicao
oral e presencial possvel tirar partido da linguagem corporal e da entoao, na
comunicao escrita esse sentimento torna-se mais complicado de detetar, sendo
a rea de deteo de sentimento por computador uma das mais movimentadas
neste momento.
Assim, Brett Drury e Alneu Lopes, em The identification of indicators of sentiment using a multi-view self-training algorithm, escrevem sobre a identificao
de sentimento usando algoritmos de aprendizagem, em que os resultados atingiram nveis de 70% de preciso.
Tambm relacionado com este tpico, em SentiLex-PT: Principais caractersticas e potencialidades, Paula Carvalho e Mrio Silva apresentam um lxico com
informao de sentimento e demonstram a sua aplicao em dois corpos distintos.
No s este tipo de estudo pode tirar partido de ontologias, rea que sempre
esteve entre as preferidas da Belinda. Em As Wordnets do Portugus, Hugo Gonalo Oliveira et al. apresentam vrias das WordNets existentes para o portugus,
discutindo as suas principais diferenas e semelhanas, e discutindo de que forma
estas iniciativas podem criar sinergias na melhoria dos respetivos recursos.
Finalmente, e voltando ao campo das aplicaes e estudo de textos concretos,
o artigo de Pavel Brazdil et al., Affinity mining of documents sets with network
analysis enriched by keywords and summaries, apresenta algumas experincias
de uso de algoritmos de minagem de textos para detetar similaridades entre documentos. Por seu turno, em Reporter fired for plagiarism: a forensic linguistic
analysis of news plagiarism, Rui Sousa-Silva deteta outro tipo de similaridades
mais problemticas, nomeadamente no campo do plgio jornalstico. Recorrendo
a casos ocorridos nos ltimos anos, o autor mostra que o texto noticioso , frequentemente, objeto de plgio, e ilustra de que modo uma abordagem lingustica
de natureza forense a permite detetar.
[6]
d e d i c at r i a s
Dando a palavra aos editores:
Conheci pessoalmente a Belinda em terras estranhas, no LREC 2002 em
Palma de Maiorca, e desde logo fui contagiada pelo seu entusiasmo e vontade
de contribuir para melhorar o panorama da lingustica computacional em
Portugal, mais surpreendente ou comovente por ela ser inglesa e no portuguesa. Camos nos braos uma da outra, como se diz em bom portugus
(mas obviamente no literalmente) e desde a desenvolvemos uma relao
profissional e de amizade de que muito me orgulho. Penso que como lusofalantes no nos devemos envergonhar de reconhecer que uma das pessoas em
Portugal que mais fez pelos estudos de traduo, pelos estudos contrastivos,
e pela lingustica computacional no nosso pas foi uma inglesa do Porto. Esta
homenagem pois o mnimo que me parece natural fazer-lhe. Mais fizera,
no fosse to curto o prazo que tivemos para produzir este livro.
Diana Santos
Carssima Belinda, j nem sei mais quando nos conhecemos. Se no me
falha a memria foi no I CULT em Bertinoro, nos idos de 1997. Que conferncia
excelente! J l percebi que tnhamos abordagens similares no nosso trabalho com os alunos de traduo. A partir da mantivemos contato estreito e em
1998 estiveste em So Paulo para uma conferncia da ABRAPT. Em 2002 tive
o prazer de ter uma contribuio sua para os Cadernos de Traduo, da
UFSC, num nmero especial sobre Lingustica de Corpus. Em 2003 cruzamos
no Corpus Linguistics em Lancaster e voc nos proporcionou um belssimo
tour pela countryside inglesa era seu aniversrio, lembra? Nosso convvio
maior foi em 2004. Voc se recorda do congresso da ABRAPT em Fortaleza,
precedido por aquele maravilhoso fim-de-semana em Guajiru? Inesquecvel,
n? Em compensao, como fizemos voc trabalhar naquele congresso! No
mesmo ano apresentamos um trabalho Ideias que cruzam o oceano
no congresso da EST, em Lisboa, abordando nossos pontos em comum. Foi
quando voc, gentilmente, nos convidou, a mim e ao Franco, para ficar em
sua casa e nos ciceroneou pelo norte de Portugal. Que maravilhosa guia e motorista voc ! Lamento apenas que estejamos em lados opostos do Atlntico.
Como eu gostaria de ter tido a oportunidade de trabalhar mais de perto com
voc, uma pesquisadora admirvel, ecltica, generosa, mas p-no-cho,
sempre procurando desenvolver estudos e ferramentas (leia-se Corpgrafo)
que tenham aplicao prtica na traduo e na terminologia. Curta muito
sua aposentadoria.
Stella E.O. Tagnin
[7]
No momento da sua jubilao, no poderia deixar de prestar homenagem a uma mestre insigne da traduo em Portugal, a professora Belinda
Maia. Fao-a por meio de dois artigos, um sobre a anonimizao de entidades mencionadas num corpus de traduo profissional do domnio jurdicofinanceiro, o outro sobre as tarefas de pr-edio de texto a ser traduzido
automaticamente e avaliao da traduo computorizada, ambas exigindo a
participao de especialistas nas lnguas envolvidas na traduo. A carreira
acadmica da professora Belinda Maia foi dedicada essencialmente ao ensino da traduo em Portugal, pas que escolheu para viver e trabalhar, onde
a sua obra na rea da lingustica contrastiva e traduo deixa uma marca
indelvel. Como sua antiga aluna de doutoramento, tive o privilgio de testemunhar de perto o seu rigor cientfico e a sua genuinidade e usufruir da
generosidade com que compartilha a sua sabedoria com os seus alunos e colegas de profisso. Que esta singela homenagem permita simbolizar a paixo
com que defende o envolvimento de linguistas e tradutores profissionais no
processo de traduo automtica.
Anabela Barreiro
Whos to say whats proper? What if it were agreed that proper
meant wearing a codfish on your head? Would you wear it?
Lewis Caroll, Alice in Wonderland
Passaram-se mais de 20 anos desde que conheci a Professora Belinda Maia,
como estudante do terceiro ano de traduo da Faculdade de Letras da Universidade do Porto. Foi numa dessas primeiras aulas que, para grande perplexidade de muitos, a Belinda aplicou traduo uma lio de vida qual
poucos estavam habituados: There is no black and white in translation studies. Desde esta lio de traduo e de vida a minha admirao pessoal
e profissional pela Belinda no parou de crescer. Pela sua energia. Pela sua
coragem. Pela sua enorme capacidade de trabalho. Pela sua diplomacia. Pela
sua capacidade de quebrar barreiras convencionais. E, sobretudo, pelo seu
rasgo. Naquela tarde de 1994, ainda desconhecia que os dois partilharamos
um longo caminho, primeiro na orientao do estgio de Licenciatura, depois
na orientao do Mestrado, e, mais tarde, na co-orientao do Doutoramento,
tal como desconhecia que aquela Professora me apoiaria em muitos dos desafios e dilemas, intelectuais e profissionais, com os quais me viria a defrontar
no meu percurso. Neste momento importante da sua vida, no poderia deixar
de lhe prestar homenagem. Fao-o em meu nome e em nome de todos os meus
colegas cujas vidas a Belinda tocou e que, por alguma razo, no participam
neste volume. Mas fao-o sobretudo pela amizade que partilhamos.
Rui Sousa-Silva
[8]
agradecimentos
Agradecemos ao CLUP, na pessoa do seu diretor, Joo Veloso, o apoio financeiro
prestado para a edio do presente volume. Agradecemos tambm ao ILOS, da
Universidade de Oslo, o apoio financeiro prestado para a publicao em papel.
Obrigado aos editores da OSLa, Atle Grnn e Dag Haug, a presteza na ajuda e
na facilitao dos prazos, que foram muito apertados, e ao Nuno Carvalho pela
grande ajuda na converso e formatao dos artigos.
O nosso maior agradecimento vai para todos os que participaram nesta iniciativa, como autores, e como parceristas.
c o n ta c t o s
Alberto Simes
Linguateca e CEH, Universidade do Minho
ambs@ilch.uminho.pt
Anabela Barreiro
INESC-ID e Linguateca
anabela.barreiro@inesc-id.pt
Diana Santos
Linguateca e Universidade de Oslo
d.s.m.santos@ilos.uio.no
Rui Sousa-Silva
Centro de Lingustica da Universidade do Porto
r.sousa-silva@lflab.pt
Stella E.O. Tagnin
seotagni@usp.br
para uma ontologia dos

estudos de traduo1
THOMAS J.C. HSGEN
abstract
The need for a re-mapping of concepts in the field of translation studies is
something that becomes evident today. In this context, Sonia Vandepitte
(2008) proposes a renewed thesaurus that will be analyzed, discussed and
completed in this article understood as a constructive contribution to a new
ontology of translation.
A necessidade de uma ontologia dos estudos de traduo justifica-se, neste

momento, pela diversidade dos estudos propostos, das suas abordagens tericas,
dos seus objetos de investigao, das suas orientaes metodolgicas e dos contextos e prticas analisadas. Esta sua riqueza epistemolgica poder igualmente
ser vista como uma debilidade que, por vezes, resulta numa relao difcil entre
aqueles que se dedicam ao estudo deste domnio to abrangente e heterogneo, e
aqueles que, mergulhados nesta diversidade, prosseguem profissionalmente uma
atividade em constante mudana. Colocado perante desafios profissionais mltiplos que exigem uma adaptao dinmica, o tradutor profissional procura respostas vindas dos estudos de traduo que nem sempre encontra. E, muitas vezes,
no porque no haja trabalho que oferea essa resposta, mas porque, perante uma
exploso de projetos acadmicos no domnio e consequente produo cientfica,
se tornou difcil o acesso informao procurada.
No , assim, por acaso que tm vindo a ser apresentados nos ltimos anos
modelos de reorganizao de toda a investigao disponvel. Partindo da proposta mais influente de Holmes, dos anos setenta, procuraram lanar a linha para
abrir o caminho neste imenso labirinto que se criou e que vai separando o mundo
profissional do mundo acadmico.
Existem hoje em dia cerca de 20.000 publicaes em reviso por pares no domnio da traduo. Contributos como os de Baker (1998), do grupo da Bibliography of Translation Studies da St. Jerome, Gentzler (2001), Kuhiwczak & Littau (2007), Munday (2009), Pym (2010), Tymoczko (2005) e Williams & Chesterman
[1]
Comentando a proposta de Sonia Vandepitte Remapping Translation Studies: Towards a Translation Studies Ontology. Comunicao proferida a 7 de fevereiro de 2014 no mbito do Seminrio
(Re)Cartografar os Estudos de Traduo no Sculo XXI, organizado pelo Centro de Estudos de Comunicao e Cultura da Universidade Catlica.
[10]
thomas j.c. hsgen

(2002), para mencionar apenas alguns dos mais importantes, produziram assim
longas listas de abordagens no mbito dos estudos de traduo que, de acordo o
artigo Remapping Translation Studies: Towards a Translation Studies Ontology
de Vandepitte (2008), pecaram por manifesta falta de consistncia:
These overviews are very incongruent, however: the few subdivisions of types of translation studies areas that are marked clearly
differ from one another, and, taken together, these contributions result in a collection of fairly long lists of translation studies approaches
that lack a consistent basis.
(Vandepitte 2008, pg. 569)
Para o objetivo declarado de reorganizar algo que entrou em desordem, esta
crtica , sem dvida, relevante e, coloca, desde j um critrio de anlise fundamental para a validade de uma nova ontologia como a que Vandepitte prope.
Vandepitte baseia-se conceptualmente em Aitchison et al. (2000) para salvaguardar a conciso da sua ontologia. A construo de thesauri manuais afigura-se
uma tarefa complexa resultando na construo de estruturas que implicam relaes internas de vria ordem, sejam elas hierrquicas, no-hierrquicas, equivalentes e associadas. Uma das finalidades destas estruturas a otimizao da
pesquisa de informao. atravs da etiquetagem ontolgica dos seus objetos
que a informao se torna pesquisvel e comparvel contextualizando e relacionando cada item na relao que estabelece com os restantes. Desnecessrio ser
relembrar que, para isso, se torna fundamental criar uma ordem que permita estabelecer estas relaes. Identificar estas relaes exige um conhecimento profundo do domnio em anlise para o qual o thesaurus construdo. A usabilidade
deste tipo de estruturas depende primordialmente da sua capacidade de localizar e contextualizar as suas entradas num sistema de conceitos que, pelo tipo de
relao estabelecida ontologicamente, se definem mutuamente.
Depois de separar os conceitos principais dos perifricos, o domnio em anlise descrito em termos de subreas que o definem. Segue-se o preenchimento
de cada subrea por entradas que correspondem sua definio recorrendo-se a
listas existentes, manuais, resumos, catlogos, etc. Uma vez identificados todos
os termos a considerar, cada um ter que ser analisado de acordo com o material
restante em termos de sinnimos, hipnimos ou hipernimos. Deste processo podem resultar imprecises, lacunas ou mesmo erros de organizao interna, sendo
necessrias, por isso, sucessivas revises que podero conduzir a 1. acrscimo de
termos, 2. identificao de mais nveis nas hierarquias j estabelecidas ou proposta de reduo de nveis, 3. acrscimo/modificao de sinnimos, 4. sugesto
de novas relaes ou at 5. eliminao de entradas desnecessrias.
para uma ontologia dos estudos de traduo
[11]
neste contexto que vejo o meu contributo possvel para a ontologia proposta
por Vandepitte que irei organizar de acordo com os pontos 1 e 2 acima referidos,
designadamente os pontos relativos a [1] acrscimo de termos, e a [2] identificao
de mais nveis nas hierarquias j estabelecidas ou proposta de redues de nveis.
Dentro desta argumentao fundamental podero surgir, casuisticamente, aspetos de modificao de sinnimos (ponto 3) ou mesmo a sugesto de novas relaes
associadas (ponto 4).
No entanto, antes de o fazer gostaria de esclarecer desde j que no pretendo
formular uma organizao alternativa, certamente possvel, mas antes propor algumas alteraes que, no meu entendimento, aumentam a sua operacionalidade
e subsequente adequao ao objetivo, expresso pela autora, de desenvolver uma
alternativa organizao proposta de Holmes (1987) identificando categorias de
classificao de acordo com critrios precisos que permitiro a apresentao de
todo o tipo de estudos no mbito da traduo num novo mapa coerente e consistente (cf. Vandepitte 2008, pg. 573).
[1] a c r s c i m o d e t e r m o s
Neste campo parece-me pertinente apontar para a falta de um termo no mbito

dos estudos organizados pelo seu propsito (types by purpose), ou seja, aqueles que
tradicionalmente se enquadram nos estudos aplicados da traduo. Postulando
que os estudos aplicados diferem dos estudos puros na maneira como procuram
aplicar o conhecimento adquirido na formulao de normas, padres e aplicaes
prticas, so considerados trs campos de investigao: (i) modelos de ensino de traduo (translation teaching models), (ii) tica tradutiva (translation ethics) e (iii)
traduo cultural (cultural translation). O termo traduo cultural neste contexto
poder causar alguma perplexidade dado o seu carter abrangente e pouco definido no sentido restrito de uma norma, a no ser que nos proponhamos considerlo na perspetiva da teoria performativa em que por exemplo se enquadra a questo dos cnones tradutivos e da influncia das normas culturais na aceitabilidade
de textos traduzidos. Enquanto os modelos de ensino de traduo, bem como a
definio tica podem ser considerados em termos de propsito, a traduo cultural pela abrangncia do conceito cultura no permite essa restrio. Tendo
por isso alguma reticncia acerca da incluso do termo neste campo, parece-me
importante, antes de mais, considerar aqui o que poderamos chamar a avaliao
qualitativa de produtos tradutivos (translation quality assessment), para no usar
o termo crtica da traduo, especialmente conotado com o campo especfico da
traduo literria. Curiosamente Vandepitte apresenta num primeiro momento
o termo crtica da traduo (T[ranslation] criticism) (cf. Vandepitte 2008, pg. 574)
em paralelo com o termo traduo cultural (cultural T[ranslation]), deixando-o cair
neste contexto na listagem final, sem explicao aparente. O termo avaliao qualitativa de produtos tradutivos (translation assessment) aparece como termo assoOSLa volume 7(1), 2015
[12]
thomas j.c. hsgen

ciado didtica (studies of translation teaching), e como sendo sinnimo de avaliao tradutiva (translation evaluation), por sua vez o termo qualidade tradutiva
translation quality surge como termo associado aos estudos da profisso de tradutor (translation profession studies), e como sinnimo de avaliao qualitativa de
produtos tradutivos (translation quality assessment). O termo estudos da avaliao
de qualidade tradutiva orientados para o efeito (effect-oriented translation quality assessment studies) aparece como hipernimo da entrada estudos orientados para o
resultado do processo tradutivo (result-oriented translation studies). No mbito dos
estudos multifocalizados encontramos o termo crtica de traduo (translation criticism) como termo hipernimo da traduo literria (literary translation). E como
exemplos de estudos multifocalizados no discurso e resultado so apresentados os
termos associados reviso tradutiva e critica (translation reviewing and criticism) e
avaliao de qualidade (quality assessment), sendo este sinnimo de avaliao tradutiva (translation evaluation). Torna-se, a meu ver, imprescindvel, introduzir a
avaliao de textos traduzidos no campo de investigao que se prope alargar o
conhecimento e introduzir mudana ao apresentar critrios de avaliao de textos traduzidos. No contexto da crescente utilizao da traduo automtica no
campo profissional, estes estudos abarcaro os processos de ps-edio em que a
aplicao de modelos de avaliao contribuem para processos de reviso e avaliao mais eficazes.
Em relao aos tipos por sujeito (types by subject), Vandepitte sugere a distino entre os estudos de estratgias tradutivas (studies of translation strategies) e os
estudos de tcnicas lingusticas de traduo (studies of linguistic translation techniques):
NT: studies of translation strategies
RT: adaptation
RT: domestication
RT: equivalence
RT: explicitation
RT: foreignization
RT: free translation
RT: imitation
RT: literal translation
UF: word-for-word translation
UF: metaphrase
RT: paraphrase
RT: sense-for-sense translation
NT: studies of linguistic translation techniques
NT: compensation
RT: shifts of translation
[13]
Esta distino afigura-se-me discutvel devido confuso instalada na utilizao dos conceitos estratgia, mtodo, procedimento e tcnica. Segundo Venuti
(1998) as estratgias envolvem decises fundamentais relacionadas com as macroestruturas textuais que o autor classifica como sendo de domesticao (domestication) ou estranhante (foreignization). Por sua vez, Jskelinen (1993) distingue estratgias globais que se reportam a princpios e modos de ao gerais, enquanto
que as estratgias locais se referem a opes mais especficas relacionadas com
a tomada de deciso no contexto da soluo de problemas ao nvel das microestruturas textuais: global strategies refer to general principles and modes of
action and local strategies refer to specific activities in relation to the translators
problem-solving and decision-making. Jskelinen (1993, pg. 16). Newmark
(1988) prope a distino entre mtodo tradutivo e procedimento distinguindoos de forma semelhante de Jaaskelainen para diferenciar estratgias globais de
estratgias locais: while translation methods relate to whole texts, translation
procedures are used for sentences and the smaller units of language. (Newmark
1988, pg. 81). A diferenciao entre opes macro- e micro-estruturais parece-me
importante no contexto dos estudos orientados para a descrio do processo e
que creio que devia ser visvel na apresentao de um thesaurus deste tipo. Assim
tornar-se-ia, a meu ver, necessrio reordenar a lista de Vandepitte no sentido de
a tornar mais consistente e clarificadora, de acordo com a seguinte proposta:
RT: adaptation
RT: adaptation
RT: domestication
RT: domestication
RT: equivalence
RT: foreignization
RT: explicitation
RT: foreignization
RT: imitation
RT: imitation
UF: metaphrase
UF: metaphrase
RT: paraphrase
NT: studies of linguistic translation
procedures
NT: studies of linguistic translation techNT: compensation
niques
NT: compensation
(proposta do autor)
[14]
thomas j.c. hsgen

Para alm disso, no me parece que o procedimento da compensao (compensation) seja aquele que subsume todos os procedimentos micro-estruturais propostos pelos diversos modelos, sendo um conceito retomado por Hervey & Higgins (1992) para explicar procedimentos que compensem a perda de caractersticas importantes do texto de partida (TP) criando efeitos semelhantes no texto de
chegada (TCH) por meios diferentes:
Compensation here means the technique of making up for the
translation loss of important ST [source text] features by approximating their effects in the TT [target text] through means other than
those used in the ST.
(Hervey & Higgins 1992, pg. 248)
Seria, por isso, um tipo de procedimento entre outros, como p.ex.:
RT:
RT:
RT:
RT:
RT:
RT:
RT:
RT:
Transference
Naturalization
Cultural equivalent
Functional equivalent
Descriptive equivalent
Componential analysis
Synonymy
Through-translation
para referir apenas alguns.

Para alm deste aspeto, a utilizao do termo alteraes tradutivas (translation shifts) para definir todo o tipo de procedimentos micro-estruturais afigurase-nos no mnimo ambgua, por este termo poder ser confundido com conceitos
macro-estratgicos de Catford (1965) e Popovic (1976) ou com o conceito microestratgico de mudanas ou transposies (shifts or transpositions) de Newmark
(1988, pg. 86), utilizado para descrever todo o tipo de mudana de categoria gramatical para resolver problemas de traduo pontuais.
O conceito relativamente recente das tradues naturais (natural translations)
deveria ser includo nesta listagem como termo relacionado com o conceito do
bilinguismo na traduo, j com mais longa tradio nos estudos da traduo e
que, por sua vez, est igualmente ausente desta proposta. Harris, foi, em 1973,
um dos primeiros tericos a estudar com alguma profundidade a relao entre
o bilinguismo e a competncia tradutiva, avanando com uma teoria da traduo
natural que parte do princpio constitutivo de que existe uma relao coextensiva
entre a competncia bilingue e a capacidade de traduzir: all bilinguals are able
to translate, within the limits of their mastery of the two languages; therefore
translating is coextensive with bilingualism (Harris & Sherwood 1978, pg. 155).
Esta abordagem torna-se particularmente importante quando estuda a traduo
[15]
natural efetuada por bilingues em situaes espontneas do quotidiano em comparao com a traduo profissional por tradutores com formao avanada em
situaes altamente estruturadas:
Bilingualism and all forms of translation, whether the natural
translation done in everyday circumstances by bilinguals who have
had no special training for it (Harris 1976, pg. 96) or the professional translation of those with advanced translation degrees working
in todays language industry, are necessarily connected at a very fundamental cognitive level. (Shreve 2012, pg. 1).
O facto de o bilinguismo na traduo ter sido, at este momento, um pouco negligenciado na Europa, ao contrrio do que acontece nos EUA (cf. Antonini (2010)),
pode explicar a ausncia desta entrada na proposta de Vandepitte, mas, naturalmente, no a justifica, at porque se observa tambm na Europa um crescente
interesse pelas redes de intrpretes e tradutores voluntrios que, no curto, prazo
iro modificar de forma significativa o panorama da traduo a nvel global.
proposta de Vandepitte (2008, pgs. 584585).
Types by subject
NT: single-focus translation studies
NT: process-oriented translation studies
(incl. cognitive processes)
NT: studies of translation competence
[]
proponho, por estas razes, o seguinte acrscimo:

NT:
RT:
RT:
RT:
studies of bilinguism in translation

natural translation
language brokering
translation volunteers networks
NT: Babels
[2] a l a r ga m e n t o da s h i e r a r q u i a s e s ta b e l e c i da s p o r va n d e p i t t e
O campo que se refere s metodologias contm um problema de hierarquizao

que resulta da relao de concomitncia que existe, na minha opinio, entre os
termos estudos da traduo indutivos (inductive translation studies), estudos da traduo baseados em corpora (corpus-based translation studies), abordagens hermenuticas (hermeneutic approaches), estudos da traduo dedutivos (deductive translation studies), estudos da traduo experimentais (experimental translation studies)
e abordagens especulativas (speculative approaches), por um lado, e abordagens qualitativas (qualitative approaches) e abordagens quantitativas (quantitative approaches), por outro, como se pode verificar na proposta da autora:
[16]
thomas j.c. hsgen

Types by method
Types by general research methods
NT: inductive translation studies
NT: corpus(-based) translation studies
NT: qualitative approaches
NT: quantitative approaches
NT: hermeneutic approaches
NT: deductive translation studies
NT: experimental translation studies
RT: think-aloud protocol studies
UF: TAP studies
NT: speculative approaches
Partilho com Flynn & Gambier (2011, pg. 9293) o pressuposto de que os mtodos quantitativos e qualitativos, isoladamente ou em combinao, so aplicados a
todos os trabalhos sobre os principais fatores do processo tradutivo:
To recapitulate, two main methods of analysis can be used to
study any of the four factors outlined above: quantitative or qualitative or a combination of the two. Listed under quantitative methods
we have noted surveys, (cloze) tests, corpus analyses, key-logging,
eye-tracking, screen-logging and related statistical analyses. Under
qualitative methods we have noted various forms of text and discourse
analysis, narrative and related studies, interviews with individuals or
focus groups, think-aloud protocols, ethnographies, inquiries into to
power, gender and other sets of relations.
Tendo em considerao este entendimento, impe-se uma reorganizao hierrquica dos tipos organizados por mtodos de investigao geral da seguinte forma:
Types by method
NT: inductive translation studies
NT: corpus(-based) translation studies
NT: qualitative approaches
NT: quantitative approaches
NT: deductive translation studies
NT: experimental translation studies
RT: think-aloudprotocol studies
UF: TAP studies
Types by method
NT: quantitative methods
NT: qualitative methods
RT: inductive approaches
RT: deductive approaches
RT: corpus(-based) approaches
RT: experimental approaches
RT: think-aloud protocol studies
UF: TAP studies
(proposta do autor)
[17]
A alterao de inductive translation studies, corpus(-bases) studies, deductive translation studies e experimental translation studies para inductive approaches, corpus(-based)approaches, deductive approaches e experimental approaches justifica-se, na minha opinio, por razes de coerncia interna considerando que os itens em causa definem abordagens possveis em que
os mtodos identificados podem vir a encontrar a sua aplicao.
concluso
A construo de um thesaurus com estas caractersticas uma tarefa complexa e
exigente, e por natureza, discutvel ou at polmica, porque as diferentes abordagens, prticas e objetivos nos estudos de traduo nem sempre encontram consenso sobre o que se pode considerar como nuclear e complementar (no no sentido da sua importncia, mas sim da sua abrangncia) mesmo dentro de cada ramo
de investigao. Por essa razo, no proponho aqui uma alternativa de organizao estrutural da rea mas, pelo contrrio, privilegio uma postura de cooperao
construtiva na otimizao de uma soluo/proposta de cariz taxonmico.
No entanto, no quero deixar de mencionar a possibilidade de se pensar numa
estruturao ontolgica alternativa dos estudos de traduo. Flynn & Gambier
(2011), p. ex., consideram 4 fatores fundamentais e interligados na descrio e
explicao da atividade tradutiva, a saber, 1. discursos (no sentido lato incluindo
tradues e toda a interao multilingual relacionada com o texto traduzido) 2.
prticas (para alm da prtica tradutiva, fatores mltiplos que de alguma forma
a influenciam), 3. contextos (em que as tradues so produzidas) e 4. atores
(que inclui todos aqueles que participam, direta ou indiretamente, na atividade
tradutiva) (cf. Flynn & Gambier (2011, pg.8993). Na tentativa de assim agrupar os estudos pelo objetivo comum de procurar descobrir o que ser tradutor
(translatorship) talvez se poderia passar de uma perspetiva multidisciplinar que
no procura necessariamente a integrao do conhecimento, para um campo que
Snell-Hornby et al. (1994) chamaram de uma disciplina interdisciplinar que, por
sua vez, procura congregar todo o saber volta daquilo que poderamos chamar
translatorship. Uma ontologia, partindo deste pressuposto, teria desse modo,
como fundamento estruturante alternativo os fatores que definem per se a traduo enquanto atividade humana comunicativa e intencional (cf. Vandepitte (2008,
pg. 570). Porventura, seria um passo na direo, por muitos sentida como desejvel, de uma reconciliao entre a teoria e a prtica.
agradecimentos
Agradeo colega Anabela Barreiro a reviso atenta deste artigo.
[18]
thomas j.c. hsgen
referncias
Aitchison, Jean, Alan Gilchrist & David Bawden. 2000. Thesaurus construction and
use: A practical manual. Aslib IMI.
Antonini, Rachele. 2010. Natural translator and interpreter. Em Yves Gambier
& Luc van Doorslaer (eds.), Handbook of translation, vol. 2, 102104. John Benjamins.
Baker, Mona (ed.). 1998. Routledge Encyclopedia of Translation Studies. Routledge.
Catford, John Cunnison. 1965. A linguistic theory of translation: An essay in applied
linguistics. Oxford University Press.
Flynn, Peter & Yves Gambier. 2011. Methodology in translation studies. Em Yves
Gambier & Luc van Doorslaer (eds.), Handbook of translation, vol. 2, 8896. John
Benjamins.
Gentzler, Edwin. 2001. Contemporary translation theories. Multilingual Matters 2nd
edn.
Harris, Brian. 1976. The importance of natural translation. Working Papers in Bilingualism 12. 96114.
Harris, Brian & Bianca Sherwood. 1978. Translating as an innate skill. Em David
Gerver & H. Wallace Sinaiko (eds.), Language, interpretation and communication,
155170. Plenum.
Hervey, Sndor & Ian Higgins. 1992. Thinking translation. Routledge.
Holmes, James. 1987. The name and nature of translation studies. Em Gideon
Toury (ed.), Translation across cultures, Bahri Publications.
Jskelinen, Riitta. 1993. Investigating translation strategies. Em John Laffling
& Sonja Tirkkonen-Condit (eds.), Recent Trends in Empirical Translation Research,
99120. University of Joensuu.
Kuhiwczak, Piotr & Karin Littau (eds.). 2007. A companion to translation studies.
Multilingual Matters.
Munday, Jeremy (ed.). 2009. The Routledge Companion to Translation Studies. Routledge.
Newmark, Peter. 1988. Approaches to translation. Prentice Hall.
Popovic, Anton. 1976. Dictionary for the analysis of literary translation. Department
of Comparative Literature, The University of Alberta.
[19]
Pym, Anthony D. 2010. Exploring translation theories. Routledge.

Shreve, Gregory M. 2012. Bilingualism and translation. Em Yves Gambier & Luc
van Doorslaer (eds.), Handbook of translation, vol. 3, 16. John Benjamins.
Snell-Hornby, Mary, Franz Pchhacker & Klaus Kaindl (eds.). 1994. Translation Studies: An Interdiscipline. Selected papers from the Translation Studies Congress, Vienna,
1992. John Benjamins.
Tymoczko, Maria. 2005. Trajectories of research in translation studies. META
50(4). 10821097.
Vandepitte, Sonia. 2008. Remapping translation studies: towards a translation
studies ontology. META 53(3). 569588.
Venuti, Lawrence. 1998. Strategies of translation. Em Mana Baker (ed.), Encyclopedia of Translation Studies, 240244. Routledge.
Williams, Jenny & Andrew Chesterman. 2002. The map: A beginners guide doing
research in translation studies. St. Jerome Publishing.
c o n ta c t o s
Thomas J. C. Hsgen
Faculdade de Letras da Universidade do Porto
thusgen@letras.up.pt
Simes, Barreiro, Santos, Sousa-Silva & Tagnin (eds.) Lingustica, Informtica e Traduo : Mundos que se Cruzam, Oslo Studies in Language 7(1), 2015. 2137. (ISSN 1890-9639 / ISBN 978-8291398-12-9)
corpgrafo, terminologie, phrasologie

FRANOISE BACQUELAINE
abstract
The Corpgrafo results from interdisciplinary collaboration between linguists and computer engineers under Belinda Maias direction. This userfriendly tool for building and using tailor-made corpora allows not only for
terminology extraction and management, but also for any research based
on monolingual, comparable or parallel corpora. This paper presents the
Corpgrafos evolution from the first to the fourth version, and two experiences of its use in three languages (English, French and Portuguese). The
first experience is in the field of Bluetooth technology terminology extraction and management. The second deals with four Portuguese structures
containing the universal quantifier cada and expressing progression, dropper, proportion between two sets of events or entities and proportion between a set and a subset of events or entities. These experiences show the
strengths, weaknesses and limits of the Corpgrafo.
[1] i n t r o d u c t i o n
Le Corpgrafo, la Terminologie et la Phrasologie marquent les trois tapes

dun parcours sous la direction de Belinda Maia. Le Corpgrafo nous a t prsent en premire anne de master (Mestrado em Terminologia e Traduo) et a
t utilis dans le cadre dun travail de groupe en Terminologie au deuxime semestre 20052006 pour produire une base de donnes terminologiques (BDT) dans
le domaine des tlcommunications sans fil. Cette initiation au Corpgrafo a dtermin la suite : mmoire de master en Terminologie (20062008, soutenance en
janvier 2009) et dcouverte en 20092010, grce au Corpgrafo, de lobjet linguistique de notre thse de doctorat actuellement en cours. Le choix du Corpgrafo
pour contribuer cet hommage rendu celle qui dirige nos recherches depuis
bientt dix ans sest donc impos.
Dans un premier temps, nous nous inspirons dun rapport de la Linguateca
(Santos 2005) et de publications des membres de lquipe de Porto pour retracer lvolution du Corpgrafo depuis le Gestor de Corpora en 2003 (Sarmento &
Maia 2003 ; Maia & Sarmento 2003), jusqu la quatrime et dernire version prsente en 2008 (Maia & Matos 2008) 1 . Une fois dress le portrait du Corpgrafo,
deux expriences de recherche sur corpus en contexte de formation sont prsen1. Dautres sources consultes mais non cites figurent dans la bibliographie dautres articles de cet ouvrage, dont la plupart sont disponible sur le site de la Linguateca http://www.linguateca.pt/.
[22]
franoise bacquelaine
tes. Lune concerne llaboration dune BDT trilingue (anglais, franais, portugais) dans le domaine de la technologie de tlcommunication sans fil Bluetooth.
Lautre a rvl la prdominance du quantificateur universel portugais cada sur
le quantificateur universel pluriel todos (os) dans certains corpus de spcialit,
alors que each et chaque sont moins frquents que all ou tous (les) en anglais et
en franais, quels que soient les corpus. Ces deux exemples illustrent bien deux
des principales applications pdagogiques et scientifiques du Corpgrafo dans la
perspective de lutilisateur.
[2] c o r p g r a f o
La gense du Corpgrafo remonte laube du XXIe sicle, sous limpulsion de

Belinda Maia, dans le cadre du jeune projet de la Linguateca, dont lobjectif principal est la mobilisation de ressources linguistiques et la conception doutils de traitement automatique de la langue portugaise pour assurer sa prennit parmi les
langues informatises et numrises 2 . Le poloCLUP (ple de Porto de la Linguateca) a entam ses travaux en octobre 2002. Lquipe responsable de la conception
et de ladaptation du Corpgrafo aux besoins de ses usagers depuis 2002 est dirige
par Belinda Maia et Diana Santos, qui symbolisent la collaboration entre experts
en Linguistique et en Gnie informatique ncessaire la cration et au dveloppement de ressources pour le traitement automatique des langues (TAL). Lvolution
du Corpgrafo de 2003 nos jours se divise en trois phases. La premire, que lon
pourrait caractriser de prparatoire, correspond au Gestor de Corpora. Nat ensuite le Corpgrafo qui va voluer de la version 1 la version 3 de 2004 2007
essentiellement grce aux efforts de Lus Sarmento, Lus Miguel Cabral, Ana Sofia
Pinto et Dbora Oliveira. La troisime phase correspond la version 4 que lon
doit Srgio Matos sous la direction de Belinda Maia et Lus Costa. Le poloCLUP
sest teint en 2008 et le bon fonctionnement du Corpgrafo dpend dsormais
de la bonne volont de lquipe compose de Belinda Maia, Diana Santos, Srgio
Matos et Lus Miguel Cabral.
Le Gestor de Corpora (GC) a t prsent Lancaster en mars 2003 (Maia & Sarmento 2003) et Braga en juin 2003 (Sarmento & Maia 2003), soit peine quelques
mois aprs le lancement du projet. La volont de crer un outil rpondant aux
besoins denseignants et dtudiants de trois domaines principaux (linguistique,
traduction et TAL) et dimpliquer les utilisateurs dans lvolution du Corpgrafo
a dtermin le choix dune architecture modulaire extensible et adaptable aux
besoins formuls par les utilisateurs. Le GC permettait lutilisateur de crer un
compte priv sur le Web o il pouvait stocker des fichiers PDF, PS, HTML, RTF
ou MsWord convertis en texte grce au module Perl EXTEX, rvolutionnaire
lpoque. Dautres modules lui permettaient deffectuer dautres oprations : (1)
2. Le pari semble gagn : De acordo com estimativas recentes, o portugus a quinta lngua mais usada na
internet, sendo ultraprassada apenas pelo ingls, chins, espanhol e japons (Branco et al. 2012, pg. 14).
[23]
diter le texte pour le nettoyer et le diviser de faon semi-automatique en segments, conformment aux besoins de lutilisateur ; (2) constituer un ou plusieurs
corpus partir de slections de fichiers ; (3) raliser des tudes de frquence et
des recherches de collocations (Sarmento & Maia 2003, pg. 27).
En 2004, grce son architecture modulaire, des outils dextraction et de gestion terminologique ont pu tre ajouts aux fonctions du GC pour faciliter le travail du terminographe : le Corpgrafo tait n (Sarmento et al. 2004). La structure
actuelle du Corpgrafo se mettait en place. Le menu principal (figure 1) offre aujourdhui quatre options, dont les deux premires sont hrites du GC : (1) Gestor (Gestionnaire) pour la cration et la gestion de corpus ; (2) Pesquisa (Recherche) pour lanalyse de corpus selon divers types de requtes ; (3) Centro de
Conhecimento (Centre de connaissance) pour la cration et la gestion de bases
de donnes et de relations smantiques ; (4) Centro de comunicao (Centre de
communication) o lutilisateur peut trouver des informations sur le Corpgrafo.
Outre ces quatre options du menu principal donnant accs diverses fonctions,
lutilisateur dispose de quatre boutons (figure 2) lui permettant (1) daccder la
corbeille de fichiers supprims ; (2) dobtenir de laide sur la fonction quil est en
train dutiliser ; (3) denvoyer des commentaires ; (4) dditer son profil.
figure 2 : Boutons (Version 4).

figure 1 : Menu principal (Version 4).
Par rapport au GC, les fonctions de gestion de fichiers et de corpus de la premire version du Corpgrafo ont t amliores. Lutilisateur dispose dun espace
priv de 10 MB sur le serveur, non seulement pour stocker des fichiers et crer
des corpus en recourant aux fonctions hrites du GC, mais aussi pour tlcharger des sites partir dune adresse URL ou les explorer avant de slectionner et
de tlcharger uniquement ce qui lintresse. Chaque fichier peut dsormais tre
accompagn de mtadonnes (titre, auteur, date, domaine de spcialit, type de
texte, etc.). Certaines de ces mtadonnes apparaissent automatiquement lors de
certaines oprations danalyse de corpus ou de constitution de base de donnes et
elles permettent de classer les fichiers pour des recherches ultrieures. Chaque
corpus est compos dune slection de fichiers qui peut tre altre tout moment et le mme fichier peut tre intgr plusieurs corpus. La figure 3 illustre
les diffrentes options du gestionnaire.
[24]
figure 3 : Options du gestionnaire (Version 4)

Loption de recherche permet deux types de requte : lune sur les n-grammes
(co-occurrences dun nombre paramtrable n datomes), lautre sur un mot, tel
quun terme simple comme piconet, ou sur une squence plus ou moins fige, telle
quun terme complexe comme access request address. Dans le premier cas, lutilisateur peut dterminer la longueur des n-grammes de 1 6 atomes (mots et signes
de ponctuation). Lanalyse de n-grammes permet dobtenir des rsultats absolus
et relatifs sur la distribution des n-grammes dans le corpus analys. Par exemple,
une requte sur les 4-grammes du corpus Bluetooth en franais (compos de 18
fichiers) nous apprend que le terme technologie sans fil Bluetooth y est attest 40
fois, ce qui reprsente une frquence de 0,026% 3 de lensemble des 4-grammes
attests dan ce corpus (figure 4). En cliquant sur ce 4-grammes, on apprend quil
nest utilis que dans 4 des 18 fichiers, ce qui implique quil existe des variantes
de ce terme central ( savoir technologie Bluetooth ou, tout simplement, Bluetooth).
Les rsultats peuvent tre exports vers un fichier CVS qui peut tre lu par un
tableur du type Excel.
Les rsultats des requtes sur des expressions simples ou complexes peuvent
tre obtenus sous diffrentes formes selon quon veuille les analyser en contexte
(Concordncia Frase) ou dcouvrir des collocations ou toute autre forme de
co-occurrence (Concordncia Janela (Concordance Fentre) et Concordncia
KWIC) (Sarmento et al. 2004, pg. 451). Les options Concordncia Frase et Concordncia KWIC 4 (figures 5 et 6) donnent des rsultats absolus et relatifs sur
la distribution de lexpression de requte dans les divers fichiers du corpus et
permettent daccder aux mtadonnes du fichier de chaque occurrence (bouton
info).
3. Daprs nos calculs, cette frquence est mme plus leve : 4000/110.961 = 0, 36%.
4. Key Word In Context.
[25]
figure 4 : Requte sur n-grammes (Version 4)
figure 5 : Concordncia Frase (Version 4)
Quant loption Concordncia Janela (figure 7), elle permet de classer les
rsultats par ordre alphabtique daprs les atomes qui prcdent ou qui suivent
lexpression de requte. La version 4 comporte une cinquime fonction permettant dexplorer des corpus parallles, mais nous ne lavons jamais utilise.
Mais ce qui a valu le changement de nom du GC, cest bien la possibilit de
crer et de grer des BDT. Lextraction terminologique se fonde sur lanalyse de ngrammes et un ensemble de restrictions lexicales partir dun dictionnaire lectronique. Lutilisateur peut crer des BDT dont le modle se base sur la norme ISO
12620. Chaque terme vedette ou entre de la BDT correspond une fiche comportant divers champs pouvant tre complts ou non (langue, donnes morphologiques, source, dfinition, exemples en contexte, relations smantiques avec
[26]

dautres termes, quivalent(s) dans une ou plusieurs autres langues, etc.). partir de ces donnes, le Corpgrafo cre automatiquement des glossaires au format
HTML. Il peut aussi produire des thesauri au format HTML, en se fondant sur les
relations smantiques entre termes, et exporter ces informations vers un fichier
dont le format permet de visualiser le rseau smantique ainsi produit (ibidem).
La version 2 est prsente lanne suivante lUniversit de Leeds (Maia &
Sarmento 2005). De la mi-mai 2004 la mi-mai 2005 (Santos 2005, pgs. 1920), les
efforts de Lus Sarmento se sont concentrs sur lamlioration de la gestion terminologique (extraction semi-automatique de termes et de relations smantiques,
production de cartes conceptuelles partir des relations smantiques) et ceux
de Lus Cabral sur linterface SAGI, daprs une enqute auprs des utilisateurs,
tandis que Dbora Oliveira sest charge de ladaptation de la documentation aux
nouvelles fonctions du Corpgrafo.
La division du menu principal en quatre options est prsente pour la premire fois en 2006, alors que le Corpgrafo en est dj sa troisime version (Maia
& Sarmento 2006, pg. 55). Si les fonctions de gestion et de recherche ont lgrement volu lors de cette deuxime phase, les efforts se sont toutefois concentrs sur la semi-automatisation de lextraction terminologique, de lextraction de
dfinitions et de lidentification de relations smantiques (Sarmento et al. 2006,
pgs. 15031504).
[27]
La fonction dextraction semi-automatique des termes existait dj dans la

premire version et a t dcrite ci-dessus. Son avantage, cest que le corpus na
pas besoin dtre annot. Cette fonction est plus performante sur de petits corpus
hautement terminognes que sur de grands corpus en raison du bruit important
que ceux-ci produisent malgr les filtres mis en place en anglais et en portugais.
Mais les progrs de la premire la troisime version sont plus sensibles au
niveau de lextraction semi-automatique de dfinitions et de lidentification semiautomatique de relations smantiques qui taient absentes de la version 1. Ces
deux modules fonctionnent sur des stocks de structures 5 propres introduire
une dfinition ou une relation smantique. Les stocks de structures dfinitionnelles sont assez importants pour langlais et le portugais (plus de 120 structures
dans chaque langue). Cette fonction est plus efficace lorsque le corpus est compos de textes didactiques gnralement riches en dfinitions. Lidentification
des relations smantiques est plus complexe, non seulement parce quelles sont
nombreuses et varies, mais aussi parce quelles sont souvent implicites (idem,
pg. 1504). Les relations smantiques peuvent galement tre tablies manuellement et lutilisateur peut crer dautres relations que celles qui sont pr-dfinies
selon ses besoins. La volont de produire des ontologies et des thesauri de domaine de spcialit partir de ces relations smantiques tait louable mais les
rsultats obtenus se sont rvls peu probants et la recherche sur ces fonctions
ont t abandonnes.
La quatrime version du Corpgrafo se caractrise surtout par lintgration du
moteur Nooj plusieurs fonctions de recherche du Corpgrafo pour reprer des
units phrasologiques en anglais, en franais et en portugais, et par linsertion
de fonctions permettant daligner des corpus parallles et des segments de corpus comparables, de lancer des recherches sur ces corpus aligns et de crer des
bases de donnes phrasologiques ou lexicales (Maia & Matos 2008, pgs. 8081).
La longueur des n-grammes peut dsormais aller jusqu 15-grammes, la possibilit dexporter les bases de donnes a t optimise et il est possible dobtenir
des statistiques sur la frquence des termes ou des lments lexicaux partir des
bases de donnes ou de visualiser les relations smantiques partir de la fiche
dun terme (figure 8).
Le Corpgrafo a ainsi volu selon les objectifs de ses concepteurs et les besoins de ses utilisateurs. Aujourdhui, il remplit la mission qui lui a t assigne :
cest un outil conu prioritairement pour le traitement automatique du portugais
accessible gratuitement tout chercheur dont le travail comporte des recherches
sur corpus, quel que soit son domaine et quelles que soient ses comptences informatiques. Les deux expriences dcrites ci-dessous font apparatre certaines
de ses failles et certains de ses atouts dans la perspective de lutilisateur.
5. Des exemples de ces deux types de structures sont fournis par Sarmento et al. (2006, pg. 1503).
[28]
figure 8 : Relations smantiques (Version 4)

[3] t e r m i n o l o g i e
Pour raliser ltude de nonymie compare de la terminologie Bluetooth en

anglais, en franais et en portugais (Bacquelaine 2009) 6 , nous avons utilis plusieurs fonctions des options Gestor, Pesquisa et Centro de Conhecimento
pour constituer une BDT partir de corpus comparables sur mesure, pour obtenir
des statistiques sur les termes et pour exporter la BDT vers un fichier consultable
en dehors de loutil 7 .
Toute recherche commence videmment par la cration dun ou plusieurs corpus partir de fichiers 8 tlchargs au moyen des fonctions du Gestor. La plupart des formats des fichiers rcolts taient convertibles par EXTEX. Seules la
prsentation PPT de Schiller (2008) 9 et la leon du professeur Nuno Almeida Almeida (2007) filme le 29 mai 2007 ont t exploites manuellement. La prparation des fichiers sest limite au strict minimum. Le Corpgrafo se fonde sur le
point final pour segmenter le texte en phrases. Ainsi, les termes IEEE 802.15 et IEEE
802.15.1 ont t spars automatiquement en deux ou trois segments qui ont d
tre runis. Nous avons galement dcid de rassembler plusieurs phrases en un
seul segment pour obtenir des dfinitions et des contextes comportant tous les
6. Une version mise jour est actuellement en cours de publication (Bacquelaine 2015).
7. Ce fichier BDT Bluetooth peut tre consult http://web.letras.up.pt/franba/
BDT-Bluetooth/CGshirleyBluetooth.html
8. Les corpus comparables sont dcrits dans notre mmoire (idem, pgs. 6671).
9. Cette version consulte le 15/09/2008 nest plus disponible. Dans les rfrences, nous indiquons donc
ladresse url de la nouvelle version non date (Schiller (s/d)).
[29]
lments ncessaires leur comprhension, notamment les antcdents des pronoms. Le nettoyage na pas besoin dtre parfait car on peut corriger les extraits
dans la fonction BDT. Il faut toutefois veiller ce que les termes soient orthographis correctement pour tre reconnus par les diffrentes fonctions. Quatre
corpus comparables (anglais, franais, portugais europen et portugais du Brsil) ont t constitus partir des fichiers contenant les documents nettoys.
Ces corpus ont ensuite t exploits grce aux fonctions des options Pesquisa
et Centro de Conhecimento.
Les diffrentes fonctions de recherche permettent de limiter la recherche un
corpus slectionn dans un menu droulant. Elles fonctionnent trs bien quelle
que soit la langue. Nous avons utilis trois des cinq fonctions de recherche : Concordncia Frase, Concordncia Janela et Concordncia KWIC. La premire a permis de trouver des dfinitions et des contextes pour les sigles de moins de quatre
lettres qui ne sont pas reconnus par les fonctions de loutil BDT. En effet, cela en
ralentirait les performances, ce qui est contraire lintrt de la majorit des utilisateurs. Ces trois fonctions ont t trs utiles pour reprer les variantes partir
du co-texte et les termes composs partir de noyaux terminologiques tels que
protocol, layer, link, channel ou logical transport.
Loutil BDT permet dextraire des candidats terminologiques partir dun corpus slectionn. Au cours de la deuxime phase de dveloppement du Corpgrafo,
des filtres ont t mis en place en anglais et en portugais pour diminuer le bruit
caus par la ponctuation, les pronoms, les prpositions, les auxiliaires, les dterminants, etc. Une option permet lusager daccder dun simple clic au contexte
et aux rfrences du fichier dorigine avant de slectionner le candidat. Cette slection entrane automatiquement la cration de la fiche correspondante comportant plusieurs donnes insres automatiquement : la langue et les rfrences du
fichier dorigine du terme. Lextraction terminologique semi-automatique fonctionne mieux en anglais et en portugais quen franais, mais le bruit reste important tant donn le volume des corpus. Toutefois, la liste des termes anglais inclure dans lchantillon a t tablie en concertation avec le professeur Almeida
partir de sa leon filme, du manuel de Schiller (2003) et de sa prsentation PPT en
ligne (2008). En tout, 35 termes EN sur 122, 47 termes PT sur 146 et 5 termes FR sur
205, soit un peu plus de 18% des termes, ont t insrs semi-automatiquement.
Les autres fiches ont t cres au fur et mesure des besoins.
La fiche terminologique du Corpgrafo propose dix champs principaux : Dados Gerais (Donnes gnrales), Pesquisadores (Chercheurs), Autores, Fontes (Sources), Morfologia, Definies, Contextos, Relaes Semnticas,
Termos Relacionados et Equivalentes de Traduo. Nous les avons complts
tous sauf le champ Pesquisadores puisquil nest ncessaire que lorsque plusieurs chercheurs travaillent sur la mme BDT.
[30]
Le champ Dados Gerais contient le terme vedette et ses principales caractristiques : langue, type (sigle, abrviation, etc.), statut (normalis, admis, etc.),
registre (courant, technique, etc.), frquence demploi et origine (emprunt, nologisme, etc.).
Les champs Autores et Fontes identifient, dune part, les auteurs des fichiers do proviennent les termes vedettes, les dfinitions et/ou les contextes,
et, dautre part, les entits publiques ou prives dont ces auteurs relvent. Ces
informations apparaissent automatiquement si la fonction dextraction terminologique semi-automatique a t applique, mais elle peuvent aussi tre insres
manuellement partir de menus droulants des listes dauteurs et dentits enregistrs lors de la premire tape grce aux fonctions du Gestor.
La conception du champ Morfologia semble bien reposer sur lassomption
que la plupart des termes appartiennent la classe des noms et seuls le genre et le
nombre du terme peuvent tre dfinis par le terminographe. Certains domaines
techniques tels que le tricot ou le crochet 10 prsentent pourtant beaucoup de
verbes qui sont des termes et la terminologie Bluetooth comporte plusieurs adjectifs et de nombreux sigles, qui correspondent, certes, des entits nominales,
mais dont certains combinent les lettres aux chiffres et parfois mme la ponctuation (L2CAP, IEEE 802.15). Les termes complexes sont segments automatiquement
(mais pas les sigles) et la classe grammaticale de chaque lment qui le compose
peut tre slectionne partir dun menu droulant qui propose les options NC
(nom commun), NP (nom propre), AJ (adjectif), VB (verbe), PP (prposition) et AD
(adverbe). Ce systme ferm limite les possibilits de classement et la segmentation du terme est imparfaite et ne peut tre amliore. Par exemple, la contraction
de la prposition et de larticle dfini, en franais et en portugais, et larticle dfini
singulier ou la prposition de lids devant un nom commenant par une voyelle
en franais sont considrs comme un seul mot (et donc un seul atome), ce qui
pose des problmes de classement. Le pronom latin hoc dans rseau ad hoc, les articles et les conjonctions tels que les articles dfinis et la conjonction et dans
interface entre lhte et le contrleur ne peuvent tre classs. Il est vrai que les articles et les conjonctions sont plutt rares dans les terminologies et que cet outil
a t programm pour langlais et le portugais. Lapostrophe a trs peu de chance
dtre employe dans les terminologies anglaises et elle est trs rare en portugais.
Le problme ne se pose que pour les termes complexes de plus en plus souvent
reprsents par des sigles 11 . Une solution pourrait tre de les classer comme un
tout, syntagme nominal, verbal, adjectival ou adverbial et des traits morphologiques dautres classes de mots devraient pouvoir figurer dans ce champ.
10. Notre mmoire de Licence en Philologie germanique sintitule Deutsch-franzsische Terminologie des
Strickens und Hkelns (Bacquelaine 1980) et la plupart des termes slectionns pour lanalyse sont des verbes
particule sparable ou insparable.
11. Sablayrolles parle mme de siglomanie en nologie (2000, pg. 263).
[31]
Les deux champs suivants contiennent la ou les dfinition(s) et le ou les contexte(s) demploi permettant de reprer les collocations et autres phrasologismes
propres au terme et au domaine. La plupart des dfinitions et des contextes ont t
extraits automatiquement des corpus prpars cet effet. Quelques dfinitions
portugaises ont t transcrites du document audio-visuel et quelques anglaises du
livre de Schiller (2003). Dautres ont t reformules partir de plusieurs sources.
Etant donn la complexit des relations smantiques dans ce domaine, nous
navons pas tabli systmatiquement les relations smantiques entre termes dans
la BDT. Nous avons prfr construire trois micro-structures partir de la documentation et des entretiens avec lexpert : les rseaux ad hoc Bluetooth (Bacquelaine 2009, pg. 29), les modes, tats et adresses des appareils compatibles Bluetooth (idem, pg. 31) et le systme principal Bluetooth (idem, pg. 77). Ces trois
micro-structures donnent une ide des relations entre la plupart des noyaux conceptuels dsigns par les termes de la BDT. Par contre, les relations de synonymie
(Termos relacionados) ont t tablies systmatiquement, car elles permettent
de dterminer le nombre de concurrents pour le mme concept. Quelques rares
cas dantonymie ont galement t signals.
Enfin, le dernier champ contient les quivalents de traduction que lon slectionne par langue dans un menu droulant. Cette fonction a t amnage depuis.
En effet, le menu droulant sallongeait au fur et mesure que la BDT senrichissait et il ne comporte plus dsormais que les initiales majuscules ou minuscules
des termes enregistrs dans la BDT. Cet amnagement parsente lavantage de
raccourcir le menu droulant mais aussi linconvnient docculter les termes : le
terminographe ne peut plus choisir le terme dans le menu, il doit savoir ce quil
cherche pour pouvoir le trouver. Il faut donc que la fiche de lquivalent ait t
cre pralablement et notre organisation en trois tapes, langlais, puis le franais, puis le portugais, sest rvle trs pratique. On peut aussi passer dune fiche
lautre grce des hyperliens entre synonymes, antonymes et quivalents de
traduction. Cette fonction ajoute en 2006 la demande des utilisateurs se rvle
trs utile pour vrifier si aucun terme concurrent na t oubli.
Une autre fonction trs utile de la BDT est celle qui permet dobtenir des statistiques sur chaque terme. Elle distingue non seulement le nombre doccurrences
au singulier et au pluriel, sauf en franais, mais aussi le nombre doccurrences par
fichier. Ces donnes permettent de comparer lusage selon les auteurs, les types
de texte ou les registres. Il est aussi possible dobtenir des statistiques gnrales
par langue et par corpus. Ces dernires ne tiennent compte que des termes de
plus de trois lettres extraits et insrs semi-automatiquement, si bien que nous
navons pu utiliser ces rsultats efficacement en raison des nombreux sigles de
trois lettres et des nombreux termes (81,6% du total) insrs manuellement.
On peut aussi associer chaque fiche un ou plusieurs mdias (images, films
ou enregistrements sonores numriss), mais quelques problmes doivent encore
[32]
tre rsolus. Dune part, aucun champ nest prvu pour indiquer la prsence de
ces fichiers, dautre part, ils nont pas t exports avec les autres donnes de la
BDT.
Dans lensemble, cette exprience terminographique a t trs positive. Si les
performances des fonctions de gestion et de recherche sont remarquables, les
fonctions dextraction semi-automatique de termes et de dfinitions peuvent tre
amliores, notamment en franais, mais elles ont quand mme facilit la tche
terminographique. Certaines contraintes, telles le nombre minimum de quatre
lettres par terme pour obtenir des rsultats statistiques ou les options rduites
de classement morphologique, devraient pouvoir tre leves ou amnages par
lutilisateur, comme cest le cas des relations smantiques. tant donn que tous
les utilisateurs nont pas besoin de tous les champs prvus pour les fiches terminologiques, ceux-ci pourraient tre activs selon les besoins de chacun. Les corpus FR et PE (portugais europen) crs pour cette premire exprience ont t
rutiliss dans la deuxime. Cette possibilit de recyclage reprsente un autre
avantage du Corpgrafo.
[4] p h r a s o l o g i e
Pour comparer lusage des quantificateurs universels chaque/cada, tout/todo o

et tous les/todos os en franais et en portugais europen dans le cadre du sminaire de Smantique du Doctorat en Linguistique de la FLUP (1er semestre 2009
2010), nous avons analys trois corpus dans chaque langue au moyen des fonctions Concordncia Frase et Concordncia Janela. Les premiers corpus comparables comportent 140 224 atomes en portugais et 110 928 en franais. Ils se
composent darticles de presse sur la deuxime guerre en Irak extraits de divers
journaux portugais, belges et franais accessibles gratuitement en ligne. Ces extraits ont t rcolts partir de mots cls (guerre, Irak, date, euphmismes courants lis la guerre et la mort) sur deux priodes, la premire entre le 18 et le
24 mars 2003 (dbut de la deuxime guerre) et la seconde entre le 18 et le 24 mars
2006 (troisime anniversaire du dbut de la deuxime guerre). En effet, ces corpus
avaient t constitus pour tudier les obstacles la traduction des euphmismes
(Bacquelaine 2006) et ont t rutiliss en tant que corpus reprsentatifs du registre courant en franais et en portugais. Toutefois, deux corpus scientifiques
ont t ajouts dans chaque langue, car les quantificateurs tout et surtout todo o
sont plutt rares dans le registre courant. Nous avons ainsi rutilis les corpus
comparables sur les tlcommunications sans fil (352 813 atomes en portugais et
149 082 en franais) et cr un nouveau corpus partir dun texte de dpart dans
le domaine du droit constitutionnel comptant 67 463 atomes en portugais et de
sa traduction remanie qui compte 81 490 atomes en franais. Ces deux derniers
corpus sont ainsi comparables et parallles la fois, mais ils ont tous t traits
de la mme faon.
[33]
Les attestations des trois quantificateurs, au fminin et au masculin, en franais et en portugais, ont t extraites grce la fonction Concordncia Frase.
Ces rsultats bruts ont t copis-colls sur une feuille de calcul Excel o ont t
ralises les oprations de slection des segments pertinents 12 et de classement
de ceux-ci daprs les noms sur lesquels ils oprent en vue de lanalyse qualitative
et quantitative de ces donnes. Contrairement aux attentes des locuteurs natifs
lusophones qui ces rsultats ont t prsents 13 , il sest avr que, dans labsolu,
cada est plus frquent que chaque, quel que soit le co-texte ou le registre (courant,
juridique ou technico-scientifique).
La fonction Concordncia Janela permet de classer les rsultats par ordre alphabtique daprs le co-texte, cest--dire les mots qui prcdent ou suivent lexpression de requte (la ponctuation na videmment aucun intrt). Cette fonction a ainsi rvl les affinits particulires de chaque quantificateur avec certains
noms. Par exemple, laffinit de cada avec le nom vez est trs forte. Elle a aussi mis
en vidence la particularit de cada qui peut oprer sur un nom quantifi par un
numral cardinal suprieur lunit, ce que ni chaque ni each ne peuvent faire.
Ces dcouvertes ont ainsi dtermin le choix de lobjet dtude de notre doctorat
en cours. En effet, la frquence de cada particulirement leve dans le corpus
Bluetooth sexplique en partie par la frquence de quatre squences semi-figes
dont les traductions 14 en anglais et en franais ne comportent ni each ni chaque
et qui sassimilent la phrasologie au sens large. Les exemples (1) (4) illustrent
ces quatre squences :
(1)
Estima-se que as organizaes () procuraro usar mtodos cada vez menos

convencionais e mais inesperados.
(corpus Irak)
(2)
Um dispositivo pode fazer parte de diferentes piconets ; porm, como as

unidades de rdio s podem sintonizar uma das portadoras em cada instante, ele s pode comunicar com uma piconet de cada vez.
(corpus Bluetooth)
(3)
Blair () resisitiu a uma prova de fogo, ao conseguir que a maioria dos

deputados desse o seu apoio partipao britnica na guerra apesar de
um em cada trs parlamentares trabalhistas terem votado contra.
(corpus Irak)
12. Les rsultats de cette recherche ont t prsents au Colloque international Traduction, terminologie
et rdaction technique : des ponts entre le franais et le portugais en janvier 2011 et larticle Apports de la
smantique et de la syntaxe la traduction des quantificateurs universels franais et portugais a t accept
en juillet 2011 pour publication dans les Actes, qui se font toujours attendre ce jour.
13. Il sagit du groupe de smantique du CLUP dirig par le professeur Ftima Oliveira, compos notamment
de Ftima Silva, Lus Filipe Cunha, Antnio Leal, Purificao Silvano, Idalina Ferreira et Joaquim Barbosa.
14. Les quivalents de traduction ont t confirms par une tude postrieure de corpus parallles disponibles en ligne.
[34]
(4)
Como o intervalo de gerao de clulas menor, a atribuio de um canal

LCH por cada 3 tramas deixa de ser suficiente para satisfazer o requisito da
conexo
(corpus Bluetooth)
En (1), cada vez se combine un comparatif (mais, menos, maior, menor, melhor ou
pior 15 ) pour exprimer la progression dans un sens ou dans lautre. La progression sexprime par dautres moyens en anglais (p. ex. more and more, ever more,
ou la lexicalisation du concept en recourant to increase, increasing ou increasingly
pour exprimer laugmentation quantitative ou lintensification qualitative) et en
franais (p. ex. de plus en plus, de moins en moins, de mieux en mieux, de mal en pis
ou diverses lexicalisations du concept telles que se multiplier ou croissant). Nous
avons baptis compte-gouttes la relation exprime en (2), o uma correspond
un numral cardinal restreignant lunit la quantit de piconets o lappareil
Bluetooth peut communiquer de cada vez (at a time et la fois sont les quivalents
les plus frquents). Les exemples (3) et (4) illustrent les deux derniers types de
relations quantifies par cada en portugais. En (3), um em cada trs parlamentares
trabalhistas (one in (every) three Labour MEPs et un dput travailliste sur trois) exprime une proportion entre un ensemble et un sous-ensemble tandis quen (4),
um canal LCH por cada 3 tramas (one LHC channel for every three frames et un canal LHC
pour trois trames) exprime une proportion entre deux ensembles distincts.
Les relations de proportion sont les plus complexes et les prpositions em ou
por peuvent entraner lun ou lautre type de proportion, mais il ne sagit pas
ici dentrer dans les dtails de lexpression de ces quatre relations quantifies
par cada, mais bien de dmontrer la performance et lutilit des fonctions de recherche du Corpgrafo qui dvoilent des aspects insouponns des langues naturelles.
[5] c o n c l u s i o n
Ces deux expriences dmontrent incontestablement les atouts du Corpgrafo

et les performances exceptionnelles des fonctions de gestion et de recherche, malgr ses dfauts invitables. Les besoins des utilisateurs ne sont pas uniformes et
certains amnagements raliss pour satisfaire les besoins des uns compliquent la
tche des autres. Certaines contraintes peuvent tre gnantes. Il a t question de
la limitation du menu de classement du champ Morfologia de la BDT, de la longueur minimale des termes fixe quatre lettres pour amliorer les performances
de loutil alors que les sigles de deux ou trois lettres se multiplient dans la plupart
des terminologies de pointe, des statistiques sur chaque terme qui ignorent galement les termes de moins de quatre lettres et enfin des statistiques sur la BDT
qui ne tiennent compte que des termes insrs de faon semi-automatique. La
fonction BDT a t conue en conformit avec la norme ISO 12620, mais, comme
15. Inferior et superior sont aussi possibles, mais ne sont pas attests dans les corpus utiliss.
[35]
le fait remarquer Gouadec (2003), lutilisateur prfre des rpertoires terminologiques aussi simples que possible et donc en contravention totale avec toutes les
rgles de la terminographie (1618 1620 16 ). Comme nous lavons dit, la possibilit de slectionner les champs des fiches terminologiques selon les besoins de
chaque utilisateur permettrait damliorer la prsentation de la BDT exporte. La
gestion des mdias associs devrait pouvoir tre amliore par le signalement de
leur prsence et leur inclusion lors de lexportation.
Certes, des corpus prt--porter, comparables ou parallles, sont disponibles
et exploitables gratuitement en ligne, mais ils ne contiennent pas toujours ce dont
on a besoin, notamment lorsquil sagit de terminologie ou de phrasologie spcialise. Certes, dautres outils permettent dexplorer limmense corpus du Web (par
exemple, WebCorp 17 voire Google) ou de constituer des corpus partir de motscls associs au domaine (par exemple, BootCat 18 ) 19 , mais le Corpgrafo est sans
doute le seul outil gratuit accessible en ligne 20 ou tlchargeable spcialement
conu pour le traitement automatique du portugais et fonctionnant aussi pour
dautres langues en caractres romains. Il permet en outre dinclure des fichiers
non disponibles sur Internet, tels que ceux fournis par les experts de la FEUP.
Son architecture modulaire lui confre une grande flexibilit et la possibilit de
sadapter aux besoins formuls par les utilisateurs. Cette flexibilit lapparente
un laboratoire o des pistes sont suivies jusquau bout ou abandonnes en chemin
si les rsultats savrent ngatifs. Les fonctions de gestion de fichiers et de corpus
ainsi que les fonctions de recherche sont trs efficaces et ne requirent que peu
defforts de prparation des matires premires. La possibilit de rectifier le texte
des dfinitions et des contextes dans les bases de donnes ainsi que celle de crer
des relations smantiques constituent dautres atouts du Corpgrafo.
Initialement conu comme un outil daide la recherche et la formation en
linguistique portugaise et en terminographie au service de la traduction, il ne peut
se mesurer des fonctions intgres aux outils daide la traduction telles que
Termbase ou Multiterm, qui sont beaucoup plus pratiques pour les traducteurs
professionnels. Il nen reste pas moins que cest un outil didactique performant
pour initier les tudiants aux canons de la terminographie et de la lexicographie.
En outre, il se rvle un alli fidle et utile pour toute recherche sur un ou plusieurs corpus. Les corpus sur mesure constituent ainsi un investissement long
terme permettant dutiliser les mmes corpus ou den crer dautres partir des
mmes fichiers pour raliser toute sorte de recherches fondes sur le langage et
toute sorte de comparaisons entre langues ou registres au sens large (oral ou crit,
16. Il sagit dun document sonore.
17. http://www.webcorp.org.uk/live/.
18. http://bootcat.sslmit.unibo.it/.
19. Ces deux outils concurrents, Webcorp et Bootcat, nous ont t signals par Slvia Arajo que nous tenons
remercier pour sa rvision minutieuse et ses conseils judicieux.
20. http://labclup.letras.up.pt/corpografo/
[36]
langue courante ou langue de spcialit, types de textes, etc.), quel que soit le
domaine de recherche (Terminologie, Traduction, Linguistique, TAL, Sociologie,
etc.). Depuis que le projet nest plus financ, ce qui est regrettable, le Corpgrafo
na plus fait lobjet que damnagements ponctuels et son bon fonctionnement dpend dsormais de la bonne volont de quelques-uns. Quils en soient remercis.
rfrences
Almeida, Nuno. 2007. A tecnologia Bluetooth.
Bacquelaine, Franoise. 1980. Deutsch-franzsische Terminologie des Strickens
und Hkelns. Universit de Lige, non publi.
Bacquelaine, Franoise. 2006. Leuphmisme, un obstacle la traduction. Revista
da Faculdade de Letras : Lnguas e Literaturas XXIII. 463487.
Bacquelaine, Franoise. 2009. La terminologie Bluetooth en anglais, en franais et en
portugais. tude de nonymie compare. Porto : Faculdade de Letras da Universidade do Porto. MA thesis. Version de septembre 2008 revue aprs soutenance.
Bacquelaine, Franoise. 2015. La terminologie Bluetooth en anglais, en franais et en
portugais tude de nonymie compare. Presses acadmiques francophones.
Branco, Antnio, Amlia Mendes, Slvia Pereira, Paulo Henriques, Thomas Pellegrini, Hugo Meinedo, Isabel Trancoso, Paulo Quaresma, Vera Lcia Strube
de Lima & Fernanda Bacelar. 2012. A lngua portuguesa na era digital The Portuguese Language in the Digital Age. Springer.
Gouadec, Daniel. 2003. Terminologie et traduction. Document audio, communication et discussion : 105- 3230. http://archives.diffusion.ens.fr/
diffusion/audio/2003_10_17_terminologie_02.mp3.
Maia, Belinda & Srgio Matos. 2008. Corpgrafo V4 - Tools for Researchers and
Teachers using Comparable Corpora. In Pierre Zweigenbaum, ric Gaussier &
Pascale Fung (eds.), LREC 2008 Workshop on Comparable Corpora (LREC 2008), 7982.
ELRA.
Maia, Belinda & Lus Sarmento. 2003. GC - Integrated Web Environment for
Corpus Linguistics. Prsentation la Corpus Linguistics 2003 (CL2003). http:
//www.linguateca.pt/documentos/cl2003.pdf.
Maia, Belinda & Lus Sarmento. 2005. The Corpgrafo - an Experiment in Designing a Research and Study Environment for Comparable Corpora Compilation
and Terminology Extraction. In Proceedings of eCoLoRe / MeLLANGE Workshop,
Resources and Tools for e-Learning in Translation and Localisation, 4548.
[37]
Maia, Belinda & Lus Sarmento. 2006. Corpgrafo - Applications. In Third International Workshop on Language Resources for Translation Work Research & Training,
Satellite event of LREC 2006 (LR4Trans-III), 5558.
Sablayrolles, Jean-Franois. 2000. La nologie en franais contemporain. examen du
concept et analyse de productions nologiques rcentes (Lexica. Mots et Dictionnaire 4). Champion.
Santos, Diana. 2005. Relatrio da Linguateca de 15 de Maio de 2004 a 14 de Maio
de 2005. Tech. rep. Linguateca. http://www.linguateca.pt/documentos/
RelatorioLinguatecaMaio2005.pdf.
Sarmento, Lus & Belinda Maia. 2003. Gestor de Corpora Um ambiente Web integrado para Lingustica baseada em Corpora. In Jos Joo Almeida (ed.), Corpora
Paralelos, Aplicaes e Algoritmos Associados (CP3A), 2530.
Sarmento, Lus, Belinda Maia & Diana Santos. 2004. The Corpgrafo - a Web-based
environment for corpora research. In Maria Teresa Lino, Maria Francisca Xavier, Ftima Ferreira, Rute Costa & Raquel Silva (eds.), Proceedings of the 4th International Conference on Language Resources and Evaluation (LREC2004), 449452.
Sarmento, Lus, Belinda Maia, Diana Santos, Ana Pinto & Lus Cabral. 2006. Corpgrafo V3 : From Terminological Aid to Semi-automatic Knowledge Engine. In
Nicoletta Calzolari, Khalid Choukri, Aldo Gangemi, Bente Maegaard, Joseph Mariani, Jan Odjik & Daniel Tapias (eds.), Proceedings of the 5th International Conference on Language Resources and Evaluation (LREC2006), 15021505.
Schiller, Jochen. 2003. Mobile Communications. Harlow (GB) : Pearson Education
Limited 2nd edn.
Schiller, Jochen. 2008. Wireless LANs. Cette version consulte le 15/09/2008 nest
plus disponible ; une version remanie non date est disponible https://
www.iith.ac.in/~tbr/teaching/docs/wireless_lans.pdf.
c o n ta c t s
Faculdade de Letras, Universidade do Porto
franba@letras.up.pt
estudo preliminar da anfora num

corpus de interpretao simultnea
SLVIA ARAJO E ANA CORREIA
abstract
In this paper, we propose an exploratory study about the usefulness of multilingual corpora in areas related to the study of language, translation and,
in particular, of simultaneous interpreting. After a brief overview of corpusbased interpreting studies as well as of some existing electronic interpreting
corpora, we move on to describe the compilation stages of a bidirectional
multimedia corpus (PTEN/ENPT). This is followed by an example of how
the corpus can be explored, which focuses on the issue of anaphoric relations. The aim of this study if twofold: on the one hand, to convey the relevance of this type of resource as a repository of authentic simultaneous
interpreting data; and, on the other hand, to demonstrate that by analysing
it from a linguistic perspective it may be possible to identify sensitive areas
in simultaneous interpreting (e.g. anaphora), which may prove an important contribution for interpreter training.
[1] l i n g u s t i c a d e c o r p u s a p l i c a da i n t e r p r e ta o
Aps o comprovado xito da lingustica de corpus aplicada ao estudo da traduo,

seguiram-se vrios trabalhos de investigao com o intuito de aplicar esta metodologia ao contexto especfico da interpretao1 , incidindo maioritariamente nos
modos consecutivo e simultneo, at ao momento. Do conjunto de estudos sobre
interpretao baseados em corpora, refira-se, a ttulo de exemplo, o de Timarov
(2005) sobre a densidade lexical dos discursos, o de Russo et al. (2006) sobre padres lexicais e, finalmente, o de Shlesinger (2009) sobre as caractersticas ditas
universais do discurso interpretado ou interpretese. Importa ressalvar que existem, para alm dos corpora de interpretao eletrnicos apresentados na seco
seguinte, vrias compilaes manuais (Maia 2000, 2008) de discurso interpretado
que tambm constituem corpora a diferena reside no facto de no estarem organizados numa plataforma eletrnica. O estudo de Setton (1999), por exemplo,
baseia-se num corpus ad hoc compilado manualmente. Uma parte significativa
destes corpora no informatizados composta pelas produes orais de alunos a
frequentar ps-graduaes de interpretao, que so gravadas e posteriormente
[1]
O termo interpretao deve ser entendido aqui como a atividade de natureza oral que implica a passagem
de uma mensagem de uma lngua para outra, quer em modo simultneo, quer em modo consecutivo
(Bendazzoli 2010).
[40]
arajo & correia

transcritas. Este tipo de coletnea tem vindo a ser utilizado para identificar, com
maior ou menor grau de sistematicidade, os erros cometidos pelos alunos, chegando mesmo a culminar na criao de tipologias de erro. A ttulo de exemplo,
citamos os estudos de Gile (1987, 1992) e Falbo (1998) sobre os erros cometidos
por estudantes de interpretao simultnea durante o seu perodo de aprendizagem. Estes estudos baseiam-se na premissa de que o trabalho de reflexo sobre
a prtica da interpretao atravs de dados reais, i.e., de um corpus (informatizado ou no), promove a conscincia metalingustica nos estudantes e pode, por
conseguinte, ajudar a desenvolver estratgias de antecipao e resoluo de problemas (Sandrelli 2010). Uma das reas que pode beneficiar deste tipo de reflexo diz respeito, como veremos na seco 4, s relaes anafricas e s conexes
semntico-pragmticas por elas desencadeadas. Estas podem, de facto, afetar a
inteligibilidade do discurso se no forem devidamente processadas, quer ao nvel
da produo, quer ao nvel da receo.
[2] c o r p o r a d e i n t e r p r e ta o e m f o r m at o e l e t r n i c o
Como vimos, a metodologia da lingustica de corpus tem sido usada, ainda que
de forma artesanal, para estudar a interpretao. Devido natureza intrnseca da
interpretao, os corpora compilados com material interpretado, manuais ou eletrnicos, so necessariamente paralelos, isto , contm pelo menos duas verses
lingusticas de um mesmo texto (original e traduo). Daqui se depreende que
o corpus paralelo seja de grande utilidade para o estudo da traduo, podendo
e devendo esta inferncia ser alargada ao contexto da interpretao (Ginezi
2014).
Desde o apelo lanado por Shlesinger (1998), foram desenvolvidos diversos
projetos dedicados compilao de corpora de interpretao eletrnicos, entre
os quais se destaca o pioneiro European Parliament Interpreting Corpus (EPIC). O EPIC
foi indubitavelmente um forte catalisador de investigao nesta rea, tendo servido de base a inmeros projetos de dissertao no contexto acadmico italiano
(Russo 2010). Os membros da equipa que esteve na origem do EPIC tm-se dedicado ao estudo da direcionalidade e seu impacto no desempenho dos intrpretes, associado s eventuais diferenas decorrentes da interpretao entre lnguas
romnicas, por um lado, e entre uma lngua romnica e uma germnica, por outro lado (Monti et al. 2005). Outro estudo que merece destaque resulta do European Parliament Translation and Interpreting Corpus (EPTIC), projeto derivado do
EPIC, que reequaciona o conceito de simplificao lexical enquanto universal de
traduo/interpretao atravs de medida quantitativas fornecidas pelo corpus
(Bernardini et al. 2013).
Na senda do EPIC (Bendazzoli & Sandrelli 2005), surgiram outros corpora de
interpretao que cobrem uma maior variedade de lnguas, modos e contextos
de interpretao. de destacar o trabalho desenvolvido pelo Hamburger Zentrum
estudo preliminar da anfora num corpus de interpretao simultnea
[41]
fr Sprachkorpora no mbito da compilao de corpora orais. No seu repositrio,

incluem-se tambm alguns corpora de interpretao, nomeadamente o corpus
Dolmetschen im Krankenhaus (DiK) (House et al. 2012) e o corpus Consecutive and Simultaneous Interpreting (CoSi) (Bhrig et al. 2012). O primeiro visa a interpretao
comunitria num contexto hospitalar e o segundo est direcionado para a interpretao em situao de conferncia, quer em modo consecutivo quer em modo
simultneo. Os trs corpora mencionados resultaram de projetos financiados de
larga escala. Existem outros, resultantes de projetos individuais de investigao,
que constituem tambm importantes ferramentas para o estudo da interpretao.
Um exemplo o corpus DIRSI-C, composto por discursos de natureza mdica em
ingls e italiano, que permitiu chegar a importantes concluses sobre o impacto
da direcionalidade (i.e., interpretar de ou para a lngua materna) no desempenho
dos intrpretes (Bendazzoli 2010).
[3] c o r p u s d e i n t e r p r e ta o / p e r - f i d e
O corpus de interpretao que constitui a base emprica do estudo sobre a anfora que apresentamos na seco seguinte decorre do corpus Per-Fide (Arajo et al.
2010; Almeida et al. 2014). Para dar continuidade a este corpus composto exclusivamente por textos (escritos) paralelos, pretende-se agora acrescentar uma dimenso oral atravs da compilao de um corpus de interpretao. Este corpus
ser composto pelas transcries das intervenes, em sesso plenria, dos eurodeputados portugueses e ingleses. Convm, aqui, realar que as transcries
por ns realizadas so diferentes das transcries que integram o corpus Europarl
(Koehn 2005). Com efeito, para o corpus de interpretao, partimos do CompteRendu in Extenso (CRE), i.e., o relato integral das sesses plenrias do Parlamento
Europeu, que deu origem ao Europarl, mas procurmos aproxim-lo daquilo que
efetivamente proferido pelos deputados e intrpretes. Apesar de se limitar s
lnguas portuguesa e inglesa, este corpus de interpretao tem a vantagem de especificar a lngua-fonte de cada interveno.
Alm de ser um produto derivado do projeto Per-Fide, este corpus que agora
apresentamos diretamente influenciado pelo EPIC, projeto que lhe serviu de inspirao. De seguida, passamos ento a descrever o Corpus de Interpretao/PerFide, salientando algumas das suas caractersticas e elencando as vrias etapas de
compilao, sem nos adentrarmos nos detalhes mais tcnicos. Porm, antes ainda
dessa descrio, apresentamos um resumo visual do processo, que poder contribuir para uma melhor compreenso dos procedimentos envolvidos na compilao
do corpus na figura 1.
Conforme assinalado na figura 1, a criao do corpus pode ser decomposta em
trs grandes etapas: pr-processamento, processamento e ps-processamento.
Antes de o material a incluir no corpus poder ser processado, necessrio levar a
cabo a transcrio do material, ainda em formato audiovisual (pr-processamento).
[42]
arajo & correia
figura 1: Etapas de compilao do corpus

De seguida, necessrio segmentar, alinhar e anotar esses dados transcritos (processamento), para que possam ser depois pesquisados na rede atravs de uma interface construda para o efeito (ps-processamento). Abaixo, apresentamos estas
trs fases de forma um pouco mais detalhada.
Pr-processamento
Conforme mencionado acima, o Corpus de Interpretao/Per-Fide um corpus de
interpretao composto pelas transcries dos discursos proferidos pelos eurodeputados portugueses e ingleses e das respetivas interpretaes. Os discursos
reunidos correspondem a um perodo de seis meses de intervenes dos deputados portugueses, desde janeiro a junho de 2011. A fim de equilibrar quantitativamente os dados, as intervenes dos homlogos ingleses limitam-se a apenas
trs desses seis meses. Este um corpus bidirecional na medida em que inclui
discursos originais em ambas as lnguas. Podemos, alis, dividi-lo em dois subcorpora para melhor ilustrar o seu carter bidirecional: subcorpus 1) portugus
original ingls interpretado; subcorpus 2) ingls original portugus interpretado. Cria-se, assim, uma estrutura cruzada que, como se pode ver abaixo na
figura 2, demonstra a natureza simultaneamente paralela e comparvel (a dois
nveis) do corpus.
Os discursos (i.e., originais e interpretaes) que integram este corpus apresentam especificidades decorrentes do contexto em que ocorrem. Com efeito, o
sistema de atribuio da palavra no Parlamento Europeu bastante rgido, o que
faz com que cada deputado tenha, em mdia, dois minutos para as suas intervenes. Para garantir a mxima rentabilizao de um tempo de antena mnimo, os
[43]
figura 2: Esquema de combinatrias lingusticas.

deputados leem os seus discursos, que so previamente redigidos. Naturalmente,
a leitura dos discursos traduz-se num dbito e densidade elevados, que tipicamente no se encontrariam numa produo espontnea. No que toca aos intrpretes, no sabemos se estes tm acesso prvio aos discursos que vo interpretar,
assim como no dispomos de informao sobre a sua formao e experincia profissional.
Os discursos que vo integrar o corpus foram descarregados em bruto a partir
do stio web do servio audiovisual do Parlamento Europeu, que disponibiliza as
gravaes das sesses plenrias desde abril de 2006 em todas as lnguas oficiais da
Unio Europeia. Estes discursos foram posteriormente armazenados no servidor
do projeto Per-Fide. Cada discurso corresponde a um ficheiro wmv, que por sua vez
integra 22 pistas de udio (uma para cada lngua oficial, exceo do croata e do
irlands). Assim, o passo seguinte consistiu em isolar para cada vdeo o material
udio relevante, i.e., as pistas portuguesa e inglesa. No que respeita aos direitos
de autor, importa referir que o servio audiovisual permite que o material disponibilizado no seu stio web seja utilizado gratuitamente para fins educativos,
conforme se pode ler no separador Copyright desse mesmo stio.
Depois de recolher e processar os discursos, deu-se incio etapa de transcrio. Contmos, para isso, com o apoio dos alunos do 3 ano da licenciatura em
Lnguas Aplicadas (2013/14) da Universidade do Minho que transcreveram, no
mbito da unidade curricular de Princpios de Interpretao, a quase totalidade
dos discursos a integrar no corpus. Nesta etapa, o investigador confrontado
com a necessidade de tomar decises metodolgicas que orientem o trabalho de
transcrio. Estas decises devem estar firmadas na identificao clara da(s) fiOSLa volume 7(1), 2015
[44]
arajo & correia

nalidade(s) do corpus. No nosso caso, por exemplo, o esforo adicional de anotar
pausas e hesitaes ao transcrever os discursos no acrescentaria valor ao estudo
das relaes anafricas, que o fenmeno que pretendemos estudar atravs deste
corpus. Contudo, devemos ressalvar que, embora concebido para o estudo de um
fenmeno particular, este corpus no se limita ao estudo da anfora. Ser um
recurso aberto comunidade acadmica, podendo servir de base a inmeras pesquisas sobre aspetos lingusticos e cognitivos da linguagem em uso. O trabalho
de transcrio pautou-se por uma preocupao constante em refletir o mais fielmente possvel aquilo que efetivamente pronunciado pelos oradores e intrpretes. Assim, a par da transcrio ortogrfica, optou-se por anotar casos de autocorreo e reformulao, utilizando uma barra (/). As transcries basearam-se
nas convenes HIAT (Halbinterpretative Arbeitstranskriptionen), integradas no EXMARaLDA Partitur-Editor (Schmidt 2004). HIAT um sistema de transcrio para a
representao escrita da lngua falada, projetado nos anos 70 no mbito da anlise
do discurso e que foi retomado pelos criadores do Partitur-Editor EXMARaLDA. As
transcries propriamente ditas foram elaboradas no referido software, PartiturEditor, que permitiu ainda a integrao de metadados relativos aos oradores e aos
discursos atravs dos separadores Speakertable e Metainformation, respetivamente.
No primeiro separador, inclui-se o nome do deputado e o grupo poltico ou o sexo
do intrprete (M/F), conforme se trate de um discurso original ou interpretao.
No segundo separador, inclui-se a data do discurso e a fonte (i.e., original vs. interpretao). A escolha deste software foi determinada pelo seu carter livre e,
sobretudo, pelo facto de codificar os ficheiros transcritos em XML. Cabe assinalar
que o EPIC, tratando-se de um projeto com mais recursos humanos e financeiros,
apresenta transcries mais detalhadas do ponto de vista da anotao paralingustica (e.g. pausas e disfluncias). Note-se que a tentativa de produzir transcries
que sejam user/annotator-friendly comum a ambos os corpora. O nvel de detalhe tambm superior no que concerne anotao paralingustica, j que cada
transcrio acoplada a um cabealho de metadados que inclui abundante informao sobre o contexto, orador e o discurso (e.g. tema, tema especfico, durao,
nmero de palavras, palavras por minuto, etc.). A incluso de metadados, tambm prevista no nosso corpus, garante que outros investigadores possam utilizar
estes recursos de uma forma adequada, j que a origem e a natureza dos dados
esto devidamente identificadas.
Processamento
Como se disse, neste momento, encontramo-nos em fase de reviso das transcries j elaboradas pelos alunos da licenciatura em Lnguas Aplicadas. Aps esta
etapa, passar-se- a um conjunto de procedimentos tcnicos que visam a estruturao e disponibilizao do corpus na rede, em livre acesso. Feitas as transcries, ser necessrio alinhar os originais com as respetivas transcries. Este
[45]
alinhamento implica uma segmentao ao nvel frsico, passvel de automatizao graas aos cdigos XML gerados pelo Partitur-Editor. Esta segmentao servir
de base ao alinhamento dos bi-textos (i.e., original + interpretao) mas tambm
prpria segmentao dos ficheiros vdeo/udio correspondentes que sero depois sincronizados com o texto. Daqui decorre o carter multimdia deste corpus,
semelhana do corpus multimdia Veiga de legendagem (Dios & Guinovart 2012),
desenvolvido no Centro de Lingustica da Universidade de Vigo. Este corpus ir, assim, permitir ao utilizador efetuar pesquisas em bitextos alinhados, com acesso ao
material audiovisual correspondente. Com efeito, estes dois aspetos representam
um salto evolutivo face ao EPIC, embora, no mbito deste ltimo, esteja j prevista a incluso de bitextos alinhados e de material audiovisual como sugesto de
trabalho futuro. importante referir que os bitextos sero alinhados e etiquetados morfossintaticamente, aumentando as potencialidades do corpus para fins de
investigao. Estas duas tarefas sero executadas de forma semiautomtica, combinando software de alinhamento (Simes & Almeida 2007) e etiquetao (Schmid
1994; Brants 2000) cujos resultados sero alvo de uma reviso manual.
Ps-processamento
A ltima etapa prende-se com a disponibilizao do corpus e prev a construo de
uma interface de pesquisa prpria, que a seu tempo poder ser consultada atravs
do stio web do corpus Per-Fide.
Neste momento, o corpus ainda no se encontra disponvel para consulta.
Contudo, foi possvel analisar um subconjunto de discursos, j transcritos, que
faro parte do corpus. Esta anlise revelou que a anfora um fenmeno lingustico importante na interpretao, uma vez que pode afetar os discursos produzidos pelos intrpretes em termos de coeso e coerncia.
[4] a a n f o r a n a i n t e r p r e ta o s i m u l t n e a
Toda a comunicao significativa usa a linguagem e, se quisermos saber como esta

funciona, temos que analisar atos concretos de comunicao, i.e., textos (orais
e/ou escritos). Compreender um texto implica ser capaz de construir uma representao mental coerente desse mesmo texto (Morais 2011, pg. 17). Como refere
(Lopes 2008, pg. 62), h duas dimenses que se afiguram cruciais na construo de
uma representao mental de um texto. Em primeiro lugar, a coerncia referencial,
basicamente suportada pelas anforas discursivas e, em segundo lugar, a coerncia
relacional que envolve relaes semnticas que conectam segmentos discursivos.
So muitos os trabalhos dedicados a esta dimenso da coerncia discursiva, que
permite estabelecer uma fronteira entre uma sequncia aleatria e desconexa de
frases e um produto com sentido em termos semntico-pragmticos (Jaubert 2005;
Kostopoulou 2007; Sanders et al. 2007; Lopes & Rodrigues 2013, entre muitos outros). Ao produzir um discurso, um determinado locutor utiliza mecanismos de
[46]
arajo & correia

coeso e coerncia que lhe permitem assinalar a interdependncia semntica entre os diferentes elementos que o compem. Tanto quanto do nosso conhecimento, no foi ainda realizado um estudo especificamente centrado na compreenso da anfora e ancorado em dados extrados de um corpus de interpretao
simultnea. Nas linhas que se seguem, pretendemos demonstrar que os processos
anafricos so pistas fortes para a ativao e orientao das operaes cognitivas
conducentes compreenso do discurso original e da sua interpretao.
[4.1]
A relao anafrica: uma relao binria assimtrica
Uma relao anafrica caracteriza-se pela dependncia interpretativa entre dois

termos ou segmentos textuais, o termo antecedente (ou termo anaforizado) e o
termo anafrico (ou termo anaforizante). A anfora pois uma relao binria assimtrica entre um antecedente previamente identificado referencialmente e um
termo anafrico que s ganha identidade referencial pela sua integrao naquele
contexto (Campos & Xavier 1991, entre outros). A ttulo meramente exemplificativo, podemos dizer que o excerto do discurso original que se segue entrelaa
duas cadeias de referncia (uma cadeia com trs anis excelente trabalhoque
(efectuou)que (se traduz) e uma outra cadeia com quatro anis relatrioque (permite) elipse de que (constitui)este ( um relatrio)):
(1a)
Muito obrigado, Senhor Presidente, caros Colegas. Quero felicitar os relatores pelo excelente trabalho que efectuou e que se traduz num relatrio
que permite dar um bom incio construo do prximo quadro financeiro
plurianual e [que] constitui um desafio para a Comisso e para o Conselho.
Este um relatrio ambicioso e em simultneo um relatrio realista.
Cada uma destas cadeias referenciais faz uso de procedimentos lxico-gramaticais

(Oliveira 1987; Kleiber 1994; Corblin 1995; Perdicoyanni-Palologou 2001, entre
outros) que instauram a dependncia de um conjunto de termos anafricos relativamente a uma expresso nominal plena que inicia a cadeia referencial. Todos
estes termos anafricos pronominais retiram a sua referncia exclusivamente da
relao que tm com o seu antecedente. interessante notar que, ao restituir este
discurso original, o intrprete ingls elimina a marca de plural (the rapporteur)
que o deputado aplica por engano no actante agentivo (os relatores) do verbo efectuou acima transcrito:
(1b)
Yes, colleagues, I would like to congratulate the rapporteur for his excellent work because he permits us to really do things in the right way. A
good start, financially speaking, within the framework of the MFF and of
course what we have here is a very ambitious report, but a very realistic
one as well.
[47]
Neste discurso interpretado, mantm-se a significao global do discurso original, apesar de a cadeia de referncia mais saliente ((the rapporteur)his (excellent
work)he (permits)) incidir sobre a expresso nominal the rapporteur e j no sobre os termos antecedentes estipulados em (1a). Ou seja, o discurso interpretado
deixa de dar primazia ao produto (i.e., ao relatrio) para abrir com o autor desse
produto (i.e., o relator) a cadeia de referncia que percorre o excerto (1b). Tratase, na realidade, de uma restituio da informao por modulao metonmica
(Chuquet & Paillard 1987, pg. 31) que consiste em privilegiar a relao de causa
(rapporteur) pelo efeito (report) e no o inverso.
A referncia anafrica , sem dvida, uma condio bsica para a construo
de qualquer ato comunicativo. ela que contribui para a organizao textual, na
medida em que assegura a progresso temtica. Importa assinalar, contudo, que o
uso excessivo de elementos anafricos pode constituir um obstculo clareza. De
facto, os deputados portugueses tendem a alongar as frases atravs de mecanismos recorrentes de subordinao (com o uso do pronome relativo que), conforme
ilustrado no exemplo (2a):
(2a)
O longo processo de trabalho que este importante relatrio exigiu, incluindo os muitos compromissos alcanados, tornou-o num documento
bastante amplo e equilibrado dos diversos interesses que a PAC tem de
dar resposta. Este relatrio constitui uma boa orientao para as propostas legislativas, pelo que felicito o seu relator.
Esta concatenao de que exige um esforo cognitivo adicional e maior tempo de

processamento, dado que frequentemente est associada a verbos com diferentes
tipos de transitividade. Por exemplo, a colocao dar resposta mencionado em (2a)
seleciona um complemento introduzido por intermdio da preposio a. Mas este
trao sinttico nem sempre respeitado, sobretudo com alguns complementos de
natureza oracional, nomeadamente nas oraes relativas, como podemos ver no
exemplo anterior (dos diversos interesses que a PAC tem de dar resposta em vez
de dos diversos interesses a que a PAC tem de dar resposta). Nestes casos, a omisso da preposio tem vindo a generalizar-se. Para adaptar este discurso aos moldes sintticos da lngua inglesa, o intrprete opta por dividir este pargrafo em
oraes coordenadas assindticas (weve been through []; theres been many
[]; now we have []) ou sindticas (and I would like []) de forma a evitar a
cascata de pronomes relativos do discurso original:
(2b)
Weve been through a long procedure, theres been many amendments

that have been tabled and compromises reached. Now we have a balanced report taking into account different interests. This report is a good
guideline for proposals, legislative proposals, and I would like to congratulate the rapporteur.
[48]
arajo & correia

Ao optar maioritariamente por um esquema parattico (Duarte 2003) que consiste em verter o contedo das oraes relativas dentro de oraes coordenadas
(as)sindticas, o intrprete necessariamente levado a segmentar o seu discurso
em blocos de informao mais circunscritos que preservam a ordem cannica da
frase (sujeito verbo objeto(s)). Esta forma aparentemente mais simples (porque mais atomizada) de processar e restituir o discurso original faz com que o
intrprete tenha de atribuir ao verbo de cada uma das oraes coordenadas um
sujeito, pois o ingls distingue-se do portugus por ser necessariamente uma lngua de sujeito foneticamente realizado. Em (2b), os dois pronomes pessoais we so
suficientemente impessoais para que o intrprete possa atribuir, sem se comprometer, um sujeito sinttico a cada uma das oraes independentes que constituem
o seu discurso. Uma alternativa introduo destes pronomes poderia ser o recurso a estruturas passivas curtas que dispensam precisamente qualquer explicitao do agente do processo. isso que acontece num dos segmentos discursivos
presentes em (2b): theres been many amendments that have been tabled and compromises reached. A mobilizao de esquemas diatticos impessoais (quer ativos
quer passivos) pode implicar uma menor sobrecarga da memria, pois, como se
pode ver, por exemplo, no discurso interpretado que se segue, o uso do pronome
se evita que se tenha de explicitar os agentes mencionados no original (a saber:
the UK media/reporters):
(3a)
UK law is being made in Strasbourg, a monster red-tape factory is closing

industry, now we have tax, but because it isnt football, the people arent
informed. The UK media avoid EU reality, brains are fed with TV soaps,
reporters say the EU does not affect local issues. The EU is not news.
(3b)
Mas porque no futebol, as pessoas no esto informadas. Foge-se

realidade. Diz-se que a Unio Europeia no afeta as questes locais. A
Unio Europeia no faz parte das notcias.
Como vimos, os termos de uma relao anafrica surgem, na linearidade do texto,

como uma cadeia anafrica: o termo antecedente referencialmente independente do termo anafrico, ao passo que este referencialmente dependente do
termo antecedente. Importa referir que a escolha errada de um destes termos no
discurso interpretado pode originar alteraes de sentido mais ou menos profundas. Apresentamos abaixo dois pares de exemplos que ilustram, respetivamente,
uma identificao errnea do termo antecedente e do termo anafrico.
Identificao errnea do termo antecedente

No discurso original que se segue, a sigla AU (precipitadamente proferida antes do
seu equivalente por extenso: African Union) foi apreendida pelo intrprete como
sendo a sigla referente Unio Europeia. Esta confuso entre AU e EU ter levado
[49]
o intrprete a introduzir no seu discurso uma cadeia de referncia relativa Unio

Europeia que no figura de todo no discurso original:
(4a)
The AU, the African Union, could do far more. We have heard many platitudes from the AU but weve seen little concrete action so far.
(4b)
A Unio Europeia, a Unio Africana com certeza que poderiam fazer

mais. Ouvimos j belas declaraes da UE mas at agora poucas aces.
A anlise deste exemplo exibe uma conexo interfrsica bem-sucedida do ponto

de vista da coeso e da coerncia. Contudo, em (4b), o antecedente nico do discurso original (a Unio Africana) passa a assumir uma entidade dupla (a Unio
Europeia e a Unio Africana) no discurso interpretado, que despoleta a retoma
parcial da entidade errada, devido provavelmente semelhana fontica entre
AU e EU.
Identificao errnea do termo anafrico

Em portugus, o termo anafrico pronominal pode ser um pronome pessoal de 3
pessoa, sujeito ou complemento, com ou sem realizao lexical. Quando, na relao anafrica, o termo anafrico no tem realizao lexical, i.e., corresponde a
uma categoria vazia, falamos de elipse e de termo elptico (Marques 2009, pg. 38).
No discurso original que se segue, estamos perante um sujeito nulo subentendido,
que, apesar de no estar foneticamente realizado, pode ser identificado pelas marcas de concordncia verbal ([eles] trabalharam bem):
(5a)
Desde a sua adeso Unio, em 2007, que quer a Bulgria, quer a Romnia tinham a expectativa legtima dos seus cidados se tornarem cidados
comunitrios de pleno direito e poderem usufruir dos mesmos direitos de
todos os outros cidados comunitrios, onde se inclui a liberdade de circulao no interior do Espao Schengen. , pois, a cidadania europeia que
reforamos ao alargar o Espao Schengen. Sexta e ltima nota, Senhor Presidente: [eles] trabalharam bem. evidente que ambos os pases esto de
parabns pelo esforo que realizaram para cumprir todos os requisitos de
Schengen.
A interpretao referencial desse pronome [eles] que no est materialmente expresso depende exclusivamente da sua relao anafrica com o SN (quer a Bulgria, quer a Romnia) que figura no contexto lingustico esquerda. No discurso
interpretado, assistimos a uma quebra desta progresso temtica (antecedente:
Bulgria e Romniaanafrico: [pro=eles]), pois o intrprete opta por um pronome pessoal de 2 pessoa (youve done a good job) quando se estaria espera do
pronome de 3 pessoa (theyve done):
[50]
arajo & correia

(5b)
Since their accession (to the) European Union, Bulgaria and Romania
have legitimately wanted their citizens to become European citizens, with
full rights, and that of course includes the right to move freely within the
Schengen area. So European citizenship is what we are about strengthening here by enlarging the/ this Schengen area. Sixth point: youve done
a good job. Its clearly that/ its clear that these countries should be congratulated for all the efforts theyve made to comply with the Schengen
requirements, []
Neste caso, no parece possvel a identificao anafrica de you em relao ao SN

Bulgaria and Romania, a no ser que a situao extralingustica permita identificar
referencialmente esse SN. No parece ser o caso, pois o deputado no interpela
diretamente nenhum representante passvel de incarnar esse you.
Para alm dos casos anteriormente mencionados de escolha inadequada de um
dos termos da relao anafrica, tambm detetmos casos de no explicitao do
termo anafrico e, como veremos mais frente, de dupla identificao do termo
anafrico.
No identificao do termo anafrico

O discurso original que se segue contm uma relao anafrica, na qual o SN as
devidas ilaes o antecedente e o pronome indefinido uma o termo anafrico.
Este pronome funciona simultaneamente como termo catafrico (PerdicoyanniPalologou 2001) que anuncia a orao que figura posteriormente na linearidade
textual:
(6a)
Espero que todas as instituies tenham retirado as devidas ilaes da

crise financeira, econmica e social que teima em no nos largar. Uma
para mim clara: s uma Europa unida, solidria, com uma governao
econmica reforada, concertada e convergente, estar altura de enfrentar com sucesso os desafios polticos que temos pela frente.
No discurso interpretado, perde-se esta dupla cadeia referencial (anafrica e catafrica):

(6b)
So I think that all of the institutions have learned their lesson from the
major financial crisis that weve experienced. We are a united Europe, a
Europe of solidarity and we are trying to converge, to converge our policies.
O marcador de negao restritiva que figura, em (6a), no ltimo elemento da cadeia referencial (s uma Europa unidaestar altura) parece-nos importante
para reforar a ideia de que a ilao apresentada resume, de facto, a principal lio
que se deve reter e aplicar para se conquistar uma Europa melhor. Ao eliminar
[51]
do seu discurso este marcador e ao optar por uma forma verbal no presente simples (are), o intrprete no transmite exatamente o mesmo sentido que subjaz
ao original e leva-nos a crer que a Europa j aprendeu a lio. Aqui, fica claro
que a rutura da cadeia anafrica original tem repercusses, a nvel semntico, no
discurso-alvo.
A alterao de sentido decorrente dessa rutura poderia ter sido atenuada se
a forma verbal are (We are a united Europe orao 1) aparecesse precedida,
por exemplo, de um verbo como need (We need to be a united Europe) que marca
uma necessidade implicitamente expressa no enunciado original: para que a
Europa possa estar altura dos seus ideais, precisamos de a tornar mais coesa.
Imposta pela situao de crise que se faz sentir, esta necessidade de implementao de uma (maior) concertao econmica devia suscitar uma nova forma de
atuao por parte dos agentes europeus. O verbo try usado na forma progressiva
(we are trying to converge, to converge our policies orao 2) denota, sem dvida, o esforo que tem sido feito nesse sentido. No entanto, a juno das duas
oraes resulta, devido aos mltiplos valores que a conjuno and pode adquirir
em contexto, numa ambiguidade semntica entre a leitura de finalidade (somos
uma europa unida e para tal, estamos a tentar atuar de forma mais concertada) e
de causalidade (como somos uma Europa unida, estamos a tentar atuar de forma
mais concertada). Por via desta operao, perde-se o valor de condio expresso
no original (a Europa s estar altura se estiver unida), cuja concretizao se
situa no futuro, ao contrrio das leituras semnticas acima descritas, ambas ancoradas no presente (are/are trying).
Dupla identificao do termo anafrico

Ao analisar o discurso original que se segue e a respetiva interpretao, deparamonos com um caso bastante curioso de quebra da progresso temtica. Parece-nos,
de facto, que a no especificao do montante atribudo pela UE Grcia em (7b)
pode levar-nos a interpretar o SN novo financiamento equivalente no luz desse
montante (como seria expectvel) mas sim luz do sintagma preposicional (financiar) de forma intil:
(7a)
Everyone can now see that a default in Greece is coming, except the euro
zone finance ministers who, 13 months after uselessly committing 110 billion euros, now seem set to commit a further sum almost as large.
(7b)
Hoje todos ns podemos ver quais so as consequncias para a economia

grega, excepto os ministros das finanas da Unio Europeia que aps terem financiado de forma intil a economia grega esto dispostas a fazer
um novo financiamento equivalente.
[52]
arajo & correia

Ou seja, ao passo que o adjetivo large (em a further sum almost as large) apresenta,
em (7a), um valor indubitavelmente quantitativo (que remete para a ideia de que
o novo financiamento poder aproximar-se dos 110 mil milhes de euros concedidos aquando do financiamento anterior), no caso de (7b), o adjetivo equivalente
(em um novo financiamento equivalente) parece adquirir um valor predominantemente qualitativo, dado que o nico termo antecedente disponvel no contexto
anterior remete precisamente para o sintagma preposicional acima mencionado.
Ao enveredarmos por uma leitura deste tipo, apenas sobressai a ideia de que este
novo resgate no ajudar a resolver a situao financeira de um pas como a Grcia. Para reforar a dimenso quantitativa do adjetivo equivalente, uma soluo
possvel passaria por substituir este adjetivo por um modificador do tipo: um
novo financiamento quase to avultado quanto o anterior.
[5] c o n s i d e r a e s f i n a i s
Apesar de nos encontrarmos ainda na fase de pr-processamento do corpus, foi j

possvel isolar alguns exemplos para estudar o fenmeno das relaes anafricas
no contexto da interpretao simultnea. Com efeito, a anfora um mecanismo
que condiciona a coerncia textual, o que se reveste de especial importncia numa
atividade como a interpretao, cujo objetivo ltimo consiste em promover a inteligibilidade comunicativa de uma mensagem-fonte. Atravs deste estudo exploratrio, foi possvel identificar as quebras de ligao que podem ocorrer numa
cadeia anafrica aquando do ato interpretativo. Como pudemos constatar, estas
quebras podem igualmente afetar, ainda que em menor grau, a tessitura do discurso original. Os problemas decorrentes da quebra da cadeia anafrica, que envolve, como vimos, dois termos, podem ser atribudos identificao errnea do
termo antecedente ou anafrico; no identificao do termo anafrico; e dupla identificao do termo anafrico, que gera ambiguidade na interpretao do
enunciado. Como se pode concluir, a anlise de um conjunto reduzido de exemplos permitiu extrair indcios de padres de comportamento anafrico, que sero
alvo de um estudo qualitativo mais aprofundado e complementado com dados
numricos logo que o corpus esteja pesquisvel. A par da anfora, prev-se que
a explorao do corpus possa tambm apontar para a existncia de reas crticas
na interpretao do ponto de vista lingustico. Graas integrao de material
textual e audiovisual neste corpus, os investigadores tero sua disposio um
recurso multimdia que permitir a realizao de estudos lingusticos, no s de
natureza segmental mas tambm suprassegmental (e.g. prosdia). Acreditamos
que este tipo de reflexo, baseada em corpora, poder ser uma fonte de contributos vlidos para enriquecer os contedos formativos na rea da interpretao.
Estes podero tambm ter aplicaes relevantes ao nvel da traduo e do ensino
de lnguas.
[53]
agradecimentos
Este trabalho foi realizado com o apoio da Bolsa de Investigao com a referncia
SFRH / BD / 88142 / 2012, financiada pela Fundao para a Cincia e Tecnologia
no mbito do Programa Operacional Potencial Humano inscrito no Quadro de Referncia Estratgico Nacional (Formao Avanada), comparticipado pelo Fundo
Social Europeu e por fundos nacionais do Ministrio da Educao e Cincia.
referncias
Almeida, Jos Joo, Slvia Arajo, Nuno Carvalho, Idalete Dias, Ana Oliveira, Andr Santos & Alberto Simes. 2014. The Per-Fide corpus: a new resource for
corpus-based terminology, contrastive linguistics and translation studies. Em
Tony Berber Sardinha & Telma So Bento Ferreira (eds.), Working with Portuguese Corpora, 177200. Bloomsbury Academic.
Arajo, Slvia, Jos Joo Almeida, Alberto Simes & Idalete Dias. 2010. Apresentao do projecto Per-Fide: Paralelizando o Portugus com seis outras lnguas.
Linguamtica 2(2). 7174.
Bendazzoli, Claudio. 2010. Il corpus DIRSI: creazione e sviluppo di un corpus elettronico
per lo studio della direzionalit in interpretazione simultanea: Alma Mater Studiorum Universit di Bologna. Tese de Doutoramento.
Bendazzoli, Claudio & Annalisa Sandrelli. 2005. An approach to corpus-based interpreting studies: Developing EPIC (European Parliament Interpreting Corpus). Em Heidrun Gerzymisch-Arbogast & Sandra Nauert (eds.), MuTra Challenges of Multidimensional Translation: Conference proceedings, 112.
Bernardini, Silvia, Adriano Ferraresi & Maja Milievi. 2013. From EPIC to EPTIC:
building and using an intermodal corpus of translated and interpreted texts.
Apresentao na 46th Annual Meeting of the Societas Linguistica Europea (SLE 2013).
Brants, Thorsten. 2000. TnT a statistical part-of-speech tagger. Em 6th Applied
NLP Conference, ANLP-2000, 224231.
Bhrig, Kristin, Ortrun Kliche, Birte Pawlak & Bernd Meyer. 2012. The corpus
Interpreting in Hospitals: Possible applications for research and communication training. Em Thomas Schmidt & Kai Wrner (eds.), Multilingual Corpora
and Multilingual Corpus Analysis. Hamburg Studies in Multilingualism (14), 305315.
John Benjamins.
Campos, Maria Henriqueta Costa & Maria Francisca Xavier. 1991. Sintaxe e Semntica do Portugus. Universidade Aberta.
[54]
arajo & correia

Chuquet, Hlne & Michel Paillard. 1987. Approche linguistique des problmes de
traduction anglais - franais. Ophrys.
Corblin, Francis. 1995. Les Formes de Reprise dans le Discours. Anaphores et Chanes de
Rfrence. Presses Universitaires de Rennes.
Dios, Patricia Sotelo & Xavier Gmez Guinovart. 2012. A multimedia parallel corpus of english- galician film subtitling. Em Alberto Simes, Ricardo Queirs &
Daniela da Cruz (eds.), st symposium on languages, applications and technologies,
255266.
Duarte, Ins. 2003. Aspectos lingusticos da organizao textual. Em Maria Helena Mira Mateus, Ana Maria Brito, Ins Duarte & Isabel Hub Faria (eds.), Gramtica da lngua portuguesa, 87123. Editorial Caminho.
Falbo, Caterina. 1998. Analyse des erreurs en interprtation simultane. The Interpreters Newsletter 8. 107120.
Gile, Daniel. 1987. Les exercices dinterprtation et la dgradation du franais:
une tude de cas. META 32(4). 420428.
Gile, Daniel. 1992. Les fautes de traduction: une analyse pdagogique. META 37(2).
251262.
Ginezi, Luciana Latarini. 2014. Desafios para a construo de um corpus de aprendizes de interpretao simultnea. TradTerm 23. 165191.
House, Juliane, Bernd Meyer & Thomas Schmidt. 2012. CoSi - A Corpus of Consecutive and Simultaneous Interpreting. Em Thomas Schmidt & Kai Wrner
(eds.), Multilingual Corpora and Multilingual Corpus Analysis Hamburg Studies in
Multilingualism (14), 295304. John Benjamins.
Jaubert, Anna. 2005. Cohsion et cohrence. tudes de linguistique textuelle. ENS ditions.
Kleiber, Georges. 1994. Anaphores et pronoms. Duculot.
Koehn, Philipp. 2005. Europarl: A Parallel Corpus for Statistical Machine Translation. Em Conference Proceedings: the tenth Machine Translation Summit, 7986.
Kostopoulou, Georgia. 2007. The role of coherence in text approaching and comprehension: Applications in translation didactics. Meta 52(1). 146155.
Lopes, Ana Cristina Macrio. 2008. Texto, gramtica e processamento. Em Ftima Oliveira & Isabel Margarida Duarte (eds.), O Fascnio da Linguagem Actas
do Colquio de Homenagem a Fernanda Irene Fonseca, 5768.
[55]
Lopes, Ana Cristina Macrio & Conceio Carapinha Rodrigues. 2013. Texto, coeso
e coerncia. Almedina.
Maia, Belinda. 2000. Making corpora: a learning process. Em Silvia Bernardini
& Federico Zanettin (eds.), I corpora nella didattica della traduzione: Corpus Use
and Learning to Translate, 4760. Cooperativa Libraria Universitaria Editrice Bologna.
Maia, Belinda. 2008. Corpgrafo. Presentation at TaLC at TaLC: Teaching and
Linguatecas (Portuguese language) Corpora. http://www.linguateca.pt/
documentos/MaiaWorkshopTaLC2008.pdf.
Marques, Isilda Gaspar. 2009. Anfora associativa - propostas de abordagem em contexto escolar: Faculdade de Letras da Universidade de Coimbra. Tese de Mestrado.
Monti, Cristina, Claudio Bendazzoli, Annalisa Sandrelli & Mariachiara Russo. 2005.
Studying directionality in simultaneous interpreting through an electronic corpus: EPIC (European Parliament Interpreting Corpus). META 50(4). s/pp.
Morais, Maria da Felicidade Arajo. 2011. Marcadores da estruturao textual: elementos para a descrio do papel dos Marcadores Discursivos no processamento cognitivo do texto. Centro de Estudos em Letras. Universidade de Trs-os-Montes e
Alto Douro. Coleo Lingustica 6.
Oliveira, Ftima. 1987. Cadeias anafricas: que referncia? Revista da Faculdade de
Letras : Lnguas e Literaturas, II srie 4. 125136.
Perdicoyanni-Palologou, Hlne. 2001. Le concept danaphore, de cataphore et
de dixis en linguistique franaise. Revue qubcoise de linguistique 29(2). 5577.
Russo, Mariachiara. 2010. Reflecting on interpreting practice: graduation theses
based on the European Parliament Interpreting Corpus (EPIC). Em Lew Zybatow
(ed.), Translationswissenschaft-Stand und Perspektiven, Innsbrucker Ringvorlesungen
zur Translationswissenschaft VI, (vol 12), 3550. Peter Lang.
Russo, Mariachiara, Claudio Bendazzoli & Annalisa Sandrelli. 2006. Looking for
lexical patterns in a trilingual corpus of source and interpreted speeches: extended analysis of EPIC (European Parliament Interpreting Corpus). Forum 4(1).
221254.
Sanders, Ted, Jentine Land & Gerber Mulder. 2007. Linguistic markers of coherence improve text comprehension in functional contexts. Information Design
Journal 15(3). 219235.
[56]
arajo & correia

Sandrelli, Annalisa. 2010. Corpus-Based Interpreting Studies and Interpreter Training: a Modest Proposal. Em Lew Zybatow (ed.), Translationswissenschaft-Stand
und Perspektiven, Innsbrucker Ringvorlesungen zur Translationswissenschaft VI, (vol
12), 6990. Peter Lang.
Schmid, Helmut. 1994. Probabilistic part-of-speech tagging using decision trees.
Em Proceedings of the international conference on new methods in language processing,
4449.
Schmidt, Thomas. 2004. Transcribing and annotating spoken language with EXMARaLDA. Em Proceedings of the LREC-Workshop on XML based richly annotated
corpora, ELRA.
Setton, Robin. 1999. Simultaneous Interpretation: A Cognitive-pragmatic Analysis.
John Benjamins.
Shlesinger, Miriam. 1998. Corpus-based Interpreting Studies as an offshoot of
Corpus-based Translation Studies. Meta 43(4). 486493.
Shlesinger, Miriam. 2009. Towards a definition of Interpretese: An intermodal, corpus-based study. Em Gyde Hansen, Andrew Chesterman & Heidrun
Gerzymisch-Arbosgast (eds.), Efforts and models in interpreting and translation research: A tribute to Daniel Gile, 237254. John Benjamins.
Simes, Alberto & Jos Joo Almeida. 2007. Avaliao de alinhadores. Em Diana
Santos (ed.), Avaliao conjunta: um novo paradigma no processamento computacional da lngua portuguesa, 219230. IST Press.
Timarov, rka. 2005. Corpus linguistics methods in interpreting research: A
case study. The Interpreterss Newsletter 13. 6570.
c o n ta c t o s
Slvia Arajo
Instituto de Letras e Cincias Humanas, Universidade do Minho
saraujo@ilch.uminho.pt
Ana Correia
Instituto de Letras e Cincias Humanas, Universidade do Minho
ana.moutinho@ilch.uminho.pt
a admirao luz dos corpos

DIANA SANTOS E CRISTINA MOTA
resumo
This paper studies the field of admirao in their two meanings in Portuguese, namely: veneration/respect and surprise, using the framework suggested in Belinda Maias PhD thesis (Maia 1994/1996). After presenting briefly her findings and methodology, we investigate (i) the distribution of the
vague words of the field of admirao by the two meanings, and discuss the
heuristics used in its rule-based distinction; (ii) the distribution of admirao
by genre, tense and person; (iii) its presence in negative sentences; and (iv)
its antonym(s).
A forma como as emoes so mencionadas e descritas numa lngua uma janela

para o tecido social de um povo e de uma cultura. Belinda Maia foi pioneira ao usar
um mtodo contrastivo para iluminar as diferenas entre as suas duas culturas.
Passados vinte anos, o trabalho dela continua atual e as suas descobertas muitos
interessantes, embora tenham tido bastante menos impacto do que mereciam.
Este artigo , pois, um tributo ao seu trabalho pioneiro e um contributo, embora
modesto, para o estudo das emoes em portugus. Aps (re)apresentarmos as
concluses obtidas em Maia e tentarmos compar-las, do lado portugus, com
dados obtidos nos nossos corpos, apresentamos vrios estudos originais sobre as
palavras associadas a admirao, que, em portugus, tem dois sentidos distintos,
embora relacionados: surpresa e venerao/respeito.
De um ponto de vista eminentemente prtico, se conseguirmos uma boa separao / distino entre admirao-respeito, sentimento positivo tanto em relao
ao sujeito como ao objeto, e admirao-espanto, neutro e at possivelmente negativo em relao ao objeto, podemos contribuir para uma melhoria dos sistemas de
apreciao na nossa lngua, quer publicando as regras, quer tornando os corpos da
Gramateca (Santos 2014b), devidamente anotados, acessveis a todos para treinar
os seus sistemas. Isso significa que podemos tambm satisfazer a Belinda em mais
esse trao do seu carter pragmatismo generoso, ou generosidade pragmtica
em vez das torres de marfim acadmicas que ela s vezes lamenta.
[1] a p r e s e n ta o
Este artigo estuda a admirao (nas suas duas vertentes, espanto/surpresa e venerao/respeito) em portugus, usando o enquadramento terico proposto por
Belinda Maia (Maia 1994/1996) na sua tese de doutoramento, e pretende ser assim
[58]
santos & mota

tambm uma prova da admirao que temos por ela e pelo seu trabalho, como
colaboradoras e amigas h muitos anos.
Em particular, discutimos as seguintes questes:
distribuio por gnero de texto;
distribuio por pessoa e por tempo;
qual a sua presena em frases negativas;
como distinguir os dois sentidos acima referidos;
a existncia de um oposto da admirao.
O trabalho tem como enquadramento mais vasto a anotao de emoes no
mbito da Gramateca, que pressupe, como exposto em Santos & Mota (2010),
a reviso da anotao automtica com a necessria adio da interpretao humana nos casos mais complicados, de forma a obter uma anotao 100% coerente.
Em Santos & Mota (2015) apresentamos uma viso global do campo das emoes,
enquanto neste artigo nos concentramos na surpresa e na venerao, ambas passveis de descrio em portugus pela palavra admirao.
Dado que a fundamentao terica e a inspirao vm da tese de doutoramento de Belinda Maia, comeamos por apresentar brevemente, na seco seguinte, os instrumentos de trabalho a propostos, bem como os campos lexicais
associados ao conceito de admirao.
[2] a e m o o e m i n g l s e e m p o r t u g u s
Belinda Maia, na sua tese de 1994 (note-se que usamos como verso legtima, como
o desejo da autora, a verso revista de 1996), dedicou-se ao estudo lingustico
da emoo nas suas duas lnguas, usando para isso um corpo comparvel (coligido, digitalizado e analisado por ela) de textos literrios, de 778.500 palavras em
ingls e 819.500 em portugus, produzindo cerca de 25 mil exemplos de emoo
(somando as duas lnguas). Aps rever a literatura extensa sobre as emoes na
lngua, decide-se pela abordagem lingustica, ou seja, no partindo de postulados
psicolgicos ou filosficos, mas sim da forma como as duas lnguas funcionam,
para a sua categorizao. inspirada sobretudo por Ortony et al. (1988), que usa
como ponto de partida:
I propose to adopt Ortony et als (1988) classification of emotion groups,
and add to it when necessary. (Maia 1994/1996, seco 4.5)
Uma das razes aduzidas que a teoria deles no est colada ao ingls, visto
que faz uma diferena entre a situao da emoo e a palavra da emoo, e da
oferece mais possibilidades para uma anlise bilingue.
[59]
Muito resumidamente, Belinda Maia usa os seguintes instrumentos de trabalho ao cartografar as emoes em portugus e em ingls:
(i) assume que numa emoo existe sempre o sentidor (senser) e o fenmeno
(que inspira a emoo);
(ii) em relao ao sentidor, considera interessante distinguir entre a expresso
de emoes prprias ou doutros;
(iii) em relao ao fenmeno ou estmulo, ela prope onze tipos de estmulos
diferentes, sendo o primeiro no especificado, os quatro seguintes associados ao sentidor, os prximos quatro associados ao outro no sentido do
dilogo, e finalmente os ltimos dois referindo-se quer a um objeto (no
humano, portanto) quer a uma proposio.
Belinda Maia estudou 17 emoes, concetualmente divididas em quatro grupos, nomeadamente anger (3), appreciation (3), disappointment (2), dislike (4), distress (1), fear (2), gratitude (3), hope (2), joy (1), liking (4), pride (3), relief (2), reproach (3), resentment (1), satisfaction (2), self-reproach (3), sorry for (1). A descrio
do grupo, acima marcado simplesmente pelo nmero, dada a seguir: 1) reao
a acontecimentos (em que interessante que no existem, segundo ela, alegria
pela felicidade ou infelicidade dos outros1 nas duas lnguas estudadas); 2) reaes
a acontecimentos projetados (em que mais uma vez o grupo logicamente possvel
de medos confirmados no tem expresso lexical em nenhuma das lnguas); 3)
reaes a agentes; 4) reaes a objetos, sobre as quais Belinda Maia comenta que
amor e dio, arquetpicas emoes para um leigo, no so consideradas emoes
bsicas por vrios tericos2 . Note-se que interessante que no so considerados
como emoo os campos na nossa opinio possveis de ingratido e de coragem, enquanto a saudade um subtipo de distress e a vergonha est includa no
grupo de self-reproach/remorse.
Alm disso, ela tambm refere e estuda - indicando que esto fora do esquema
de Ortony et al. (1988) - as seguintes possveis emoes: surpresa, desejo, e emoo genrica (compreendendo palavras como sentir, emocionar, emoo, sentimento).
Para dar uma pequena ideia do tipo de dados fornecidos na tese de Belinda
Maia, apresentamos aqui a sua anlise referente a surpresa, com as tabelas publicadas em relao distribuio dos lexemas. Em ingls: surprise (48,5%), amaze
[1]
[2]
O que no significa que no seja possvel sentir essas emoes sem palavras a elas dedicadas. De facto,
Belinda Maia demonstra a sua alegria precisamente pelo facto de a lngua portuguesa no ter um equivalente lexical da palavra gloat, que alis era muito rara no seu corpo ingls tambm. Mas happy for
apenas uma variante de happy, o que no exige portanto um campo parte.
Embora em lngua inglesa exista uma ateno gramatical sobre a distino entre animado e no animado,
tal no acontece em portugus, donde poderia fazer algum sentido juntar os 3 e 4 num mesmo grupo
dizemos ns, que somos falantes de portugus.
[60]
santos & mota

(19,3%), startle (12,4%), astonish (12,1%), e outras seis palavras cobrindo os restantes 7,7%. Em portugus, surpreender (35,4%), espantar (23,9%), pasmar (13,4%),
assombrar (11,3%) e admirar (9,5%). interessante, do nosso ponto de vista, reparar que a maior parte destas palavras em portugus so ambguas, ou pelo menos
podem significar outras coisas tambm: alm de admirar, que o tema do nosso
artigo, atente-se nas seguintes frases: Ele surpreendeu-os na fronteira; Esse cheiro
espanta as moscas; A casa estava assombrada.
A tabela 13.1, repetida aqui na forma de quatro tabelas diferentes (tabelas 14), indica a proporo dos casos em que a emoo (de surpresa) orientada para
o sentidor (S), ou para o fenmeno (P), assim como quantos casos so descries
de comportamento3 .
SURPRISE
GENERAL
S focus %
P focus %
beh %
English
66,7
33,3
22,3
Portuguese
62,5
37,5
22,1
tabela 1: O campo da surpresa no material de Maia, primeira panormica

A questo do comportamento (marcada por beh) outra das distines que
Belinda Maia faz na sua anotao, devido questo filosfica da diferena entre
comportamento associado a uma emoo e emoo propriamente dita. Citamos o
seu texto sobre o assunto, cf. Maia (1994/1996, seco 4.4):
When an emotional situation is being described seriously, there appear to be three main ways in which emotion words, at least in English and Portuguese, function in these descriptions: 1 a) to describe
the Subject, or Sensers, emotional state or processes, as in I love you,
He is angry with you, or I feel depressed; 1 b) to describe the behaviour
associated with the emotional processes or state, as in He looked terrified, She sounded upset or They waited anxiously; 2. to describe the qualities or behaviour of the Object of the emotion, or Phenomenon, as
in He annoys me, She is irritating or The kitten is adorable. The difference
between 1 a) and b) is that the former assumes the existence of the
emotion, whereas the latter is more tentative and merely describes
the behaviour that might indicate it.
Alm de chamar a ateno para esta distino, Belinda Maia tem o cuidado de
marcar cada caso que considera descrio de comportamento. Isso , alis, especialmente relevante no campo da surpresa, visto que, segundo ela, os casos de
[3]
Outra questo mencionada, e anotada por Belinda Maia, foi a de deliberate (deliberadamente) quando
um dado fenmeno tem como inteno provocar a emoo.
1
2
3
4
5
6
7
8
9
10
11
Total
[61]
S focus
3
English
P focus totals
3
5
37
7
5
11
8
135
25
6
242
5
44
10
8
17
15
178
67
16
363
7
3
3
6
7
43
42
10
121
%
0,8
S focus
19
1
4
12
5
9
7
6
165
49
11
288
1,4
12,1
2,8
2,2
4,7
4,1
49
18,5
4,4
Portuguese
P focus totals
7
26
3
4
4
7
19
4
9
27
36
8
15
3
9
53
218
56
105
5
16
173
461
%
5,6
0,9
0,9
4,1
2
7,8
3,3
2
47,3
22,8
3,5
tabela 2: Qual o fenmeno inspirador de surpresa?

pasmar seriam mais naturalmente descritos em ingls como he gaped in amazement
ou his jaw dropped in surprise. Ns podemos adicionar, para o portugus, Ficou de
boca aberta, ou mesmo Os olhos iam-lhe saltando das rbitas. No seu corpo, encontrou
mais de 20% dos casos descrevendo comportamento.
A tabela 2 detalha, nas duas lnguas, o tipo de fenmeno associado surpresa.
As tabelas 3 e 4 indicam, respetivamente para os casos focados no sentidor
(Sfoc) e os no fenmeno (Pfoc), a forma sinttica em que aparecem.
Sentidor
S-adj-att
S-adj-pr
S-pp-att
S-pp-pr
S-adv
S-n
S-v
S-v-se
Total EN
4
16
133
1
88
1,1
4,4
36,6
0,3
24,2
Total PT
8
6
15
107
%
1,7
1,3
3,3
23,2
110
42
23,9
9,1
tabela 3: No caso de surpresa focada no sentidor, qual a forma sinttica?

Em relao a estes dados, Belinda considera haver uma grande percentagem
de adjetivos (referentes ao sentidor), sobretudo em ingls (41%), mas tambm em
portugus (26,5%), e de particpios passados: aqui repare-se na diferena de comOSLa volume 7(1), 2015
[62]
santos & mota
Fenmeno
P-adj-att
P-adj-pr
P-pp-att
P-pp-pr
P-adv
P-n
P-v
P-v-se
Total EN
28
26
%
7,7
7,1
Total PT
8
5
%
1,7
1,1
21
16
30
5,9
4,4
8,3
3
69
59
29
0,7
15
12,8
6,3
tabela 4: No caso de surpresa focada no fenmeno, qual a forma sinttica?

plementao entre o ingls, com 53,3%, e o portugus, com apenas 29%4 . Outra
questo sublinhada por ela que em portugus existe um grande nmero de casos orientados ao sentidor com a cpula ficar (25,2%) e com quase-cpulas como
parecer (sobre as quais no apresenta valores), enquanto adjetivos e advrbios relacionados com o fenmeno so raros ao contrrio do ingls, em que so muito
frequentes.
Belinda Maia tambm menciona a ambivalncia de todos os substantivos relativos ao fenmeno (nas duas lnguas), em que ambivalncia significa que podem
ser (fora do contexto) tanto associados ao fenmeno como ao sentidor: por exemplo (o exemplo nosso), surpresa ambivalente porque aceita A surpresa da Maria
(Sfoc) ou A surpresa por ele no ter vindo (Pfoc).
Duas diferenas interessantes entre as lnguas so: o ingls (pelo menos nos
corpos usados por Belinda Maia) no tem verbos associados ao sentidor, enquanto
o portugus tem (admirar-se de ... ou pasmar-se com), produzindo 9,1% de casos;
alm disso, os verbos associados ao fenmeno so mais frequentes em portugus
(19,1%) do que em ingls (8,3%). Ela tambm relata outros casos tpicos das lnguas
em questo: o it existencial para o ingls, como em It did not surprise me to find..., e
a construo portuguesa h coisas de espantar.
Outro tema focado por Belinda Maia a complexidade da anlise dos verbos
de surpresa reflexivos: ela menciona 29 exemplos de um tipo semi-reflexivo, a
maior parte referente a admirar-se, comentando que nalguns casos a classificao
entre Sfoc e Pfoc foi arbitrria.
E terminamos aqui este exemplo da riqueza de informaes e de anlises presente em Maia (1994/1996): uma seco de trs pginas numa tese de quatrocentas
demonstra o quanto foi feito, e verdadeiramente admirvel. No admira, tam[4]
Tal pode apreciar-se mais facilmente se esquecermos a diferena entre adjetivo e particpio passado, com
a mesma vagueza nas duas lnguas (Santos 1998), e somarmos as linhas S-adj e S-pp: 153 casos em ingls
(En) e 136 em portugus (Pt).
[63]
bm, que muito se possa aproveitar para repetir e esmiuar melhor o que o
objetivo confesso do presente artigo, no lado do portugus. Mas pensamos que
se torna bvio para qualquer leitor que existiro muitos outros tesouros na sua
tese, e, sublinhamos, razes para a ler, tanto pela clareza da discusso como por
opinies muito interessantes sobre a prpria gramtica portuguesa.
[3] a a d m i r a o n o s c o r p o s d o a c / d c
A primeira coisa que gostaramos de fazer seria uma comparao com os dados relativos ao portugus compilados na tese de Belinda Maia, para ver se mais dados
permitem mais conhecimento, ou se a amostra dela era suficientemente representativa j.
Em princpio, podemos estudar quer textos literrios apenas, quer toda a lngua a que temos acesso, veja-se Santos (2014a) para uma descrio breve do enquadramento.
Alguns problemas, contudo, se nos deparam. Em primeiro lugar, consideramos que os dados acima referidos se referem apenas a surpresa (visto que foram
todos submetidos a rigoroso escrutnio por Belinda Maia) mas, de momento, alguma parte do que est marcado como surpresa pode referir-se realmente a venerao ou respeito, visto que a distino entre os dois ainda no foi cabalmente
operacionalizada e revista, veja-se a seco [4].
A noo de venerao poder, portanto, no caso de ter um perfil sinttico
muito diferente e ser suficientemente frequente, confundir os nmeros relativos
distribuio sinttica da surpresa, que apresentamos na tabela 5. medida que
essa desambiguao for includa no AC/DC, poderemos obter valores mais confiveis.
A outra dificuldade, que mais difcil de contornar, a de que centenas de milhes de palavras no permitem a anlise to detalhada em termos, por exemplo,
da orientao para o sentidor e para o fenmeno, e por isso a comparao ter de
ser feita por categorias menos finas, em particular, amalgamando as tabelas 3 e 4
apenas por categoria gramatical, na coluna Maia.
V
N
ADJ
PP
ADV
total
Maia
130
179
27
122
3
461
%
28,2
38,8
5,8
26,5
0,65
Literrio
4490
3845
4462
1033
1160
14990
%
30,0
25,6
29,8
6,9
7,7
Todos
60925
55047
79349
6725
10723
212769
%
28,6
25,9
37,3
3,2
5,0
tabela 5: A distribuio por categoria gramatical da surpresa nos vrios corpos

[64]
santos & mota

A maior diferena claramente na percentagem dos adjetivos, mas a distino
entre adjetivos, particpios passados e formas passivas do verbo uma das tarefas
mais espinhosas e menos consensuais na gramtica da nossa lngua... O facto de
que a soma ADJ + PP no difere muito nos trs materiais parece-nos resolver esta
eventual disparidade de forma relativamente satisfatria.
Por outro lado, para casos com frequncia muito baixa no material original,
como so os apenas trs advrbios, natural que haja diferenas significativas
quando se observam amostras muito maiores.
O que ressalta como interessante e inesperado, desta comparao a trs nveis
a semelhana dos valores literrios com o resto da lngua, constituindo ainda por
cima o corpo literrio declarado apenas 7% do total. Por isso na seco [3.1] vamos
olhar com mais cuidado para a questo do gnero.
A partir de agora, daremos uma panormica do campo admirao + surpresa
(em que admirao significa neste caso venerao), deixando para a seco [4] a
explicao de como atacmos essa distino mais fina.
[3.1] Distribuio por gnero textual

Na figura 1 apresentamos a distribuio do material por gnero do texto. Contudo, preciso reconhecer que o conceito de gnero tambm no nada simples
de fixar. Veja-se Santos (2015) para uma discusso dos conceitos e das escolhas
envolvidas, e Freitas & Santos (2015) para a questo do gnero blogue.
Vemos que o gnero onde a admirao mais frequente o das recenses do
corpo ReLi (Freitas et al. 2014) seguido pelos blogues da Amaznia, e pelo texto
literrio. A surpresa sempre mais frequente do que a admirao mais frequente na literatura (traduzida e original) e nas recenses de livros, tendo em
conta que tambm faz parte da arte dramtica. No ser surpresa verificar que
no texto legal, tcnico e acadmico nenhuma destas emoes frequente. Por
outro lado j mais interessante constatar que o texto enciclopdico, assim como
o oral informal, so os nicos que apresentam a mesma proporo de supresa e
admirao. Todos os outros gneros contm (muito) mais surpresa.
[3.2] Distribuio por tempo verbal
Uma questo interessante saber qual a distribuio de uma emoo de acordo
com os tempos verbais, e se diferente da distribuio das outras emoes ou do
prprio texto em geral.
Como este assunto no se esgota facilmente, escolhemos aqui testar se a nossa
intuio referente aos dois tipos de emoes pode ser confirmada pelos dados
gerais, ainda sem distribuio por sentido, mas com a seguinte hiptese:
a admirao no sentido de respeito refere-se sobretudo a tempos estativos,
generalizadores, e ser portanto encontrada principalmente no presente e
no imperfeito;
[65]
figura 1: Admirao e surpresa nos corpos da Gramateca.
figura 2: Distribuio da admirao comparada com todas as emoes nos corpos

da Gramateca, por tempo verbal (explicao das abreviaturas no stio do
AC/DC).
[66]
santos & mota

a surpresa algo que se experimenta, temporrio e fixo no tempo, por isso
ser (muito) mais usado na passiva e com o perfeito.
Note-se que temos a possibilidade de olhar para o tempo verbal dos verbos de
emoo, ou para o tempo verbal das frases em que uma palavra de emoo ocorre,
e que esses dois tipos de nmeros sero ou podero ser completamente diferentes.
Neste caso escolhemos o mais fcil de investigar, que se refere s formas verbais,
mas que pode proporcionar algum vis, visto que no abarca o campo semntico
global.
Na figura 2, comparamos as emoes verbais todas com a admirao (em logaritmo). O mais interessante, naturalmente, so os casos em que a distribuio
no seja semelhante. Da inspeo da figura, os casos mais gritantes so, aparentemente, mais casos de perfeito e menos casos de imperfeito do que a mdia das
emoes, e significativamente mais casos de passiva no infinitivo.
figura 3: Relao entre passiva em geral e admirao na passiva, por corpo.

Na figura 3, olhamos para a ocorrncia do campo da admirao na passiva, por
corpo. De forma a compar-los, apresentamos o logaritmo do nmero de passivas
no eixo dos XX e o logaritmo das referentes admirao no eixo dos YY. Os corpos
ENPC (texto literrio traduzido do ingls), COLONIA (que por ter um texto sobre
emoes tem sempre mais de tudo) e o Vercial (texto literrio desde 1500) tm
mais admirao na passiva do que o resto do material, enquanto que a lista do
ANCIB e o jornal Avante tm menos.
[67]
[3.3] Distribuio por pessoa

E o mesmo fizemos em relao pessoa5 . No querendo nem podendo esgotar
aqui todas as possibilidades de investigao, resolvemos concentrar-nos em dois
corpos distintos: o Museu da Pessoa6 , que, como j foi dito, centrado sobre a
histria pessoal dos entrevistados, e tem, portanto, mais percentagem de primeira
pessoa que outros textos; e o CONDIV, contendo jornalismo especializado sobre
trs temas distintos futebol, moda e sade, e que se esperaria que tivesse uma
percentagem muito maior de terceira pessoa, como se pode observar na tabela 67 .
S
P
Total
admir S
admir P
admir total
MP 1a
44867
10740
71186
21
17
26
MP 3a
121171
23713
185539
3
6
31
CONDIV 1a
18880
19514
69480
27
27
60
CONDIV 3a
336832
104791
610251
367
63
642
tabela 6: A distribuio da pessoa

Nessa tabela vemos que os verbos marcados com os valores de surpresa ou respeito so mais frequentes, relativamente, na primeira pessoa no Museu da Pessoa
(3,65e-4 na primeira contra 1,67e-4 na terceira), mas no CONDIV so mais frequentes na terceira 1,05e-3 do que na primeira, 8,64e-4).
Mais marcada a diferena entre o singular e o plural, cuja explicao cabal ter de ficar para o futuro: mesmo na terceira pessoa, o singular tem sempre
muito mais casos. Tal no dever contudo ser surpreendente, na medida em que
ser mais natural falarmos das emoes ou estados de esprito de um indivduo
do que duma pluralidade.
Mas, para indagarmos se o que observmos em relao aos valores de admirao uma propriedade especial da admirao ou das emoes em geral, temos de
comparar com o perfil de todas as emoes, em ambos os corpos ou em todos.
[5]
[6]
[7]
Para facilitar a reproduo dos nossos resultados, apresentamos a forma de extrair os dados utilizada:
[pos="V.*"& pessnum="1S.*"& sema=".*emomin:(surpresa|admirar).*"]
Os dados das tabelas que se seguem referem-se verso do Museu da Pessoa de Setembro de 2014. Ao
revermos o artigo em Janeiro de 2015, demo-nos conta de que o panorama quantitativo (automtico) tinha mudado radicalmente, por termos adicionado talvez temporariamente o conceito de respeito (e
como tal todas as palavras a ele associadas) noo de admirao. Mas como essa questo no relevante
para a distino entre os dois sentidos de admirao (que focamos no presente artigo) e, para termos valores fiveis, teramos ainda de efetuar nova desambiguao entre respeito-venerao e respeito-medo,
decidimos no incorporar os novos valores no artigo.
O observador atento poder reparar que na primeira pessoa existem mais casos no total do que a soma
de S com P... o que se deve aos casos marcados pelo PALAVRAS como 1/3S, e que foram arbitrariamente
considerados nesta tabela como primeira pessoa. Igualmente, os casos em excesso de terceira pessoa
referem-se ao uso do infinitivo impessoal, que no marcado nem com S nem com P.
[68]
santos & mota

Na figura 4, apresentamos o peso das vrias emoes na primeira e terceira
pessoas do singular e do plural nos dois corpos investigados, remetendo os leitores
para Santos (2015) para mais discusso sobre a dificuldade de estudar a pessoa
semntica em portugus.
figura 4: Distribuio da admirao por primeira ou terceira pessoa nos corpos

ConDiv ( esquerda) e Museu da Pessoa ( direita).
[3.4] Presena em frases negativas

Outro assunto que j mencionmos como de certo interesse em relao emoo
a sua presena ou caracterizao em frases negativas, que foi estudada com algum
pormenor em relao ao binmio medo-coragem em Maia & Santos (2012). Nesse
artigo, foi afirmado correspondendo a uma verso anterior do material que
apenas obtivemos 2.951 casos de negao de medo verbal em 27.113 casos no total.
Embora nenhum dos estados de esprito a que este artigo se refere tenha um
oposto lexical bvio, como era o caso de coragem, interessante verificar que no
muito mais frequente a sua negao do que no campo do medo, pese embora a
falta de algo que exprima falta de surpresa ou falta de respeito8 , como se pode
apreciar na tabela 7.
[4] a d i s t i n o e n t r e a s d u a s a d m i r a e s
Como j por vrias vezes mencionado, uma caracterstica interessante da lngua

portuguesa associar palavra admirar dois sentidos que noutras lnguas so le[8]
A palavra desrespeito denota falta de respeito, mas no como atitude ou emoo, e sim como ao. No
se pode dizer ele tinha desrespeito por ela, ou senti uma grande desrespeito, mas apenas Isso/essa ao foi um
grande desrespeito.
negado
total
%
medo
1646
164.046
1.0
[69]
coragem
2033
194.959
1.04
admirao
633
71.674
.88
tabela 7: A proporo das emoes (verbais), negadas ou no, no conjunto de todos os corpos
xicalmente bem separados, e que denotaremos para facilidade de compreenso
no presente artigo a partir de agora sempre por surpresa e venerao.
Comeamos por tentar proceder a uma distino entre as duas admiraes
no caso da base admirar. Embora fosse extremamente interessante conhecer a
histria desta palavra ou famlia de palavras, no a consideraremos aqui.
Usado reflexivamente, admirar-se significa quase sempre surpresa (embora
seja possvel uma pessoa admirar-se ao espelho, em relao sua aparncia). Transitivamente, admirar significa uma atitude (de admirao) em relao a uma pessoa, obra, ou ao, quando o sujeito humano. Quando o sujeito uma ao ou
situao e o objeto humano, estamos em face de surpresa novamente, cf. O comportamento dele admirou-a. Na passiva9 , os auxiliares estar e ficar esto associados
a espanto, enquanto ser indica a atitude mental. Noutros casos preciso mais do
que a estrutura sinttica para distinguir entre os dois sentidos de admirar, como
o caso das oraes participiais (sem auxiliar expresso) (exs. 1-2), ou a prpria nominalizao, admirao (exs. 3-5), embora em alguns casos, como em ter/inspirar
admirao, o verbo suporte permita facilmente a desambiguao. Repare-se tambm que as preposies por e de, respetivamente associadas ao verbo e ao nome,
so ambguas, como os exemplos mais uma vez ilustram.
(1) D. Ana Perptua ficou fascinada pelo esprito fulgurante do poeta, admirado
por todos, e admitido na intimidade da famlia na quinta de Arroios, em
Colares.
(2) Langdon parou, admirado por ela conhecer a obscura publicao sobre os
movimentos dos planetas e seu efeito sobre as mars.
(3) Grande, porm, seno dolorosa, foi a admirao de Salazar, quando, anos depois, lendo o primeiro tomo da edio das obras de Cames, (...)
(4) O relativamente obscuro general Suharto tem gozado desde ento da admirao de Washington.
[9]
Estamos naturalmente muito conscientes de que passiva no mais uma vez uma designao consensual, mas remetemos o leitor para Santos (2014c) para uma descrio das vrias escolhas e alternativas
possveis, e qual a escolhida no presente enquadramento.
[70]
santos & mota

(5) Dos montes e das cidades acudiam monges, acudiam mesmo pagos, para o
visitar, uns na admirao de to espantosa penitncia, outros na esperana
de serem por ele curados de feridas e males.
Seja como for, crimos vrias regras automticas para lidar com todas as ocorrncias relacionadas com a base admirar nos nossos corpos, de maneira a distinguir entre os dois sentidos.
A correta desambiguao de todas as ocorrncias exige a reviso humana, o
que ainda no foi feito, exceto num nico corpo o Museu da Pessoa para
podermos avaliar o trabalho envolvido e os problemas esperveis. Na prxima
seco descrevemos exatamente os resultados dessa reviso.
[4.1] Descrio quantitativa

Os resultados obtidos, englobando todo o campo da surpresa e da venerao, encontram-se na tabela 8. (Note-se que existe uma marcao dupla em relao s
emoes: as palavras que so quase sempre veculo de uma dada emoo so marcadas com emomin; outras palavras que s em poucos contextos a podem veicular,
como emomax. Na reviso, revimos ambos os casos, por isso juntmos os dois valores na tabela.)
surpresa
venerao
emomin+emomax
186385+21053
39571
+medo
4938
+tristeza
362
Lemas dif.
175 (98)
14
tabela 8: Palavras inicialmente marcadas como surpresa ou venerao em todos

os corpos
Em relao a essa tabela, convm indicar que:
os casos no decididos entre surpresa-saudade-tristeza referem-se a banzo,
palavra brasileira de origem africana;
os casos no decididos entre surpresa-medo referem-se a formas associadas
a sobressaltar ou sobressalto.
Estas classificaes so feitas automaticamente, no estamos a dizer que no fosse
possvel, para cada um dos casos, identificar a emoo certa ou predominante. Por
outro lado, o altssimo nmero de lemas diferentes entre antes e depois da reviso e uniformizao10 tambm demonstra as caractersticas do material usado.
[10]
Juntando diferenas entre as variantes tal como estupefacto e estupefato ou atnito e atnito e retirando
muitos casos bvios de erro no texto original (tais como imprevisibildade ou subito) ou erro do analisador
sinttico (por exemplo, espasmo como derivado de pasmo, surpreendedora como substantivo em vez da
forma feminina do adjetivo surpreendedor).
[71]
Em particular, deve-se acautelar a questo do peso a dar a estudos de riqueza

lexical baseados simplesmente no nmero de lemas distintos. De qualquer maneira, para concretizar, apresentamos em apndice o nmero de lemas diferentes
considerado, indicando que todos os neologismos e formas criativas que nos pareceram deliberadas foram mantidos sobretudo porque estamos convictas de
que a existncia destes casos testemunha a pujana da emoo na lngua, concordando com o raciocnio defendido por Baayen & Renouf (1996). Alm disso,
convm lembrar que os diminutivos, aumentativos e superlativos no so necessariamente neutros: podem trazer nuances de sentido, e por isso foram contados
separadamente.
Quanto reviso humana do Museu da Pessoa, os nmeros encontram-se na
tabela 9.
admirao
surpresa
Inicial
17
148
Final
46
118
Dvidas
2 maravilhar
2 maravilhar
tabela 9: Reviso do Museu da Pessoa relativa a surpresa/admirao

Refira-se que h muitos mais casos de admirao na variante brasileira (38
contra 8 casos, mesmo que o tamanho da parte brasileira seja cerca de 3,5 vezes o
da portuguesa); tambm convm salientar que quatro casos de maravilhar foram
considerados tanto surpresa como admirao, veja-se dois exemplos:
(6) Bom, essa gruta, eu estava nessa gruta e a eu fui s me maravilhando com
aquilo tudo
(7) E essas empresas ficaram to to maravilhadas com o projeto que eles tambm vo entrar no projeto, provavelmente doar para os clientes deles
Como seria de esperar, a admirao automtica pecou (e bastante) por defeito.
Por outro lado, o seguinte exemplo ilustra claramente que preciso fazer regras
muito especficas para distinguir as duas frases seguintes, a primeira exprimindo
surpresa e a segunda admirao:
(8) Dona Maria da Conceio, eu queria fazer uma pergunta para a senhora que
o seguinte, como a senhora viu toda essa transformao das cidades, do
mundo? Muito admirada, mas tambm vi muito progresso, mas progresso e
maldade.
(9) A minha me aparecia menos nas coisas pblicas, no tinha a preponderncia do meu pai na vida comum, da vida da aldeia das coisas pblicas, da
[72]
santos & mota

igreja, das festas, mas era uma pessoa extremamente delicada, muito aceite,
tambm na vida comum. Muito admirada, muito carinhosa com os meninos,
com os filhos, de uma grande dedicao ao meu pai e sobretudo amorosa,
um extremo de afectividade.
[4.2] Comparao de casos complicados

No mbito do desenvolvimento do Rve11 , a primeira autora escolheu um conjunto de casos que poderiam ser difceis de classificar dos corpos Museu da Pessoa
e OBRAS, e que eram praticamente todos os casos com lema admirar ou admirao,
e uns poucos associados palavra reverncia. Essa lista foi depois analisada e todos
os casos classificados pela primeira autora, e depois o mesmo foi feito por Cludia
Freitas, revendo a anotao inicial, e pela segunda autora, criando uma anotao
alternativa, independente.
Embora os resultados sejam apresentados e discutidos em mais detalhe noutro
artigo (Santos et al. 2015), uma concluso bastante relevante foi a da existncia de
um conjunto razovel de casos em que mais do que uma aceo foi considerada
pelas anotadoras, demonstrando que existem muitas situaes em que um item
lexical em contexto pode ser vago, ou seja, ter mais do que um dos sentidos
e deste modo justificando claramente a partilha do sentidos pelos mesmos itens
lexicais.
Exemplos de multiplicidade de sentidos que nos parecem particularmente claros so:
(10) Esse Hilrio tinha na montra da oficina dele, em 1945, um carro feito por ele
que quem passasse por l admirava aquela arte .
(11) aqueles dois recentes conhecimentos de Albernaz, embevecidos, boquiabertos e invejosos diante das proezas imaginrias daqueles trs militares
(12) ngelo aos quinze anos j embasbacava os seus ingnuos professores
Outra observao interessante foi a descoberta de um outro sentido de admirar, parafrasevel por olhar com gosto/prazer, e que foi encontrado no OBRAS
frequentemente, mas no no Museu da Pessoa. Vejam-se os seguintes exemplos:
(13) Do alto de uma janela como Paul Adam, admira o caleidoscpio da vida no
eptome delirante que a rua
(14) A rigor, era natural admirar as belas figuras
[11]
http://www.linguateca.pt/Reve/
[73]
(15) O meu amigo dividiu a dor com o pblico; e, se enterrou a mulher sem aparato, no deixou de lhe mandar esculpir na Itlia um magnfico mausolu,
que esta cidade admirou exposto, na Rua do Ouvidor, durante perto de um
ms.
Com efeito, se em 13 s se pode compreender o prazer de ver ou mirar, em 15
pode-se facilmente tambm interpretar como admirao.
[5] o o p o s t o d e a d m i r a r
Outra observao interessante refere-se ao oposto de admirar no sentido de venerar: ser possvel escolher entre desprezar e invejar? Em invejar mantm-se a
noo de que o objeto bom, mas o sentimento que inspira mau, enquanto em
desprezar simplesmente a atitude (oposta) que mencionada.
Para tentar responder a esta questo de uma forma emprica, baseando-nos
na hiptese de que a antonmia tambm uma propriedade textual, como defendido por Justeson & Katz (1991, 1992), medimos a co-ocorrncia destes conceitos
(lemas), em todos os corpos, e obtivemos 72 casos de co-ocorrncia de desprezar
e admirar, e 148 de invejar e admirar. Embora a balana penda mais para a inveja,
portanto, observmos que s vezes esta mencionada como um tipo de admirao
e no como o seu oposto, cf. exemplos 16 e 17.
(16) (...) ela via com santa inveja e admirao as sobre-humanas foras que imaginava no frade (...)
(17) Entusistico f de Mrio Soares, Jos Aparecido de Oliveira revela que o que
mais admira, inveja mesmo, no nosso Presidente no cultura, no a comunicabilidade, no a inteligncia, no a glria.
[6] o b s e r va e s f i n a i s
Quando se abraa um assunto to interessante e multifacetado como o dos modos

de uso de palavras relacionadas ao campo das emoes na lngua, difcil abordlo em todas as vertentes, mesmo quando nos restringimos a uma das vinte que
Belinda Maia estudou, ainda por cima contrastivamente. Muito fica por fazer, e
limitamo-nos nos pargrafos seguintes a sugerir outros estudos que reputamos
de grande interesse.
(i) Um dos aspetos que gostaramos de explorar futuramente a dimenso
temporal, estudando como variaram as distines entre o sentido de surpresa e venerao ao longo do tempo e qual a original, usando os corpos
Vercial12 , Colonia (Zampieri & Becker 2013) e CONDIVPort (Silva 2008). Os
[12]
http://alfarrabio.di.uminho.pt/vercial/
[74]
santos & mota

primeiros dois so corpos de textos essencialmente literrios escritos entre
1500 e os anos 30 do sculo XX; o ltimo um corpo jornalstico que inclui
notcias dos anos 50, 70 e 2000.
Esse estudo poderia ser levado a cabo, estudando, primeiro, a aplicabilidade
das regras de distino entre os dois sentidos j criadas para o corpo Museu
da Pessoa (que permitem analisar o uso reflexivo, da passiva, da nominalizao, entre outros ver seco [4]) e, em seguida, a sua interrelao com os
vrios aspectos estudados na seco [3]: distribuio por pessoa, por tempo,
presena em frases negativas, etc.
(ii) Outro estudo que ficou por fazer mas que seria uma sequncia bvia do interesse por esta rea seria investigar quais os objetos e os sujeitos associados
admirao, eventualmente selecionando quais as propriedades mais admiradas ou de espantar.
(iii) Finalmente, usando corpos paralelos, seria relevante verificar se estas duas
atitudes/emoes teriam tradues interessantes ou influncia forte de outra lngua.
Mesmo que muito tenha ficado por fazer, do trabalho aqui relatado podemos
concluir que, em portugus, pelo menos nos corpos estudados, o sentido de surpresa francamente mais frequente que o de venerao, tanto em termos de ocorrncias, como em termos da prpria riqueza lexical das duas emoes ou atitudes.
Tal no , contudo, corroborado pela diviso do trabalho entre as palavras
associadas raiz admir-, que, na maioria dos casos, se referem indiscutivelmente
ao sentido de reverncia (veja-se admirvel, admiravelmente, admirador). A prpria
distribuio do verbo admirar converge nesse sentido (no Museu da Pessoa, em
35 casos, 25 exprimem venerao e 10 surpresa), o que pode dar pistas para a sua
evoluo futura.
Por outro lado, interessante verificar que uma palavra de origem estrangeira, f, que leva indubitavelmente a palma na referncia a este sentimento, com
as palavras admirador ou admiradora sendo relegadas para um nicho mais antiquado, formal e culto.
Seguindo esta lgica, as autoras confessam-se admiradoras e fs de Belinda
Maia e do seu trabalho sobre as emoes na lngua e sobre a comparao entre
as duas lnguas, e esperam, com esta pequena contribuio, arranjar mais interessados na rea e atrair a ateno para a mina de ouro que o trabalho de Maia
(1994/1996).
agradecimentos
Agradecemos Cludia Freitas a anotao dos casos referidos no artigo, e ao Eugnio Oliveira e Maria Jos Finatto os comentrios pertinentes.
[75]
apndice
Lista, por ordem decrescente de frequncia, dos lemas considerados com o sentido
de admirao/respeito/venerao:
f, admirvel, admirador, reverncia, venerar, deslumbrar, venerao, deslumbramento, admirar, venervel, admirao, reverente, endeusar, admiradora, reverentemente, admiravelmente.
Lista, por ordem decrescente de frequncia, dos lemas considerados com o

sentido de surpresa:
surpreender, surpresa, surpreendente, inesperado, admirar, sbito, surpreso,
admirao, espantar, espanto, imprevisvel, imprevisto, sobressalto, perplexo, surpreendentemente, repentino, pasmar, inesperadamente, maravilhar, espantado, admirado, pasmo, atnito, sobressaltar, estupefato, rompante, boquiaberto, pasmado, maravilhado, embasbacar, banzo, subitamente,
banzar, aparvalhado, impromptu, imprevistamente, surpresinha, admiradssimo, espantadssimo, surpreendedor, sbitamente, espantao, surpreendidssimo, inesperadssimo, perplexamente, rompncia, espantvel, pasmadamente, pasmante, pasmadinho, maravilha, readmirar, aparvalhadamente, espantador, sobressaltozinho, pasmao, sobressaltante, espantadamente, pasmacento, superespantado, perplexante, admiradamente, perplexificao, perplexificar, surpresinhas, pasmtico, autoadmirao, admiradinho, superadmirado, surpreendidamente, semipasmado, subitssimo, estupefactante, maravilhante, sobressaltadamente, perplexar, europerplexo,
maravilhadora, espantadinho, sobressaltoso, maravilhadamente, surpreso,
surpresssimo, perplexizante, semiestupefacto, amaravilhar, perplexia, subitizao, subitizar, dessurpreendentemente, banzadinho, surprezinha, espanto, subitar, admirandas, pasmadssimo.
Nota sobre o lema amaravilhar

Possivelmente na origem um erro de digitao, esta frase encontra-se em vrios
locais na Internete:
Provavelmente o pantesta mais famoso e notvel tenha sido o fsico
alemo Albert Einstein. Seu amaravilhar-se diante da Cincia freqentemente o estimulava a exaltar uma provvel natureza divina inerente a tudo.
Tanto quanto nos foi possvel averiguar, provm de uma verso anterior da Wikipdia, mas que foi corrigida, ou seja, retirada desta enciclopdia por conter uma
afirmao duvidosa! Contudo, j infetou a Internete e at os corpos da Linguateca
[76]
santos & mota
referncias
Baayen, R. Harald & Antoinette Renouf. 1996. Chronicling the Times: Productive
Lexical Innovations in an English Newspaper. Language 72(1). 6996.
Freitas, Cludia, Eduardo Motta, Ruy Luiz Milidi & Juliana Csar. 2014. Sparkling
Vampire... lol! Annotating Opinions in a Book Review Corpus. Em Sandra Alusio & Stella E. O. Tagnin (eds.), New Language Technologies and Linguistic Research:
A Two-Way Road, 128146. Cambridge Scholars Publishing.
Freitas, Cludia & Diana Santos. 2015. Blogs, Amaznia e a Floresta Sint(c)tica:
um corpus de um novo gnero? Em Simone Sarmento, Tony Berber Sardinha, Livia Pretto Mottin & Ana Maria T. Ibaos (eds.), Pesquisas e perspetivas em
lingstica de corpus, 123150. Mercado de Letras.
Justeson, John S. & Slava M. Katz. 1991. Co-occurrences of Antonymous Adjectives
and Their Contexts. Computational Linguistics 17(1). 119.
Justeson, John S. & Slava M. Katz. 1992. Redefining Antonymy: The Textual Structure of a Semantic Relation. Literary and Linguistic Computing 7(3). 176184.
Maia, Belinda. 1994/1996. A Contribution to the Study of the Language of Emotion in
English and Portuguese: FLUP. Tese de Doutoramento. Verso revista: 1996.
Maia, Belinda & Diana Santos. 2012. Who is afraid of ... what? - In English and in
Portuguese. Em Signe Oksefjell Ebeling, Jarle Ebeling & Hilde Hasselgrd (eds.),
Aspects of corpus linguistics: compilation, annotation, analysis 12, s/pp.
Ortony, Andrew, Gerald L. Clore & Allan Collins. 1988. The Cognitive Structure of
Emotions. Cambridge University Press.
Santos, Diana. 1998. A relevncia da vagueza para a traduo, ilustrada com exemplos de ingls para portugus / The relevance of vagueness for translation:
Examples from English to Portuguese. TradTerm 5. 4170, 7178.
Santos, Diana. 2014a. First steps of Gramateca: a corpus-based grammar initiative
for Portuguese, driven by Linguateca. Apresentao na Universidade de Oslo.
http://www.linguateca.pt/Diana/download/GramatecaOslo.pdf.
Santos, Diana. 2014b. Gramateca: corpus-based grammar of Portuguese. Em Jorge
Baptista, Nuno Mamede, Sara Candeias, Ivandr Paraboni, Thiago A.S. Pardo &
Maria das Graas Volpe Nunes (eds.), International Conference on Computational
Processing of Portuguese (PROPOR2014), 214219. Springer.
Santos, Diana. 2014c. Podemos contar com as contas? Em Sandra Alusio & Stella
Tagnin (eds.), New language technologies and linguistic research: a two-way road,
194213. Cambridge Scholars Publishing.
[77]
Santos, Diana. 2015. Comparando corpos orais (transcritos) e escritos no mbito da Gramateca. Em Proceedings from the conference Parler les langues romanes/Parlare le lingue romanze/Hablar las lenguas romances/Falando lnguas romnicas (The ninth GSCP International Conference), University Press Universit di Napoli LOrientale.
Santos, Diana, Rui Pedro Ribeiro Marques, Cludia Freitas, Cristina Mota & Alberto
Simes. 2015. Comparando anotaes na Gramateca, Atas do ELC2014 (Ttulo
preliminar). Em preparao.
Santos, Diana & Cristina Mota. 2010. Experiments in human-computer cooperation for the semantic annotation of Portuguese corpora. Em Nicoletta Calzolari,
Khalid Choukri, Bente Maegaard, Joseph Mariani, Jan Odijk, Stelios Piperidis,
Mike Rosner & Daniel Tapias (eds.), Proceedings of the International Conference on
Language Resources and Evaluation (LREC 2010), 14371444. ELRA.
Santos, Diana & Cristina Mota. 2015. Emotions in natural language: a broadcoverage perspective. Em apreciao.
Silva, Augusto Soares da. 2008. O corpus CONDIV e o estudo da convergncia e
divergncia entre variedades do portugus. Em Lus Costa, Diana Santos & Nuno
Cardoso (eds.), Perspectivas sobre a Linguateca / Actas do encontro Linguateca : 10
anos, 2528. Linguateca.
Zampieri, Marcos & Martin Becker. 2013. Colonia: Corpus of historical portuguese. Em Marcos Zampieri & Sascha Diwersy (eds.), Non-standard data sources
in corpus-based research, vol. 5 ZSM Studien, 7784. Shaker.
c o n ta c t o s
Diana Santos
Cristina Mota
Linguateca
cmota@ist.utl.pt
emprstimo lexical, conceptualizao e

variao: para a abordagem
sociocognitiva e socioletomtrica dos
estrangeirismos no portugus
AUGUSTO SOARES DA SILVA
resumo
This paper first advocates an onomasiological, concept-based and socio-cognitive approach to lexical borrowing, expanding the current loanword research from lexical items towards concepts. Second, it presents a corpusbased and concept-based sociolectometrical study on differences in the use
of loanwords in European Portuguese and Brazilian Portuguese and their
impact on diachronic lexical variation between the two national varieties.
In the first part, the main topics and contributions of the Cognitive Sociolinguistic perspective on borrowability, and concept-based sociolectometrical
methods of measuring variation in the success of loanwords are highlighted. In the second part, English and French loanwords in the field of football and clothing terminologies are analyzed through possible receptor Portuguese equivalents and advanced corpus-based sociolectometrical measures, such as featural measures (calculating the proportion of terms possessing a special feature) and uniformity measures (calculating onomasiological homogeneity and convergence/divergence between language varieties).
These measures are based on onomasiological profiles, i.e. sets of alternative synonymous terms, together with their frequencies. As a development
of our previous research on lexical convergence and divergence between
European and Brazilian Portuguese (Soares da Silva 2010), the data include
thousands of observations of the usage of alternative terms to refer to 43
football and clothing concepts. Corpus material was extracted from sports
newspapers and fashion magazines from the 1950s, 1970s and 1990s/2000s,
Internet chats related to football, and labels and price tags pictured from
clothes shop windows. Football and clothing concepts confirm the hypothesis that the influence of foreign languages is stronger in the Brazilian variety
than in the European variety. The use of loanwords has contributed towards
onomasiological heterogeneity within and across the two national varieties
in the last 60 years.
[80]
augusto soares da silva

[1] n o va s p e r s p e t i va s d e e s t u d o d o e m p r s t i m o l e x i c a l
O estudo do emprstimo lexical em geral tem uma longa tradio em lingustica

particularmente histrica. Atualmente, so os anglicismos que despertam maior
interesse, naturalmente pela enorme influncia do ingls, e os estudos tm-se
concentrado nos contextos de contacto lingustico tnue, como os que ocorrem
na Europa ocidental, em que o contacto com o ingls se faz sobretudo atravs dos
media.
Apesar de o emprstimo lexical ser, ao longo do sculo passado, um tpico
relevante de investigao em lingustica histrica e lingustica de contacto de lnguas, as questes de investigao da maior parte dos estudos existentes so de
mbito limitado. Predominantemente orientados por uma perspetiva estruturalista, os estudos tm-se concentrado na classificao de tipos de estrangeirismos
de acordo com o grau da sua adaptao morfolgica e fonolgica lngua recetora,
na sua evoluo diacrnica e no seu tratamento lexicogrfico. A investigao estruturalista sobre o emprstimo lexical tem estado, assim, centrada na palavra e
suas formas e nos processos estruturais a que os estrangeirismos esto sujeitos.
Recentemente, novas perspetivas e agendas tm sido introduzidas, graas a
estudos tipolgicos (e.g. Haspelmath 2008; Haspelmath & Tadmor 2009 e, particularmente, estudos orientados no enquadramento da (Socio)Lingustica Cognitiva (ver, sobretudo, Zenner et al. 2012; Zenner 2013; Zenner & Kristiansen 2014).
Destacam-se trs importantes contributos da perspetiva sociocognitiva para o estudo do emprstimo lexical, que sero desenvolvidos nas duas seces seguintes.
Primeiro, os estrangeirismos so estudados a partir dos conceitos que designam,
o que conduz a uma abordagem onomasiolgica do emprstimo lexical: passa-se,
assim, de uma perspetiva centrada na palavra para uma perspetiva centrada no
conceito. Segundo, o fenmeno do emprstimo lexical incide tambm em unidades multipalavras, expresses idiomticas e outras expresses do domnio da
fraseologia: passa-se, pois, de uma perspetiva centrada na unidade lexical isolada
para uma perspetiva construcional e contextual. Terceiro, os estrangeirismos so
estudados em vastos corpora e atravs de avanados mtodos quantitativos multivariacionais, que permitem analisar a interao entre fatores conceptuais, estruturais, socioculturais e pragmtico-discursivos do emprstimo lexical e medir o
sucesso dos estrangeirismos e o seu impacto na variao intralingustica: passase, assim, de uma perspetiva sistmica para uma perspetiva centrada no uso efetivo
dos estrangeirismos.
O objetivo do presente estudo apresentar o novo modelo sociocognitivo e socioletomtico centrado no conceito de investigao do emprstimo lexical e apliclo ao portugus como lngua pluricntrica, comparando o sucesso dos estrangeirismos nas duas variedades nacionais do portugus europeu (PE) e portugus brasileiro (PB). Nas duas seces seguintes, apresentaremos os elementos principais
e os contributos da perspetiva sociocognitiva e da abordagem onomasiolgica e
emprstimo lexical, conceptualizao e variao
[81]
socioletomtrica do emprstimo lexical. Seguidamente, sero apresentados os

resultados do estudo de caso sobre o uso e o sucesso de estrangeirismos que designam conceitos de futebol e de vesturio nas duas variedades nacionais do portugus ao longo dos ltimos 60 anos e em diferentes variedades estilsticas. Com
base num vasto corpus de textos de jornais desportivos e revistas de moda e aplicando mtodos socioletomtricos baseados em perfis onomasiolgicos, procuraremos (i) medir e comparar o sucesso dos estrangeirismos no PE e no PB; (ii) confirmar a hiptese de que a influncia do ingls e de outras lnguas estrangeiras
maior no PB do que no PE; e (iii) determinar o impacto dos estrangeirismos na variao onomasiolgica dos conceitos de futebol e vesturio e na heterogeneidade
onomasiolgica em geral e ainda, embora sumariamente, na relao diacrnica
entre PE e PB. Este estudo uma extenso da nossa investigao sociolexicolgica, sociocognitiva e socioletomtrica sobre convergncia e divergncia entre PE
e PB (Soares da Silva 2010, 2011, 2012, 2013, 2014a,c). O estudo do impacto dos estrangeirismos na convergncia e divergncia diacrnica entre as duas variedades
nacionais ao longo dos ltimos 60 anos desenvolvido em Soares da Silva (2014a),
com base numa anlise de corpus e numa anlise de atitudes lingusticas.
[2] s o c i o l i n g u s t i c a c o g n i t i va , c o n ta c t o d e l n g u a s e e m p r s t i m o
A Sociolingustica Cognitiva (Kristiansen & Dirven 2008; Croft 2009; Soares da Silva
2009; Geeraerts 2010; Geeraerts et al. 2010; Soares da Silva 2014b) uma extenso emergente da Lingustica Cognitiva (Geeraerts & Cuyckens 2007) como modelo orientado para o significado e centrado no uso, que pretende investigar a
inter-relao entre as dimenses sociais e as dimenses conceptuais da variao
intralingustica atravs de avanados mtodos empricos quantitativos e multivariacionais. Representa a convergncia de interesses de investigao da Sociolingustica e da Lingustica Cognitiva e contribui quer para integrar na agenda
da Lingustica Cognitiva os aspetos sociais da linguagem quer para incorporar na
agenda da Sociolingustica os aspetos conceptuais da variao intralingustica. A
contribuio da Sociolingustica Cognitiva para o estudo das lnguas pluricntricas est patente em Soares da Silva (2014b).
Destacam-se trs contributos especficos da Sociolingustica Cognitiva para a
investigao sociolingustica, que evidenciam a importncia da semntica nos estudos variacionistas: (i) a anlise da variao do significado, isto , os vrios modos
de interao entre o significado e as outras fontes de variao lingustica, nomeadamente forma e contexto; (ii) o tratamento do problema metodolgico da equivalncia semntica, pr-requisito para o estudo scio-variacionista do lxico e da
gramtica; e (iii) o estudo do significado da variao ou representao cognitiva
da variao intralingustica, nas suas componentes de perceo, categorizao e
avaliao atitudinal da diversidade lingustica.
[82]

Em relao a (i), a distino elaborada em semntica lexical cognitiva entre
variao semasiolgica (diferentes referentes/sentidos de uma palavra), variao onomasiolgica conceptual (diferentes palavras conceptualmente diferentes
designativas de um mesmo conceito), variao onomasiolgica formal (diferentes palavras conceptualmente equivalentes designativas de um mesmo conceito)
e variao contextual (diferenas sociolingusticas, estilsticas e pragmticas), a
que voltaremos na seco seguinte, contribui para determinar a correlao entre
significado, forma e contexto como fatores de variao lingustica.
Quanto a (ii), a resposta questo da equivalncia semntica e, logo, noo
de varivel sociolingustica passa pela incorporao de uma teoria do significado entendido como conceptualizao, tal como tem sido desenvolvida pela Lingustica
Cognitiva, e pela verificao de que se as diferenas semnticas entre as variantes
lexicais ou gramaticais forem estveis entre variedades lingusticas, ento qualquer variao remanescente variao sociolingustica.
Relativamente a (iii), reas da Lingustica Cognitiva como a teoria do prottipo
e a teoria dos modelos cognitivos e culturais permitem verificar como os falantes
percecionam, categorizam e avaliam as variedades lingusticas.
Mais diretamente em relao lingustica de contacto de lnguas (Matras 2009)
e a fenmenos induzidos por esse contacto como os emprstimos, destacamos
quatro contributos associados aplicao de modelos da Lingustica Cognitiva.
A Teoria do Prottipo (Geeraerts et al. 1994; Taylor 1995) mostra que emprstimo e mudana de cdigo (codeswitching) no se deixam definir em termos de
propriedades necessrias e suficientes, mas com base em prottipos e efeitos de
prototipicidade, pelo que os emprstimos evidenciam diferentes graus de salincia cognitiva e os limites entre emprstimo e mudana de cdigo so difusos.
As noes de salincia cognitiva e de incrustamento (entrenchment) (Schmid
2007) permitem compreender a variao no fenmeno do emprstimo e o papel
do significado conceptual, pragmtico e social na promoo da atratividade de
determinadas palavras de uma lngua estrangeira.
A Gramtica de Construes (Langacker 1987; Goldberg 1995; Croft 2001) contribui para integrar as tradies de investigao sobre emprstimo lexical, emprstimo gramatical e mudana de cdigo, introduzindo a ideia de um contnuo
entre lxico e gramtica.
A Teoria da Metfora Conceptual e dos Modelos Cognitivos Culturais (Lakoff
& Johnson 1980, 1999) til para o estudo das diferenas (inter)culturais dentro
e entre lnguas em contacto, bem como para o estudo da perceo, categorizao
e avaliao atitudinal do contacto de lnguas e dos emprstimos.
Os contributos da Sociolingustica Cognitiva para o estudo do emprstimo lexical esto patentes em Zenner & Kristiansen (2014).
[83]
[3] m t o d o o n o m a s i o l g i c o e s o c i o l e t o m t r i c o
Utilizamos neste estudo uma perspetiva onomasiolgica de investigao do emprstimo lexical, no sentido de que tomamos o conceito expresso pelo estrangeirismo
como ponto de partida. A anlise incide na variao onomasiolgica entre palavras semanticamente equivalentes (sinnimos denotacionais), de que o estrangeirismo faz parte. Lembremos a distino clssica entre semasiologia e onomasiologia, estabelecida na tradio europeia da semntica lexical (Baldinger 1964).
Enquanto a perspetiva semasiolgica toma a palavra como ponto de partida para
analisar os seus vrios sentidos ou referentes, a perspetiva onomasiolgica parte
do conceito para analisar as diferentes palavras ou outras expresses que o designam. A semasiologia ocupa-se de fenmenos como a polissemia (Soares da Silva
2006), ao passo que a onomasiologia estuda fenmenos como a sinonmia e mecanismos lexicogenticos como a formao de palavras ou o emprstimo.
A variao onomasiolgica pode envolver diferenas conceptuais e/ou diferenas sociais. Assim, as escolhas lexicais podem ser determinadas ora por fatores conceptuais ora por fatores dialetais, socioletais ou idioletais numa palavra,
letais. Por exemplo, a opo entre guarda-redes e goleiro ou equipa e time uma
escolha de formas que exprimem o mesmo conceito mas pertencem a diferentes
variedades nacionais; e a opo entre morrer e falecer uma escolha de formas
que exprimem o mesmo conceito mas so estilisticamente diferenciadas. Podemos designar esta variao entre sinnimos denotacionais como variao onomasiolgica formal, em oposio variao onomasiolgica conceptual, como a que se d,
por exemplo, entre guarda-redes e jogador (sendo o primeiro termo hipnimo do
segundo), a qual envolve diferenas conceptuais (Geeraerts et al. 1994). A variao onomasiolgica formal deve-se, pois, no a uma classificao conceptual diferente da mesma entidade, mas ao uso de diferentes palavras referindo o mesmo
conceito e associadas a diferentes regies, grupos sociais ou registos, isto , os
sinnimos denotacionais. Esta variao onomasiolgica sociolinguisticamente
relevante, justamente porque os sinnimos denotacionais revelam a prpria existncia e competio entre variedades letais.
Convm notar que a distino entre variao onomasiolgica formal e conceptual no dicotmica, bem como no fcil estabelecer uma relao de equivalncia semntica entre diferentes expresses. Na verdade, podem existir diferenas conceptuais subtis. Em relao a itens lexicais concretos, a equivalncia
semntica mais fcil de estabelecer, na medida em que podemos controlar os
referentes e assim verificar se o referente o mesmo ou no. Neste estudo, os
sinnimos denotacionais de peas de vesturio foram determinados com base em
fotos das respetivas peas; no caso dos termos de futebol, as imagens e/ou o contexto permitiram determinar objetivamente a relao de sinonmia denotacional.
As dificuldades aumentam quando passamos de itens lexicais concretos para itens
abstratos e para construes gramaticais. Todavia, o que importa determinar no
[84]

se as expresses alternativas diferem semanticamente, mas se as diferenas semnticas so estveis entre as diferentes variedades.
O conjunto das expresses sinnimas alternativas usadas para designar determinado conceito, juntamente com as suas frequncias relativas no corpus, constitui o perfil onomasiolgico desse conceito. Por exemplo, o perfil onomasiolgico de
GOLO inclui os termos alternativos bola, goal, gol, gl, golo, ponto e tento. A Tabela 1
apresenta as frequncias absolutas e relativas de cada um dos termos alternativos
nas bases de dados do PE e do PB na dcada de 50.
O mtodo onomasiolgico tem vantagens no estudo da variao intralingustica,
bem como no estudo do emprstimo lexical. Analisar expresses sinnimas alternativas de conceitos lexicais permite um mecanismo de controlo capaz de evitar
quer os perigos estatsticos resultantes de uma distribuio assimtrica de conceitos quer os perigos temticos no corpus. Na verdade, as frequncias dos termos
no corpus podem estar correlacionadas tanto com a preferncia onomasiolgica
formal como com a especificidade temtica. Tomando o perfil onomasiolgico de
CASACO, o eventual predomnio do termo casaco pode indicar uma preferncia
pelo termo casaco em detrimento de blazer, mas pode tambm resultar do facto de
os textos evitarem o uso de estrangeirismos (ou ento indicar que os termos no
so sinnimos). Um outro exemplo: comparando o uso de estrangeirismos em
diferentes perodos temporais, o aumento da sua frequncia no significa necessariamente maior sucesso desses estrangeirismos, pois pode ter resultado do facto
de o corpus mais recente ter mais textos de um assunto propcio a estrangeirismos
do que o corpus mais antigo.
A perspetiva onomasiolgica de estudo do emprstimo lexical tem a vantagem
de se deixar de olhar apenas para o termo estrangeiro e de se passar a considerar
o termo estrangeiro na sua relao com o conceito que designa e com os outros
termos que exprimem esse conceito. Outra vantagem a redefinio da distino entre emprstimo estrito e emprstimo cultural ou, o mesmo dizer, emprstimo
suprfluo e emprstimo necessrio: os emprstimos culturais ou necessrios designam objetos ou conceitos novos (CD ou compact disk, blog, start-up), sendo portanto
a nica lexicalizao de determinado conceito, ao passo que os emprstimos estritos ou suprfluos duplicam termos j existentes, passando assim a competir
com esses termos vernculos (ranking, manager). A abordagem onomasiolgica
permite ainda medir o sucesso dos estrangeirismos, expresso na sua preferncia
para designar os respetivos conceitos relativamente aos termos sinnimos com
que competem.
Para medir o sucesso dos estrangeirismos e o seu impacto na variao intralingustica, so usados trs mtodos socioletomtricos baseados em perfis onomasiolgicos: medida da proporo de determinada caracterstica (A), medida de
uniformidade interna (I) e medida de uniformidade externa (U). Estas medidas
foram desenvolvidas pela unidade de investigao Quantitative Lexicology and Vari-

GOLO
bola
goal
gol
gl
golo
ponto
tento
AIng
abs
109
24
0
0
1841
204
795
P50
rel rel*W
3,7
0,0
0,8
0,8
0,0
0,0
0,0
0,0
61,9
31,0
6,9
0,0
26,7
0,0
31,8
abs
0
528
111
66
0
26
631
B50
rel rel*W
0,0
0,0
38,8
38,8
8,1
4,1
4,8
1,9
0,0
0,0
1,9
0,0
46,3
0,0
44,8
[85]
W
0
1
0,5
0,4
0,5
0
0
tabela 1: Impacto de anglicismos (AIng ) no perfil GOLO no PE e PB nos anos 50

ational Linguistics (QLVL) no seu estudo socioletomtrico do neerlands da Blgica
e da Holanda (Geeraerts et al. 1999; Speelman et al. 2003). Para cada um destes clculos, so efetuadas medidas no ponderadas (A, I, U) e ponderadas (A, I, U). As
primeiras tm em conta a frequncia relativa de cada conceito no corpus. Neste estudo, o impacto dos estrangeirismos considerado do ponto de vista pragmtico
e comunicativo, atendendo a diferenas de frequncia dos conceitos estudados, e
no do ponto de vista estrutural, que atribui o mesmo peso a cada conceito. Por
isso, as medidas ponderadas so estatisticamente mais significativas.
A medida A/A a medida fundamental neste estudo: permite calcular a proporo de termos com determinada caracterstica neste caso, a proporo de
estrangeirismos no perfil onomasiolgico de um conceito e nos perfis onomasiolgicos de um conjunto de conceitos na amostra estudada. A caracterstica K
estrangeirismo, neste caso um contnuo. Assim, atribudo o valor mais
alto (1) aos estrangeirismos que mantm a forma original e o valor mais baixo
(0,25) a fortes adaptaes e a decalques. A proporo (A) de todos os estrangeirismos usados para nomear um conceito a soma das frequncias relativas dos
estrangeirismos atestados no corpus ponderada pelo valor (W) de adaptao dos
estrangeirismos. Tomando o exemplo do perfil GOLO, atribudo o valor (1) ao
termo goal, visto que mantm a forma grfica e fontica do termo original do ingls, e o valor (0,5) a golo (usado no PE) e gol (usado no PB). Na Tabela 1, calculada
a influncia do ingls no perfil onomasiolgico de GOLO no PE e no PB dos anos 50
(P50, B50), com base nas frequncias absolutas (abs) e relativas (rel) dos termos
alternativos, no valor (W) de anglicismo e na soma das frequncias relativas dos
termos alternativos ponderada pelo valor W (rel*W). A proporo de anglicismos
no perfil de GOLO na dcada de 50 maior no PB (44,8%) do que no PE (31,8%).
[86]

AVANADO
atacante
avanado
avante
dianteiro
forward
ponta de lana
I
P50
8,8
71,6
0,0
19,2
0,1
0,3
(P50)2
77,8
5128,8
0,0
369,2
0,0
0,1
55,8
B50
36,6
0,9
48,9
6,8
5,2
1,5
(B50)2
1340,7
0,9
2393,5
45,8
27,4
2,4
38,1
tabela 2: Uniformidade interna (I) do perfil AVANADO em PE e PB nos anos 50

A medida de uniformidade interna (I/I) consiste em calcular a uniformidade
dentro de uma nica variedade lingustica: I/I atinge o seu valor mais elevado
quando todos os falantes escolhem o mesmo item lexical para designar determinado conceito; diminui medida que aumentar ou o nmero de termos alternativos ou o nmero de termos dominantes. A uniformidade interna de um conceito
igual soma dos quadrados das frequncias relativas dos itens lexicais usados
para nomear esse conceito. Tomando o exemplo do perfil de AVANADO, a Tabela 2 mostra que a uniformidade interna na dcada de 50 maior no PE (55,8%)
do que no PB (38,1%). I/I um indicador de homo/heterogeneidade onomasiolgica dentro e entre variedades lingusticas.
A medida de uniformidade externa (U/U) consiste em calcular a uniformidade
entre diferentes variedades lingusticas. A uniformidade externa de um conceito
entre duas variedades igual soma das frequncias relativas mais pequenas dos
itens lexicais usados para designar esse conceito. Diacronicamente, convergncia e divergncia entre duas variedades traduzem-se em aumento e diminuio
da uniformidade externa, respetivamente. Sincronicamente, quanto maior a
distncia entre os registos padro e subpadro, menor a uniformidade externa
entre esses dois registos. Dada a pouca relevncia desta medida no presente estudo, no a vamos exemplificar (ver Soares da Silva 2010).
[4] corpus e base de dados
Os dados lingusticos para o presente estudo foram recolhidos dos campos lexicais
do futebol e da moda/vesturio, devido popularidade dos respetivos conceitos
e ao facto de serem suscetveis influncia de lnguas estrangeiras. Os materiais do corpus foram extrados de trs fontes: (i) jornais de desporto e revistas de
moda dos primeiros anos das dcadas de 50, 70 e 90-2000; (ii) linguagem da Internet de chats associados a clubes de futebol; e (iii) etiquetas de roupas de lojas de
vesturio. Os materiais de (i) permitem responder questo diacrnica de saber
se a influncia das lnguas estrangeiras maior no PB ou no PE e se aumentou ou
[87]
diminuiu ao longo do tempo, bem como questo da convergncia e divergncia

entre PE e PB. Os materiais de (ii) e (iii), de diferentes fontes pela maior produtividade de cada uma, mas ambos de um registo mais informal, permitem saber
em que estrato maior a influncia das lnguas estrangeiras, bem como estudar
a estratificao de cada uma das variedades nacionais. Os dados relativos ao PB
provm de So Paulo e do Rio de Janeiro.
O subcorpus de futebol contm 2,7 milhes de palavras oriundas de 8 jornais
desportivos (4 portugueses e 4 brasileiros) e 15 milhes de palavras coligidas de
chats da Internet. O subcorpus de vesturio contm 1,2 milhes de palavras de 28
revistas de moda (14 portuguesas e 14 brasileiras) e 1300 imagens de etiquetas de
lojas de vesturio. Estes dois subcorpora constituem o corpus CONDIVport (Soares da Silva 2008), disponibilizado na Linguateca, em www.linguateca.pt/ACDC
(Santos & Sarmento 2003).
Com base no corpus CONDIVport, coligimos os sinnimos denotacionais de 43
conceitos nominais, sendo 21 do vocabulrio do futebol e 22 do vocabulrio do
vesturio, juntamente com as suas frequncias de uso no corpus. Para a seleo
dos 43 conceitos de futebol e de vesturio foram tomados como critrios a sua heterogeneidade onomasiolgica formal e a sua representatividade nos respetivos
campos lexicais. Foram excludos termos de gria ou metafricos, para no inflacionar as diferenas entre as duas variedades nacionais. Os 21 conceitos ou perfis
onomasiolgicos de futebol, perfazendo um total de 183 termos, foram analisados
numa base de dados constituda por 90.202 observaes do uso destes termos nos
jornais desportivos portugueses e brasileiros selecionados e 143.946 observaes
do seu uso nos chats. Os 22 perfis onomasiolgicos de vesturio de homem (M)
e de mulher (F), num total de 264 termos, foram analisados numa base de dados
de 12.451 observaes do seu uso nas revistas de moda portuguesas e brasileiras
selecionadas e em 2.775 observaes do seu uso em etiquetas de roupas de lojas
de vesturio. Todos os perfis de futebol e vesturio, incluindo os sinnimos denotacionais selecionados e observados no corpus, so apresentados em Anexo. Os
estrangeirismos que mantm a sua forma original esto indicados entre aspas. O
nmero total de observaes no corpus CONDIVport de cada perfil de futebol e de
vesturio encontra-se em Soares da Silva (2010, 2014a).
[5] r e s u l ta d o s
[5.1] Sucesso e evoluo dos estrangeirismos no PE e no PB

Tomando a medida A/A, descrita na seco [3], vamos quantificar a proporo de
termos com a caracterstica anglicismo, francesismo ou estrangeirismo (qualquer que seja a provenincia) dentro do perfil onomasiolgico de determinado
conceito e, depois, no conjunto dos conceitos analisados nas amostras das duas variedades. Os estrangeirismos no vocabulrio de futebol so distribudos por dois
conjuntos: anglicismos e todos os estrangeirismos (incluindo espanholismos, itaOSLa volume 7(1), 2015
[88]

AIng (P50)
AIng (P70)
AIng (P00)
AIng (P50)
AIng (P70)
AIng (P00)
Aestr (P50)
Aestr (P70)
Aestr (P00)
Aestr (P50)
Aestr (P70)
Aestr (P00)
7,1%
9,8%
10,2%
13,2%
15%
12,8%
13,9%
17,9%
18,5%
15,9%
18%
15,9%
<
<
<
<
<
<
<
<
<
<
<
<
AIng (B50)
AIng (B70)
AIng (B00)
AIng (B50)
AIng (B70)
AIng (B00)
Aestr (B50)
Aestr (B70)
Aestr (B00)
Aestr (B50)
Aestr (B70)
Aestr (B00)
18%
17,1%
16,2%
18,5%
20,4%
20,3%
23,5%
22,8%
23,3%
23,4%
25%
25%
tabela 3: Estrangeirismos no corpus de futebol (de 1950 a 2000)

lianismos e galicismos). Os estrangeirismos no vocabulrio do vesturio so distribudos por trs conjuntos: galicismos, anglicismos e todos os estrangeirismos.
As Tabelas 3 e 4 apresentam os resultados com as percentagens de anglicismos
(A/AIng ), francesismos (A/AF r ) e todos os estrangeirismos (A/Aestr ) no PE (P) e
PB (B), nos trs perodos em anlise (1950, 1970 e 2000). apresentada, primeiramente, a proporo ponderada (A) e, depois, a proporo no ponderada (A) de
estrangeirismos.
No futebol, a influncia de anglicismos e outros estrangeirismos claramente
maior no PB do que no PE em todos os perodos estudados. nos anos 50 que se
verifica a distncia maior entre as duas variedades: mais do dobro de anglicismos
em B50. Esta grande diferena percentual entre B50 e P50 resulta do facto de haver
maior nmero e frequncia de estrangeirismos conservando a sua forma original
no PB. o caso de referee, forward, back, team, foul, goal, keeper, match, half, shoot,
corner, ausentes nos jornais portugueses. No PE h aumento, principalmente dos
anos 50 para 70, ao passo que no PB parece haver uma pequena diminuio. Este
ligeiro decrscimo resulta, porm, dos aportuguesamentos dos estrangeirismos
no PB a partir dos anos 70.
No vesturio, verifica-se uma diminuio de francesismos e um claro aumento
de anglicismos, por razes socioculturais bem conhecidas, designadamente a diminuio da influncia do francs e o inevitvel aumento da influncia do ingls.
No conjunto de todos os estrangeirismos no vocabulrio do vesturio, temos um
aumento no PE e uma situao de estabilidade no PB. A influncia de estrangeirismos continua a ser maior no PB, embora a diferena entre as duas variedades
seja menos acentuada.

AF r (P50)
AF r (P70)
AF r (P00)
AF r (P50)
AF r (P70)
AF r (P00)
AIng (P50)
AIng (P70)
AIng (P00)
AIng (P50)
AIng (P70)
AIng (P00)
Aestr (P50)
Aestr (P70)
Aestr (P00)
Aestr (P50)
Aestr (P70)
Aestr (P00)
17,6%
15,9%
10,2%
16,7%
20,6%
16,1%
3,3%
5,8%
16,9%
7,7%
16%
19,5%
22,4%
22,1%
28,2%
27,3%
38,1%
37,9%
=
<
=
<
=
<
=
<
AF r (B50)
AF r (B70)
AF r (B00)
AF r (B50)
AF r (B70)
AF r (B00)
AIng (B50)
AIng (B70)
AIng (B00)
AIng (B50)
AIng (B70)
AIng (B00)
Aestr (B50)
Aestr (B70)
Aestr (B00)
Aestr (B50)
Aestr (B70)
Aestr (B00)
[89]
18,5%
18,1%
7,9%
22,2%
17,6%
16,9%
4,2%
7,6%
16,8%
6,7%
15%
27,1%
23,8%
26,7%
24,9%
33%
34,4%
44,4%
tabela 4: Estrangeirismos no corpus de vesturio (de 1950 a 2000)
No conjunto dos dois campos lexicais, a influncia do ingls aumenta e maior

no PB (embora haja uma pequena descida desta influncia no PB no campo do futebol). Por seu lado, a influncia do francs diminui (embora esta influncia seja
muito pouco significativa no domnio do futebol) e facto interessante a registar
essa influncia no menos importante no PB do que no PE. As Tabelas 3 e 4
confirmam, assim, a hiptese de uma maior permeabilidade do PB aos estrangeirismos, quer importando-os diretamente, quer adaptando-os.
At aqui temos os resultados globais do impacto dos estrangeirismos em cada
uma das variedades nacionais. Importa tambm olhar para o comportamento dos
perfis individuais e comparar o seu impacto nos resultados globais. A questo
saber se a proporo de estrangeirismos dos perfis individuais segue ou no a
tendncia global. Por limitaes de espao, no vamos analisar aqui esta questo.
Em Soares da Silva (2014a), pode verificar-se que o desvio padro geralmente
maior no PB do que no PE. Por outro lado, entre os perfis com maior proporo
de estrangeirismos encontram-se tanto conceitos mais frequentes como menos
frequentes.
Vejamos agora a questo da adaptao de estrangeirismos. A Tabela 5 evidencia a maior tendncia do PB (B) adaptao, em contraste com o PE (P), que
tende para a substituio por termos vernculos. A percentagem de adaptaes
[90]

AIng.adapt (P50)
AIng.adapt (P70)
AIng.adapt (P00)
AIng.adapt (P50)
AIng.adapt (P70)
AIng.adapt (P00)
6%
7,9%
8,9%
7,5%
7,5%
7,8%
=
<
<
=
<
<
AIng.adapt (B50)
AIng.adapt (B70)
AIng.adapt (B00)
AIng.adapt (B50)
AIng.adapt (B70)
AIng.adapt (B00)
2,8%
16,9%
16%
3,8%
16,5%
15,8%
tabela 5: Adaptaes/decalques de anglicismos no corpus de futebol

de termos ingleses de futebol (AIng.adapt /AIng.adapt ) aumenta fortemente no PB
de 50 para 70. No conjunto dos 21 perfis, temos 23 adaptaes e 19 decalques
no PB contra 6 adaptaes e 14 decalques no PE. Alguns exemplos relativamente
aos anglicismos goal-keeper, goal, corner, penalty, back, shoot, offside: no PB, goleiro,
gol, crner, pnalti, beque, chute e impedimento; no PE, guarda-redes, baliza, pontap
de canto, grande penalidade, defesa, pontap/chuto e fora de jogo. A exceo offside:
decalcado em fora de jogo no PE e substitudo pelo termo vernculo impedimento
no PB.
Em sntese, as Tabelas 3, 4 e 5 confirmam a hiptese de uma maior permeabilidade do PB aos emprstimos lexicais, quer importando-os diretamente, quer
adaptando-os.
Vejamos agora o impacto dos estrangeirismos em diferentes variedades estilsticas, para saber se a influncia estrangeira maior no registo padro ou no
registo subpadro. Para isso vamos comparar, no caso do futebol, os dados do registo mais formal dos jornais dos anos 90/2000 (P00 e B00) e os dados do registo
informal dos chats (Psub 00 e Bsub 00) e, no caso do vesturio, os dados do registo
mais formal e mais nacional das revistas de moda dos anos 90/2000 (P00 e B00) e os
dados do registo informal e mais local das etiquetas de lojas de vesturio (Psub 00
e Bsub 00).
A Tabela 6 apresenta os resultados em relao aos emprstimos do ingls no
vocabulrio do futebol. A proporo ponderada (A) de anglicismos maior no
registo coloquial dos chats (14,3% no PE e 26,9% no PB) do que no registo formal
dos jornais (10,2% no PE e 16,2% no PB). A nvel da medida no ponderada (A),
no h diferenas significativas. A proporo (A/A) de emprstimos do ingls
no registo coloquial tambm maior no PB (A 26,9%/A 19,7%) do que no PE (A
14,3%/A 12,3%).
As percentagens de emprstimos do ingls e do francs dos termos de vesturio esto indicadas na Tabela 7. A proporo A/A de estrangeirismos usados
nas etiquetas de lojas de vesturio idntica proporo A/A dos mesmos estrangeirismos usados nas revistas de moda. A nica exceo ocorre no PB, mas
isso deve-se principalmente s poucas ocorrncias do perfil CASACO F e do termo
blazer (blizer, bliser). A proporo de galicismos no registo subpadro idntica

AIng (P00)
AIng (B00)
AIng (Psub 00)
AIng (P00)
AIng (B00)
AIng (Psub 00)
10,2%
16,2%
14,3%
12,8%
20,3%
12,3%
<
<
<
=
<
AIng (Psub 00)

AIng (Bsub 00)
AIng (Bsub 00)
AIng (Psub 00)
AIng (Bsub 00)
AIng (Bsub 00)
[91]
14,3%
26,9%
26,9%
12,3%
19,7%
19,7%
tabela 6: Anglicismos de futebol nas variedades padro e subpadro

AIng (P00)
AIng (B00)
AIng (Psub 00)
AIng (P00)
AIng (B00)
AIng (Psub 00)
AF r (P00)
AF r (B00)
AF r (Psub 00)
AF r (P00)
AF r (B00)
AF r (Psub 00)
16,9%
16,8%
18%
19,5%
27,1%
17,9%
10,2%
7,9%
9,7%
16,1%
16,9%
14,1%
=
>
>
=
>
<
=
>
AIng (Psub 00)

AIng (Bsub 00)
AIng (Bsub 00)
AIng (Psub 00)
AIng (Bsub 00)
AIng (Bsub 00)
AF r (Psub 00)
AF r (Bsub 00)
AF r (Bsub 00)
AF r (Psub 00)
AF r (Bsub 00)
AF r (Bsub 00)
18%
10,1%
10,1%
17,9%
22,6%
22,6%
9,7%
10,4%
10,4%
14,1%
11,3%
11,3%
tabela 7: Anglicismos e francesismos de vesturio nas variedades padro e subpadro
nas duas variedades nacionais. J a proporo ponderada (A) de anglicismos no

registo subpadro maior no PE (18%) do que no PB (10,1%), embora tal se deva
ausncia de ocorrncias de t-shirt nas lojas brasileiras de vesturio. Mas a nvel
da medida no ponderada (A), a proporo de anglicismos maior no PB (22,6%)
do que no PE (17,9%).
A comparao estratificacional sincrnica sugere dois resultados. Primeiro,
no vocabulrio de futebol, o registo subpadro parece ser mais recetivo a estrangeirismos do que o registo padro. Trata-se de um efeito da globalizao dos termos de futebol. Obviamente que a globalizao tem influncia em ambos os registos, mas o seu impacto no registo subpadro maior devido grande popularidade do futebol e sua enorme difuso pelos media, sobretudo a televiso. Alm
disso, o registo subpadro sofre menos presso por parte do purismo lingustico
e da ideologia nacionalista. Segundo, a hiptese da maior recetividade do PB aos
estrangeirismos tambm confirmada no registo subpadro, embora apenas em
relao ao vocabulrio de futebol.
[92]
[5.2] Estrangeirismos, heterogeneidade onomasiolgica e variao pluricntrica

Vamos agora verificar o impacto dos estrangeirismos na heterogeneidade onomasiolgica dos conceitos de futebol e de vesturio analisados e na relao diacrnica
entre as duas variedades nacionais do portugus. A anlise que se segue sumria,
pretendendo apenas ilustrar a possibilidade de medir o impacto onomasiolgico
dos estrangeirismos bem como a sua influncia na relao entre variedades lingusticas. A anlise desenvolvida do impacto dos estrangeirismos na convergncia
e divergncia entre PE e PB encontra-se em Soares da Silva (2014a).
Com base nos clculos socioletomtricos de uniformidade interna (I/I) e de
uniformidade externa (U/U), referidos na seco [3], pudemos encontrar trs resultados principais da anlise diacrnica das relaes entre PE e PB nos ltimos
60 anos. A anlise desenvolvida destes resultados encontra-se em Soares da Silva
(2010).
Primeiro, os clculos de uniformidade externa (U/U) entre PE e PB indicam
divergncia clara no corpus do vesturio (uniformidade decrescente) e convergncia restringida no corpus do futebol (uniformidade crescente). Relativamente
aos termos de futebol, as percentagens de U mostram convergncia de 50 para
70 (U aumenta 11,39%) e estabilidade a partir de ento, mas as de U no indicam qualquer alterao significativa. Ao mesmo tempo, os nmeros sugerem uma
grande distncia entre PE e PB nos trs perodos: U 43,78%/U 35,13% (anos 50),
U 55,17%/U 35,90% (anos 70) e U 56,76%/U 36,80% (anos 2000). Quanto aos termos de vesturio, as percentagens de U e U evidenciam divergncia ao longo do
tempo: U 78,80%/U 61,65% (anos 50), U 65,92%/U 58,66% (anos 70) e U 57,11%/U
51,44% (anos 2000), donde U diminui 12,88% de 50 para 70 e 8,81% de 70 para
2000. A hiptese da divergncia entre PE e PB pois confirmada no campo lexical do vesturio. Os termos de vesturio so mais representativos do vocabulrio
comum e, por isso, os resultados do vesturio estaro mais prximos da realidade
sociolingustica. A ligeira convergncia no campo do futebol ser um efeito da
globalizao e da estandardizao do vocabulrio do futebol.
Segundo, comparando as percentagens de uniformidade externa (U/U) entre
PE e PB nos trs diferentes perodos, conclui-se que (i) no corpus de futebol h mais
mudanas do lado do PB, o que sugere que a evoluo interna mais forte e mais
rpida no PB do que no PE; e (ii) no corpus de vesturio as tendncias evolutivas
das duas variedades so idnticas, o que mostra que a divergncia se d dos dois
lados. Tudo isto sugere que no h uma orientao de uma variedade em relao
outra.
Terceiro, os clculos de uniformidade interna (I/I) indicam maiores mudanas no PB em ambos os campos lexicais. No corpus de futebol, verifica-se um
grande aumento de homogeneidade onomasiolgica interna no PB, sobretudo de
50 para 70 (de I 30,85% para I 61,85%), ao passo que as alteraes no PE so menores (de I 51,86% para I 55,63%). o PB quem apresenta uma maior diminuio
[93]
no nmero de termos alternativos. Duas razes podero explicar este aumento

de homogeneidade onomasiolgica no PB: (i) grande nmero de estrangeirismos
conservando a forma original em PB50 e sua adaptao a partir dos anos 70; (ii)
grande popularidade do futebol no Brasil e o seu prestgio internacional a partir
dos anos 60, em virtude da conquista de duas Taas Mundiais consecutivas (1958 e
1962). No corpus do vesturio, as percentagens de uniformidade interna mostram
que a homogeneidade onomasiolgica diminui de 50 (PE: I 66,47%; PB: I 76,48%)
para 70 (PE: I 62,99%; PB: I 55,71%) e aumenta de 70 para 2000 (PE: I 68,75%; PB:
I 67,87%) e que as mudanas so maiores no PB do que no PE.
Podemos ento concluir que os estrangeirismos contribuem, at certo ponto,
para os resultados principais da relao diacrnica entre as duas variedades nacionais. Por um lado, os emprstimos do ingls no futebol, mais frequentes no PB
do que no PE, contribuem para uma distncia maior entre as duas variedades nos
anos 50 e para uma ligeira convergncia entre 50 e 70. Os emprstimos do ingls
e do francs no vesturio, em propores idnticas nas duas variedades e com
um ligeiro predomnio no PB, contribuem para a divergncia entre PE e PB. Por
outro lado, os estrangeirismos de futebol e de vesturio, geralmente mais influentes e mais rapidamente adaptados no PB, contribuem para maiores mudanas
de homo/heterogeneidade no PB do que no PE. Obviamente que a influncia dos
estrangeirismos no o nico fator determinante; outros fatores destes resultados diacrnicos so a endo/exogenidade, os arcasmos/neologismos e a influncia
brasileira (ver Soares da Silva 2010).
[6] c o n c l u s e s
A anlise sociocognitiva e socioletomtrica baseada num vasto corpus e em perfis

onomasiolgicos de conceitos de futebol e de vesturio sobre o uso de estrangeirismos nas duas variedades nacionais do portugus nos ltimos 60 anos permitiu
verificar que, embora ambas as variedades sejam recetivas aos estrangeirismos, a
influncia do ingls e de outras lnguas estrangeiras maior no PB do que no PE. A
maior recetividade do PB ao emprstimo lexical manifesta-se tanto no uso de termos estrangeiros diretamente importados como na sua adaptao. Vimos que o
PB, tanto no registo formal como no registo informal, importa um nmero maior
de estrangeirismos e adapta-os e integra-os mais frequente e rapidamente do que
o PE. Esta maior influncia estrangeira no PB, particularmente a dos anglicismos,
mais evidente no vocabulrio do futebol, mas no vocabulrio do vesturio, com
propores de estrangeirismos idnticas nas duas variedades, no deixa de ser
significativo o facto de a influncia do francs no ser menor no PB em comparao com o PE. Estes resultados no s confirmam a hiptese de que o PB tende
a ser mais recetivo aos estrangeirismos do que o PE, como indiciam quer a emergncia quer o tremendo fracasso da atitude purista de defesa da pureza da lngua
e de guerra contra os estrangeirismos, sobretudo no Brasil (Faraco 2001).
[94]

O uso de estrangeirismos contribuiu para uma maior variao onomasiolgica
e, assim, para a heterogeneidade onomasiolgica dentro e entre PE e PB. Por um
lado, os estrangeirismos contriburam para uma diminuio da uniformidade lexical entre as duas variedades. No caso do PB, o maior uso de estrangeirismos um
dos fatores da sua maior mutabilidade de homo/heterogeneidade lexical ao longo
do tempo. Por outro lado, os estrangeirismos contriburam, at certo ponto, para
a divergncia clara entre as duas variedades ao longo dos trs perodos temporais
estudados no vocabulrio do vesturio e para a ligeira convergncia no vocabulrio de futebol.
Finalmente, a perspetiva sociocognitiva, o mtodo onomasiolgico baseado
em sinnimos denotacionais e os mtodos socioletomtricos baseados em perfis
onomasiolgicos de conceitos e num vasto corpus permitem medir e comparar o
uso, o sucesso e a evoluo dos estrangeirismos nas variedades nacionais do portugus, bem como analisar o sucesso dos estrangeirismos como um fenmeno multifatorial, determinado simultaneamente por fatores conceptuais, estruturais, socioculturais e pragmtico-discursivos.
agradecimentos
Este estudo foi financiado pela Fundao para a Cincia e a Tecnologia, como parte
do projeto estratgico PEst-OE/FIL/UI0683/2011 do Centro de Estudos Filosficos
e Humansticos da Universidade Catlica Portuguesa. Agradeo aos revisores Rui
Sousa Silva e Lus Trigo os seus esclarecedores e estimulantes comentrios e sugestes.
anexo
Perfis de futebol
RBITRO: apitador, rbitro, director da partida, juiz, juiz de campo, ref(eree), referi,
refre
RBITRO AUXILIAR: rbitro auxiliar, rbitro assistente, auxiliar, 2/3/4 rbitro, bandeirinha, fiscal de linha, juiz de linha, liner
AVANADO: atacante, avanado, avante, dianteiro, forward, ponta-de-lana
BALIZA: arco, baliza, cidadela, goal, gol(o), malhas, marco, meta, rede, redes, vala
BOLA: balo, bola, couro(inho), esfera, esfrico, pelota
CANTO: canto, chute de canto, corner, crner, escanteio, esquinado, pontap de canto,
tiro de canto
DEFESA: (full-)back, beque, bequeira, defensor, defesa, lateral, lbero, zagueiro
EQUIPA: conjunto, formao, eleven, equipa/e, esquadra, esquadro, grupo, match,
onze, onzena, plantel, quadro, team, time, turma
EXTREMO: ala, extremo, ponta, ponteiro
[95]
FALTA: carga, falta, foul, golpe, infra(c)o, obstru(c)o, transgresso, violao (das
regras)
FINTA: corte, drible(ing), engano, feint, finta, firula, ginga, lesa, manobra enganadora,
simulao
FORA DE JOGO: adiantamento, banheira, deslocao, fora-de-jogo, impedimento, offside, posio irregular
GOLO: bola, goal, gol, golo, ponto, tento
GRANDE PENALIDADE: castigo mximo, castigo-mor, falta mxima, grande penalidade,
penalidade, penalidade mxima, penlti (pnalti, pnalti), penalty
GUARDA-REDES: arqueiro, goal-keeper, goleiro, golquper, guarda-meta, guarda-rede,
guarda-redes, guarda-vala, guarda-valas, guardio, keeper, porteiro, quper, vigia
JOGADA: jogada, lance
JOGO: batalha, choque, combate, competio, confronto, desafio, disputa, duelo, embate,
encontro, jogo, justa, luta, match, partida, peleja, prlio, prova, pugna
MDIO: alfe, central, centro-campista, centro-mdio, half, interior, mdio, meia, meiocampista, meio-campo, midfield, trinco, volante
PONTAP LIVRE: chute (in)direto, falta, free(-kick), livre (directo, indirecto), pontap
livre, tiro dire(c)to, tiro livre (direto, indireto)
PONTAP: chute, chuto, kick(-off), panzio, pelotada, pontap, quique, shoot, tiro
TREINADOR: mister, professor, tcnico, treinador
Perfis de vesturio
BLUSA F: blouse, blusa, blusinha, bustier, camisa, camisa-body, camiso, camiseiro
(inho), camiseta/e, (blusa) chmisier, (blusa) chemisi
BLUSO M/F: blazer, blizer, bliser, bluso, bluson, camura, camurcine, camisa
esporte, casaco de pele (de ganga, etc.), colete, parka
CALAS M/F: cala, calas, pantalona
CALAS CURTAS M/F: bermuda(s), calas-capri, cala(s) corsrio, cala(s) curta(s), calas 3/4, cales, cool pants , corsrios, hot pants, knikers, pantacourt,
pedal pusher, short(s), short cuts, short shorts, shortinho, slack(s)
CALAS JUSTAS F: fuseau(x), fus, legging(s)
CAMISA M: bluso, camisa, camisa de gravata, camisa de manga curta, camisa desportiva, camisa esporte(iva), camisa jeans, camisa social, camiseta, camisete, camisette
CAMISOLA M/F: blusa, bluso, blusinha, body, cachemir, camisa, camisa-de-meia, camiseta, camisinha, camisola, camisolinha, canoutier, canouti, malha, malhinha,
moleton, pull, pullover, pulver, suter, sweat, sweat shirt, sweater
[96]

CASACO F: blazer, blizer, bliser, casaco, casaquinho/a, manteau, mant, palet,
paletot
CASACO M: blazer, blizer, bliser, casaco, palet, paletot
CASACO CURTO F: bolero, carmona, casa(i)b(v)eque, casaco curto, casaquilha, colete,
colete camiseiro , corpete, corpinho, garibldi, gilet, manguito, mini, minicasaco, roupinha, shortie, vasquinha
CASACO CURTO M: casaco curto, colete, espartilho, gibo, gilet, jaleca, jaleco, jaqueta,
vstia
CASACO DE CERIMNIA M/F: black-tie, casaca, casaco cerimnia, fraque, manteau,
mant, palet, paletot, pelerine, smo(c)king, sobrecasaca, tuxedo
CASACO DE MALHA M/F: cardig, cardigan, casaco/casaquinho de malha (de l, de
tric), gilet, japona, malha, twin-set
CASACO IMPERMEVEL M/F: cir, cir-maxi, anorak, canadiana, capa, capa de
chuva, casaco impermevel, corta-vento, casaco-gabardina, gabardine/a, impermevel, kispo, parka
CASACO QUENTE M/F: abafo, agasalho, balandrau, capote, casaco, casaco comprido,
casaco de abafo/abafar, casaco de agasalho, casaco de/em pele, casaco-sobretudo,
duffle-coat, gabo, gilet, manteau, mant, manto, overcoat, palet, pardessus, pelerine, samarra, sobrecasaca, sobretudo, sobreveste, trench (coat)
CONJUNTO F: complet, completo, conjunto, costume, duas-peas, ensemble, fatinho, fato, saia-casaco, tailleur, toilette, toilete, vestido-casaco
FATO M: beca, completo, costume, fato, terno
JAQUETA M/F: casaca, casaco curto, jaleca, jaqueta, jaquette, jaquetinha, vstia
JEANS M/F: cala(s) de ganga, cala(s) em denim, cala(s) em jeans, ganga, jeans
SAIA F: kilt, maxi (mxi), maxissaia, micro-mini, micro-saia, mni (mini), mini-saia, minissaia, pare, saia, saia-cala, saia-calo, saio, sainha, saiote
T-SHIRT M/F: camisa, camiseta/e, camisette, camisola, licra, singlet, tee-shirt,
t-shirt
VESTIDO F: camiseiro, chemisier, chemisi, shirt-dress, traje/o, veste, vestido(inho),
vestido-camisa, vestido-camiseiro, vestido-camiseta, vestido-chemiser(), (vestido)
cai-cai, (vestido) tomara-que-cai
referncias
Baldinger, Kurt. 1964. Smasiologie et onomasiologie. Revue de Linguistique Romane
28. 249272.
Croft, William. 2001. Radical Construction Grammar. Oxford University Press.
[97]
Croft, William. 2009. Toward a social cognitive linguistics. Em Vyvyan Evans

& Stephany Pourcel (eds.), New Directions in Cognitive Linguistics, 395420. John
Benjamins.
Faraco, Carlos Alberto. 2001. Estrangeirismos. Guerras em torno da lngua. Parbola
Editorial.
Geeraerts, Dirk. 2010. Lexical variation in space. Em Peter Auer & Jrgen Schmidt
(eds.), Language in Space. An International Handbook of Linguistic Variation, vol. 1,
821837. De Gruyter.
Geeraerts, Dirk & Hubert Cuyckens. 2007. The Oxford Handbook of Cognitive Linguistics. Oxford University Press.
Geeraerts, Dirk, Stefan Grondelaers & Peter Bakema. 1994. The Structure of Lexical
Variation. Meaning, naming, and context. De Gruyter.
Geeraerts, Dirk, Stefan Grondelaers & Dirk Speelman. 1999. Convergentie en Divergentie in de Nederlandse Woordenschat. Meertens Instituut.
Geeraerts, Dirk, Gitte Kristiansen & Yves Peirsman (eds.). 2010. Advances in Cognitive Sociolinguistics. De Gruyter.
Goldberg, Adele. 1995. Constructions. A Construction Grammar approach to argument
structure. The University of Chicago Press.
Haspelmath, Martin. 2008. Loanword typology: Steps toward a systematic crosslinguistic study of lexical borrowability. Em T. Slotz, D. Bakker & R. Salas Palomo (eds.), Aspects of Language Contact: New theoretical, methodological and empirical findings with special focus on Romancisation processes, 4362. De Gruyter.
Haspelmath, Martin & Uri Tadmor. 2009. Loanwords in the Worlds Languages: A
Comparative Handbook. De Gruyter.
Kristiansen, Gitte & Ren Dirven (eds.). 2008. Cognitive Sociolinguistics: Language
variation, cultural models, social systems. De Gruyter.
Lakoff, George & Mark Johnson. 1980. Metaphors We Live By. The University of
Chicago Press.
Lakoff, George & Mark Johnson. 1999. Philosophy in the Flesh: The Embodied Mind
and its Challenge to Western Thought. Basic Books.
Langacker, Ronald W. 1987. Foundations of Cognitive Grammar: Theoretical Prerequisites, vol. 1. Stanford University Press.
[98]

Matras, Yaron. 2009. Language contact. Cambridge University Press.
Santos, Diana & Lus Sarmento. 2003.
O projecto AC/DC: Acesso a corpora/disponibilizao de corpora. Em Amlia Mendes & Tiago Freitas (eds.),
Actas do XVIII Encontro Nacional da Associao Portuguesa de Lingustica, 705717.
Schmid, Hans-Jrg. 2007. Entrenchment, salience and basic levels. Em Dirk Geeraerts & Hubert Cuyckens (eds.), The Oxford Handbook of Cognitive Linguistics,
117138. Oxford University Press.
Soares da Silva, Augusto. 2006. O Mundo dos Sentidos em Portugus: Polissemia, Semntica e Cognio. Almedina.
Soares da Silva, Augusto. 2008. O corpus CONDIV e o estudo da convergncia
e divergncia entre variedades do portugus. Em Lus Costa, Diana Santos &
Nuno Cardoso (eds.), Perspectivas sobre a Linguateca/Actas do Encontro Linguateca:
10 anos, Linguateca. http://www.linguateca.pt/LivroL10/.
Soares da Silva, Augusto. 2009. A Sociolingustica Cognitiva: razes e objecto de
uma nova rea de investigao lingustica. Revista Portuguesa de Humanidades
Estudos Lingusticos 13(1). 191212.
Soares da Silva, Augusto. 2010. Measuring and parameterizing lexical convergence and divergence between European and Brazilian Portuguese. Em Dirk
Geeraerts, Gitte Kristiansen & Yves Peirsman (eds.), Advances in Cognitive Sociolinguistics, 4183. De Gruyter.
Soares da Silva, Augusto. 2011. Para a abordagem socioletomtrica do pluricentrismo do portugus europeu e brasileiro: dos indicadores lexicais aos construcionais e atitudinais. Em Augusto Soares da Silva, Amadeu Torres & Miguel Gonalves (eds.), Variao lingustica e dimenses sociocognitivas, 573592. Aletheia,
Faculdade de Filosofia da UCP.
Soares da Silva, Augusto. 2012. Comparing objective and subjective linguistic distances between European and Brazilian Portuguese. Em Monika Reif, Justyna A.
Robinson & Martin Ptz (eds.), Variation in Language and Language Use: Linguistic,
socio-cultural and cognitive perspectives, 244274. Peter Lang.
Soares da Silva, Augusto. 2013. El pluricentrismo del portugus: Aspectos generales y elementos del enfoque sociolectomtrico. Em Rudolf Muhr, Carla Amors
Negre, Carmen Fernndez Juncal, Klaus Zimmermann, Emilio Prieto & Natividad Hernndez (eds.), Exploring linguistic standards in non-dominant varieties of
pluricentric languages / explorando estndares lingsticos en variedades no dominantes de lenguas pluricntricas, 7990. Peter Lang.
[99]
Soares da Silva, Augusto. 2014a. Measuring and comparing the use and success of
loanwords in Portugal and Brazil: A corpus-based and concept-based sociolectometrical approach. Em Eline Zenner & Gitte Kristiansen (eds.), New Perspectives on Lexical Borrowing: Onomasiological, methodological and phraseological innovations, 101141. De Gruyter.
Soares da Silva, Augusto. 2014b. Pluricentricity: Language Variation and Sociocognitive Dimensions. De Gruyter.
Soares da Silva, Augusto. 2014c. The pluricentricity of Portuguese: A sociolectometrical approach to divergence between European and Brazilian Portuguese.
Em Augusto Soares da Silva (ed.), Pluricentricity: Language Variation and Sociocognitive Dimensions, 143188. De Gruyter.
Speelman, Dirk, Stefan Grondelaers & Dirk Geeraerts. 2003. Profile-based linguistic uniformity as a generic method for comparing language varieties. Computers
and the Humanities 37. 317337.
Taylor, John R. 1995. Linguistic Categorization. Prototypes in Linguistic Theory. Oxford
University Press 2nd edn.
Zenner, Eline. 2013. Cognitive Contact Linguistics. The macro, meso and micro influence
of English on Dutch: University of Leuven. Tese de Doutoramento.
Zenner, Eline & Gitte Kristiansen (eds.). 2014. New Perspectives on Lexical Borrowing:
Onomasiological, methodological and phraseological innovations. De Gruyter.
Zenner, Eline, Dirk Speelman & Dirk Geeraerts. 2012. Cognitive Sociolinguistics
meets loanword research: Measuring variation in the success of anglicisms in
Dutch. Cognitive Linguistics 23(4). 749792.
c o n ta c t o s
Augusto Soares da Silva
Universidade Catlica Portuguesa
assilva@braga.ucp.pt
automatic anonymisation of a new

portuguese-english parallel corpus
in the legal-financial domain
ECKHARD BICK AND ANABELA BARREIRO
resumo
Este artigo apresenta o processo de anonimizao automtica de entidades
mencionadas num novo corpo paralelo pesquisvel do domnio jurdico-financeiro para o par de lnguas portugus-ingls. O corpo resulta de memrias de traduo utilizadas em traduo profissional. Contm cerca de
40.000 pares de frases alinhadas, ou seja, frases que so tradues umas das
outras. A anotao das entidades mencionadas foi feita com regras especiais
da Gramtica de Restries otimizadas para o domnio jurdico-financeiro,
que permitiram alcanar uma abrangncia balanceada em termos de preciso de quase 90% para as entidades mencionadas candidatas (pessoa, organizao, endereo e identificadores pessoais) e uma abrangncia consideravelmente superior com modificaes heursticas e otimizadas para a produo. O corpo destina-se a estudos de traduo e lingustica computacional (traduo automtica estatstica) e ser publicamente pesquisvel,
permitindo ao seu utilizador procurar uma palavra ou expresso e devolvendo os resultados da pesquisa em contexto na lngua da busca e na sua
traduo.
High quality parallel corpora are useful for many natural language processing
(NLP) applications and represent an important resource for language and translation learning. However, parallel corpora available for research are scarse, and
when available, they may not be of good quality. Many parallel corpora contain mistakes resulting from lexical variation or inappropriate use of the lexicon
and terminology, which carries over into semantic errors and unsuitable translations Barreiro (2009). Despite quantity and quality limitations, researchers use
parallel corpora for cross-language retrieval, mining terms for human and machine translation (MT), among other applications. For languages like Portuguese,
the few parallel corpora available may be specific to a certain subject matter or
domain, but normally do not exist for technical texts. Given the lack of parallel data available to train NLP systems, the corpus described in this paper represents an effort in making trustworthy technical data available for research pur-
[102]
bick & barreiro

poses, namely to train statistical machine translation (SMT) systems in the legalfinancial domain.
One of the most important tasks in releasing a legal-financial domain corpus
is to ensure that data privacy is maintained. According to the Universal Declaration of Human Rights, Article 12, everyone is entitled the right to privacy and
protection of his/her personal data, information about his/her family, home, etc.
Data and personally identifiable information protection applies to both individuals and corporations.
Named entities (NE) such as person or corporate name, address (physical and
postal), ID number, date of birth, sex, registration data, affiliation, e-mail address,
social security number, driver license, computer IP address, and so on, are examples of personally identifiable information. With respect to this legal right, there
is a significant challenge for organisations to make data useful, but comply with
information privacy regulations, so that personally identifiable information is not
disclosed publicly. However, the effort involved in text anonymisation prevents
many organizations otherwise willing to share data, from making their corpora
publicly available for research purposes.
In this paper, we tackle the challenges of anonymisation of data in our corpus, keeping the data useful for research and while maintaining privacy. We will
examine which types of NE are relevant to anonymisation and how they can be
identified automatically, using pattern matches and contextual rules. We will also
evaluate the results achieved with an adapted Named Entity Recognizer (NER)
parser and discuss fall-back strategies for maximum recall.
[2] s tat e o f t h e a r t
Corpora resources represent the driving force behind NLP systems and the source
of data to train SMT systems. Several resources and corpora tools allow studying
human translation and performing contrastive studies between Portuguese and
English (cf. Santos (1996, chp. 8), Maia (2008), and Tagnin et al. (2009), among
others). Tools for searchable corpora allow, for example, to search a word or
expression in Portuguese and see how that word or expression was translated into
English in different contexts. Searches can be simple text searches or advanced
context searches exploiting categories like part of speech, syntactic function or
semantics, and will often allow quantitative analysis, providing frequency lists,
and so on.
There are several parallel corpora available for Portuguese as one of the languages involved in the corpus translation pair, among them: the EuroParl1 , JR[1]
http://www.statmt.org/europarl
automatic anonymisation of a new pt-en parallel corpus
[103]
CAcquis2 , NAT-QI3 , CorTrad4 , COMPARA5 , and Linguee6 . Most of these parallel

corpora are searchable, and therefore, constitute popular and useful tools for
word and term searches.
Different corpus types present different challenges, and corpora from specialized domains are faced with problems such as data sparsity, lack of freely available
sources and non-standard language that makes it difficult to use corpus tools developed for mainstream corpora (from the news and literature domain). If a corpus is to be used publicly outside a narrow circle of project researchers, further
problems arise, not least copyright issues which have plagued mainstream corpora from the very outset. In the legal-financial domain, where the data is largely
produced by public institutions, copyright is not the main issue, but rather the potentially high sensitivity/privacy of the data, which calls for either an impossible
amount of signatures to allow their use or an effective anonymisation procedure.
An effective anonimization procedure is not a trivial task, especially if privacy is to be protected, while still retaining linguistic integrity and allowing researchers to look for interesting patterns. For text corpora, the recognition and
classification of anonymisation-candidate named entities (ACNE) is the central
challenge, while the actual anonymisation is relatively straightforward, as we will
illustrate in (i)-(iv) in Section [5], taking the form of removal, category dummies
or psydonymisation, depending on parameters such as statistical purpose (e.g.
type occurencies) or desired fluency (e.g. syntactic analysis).
The first formal privacy protection model was the k-anonymity model proposed by Sweeney (2002) for structured datasets (e.g. patient records). The method
consisted of removing attributes with sensitive information, such as name or address, driving license number or record, inter alia. Attributes represent quasiidentifiers that in combination can uniquely identify individuals. The k-measure
is used to quantify the confusion risk between referents (e.g. patients) of the individual records. However, the measure and related methods are difficult or impossible to port from databases to text corpora, because corpora lack the clearly defined fields of databases. Thus, the challenge in database anonymisation is solely
how to generalize information while retaining informativity, while the main problem in text corpora is the identification and classification of what is to be generalized/anonymised - something that is given from the start in database fields. This
precludes a 100% safe anonymisation (de-identification) with automatic methods,
whatever its (internal confusion) k-value is. On the other hand, the k-anonymity
model assumes that the set of entries in the database (e.g. hospital patients) is
[2]
[3]
[4]
[5]
[6]
http://langtech.jrc.it/JRC-Acquis.html
http://linguateca.di.uminho.pt/nat
http://nilc.icmc.usp.br/dispara/CorTrad/
http://www.linguateca.pt/COMPARA/
http://www.linguee.com/
[104]
bick & barreiro

PT-PT
EN-UK
h) Os que exeram funes de administrao ou de

fiscalizao em cinco sociedades, exceptuando as sociedades de advogados, as sociedades de revisores
oficiais de contas e os revisores oficiais de contas,
aplicando-se a estes o regime do artigo 76 do &fA;,
de 16 de Novembro;
i) Os revisores oficiais de contas em relao aos quais
se verifiquem outras incompatibilidades previstas
na respectiva legislao;
h) Those, who have management or supervisory duties in five companies, excepting law firms, firms of
official auditors and official auditors, subject in the
latter case to the provisions of article 76 of DecreeLaw no. 487/99, of the 16th of November;
j) Os interditos, os inabilitados, os insolventes, os

falidos e os condenados a pena que implique a
inibio, ainda que temporria, do exerccio de
funes pblicas.
j) Those, who are disqualified or debarred from the

exercise of their rights, the insolvent, bankrupt and
those on whom a sentence has been imposed, which
involves disqualification from the exercise of public
office, even if only temporarily.
i) Official auditors, who are in any of the other circumstances of incompatibility provided in the corresponding legislation;
table 1: PT-EN legal-financial parallel corpus.
knowable, which is why they have to be anonymised against each other (hence
the internal confusion measure). By contrast, a text corpus does not come with
clear referents and needs NER just to identify the data records themselves. So
in principle, the anonymisation background is the entire population, making the
task less challenging in this regard. In addition, without a database structure, an
internal confusion measure such as the k-value is not practically applicable. All
in all, textual anonymisation is quite different from the anonymisation of data
fields, with its own added problems, such as vagueness, importance of context,
lack of consistency, among others. In the following sections ([3] to [6]), we will
discuss how these issues can be addressed with NLP tools.
[3] c o r p u s
Taking into consideration that the quality of SMT is ultimately dependent on the
adequacy of the parallel corpora used for the task, and that good quality translations for a specialised domain are difficult or impossible to obtain when training
MT systems on another, or more general domain, we have prepared such a specialized parallel corpus for the legal-financial domain. Apart from SMT researchers,
we are also targeting human translators in need of contextualized and idiomatic
translation examples. The corpus is based on translation memories used in the
Metatrad7 agencys professional translation activities, and comprises 40,000 sentences in Portuguese and English, corresponding to about 1 million tokens each.
[7]
http://www.metatrad.com
[105]
[4] t h e p a l av r a s n e r f r a m e wo r k
The PALAVRAS parser Bick (2000) is a rule-based parser using the Constraint Grammar paradigm, specifically the open source CG3 compiler8 . PALAVRAS uses contextual disambiguation and mapping rules on morphologically multi-tagged input, where each token receives one or more readings lines (a so-called cohort).
The core version of the system covers part-of-speech (POS), inflection, syntactic
function and dependency links or constituent structure. However, various special grammar modules have been added over time for specific research projects or
applications, such as semantic roles, semantic prototypes, valency, anaphora and
NER Bick (2014). The parser has been applied to a host of Portuguese language
corpora (among others, all Linguateca9 corpora), and research versions have addressed transcribed speech, historical text and various non-standard written domains.
PALAVRAS NER participated twice in Linguatecas joint NER tasks, and performed at the top of the field. The first version (avalia SREC, Bick (2003)), taking
a more static approach, tried to fix multi-word names (MWEs) before running the
systems grammars - either by simple lexicon-lookup or by pattern-recognition
in the preprocessor - and the only allowed post-grammar token alteration was
fusion of adjacent name chains. This technique was replaced by a more dynamic,
grammar based NE chunking approach in the second version Bick (2006), used
for the HAREM shared task Santos et al. (2006). In this system, which we are
using here, preprocessor-generated name candidate MWEs are fed to the morphological analyzer not as a whole, but in individual token parts. Thus, parts of
unknown name candidates will be individually tagged for word class, inflection
and, most importantly, semantic prototype class, which is used as a prime trigger for NE classification and used by the NE type mapping rules (cf. [5.3]). In
addition, each part is tagged as either @prop1 (leftmost part) or @prop2 (middle
and rightmost parts), and both tag types can be added or removed by contextual
rules. At the same time, the NE category set was expanded from 6 super-categories
to 41 fine-grained categories with a functional rather than lexematic definition.
For our anonymisation task, we internally maintained the fine-grained set, but
selected the individual human category @hum as the anonymisation category
<NAME_PERSON> and lumped the membership group category with administrative/institutional organisations and companies into @org (anonymisation category <NAME_ORGANIZATION>).
[8]
[9]
http://visl.sdu.dk/constraint_grammar.html
http://www.linguateca.pt/ (2000-2014)
[106]
bick & barreiro

[5] a n o n y m i s at i o n
Anonymisation consists of the identification, categorization and neutralisation

of sensitive identifying information from data. Specifically, we are addressing
the task of turning a set of documents into a corpus that may be publicly used
for research purposes. Identifying information can be names of people, names
of organizations, social security numbers, postal and physical addresses, among
others. In its broadest sense, anonymising data can be performed by the four basic
methods illustrated in (i)-(iv):
(i) replacement of identifying entities with category dummies or place holders
(e.g. <NAME_PERSON>), pseudonymization (e.g. John Doe) or substitution
of numbers or letters (e.g. 99-99-9999 for dates)
(ii) suppression or omission of identifying entities from the released data (replacement of a proper name with (...) or [-])
(iii) generalization or replacement of specific data (a birth date 27-02-1978)
with less data (the year of birth 1978)
(iv) perturbation or random changes to the data (e.g. the sequence of characters &fA; standing for the name of a Decree-Law in Portuguese, DecretoLei n 487/99, as represented in Table 1)
For unstructured data sets like text corpora, with a desire of maintaining textual cohesion, (i) and (ii) are most relevant. For corpus-size data sets, anonymisation is difficult or impossible to perform without automatic tools, and independently of which method is used for the actual anonymisation, the task presupposes the existence of a well-working module for NER and classification, optimally
supported by a robust morphosyntactic tagger.
Because in most cases anonymisation is necessary only for certain NER types,
and because false negatives are more problematic in the treatment of sensitive
data than false positives, the NER process should be optimized for high recall,
rather than precision, for types such as person/organisation names and corresponding identifying number expressions. This optimization need and the type
of data to be anonymised, optimally calls for a tailor-made solution, as Medlock
(2006) points out:
The inherent subjectivity of anonymisation means that different instances of
the task may exhibit different characteristics even within the same domain.
In light of this, it is probably impractical to deploy a solution requiring a large
amount of annotated training data, bearing in mind that such training data
may not generalise within the same domain, let alone across domains. In reality, application of an NLP-based anonymisation procedure would probably
[107]
be carried out on an instance-by-instance basis, with rapid adaptation to the

characteristics of the required solution through the use of weakly-supervised
machine learning techniques.
While we agree with Medlock on the high domain and text dependence of
anonymisation, we will here follow another methodological approach for exactly
this reason (domain and text dependence), and try to show that linguist-written
rules supplementing a rule based parser are an effective and (in our view methodologically better) way to address both NER in general, and domain-dependent
anonymisation in particular. The most relevant problem with Medlocks HMM
approach is that it is statistical and needs labeled training data, which does not
exist for our corpus. Even if training data were produced (manually), this would
not allow the system to work well on a new domain. Also, the statistical setup does
not allow users to prioritize and fix individual annotation error types, because a
statistical system works as a whole, as a black box. Linguistic rules on the other
hand, once written, are individually accessible and allow effective tracing, identification and fixing of errors when run on a new corpus. Thus, we will explore and
evaluate how the existing PALAVRAS NER resource Bick (2003, 2006) can be used
and adapted for the translation memory anonymisation of the Portuguese side of
the corpus. For the actual search interface, NER marking and anonymisation will
be carried over to the English side automatically with existing translation word
alignment tools.
[5.1] Preprocessing and Postprocessing

In order to run a text parser on a corpus with a data structure, it is necessary to
separate text from corpus meta-information such as paragraph ids, time stamps,
author or speaker information, etc.. In the case of PALAVRAS, this means enclosing meta-information in angular brackets <...>, as illustrated in the preprocessed corpus header (<20080805~134716 u 0 PT-PT>) in Table 2. In addition, the parallel English text has to be protected against Portuguese analysis
in the same fashion.
Other tasks for the preprocessor are the normalisation of meta-characters
(the corpus uses hexadecimal &...; codes, such as &'92;, &'93;, and &'94; in
Table 2), as well as OCR errors, where possible (e.g. extra spaces in numbers,
confusion of 1/l, //o or ,/.). In the annotated corpus, text is line-tokenized,
including punctuation, and each token followed by a number of tag fields, among
them NER category. In order to recreate the corpus, tokens have to be extracted
and stripped of non-relevant tags. Because PALAVRAS is a syntactic parser, it
splits elements like do, , etc. into syntactic primitives, here prepositions and
articles, and fuses MWEs (among them, name MWEs) into single tokens. The
postprocessor has to reconstruct running text from this, attach punctuation and
un-bracket metatext. Finally, and most importantly, the NER tags selected for
[108]
bick & barreiro

PT-PT
Raw corpus
Preprocessed
corpus
20080805 134716 u 0 PT-PT Relativamente

opinio dos formandos quanto possibilidade de os CET&92; serem vistos pela populao em geral como cursos de &93;segunda
categoria&94;,
<20080805 134716 u 0 PT-PT> Relativamente opinio dos formandos quanto
possibilidade de os CETs serem vistos pela
populao em geral como cursos de segunda categoria
EN-UK
ENG-UK
So far as trainees&92 opinion regarding the
possibility that CETs will be seen by the general public as &93;second rate&94; courses
ENG-UK So far as trainees opinion regarding the possibility that CETs will be seen by
the general public as second rate courses
table 2: Preprocessing.
PT-PT
Parser output
Post-processed
corpus
O [o] <art> <dem> DET M S

seu [seu] <poss 3S/P> <si> DET M S
nome [nome] <f> <ac-cat> N M S
[ser] <vK> V PR 3S IND VFIN
Ana=Borges [Ana=Borges] <hum> PROP F S
$,
com [com] PRP
domiclio [domiclio] <build> N M S
profissional [profissional] <h> ADJ M/F
em [em] <sam-> PRP
a [o] <-sam> <art> DET F S
Av.=Repblica=n=50,=3=piso
[Av.=Repblica=n=50,=3=piso] <address>
$,
Lisboa [Lisboa] <civ> PROP F S
$?
<ENG-UK ... >
PROP
F S
O seu nome <NAME_PERSON> com domiclio profissional na <NAME_ADDRESS>, Lisboa?
table 3: Annotation example.
anonymisation have to be inserted as <NAME_....> place-holders and the respective token removed. For certain unclassified name tokens, the postprocessor performs its own heuristic anonymisation (cf. [5.3.2]), treating all-uppercase names
as organisations and compound names as person names.
Note that the extract illustrated in Table 3, apart from two ACNE, contains a
third NE, Lisboa, which has also been classified as civitas <civ>. Geographical
locations were considered public domain in our current scheme, but could easily
be anonymised, given the full NER mark-up, or, in this case, fused into the address
ACNE.
[109]
[5.2] General Grammar Adaptations

Since the NER grammar itself relies on grammatical context and needs to target
words with the right POS, look up lexical properties of recognized words, etc., the
quality of the underlying POS and morphological tagging is important. Ordinarily,
PALAVRAS can achieve F-Scores of 98-99% for POS, but for our bilingual legalfinancial domain corpus, the parser had precision problems with the proper noun
class (with a certain ensuing recall loss distributed across the confusion classes).
The reason for this are graphical properties of the corpus, in particular the high
incidence of uppercasing.
Text type (language)
VEJA (pt-br)
Leipzig internet corpus (en)
TM3 law corpus (pt)
TM3 nouns & proper nouns
Leipzig internet corpus (de)
% Uppercase words
14.45%
16.61%
29.08%
29.51%
37.61%
table 4: Uppercase incidence.

As can be seen from the comparison Table 4, our corpus uses twice as much
uppercasing as ordinary Portuguese or English text, and almost as much as German, which uppercases all nouns as an orthographical rule. In particular, 1/3 of
all nouns in the corpus were uppercase, turning uppercase from a safe into an unsafe predictor of name-hood. A further problem was that 21.40% of the uppercase
words had not only the initial, but all letters uppercase, making it difficult to distinguish usually safe abbreviation names like ONU or OTAN from ordinary words in
all-uppercase. Because of the ensuing highly increased ambiguity between proper
nouns (PROP) and other parts of speech, it was necessary to change, amend and
add rules in PALAVRAS core grammar.
False Negative Names

As a default, PALAVRAS morphological analyser will try to recognize words with
uppercase initial as names, while analyzing everything else as a chain of morphemes in order to assign it POS and inflection categories. It will do the same even
for upper-cased material in three cases: (a) at sentence start, (b) for noun/adjective
material, and, of course, in the face of (c) multi-word all-uppercasing. For ordinary cases of increased uppercasing, such as newspaper headings or book titles,
this is a good strategy, but in a corpus like ours, with many uppercased sequences,
it leads to overgeneration of non-names. The grammar therefore needs to append (locally ambiguous) proper noun readings to uppercased material risking
POS disambiguation errors, using so-called morphological APPEND rules. The simplified CG rule in (v) tackles cases where a name has been interpreted as a verb
[110]
bick & barreiro

or masculine noun, but where a feminine article a in combination with quotes
(<*1> + <*2>) makes a name reading as brand/product/vehicle likely (e.g. a
Bramir, or a Imperial):
(v) ("%u$1"v <HEUR> PROP F S) TARGET ("<([a-z]+)>"r + <*>) (0

<*1> + <*2>) (-1C ("<a>" <art>)) (0C V OR NMS) ;
# a "Bramir", a "Imperial"
The most difficult are cases where the initial-uppercase clue (for namehood)
is lost because the whole word is in uppercase, e.g. EVITA COSTA (V: evitar,
N: costa). Still, many extreme cases (e.g. (vi)) can be ruled out heuristically,
even in otherwise uppercased context. For instance, rules can rule out multiple
derivation or forbid certain affixes specifically.
(vi) Cardim (N: cardo+im), Salvor (N: salva+or), Portimo (N:

porto/porta/porte+im+o), Lombador (N: lombada+or), Godinho
(ADJ/N: godo+inho), Etar (V: eta+ar)
False Positive Names

The legal-financial corpus often marks key terms (as defined entities) by writing
them in all-uppercase (e.g. dbito da CONTA, descritos no ANEXO). This may
trigger a (wrong, but in other contexts meaningful) interpretation as a name abbreviation. Thus, the rule in (vii) targets all-uppercase strings with three to six
letters, if they are not flanked (NEGATE -1, NEGATE 1) by other all-uppercase
tokens or line boundaries on both sides (>>>, <<<).
(vii) APPEND ("%U$1"v <HEUR> PROP M/F S) TARGET ("<([a-z]{3,6})>"r

<allupper>) (NEGATE -1 <allupper>) (NEGATE 1 <allupper>)
(NEGATE -1 >>> LINK 2 <<<) ;
Strings of this and similar type, such as AS (article or A.S.?), CET and PAI
need to be contextually disambiguated. Thus, rules exploit the fact that an alluppercase word in parenthesis is more likely a name abbreviation than, say, a
function word. On the other hand, a plural article or a plural ending in -s help
discard a company name in favour of a noun abbreviation (e.g. os CET, os SPVs).
[111]
[5.3] The NER Grammar

Person Names
Person names are arguably the most prototypical ACNE type, and represent clearly
sensitive information, asking for high recall10 . Our system harvests categoryrelevant information from both the lexicon and the sentence context. Person
name strings are built from left to right, with either a +HUM noun (e.g. titles, professionals, nationals, nouns ending in '-ista') or a lexicon sanctioned first name
at the head. Though the former need not be anonymised, they provide a useful
clue even in the absence of a recognized first name. The rule in (viii) allows attributes (e.g., o atleta profissional N.N.) in between the noun head atleta
and the name N.N., but more complex rules exist to cover cases with interfering
prepositional phrases (PPs) (e.g. atleta profissional de futebol N.N.), title
chains or inverted, predicative cases (e.g. N.N. atleta de profissional).
(viii) MAP (@hum @prop1) TARGET (<HEUR> PROP) OR (<hum> PROP) OR
(<H> PROP) (*-1 (<Hprof>) OR (".*ista"r N) OR (<Hnat>) OR
(<Hetn>) BARRIER NON-ATTR LINK NOT 0 @hum) ;
# O Atleta profissional Pedro Alvarez
Following HAREM conventions, titles are regarded as part of a person name.
The (simplified) rule in (ix) targets only the first title in a row, and makes an exception for addresses (where person names can be part of a street name).
(ix) MAP (@hum @prop1) TARGET N-TITLE (**1 PROP OR <*> + N-HUM
BARRIER (*) - N-TITLE LINK NOT 0 N-TITLE) (NOT -1 N-TITLE OR
N-STREET) ; # Sr. Alvarez, o Sr. Dr. Tefilo Alvarez, # Tio
Zeca, padre Melanaos, Exmo. Sr. Dr.= Fonseca da Paz
The actual name-part chaining is achieved by CG mapping @prop1 beginning-of-name) and @prop2 (in-name) tags in addition to the category tag @hum,
allowing a later filter program to fuse the name parts into syntactic units for further processing, frame-based category mapping and disambiguation. The filter
program inserts |-markers between title nouns and the name proper, and only
the latter will be anonymised. Rules like (x) and (xi) allow person names to grow
to the right.
(x) MAP (@prop2) TARGET PRP-DE OR ("$di|v[ao]n$"r) (*1 (<hum>
PROP) OR (<HEUR> PROP) OR (<H> PROP) BARRIER (*) - <art>) ;
# name growing right
[10]
This is definitely true for the proper noun part of person names, while categories like HAREMs OFFICIAL,
or titles without proper nouns (e.g. Sr. Dr. Juz) have no great need for anonymisation. The only
exception for the proper noun person names are cases where a name is used to denote works of art (e.g.
listen to Mozart) and possibly names in publications - where we follow HAREM conventions in using
a different category, PUBLICATION
[112]
bick & barreiro

(xi) MAP (@prop2) TARGET ("[A-Z][a-z]+"r PROP) (*-1 (@hum)
CBARRIER (*) - @prop2 ) ; # PROP chain element looking left
(*-1) for a @hum header with nothing (*) but other second
elements (@prop2) in between (BARRIER)
Special person name contexts in the legal-financial domain are settlements or
patents named after people (e.g. acrda Lindemann or patente Kobashi).
In a person name context, upper-case words wrongly tagged as other wordclasses, can be marked as proper name material by the grammar (e.g. rule (xii)
for the numeral Cem in Sr Cem Srk).
(xii) SUBSTITUTE (<*>) (<*> <prop>) TARGET (<*>) (-1 <Htit> +
@hum) ;
NE type mapping rules are ordered into sections in the grammar, with one
section for each type. However, if no rule from the ordinary person name section
was applicable, and if no later rules assign a different category either, then a second round of more heuristic person name mapping is performed. For example, a
heuristic proper noun appearing first in a chain of proper nouns will be tagged
@hum, if it is initial-uppercase rather than all-uppercase, and not preceded by an
article or brand-noun11 , as illustrated in (xiii).
(xiii) MAP (@hum @prop1) TARGET PROP (0 ("[A-Z][a-z]+"r <HEUR>))
(NOT -1 N-HUM-person OR PROP OR <art> OR N-BRAND) (1 PROP) ;
Organization Names
Internally, our grammar distinguishes between different types of organisation
according to the PALAVRAS and HAREM schemes 1-7.
(i) organisation (@org) - the umbrella category, e.g. international, NGO;
(ii) company (@company): e.g. Embraer, A.S., Ltda.;
(iii) administrative units12 (@admin): government, parliament, assembly;
(iv) institution (@inst): institute, laboratory, museum, university;
[11]
[12]
The rule has been simplified, real rules often have multiple exceptions to cover special cases. Here, the
brand case is constrained to <foreign>-marked proper nouns, there is a town name context exception
for So, and the PROP chaining also allows the preposition de.
This is a HAREM category and was also used for countries and towns, if they functioned as agents or cognizers. The distinction is not upheld by PALAVRAS, but only mapped later using semantic role inference,
where desired. Furthermore, PALAVRAS tags place-bound administrative units as institutions, alongside
shops, hotels etc.
[113]
(v) functional bodies of organisations (@suborg): boards, councils, committees;

(vi) groups with members (@grouporg): clubs;
(vii) special plural cases: @grouphum (e.g. families) and @groupofficial.
The subcategory distinctions in schemes 1-7 are not strictly necessary for
anonymisation and can be lumped for this purpose, but they are useful for other
corpus work, and are maintained in the grammar that works with subcategoryspecific rules and sets. Scheme 1 is mapped last, using heuristic rules and the
parsers lexicon (which does not recognize the subdistinctions). Scheme 4 is not
anonymised on its own, only where the parent organisation appears adjacently
(e.g. Conselho de Administrao da|Embraer). Like person names, organisation names can be triggered by specific noun heads, that are defined as sets in
the Constraint Grammar, N-COMPANY (e.g. alugadora, banco, caixa, companhia,
editora, empresa, sociedade), N-ADMINISTRATION (e.g. assembleia, cmara,
parlamento), N-GROUP (e.g. delegao, equipe, pessoal), among others. These
trigger nouns are treated as part of the name if in uppercase and followed by a
preposition (SPB, Sociedade Portuguesa de Bioqumica), but not if followed
by a proper noun or all-uppercase (e.g. a alugadora Aires Baeta). In many
cases, the @org category can also be triggered by a tail token at its end13 . Thus, it
is typical of corporations and formal clubs that they affix a legal-financial typer
marker, such as AS, &, Co., GmbH, Lda., S.A.R.L., or generic name parts such as
Holding, Consulting, Telecom, Associados. This is also exploited by the NER
rules through special sets, that can then look both left (N-CLUB) in (xiv) and right
(N-CLUB-POST) in (xv).
(xiv) MAP (@company @grouporg @prop1) TARGET PROP (-1 N-CLUB)
(NOT -1 <*>) ; # S.C. Braga
(xv) MAP (@company @grouporg @prop1) TARGET PROP (NOT 0 <prop2>)
(1 N-CLUB-POST) ; # Boavista FC
Note that the rules above add a @company tag alongside the normal @grouporg
for sport clubs. This allows later disambiguation rules to treat the club as a company if the name string continues with an acronym, such as S.A.D., which stands
for Sociedade Annima Desportiva.
A more heuristic distinctor for organisations names is a definite article immediately left of a proper noun, or - safest - an all-uppercase abbreviation. Articles do occur with other name types, but less frequently with person names than
[13]
Tail tokens also occur with person names, but they are rare (e.g. Neto, Neta, Filho), unless one also
counts prepositional phrases like da Silva, dos Santos, etc.
[114]
bick & barreiro

organisation names. Provided that other name types have been targeted with
their own safe rules already, it is therefore a good bet for otherwise unclassifiable names to categorize them as @company after the letter a14 and @grouporg
after the letter o. Because full names are much easier to classify than abbreviations, an internal tagging memory was used to resolve uppercase abbreviations
that had already occurred earlier in the text in parentheses after a corresponding
long form.
Addresses
Though the existing PALAVRAS NER module already treated addresses as a separate NER category, it did not perform well on the bilingual legal-financial domain corpus at hand, in part simply because international address formats (e.g.
English, Dutch, etc.) appeared next to the known Portuguese ones (e.g. 10a
Belmont Street, NW1 8HH, Londres), but also because of the large orthographical variation in the corpus, possibly caused by OCR or keyboard (typewriter?)
limitations. Thus, there were around 20 different variants of n, to name just one
example, including n., n, n.e, no.s, no., n9., n*, n", n,, etc. plus uppercase
variants, with similar variation in ordinals before words like piso and andar, or
as affixes (e.g. 89-3), as well as use of ordinal abbreviations in other words (e.g.
2o dt, Esq). In order to identify address NE, we again defined head nouns and
tail words, as illustrated in rules (xvi) and (xvii).
(xvi) LIST N-ADDRESS = <Lpath> "Av" "Av." "Av.a" "Av. [A-Z].*"r ...
"rua" "R." "Ra" "Via" ...
(xvii) LIST N-ADDRESS-POST = "Avenue" "Bd" "Boulevard" "Rd" "Road"
"St" "Street" "Sq" "Square" ....
The latter was necessary, because English addresses place the closed-class
part of street names last (e.g. Hampton Road), while Portuguese (and other Romance languages) have closed-class material first (e.g. Via Appia). A third possibility is seen in German and Dutch addresses where the closed-class items are not
separate words, making the use of regular expressions necessary (Bergstrasse,
Meulengracht). In addition, Portuguese/Continental and English addresses place
street number differently, so they mark either right or left boundaries of street
addresses. @prop2 rules were used to let addresses span right over further uppercase material, added numerical material and subaddress words (e.g. casa,
lote, piso, esq., r/c), allowing also interfering commas, letters, hyphens, slashes,
the preposition de, articles and the n token in all its variants. Though identified
as such, person names inside addresses were not allowed to prevent address string
[14]
Provided, of course, the parser has correctly disambiguated a as not being a preposition.
[115]
from growing right, i.e. from the head Avenida to the last part Esq. or Piso
across the person names in bold face in the examples in (xviii) and (xix). This
means that it is the larger address NE that gets marked rather than the smaller
person NE inside it (Jlio Dinis and Ferno de Magalhes, in the examples).
(xviii) Avenida *Jlio Dinis*, n. 2 3o Esq.
(xix) Avenida *Ferno de Magalhes*, n 1862.-14 Piso
A special topic concerns town names with postal area codes, which were treated as addresses when appearing on their own, but otherwise fused into adjacent
address strings. Internationally, postal codes vary a lot, and number-only codes
in particular need a recognized place name or address as context. Conversely,
once identified, postal codes can help identify lexically unknown place names. In
some cases, address heads or tail words are identified in connection with proper
nouns, but without a number extension, subaddress or postal code. These are first
tagged ambiguously as @address @site, and later treated by the disambiguation
grammar with full context, lumping these cases together with other site words
such as estao, estdio, mina, and shopping, among others. Corpus-wise, we
decided that street names, etc. used on their own are not precise enough to need
anonymisation.
Identifying Numerical Expressions

Numerical expressions can help identify a person or company either directly or
indirectly. Indirect numerical identifiers such as age, weight, income, etc. can
help a detective choose between several people, but are not identifiers on their
own, and obviously numerals in addresses present no problem because they will
be anonymised together with the address as a whole. Problematic, on the other
hand, are direct numerical identifiers that are long enough to be unique, or appear in a feature-attribute pair that makes them unique. Examples for such numerical ACNEs are:
(i) telephone or telefax numbers
(ii) email or personal/company websites, passport numbers, and tax numbers
(IRC, CIRC, RFI, NIF - person, NIPC - company)
(iii) bank accounts, NIB (IBAN)
(iv) invoices, file numbers, NUIPC (identificador de processo crime)
The safest way to identify these cases is with a triggering head noun in the
left-hand context, defined as a set including the above abbreviations as well as
[116]
bick & barreiro

variants of telefone/telef/tel/tel/fax/telefax, passaporte, etc., and
more general expressions such as imatricul*, identific*, etc. In these contexts, virtually any numerical expression of a certain length, with a mixture of
digits, letters and -/. will be an individual identifier. Heuristic numerical pattern matches (bold in the rule exemplified in (xx)) can also be used in the absence
of privacy trigger nouns, based on the trigger word n (nmero) alone, but only
in the absence of competing specific triggers for public identifiers.
(xx) MAP (@nameid) TARGET (<cif> NUM) (*-1 ("n") OR ("nmero")
BARRIER (*) - (@nameid) - IT LINK NEGATE *-1 N-PUB OR N-COPY
OR (<media>) OR (<ABBR>) CBARRIER N-PRIVATE OR NON-KOMMA <prop2> - PRP-COM - PRP-DE - ("n") - <artd> - <*>) \bf{(0
(".*[0-9][0-9]= [0-9][0-9][0-9A-Z=]+"r) OR ("[0-9=]{7,}"r) OR
("[0-9].*[.-=][0-9]{4,}.*"r) OR ("[0-9]+/[0-9].*"r))} ;
Together with the ACNE type @nameid, we introduced @pub, for public identifiers. This name type uses similar rules and number patterns, but looks for
a special N-PUB set (e.g. aviso, circular, decreto, despacho, lei, parecer,
resoluo) or the N-COPY set used for publication names and works of art (e.g.
<sem-r> readable: books, etc., <sem-w> watchables: films, etc.,
<sem-l> listenables: concerts, etc.). The same sets are used as exceptions (e.g. NEGATE) in the heuristic @nameid rule quoted in (xx). Leaving aside
other purposes and application of tagging private and public identifiers, it should
be born in mind that anonymisation for these categories is easily and undestructively achieved by substituting, for example, the digit 9 for all other digits in
the text. So far, we only considered a similar option (letter substitution) for
the last identifier category, emails and web addresses (e.g. aaaaa.aaa@aaa.aa,
aaaa://aaa.aaaa.aa/), but the substitution method should be considered as a
last resort to achieve the highest possible anonymisation recall at publication
time in the face of legal constraints.
[6] e va l u at i o n
[6.1] Evaluating the Adapted PALAVRAS Parser

An evaluation subset of 6,800 aligned paragraphs, with 80,800 Portuguese words,
was extracted randomly from the total data set, based on the last digits of the
paragraph ids. The Portuguese part of the evaluation data was automatically annotated for NER strings and their categories, using the adapted PALAVRAS parser.
Since purely numerical NERs can be easily treated with a coverall digit replacement operation, our focus was on non-numerical candidates for anonymisation
(human names, organisation names and addresses), including only one numerical category, individual identifiers. These categories were then inspected and
hum
org
address
nameid
all
Cases
263
871
38
54
1229
Recall
87.83
93.69
81.58
60.71
88.32
Precision
87.50
86.53
91.18
87.18
86.88
[117]
F1 -score
87.66
89.97
86.11
71.58
86.68
table 5: Performance by category.

ACNEs
untyped
typed
Recall
90.71
88.32
Precision
89.22
86.88
F1 -score
89.96
87.59
untyped, chunked (0.5)

typed, chunked (0.5)
88.36
86.26
86.91
84.84
87.63
85.54
untyped, chunked
typed, chunked
86.02
84.19
84.61
82.81
85.31
83.49
table 6: Performance according to different evaluation metrics.

evaluated with regard to NER span and category. In addition, the text was manually annotated for false negatives of the same name types. The whole evaluation
process was performed solely by one author, based on his linguistic expertise, albeit without parallel multi-annotator controls. All in all, the parser found 1,142
out of 1,259 possible ACNEs, making for a recall of 90.71%, and suggested 128 false
positives, equalling a precision of 89.22%. About 52% of the false positives were
non-ACNE name types, 48% were uppercase nouns. Confusion across anonymisation categories was fairly rare (2-3%), the most common error being to read
uppercase person name abbreviations (e.g. AH, JB) as company names. For individual ACNE type recognition, overall recall was 87.78% and precision 86.98%,
with organisations performing best, and name ids performing worst.
In 48 cases, the recognized ACNEs were too short, in 6 cases too long, amounting to a 5% chunking error rate. Typical cases were missing address details or
organisation type extensions (e.g. 95_Wilton_Road & 201, Londres, SW1V 1,
or VESTAS_Mediterranean A / S).
If chunking errors are included in the accuracy calculation, both recall and
precision drop with a couple of percentage points, if any mismatch is counted as
an error (CoNLL evaluation scheme Sang & De Meulder (2003)), or 1 percentage
point if partial hits are counted half (MUC evaluation scheme15 ).
[15]
http://www.itl.nist.gov/iaui/894.02/related_projects/muc/muc_sw/muc_sw_manual.
html
[118]
bick & barreiro

On the background of a real-world anonymisation task, it should be born in
mind that almost all span (chunking) errors are irrelevant to anonymisation, since,
for example, CEP codes without street addresses or an A/S suffix without a company name, are already quite anonymous. There are few published evaluation
scores for text anonymisation in the literature, let alone for the same language
and domain, but one comparable approach is Medlocks work on an English email
corpus Medlock (2006), where F-scores between 54.42 and 63.99 (depending on the
metrics) were achieved for selective anonymisation (roughly our set of categories)
and 65.76-73.87 for blanket anonymisation (all potential NER types), achieved
with the LingPipe HMM tagger16 . However, a direct performance comparison
is problematic, because Medlock uses a pre-tagged gold corpus rather than results inspection, and intentionally limited training corpus size. Another comparison, for typed NER, albeit on the easier newspaper domain, is the CoNLL 2003
shared task17 , where the best systems achieved F-Scores of 88.76 for English and
72.41 for German, possibly reflecting the before-mentioned difficulty of identifying names in the face of noun-uppercasing. PALAVRAS own typed F-Score on the
mixed HAREM domain was 63.0/68.3 for absolute/relative category classification.
[6.2] Increasing Recall

As discussed earlier, recall is more important for anonymisation than precision,
and as intended, evaluation shows that for the overall tagging task this goal was
achieved. However, the R-P difference is not big, and mainly valid for the <org>
class, while <address> and <nameid> have a low recall. Obviously, recall for the
latter categories can be increased by better pattern matching rules, addition of
further address fields and id trigger words, and this was done after the above
round of evaluation. But on the other hand, a more radical recall-increasing approach is desirable for a real world application, where anonymisation close to
100% is necessary if human post-editing is to be avoided. A case-for-case inspection of false negatives shows that add-on strategies can be used exploiting the
following patterns:
(i) treating all-uppercase strings as ACNEs, or - trusting the parsers POS disambiguation - all-uppercase proper nouns (in the evaluation run, all such
false negatives had been recognized as PROP, just not the right type of PROP).
Typing as <org> would also be possible (only 25% were not <org>).
(ii) treating all compound proper names as ACNEs, i.e. strings where the parser
fused 2 or more upper case tokens into one, and tagged it as PROP. These
cases were about equally distributed between person and organisation names.
[16]
[17]
http://www.alias-i.com/lingpipe/
http://www.cnts.ua.ac.be/conll2003/ner/
[119]
(iii) treating single-token PROP as ACNEs, if the parser marked them as <foreign>.
Again, these cases covered a mixture of person/organisation types.
(iv) treating camel case as ACNE (of <org> type).
(v) treating all numerical expressions as ACNEs. These were mostly of <nameid>
type, but <address> in cases where uppercase letters were followed by digits.
The above strategies capture 88.8% of all false negatives. Of the remaining
13 cases, one was partially recognized already (person name within organisation name), and would thus get anonymised anyway; the rest consisted of ordinary words used as names (e.g. Tranquilidade) or ambiguous with names at
sentences start (e.g. Marques), names with case errors (e.g. o opbbr uma
sociedade, o Oi) or mistyped/untyped PROP, the latter sometimes as part of
what the parser regarded as a longer PROP chain. Given this distribution of cases,
almost total anonymisation recall could be achieved by treating all PROP-tagged
strings as ACNEs. Table 7 below shows how the individual strategies affect recall,
and - for the non-numerical types - precision.
The price in precision loss for applying the above strategies is, of course, fairly
high. The safest strategy is all-uppercase PROP, where recall gain out-weighs precision loss 5:1 and where recall for the main affected category, <org>, climbed
to over 96%. Treating all complex PROP as ACNEs is much less safe, and would
sink precision into the 50% bracket. However, only applying this strategy to complex PROP not otherwise categorized, still matches most false positives of this
type18 , while leading to a more tolerable precision loss, only a little above the
corresponding recall gain. It is beneficial especially for person names (8% recall
gain), bringing them on par with <org> coverage. Camel case and the <foreign>
tag are much more expensive in precision terms, and risk including typos and,
for the latter, a good portion of ordinary English words (> 40%). General numerical anonymisation, finally, captures virtually all id and address information and
is unproblematic to use - irrespective of precision loss - because textual cohesion suffers much less from digit replacement than it does when upper case noun
chains and proper nouns are replaced with dummies.
We conclude from the above that apart from numerical anonymisation, two
fallback strategies are cost-efficient enough to be used - treating remaining alluppercase as <org> and unclassified compound proper nouns as <hum>. All in
all, this achieves a recall for ACNEs of 98.24%, arguably good enough for purely
[18]
The target group of compound names, person names, are mostly cases where all elements of the MWEs
are individually proper nouns, while compound names with uppercase noun elements often belong to
other classes. It is exactly this trait that makes it likely that the parser already has found a classification
for them, based on its knowledge about semantic noun classes.
no recall heuristics
all-upper PROP
compound PROP
numerical expressions
uppercase + numerical
<org>
<hum>
<address>
<nameid>
<foreign> PROP
<camelcase> PROP
other PROP
other
30
41
20
4
False
negative
0.50%
0.17%
0.84%
2.35%
3.43%
1.76%
0.25%
R gain
0.47%
5.51%
P loss
3.77%
0.50%
6
2
10
3
Cumulative
recall,
untyped
90.29%
92.64%
96.23%
97.91%
98.24%
99.13%
98.10%
100.00%
100.00%
98.83%
98.91%
99.75%
table 7: Effect of recall heuristics.
<org> 96.16%
<hum> 95.82%
<nameid> 100%
<address> 92.16%
Typed recall
effect for
main category
2.97%
7.99%
39.29%
10.58%
Typed
recall
gain
bick & barreiro

[120]
[121]
automatic corpus treatment. As a futher safety measure, we provide the option

of including publication names and public identifiers in the anonymisation, because the former may contain person names, and the latter may be confused with
private (person) identifiers.
[6.3] Parallel Corpus Anonymisation

Anonymisation of the English part of our parallel corpus could of course be performed by independent anonymisation using the same techniques as for the Portuguese part, specifically by using the English sister parser of PALAVRAS, EngGram. However, we opted for a different, alignment-based solution, where ACNEs
marked in the Portuguese text were aligned with matching strings in the parallel English sections, transferring the already established NE category tags. This
method ensures that the same category definitions and span conventions are used
in the two languages, and also automatically establishes referent links between
Portuguese and English ACNEs, which is useful because many paragraphs contain many ACNEs, and in anonymised form, without the actual name string, it is
not always easy for the reader to establish which goes where in the translation.
Alignment is achieved in 3 steps:
(i) All Portuguese ACNEs are numbered, and where the individual strings match
corresponding English strings, the latter are tagged/anonymised with the
same category and number. This method captures most person names,
addresses and numerical name identifiers, because these name types do
not differ much across languages. To guard against typing/OCR errors and
small orthographical differences, search strings were case-insensitive and
adapted as regular expressions with optional dummy characters replacing
unsafe characters (dots, strings, spaces, accents, etc.).
(ii) A pure pattern-based ACNE identification was performed for numerical expressions with variability across languages (dates) and to identify name
identifiers that were not present in the Portuguese part because they were
missing, omitted or anonymised in that language (e.g. &fA;). If possible
(e.g. dates), these new English ACNEs were then back-aligned with not-yet
aligned Portuguese ACNEs and numbered correspondingly.
(iii) The remaining unaligned Portuguese ACNEs were typically multi-part organisation names, whose English equivalent was a part-by-part translation,
or all-uppercase abbreviations where the Portuguese and English letter order differed (e.g. NATO - OTAN). In these cases, we tried to match English
uppercase strings of similar makeup, for example matching a name with
a lowercase word in the middle with an English corresponding sequence
of uppercase-lowercase-uppercase words. Even this kind of alignment was
[122]
bick & barreiro

quite successful, not least, because we used already-aligned material to constrain the left and right borders of the search space.
PT-PT
EN-UK
(A) As Partes so duas sociedades consti tudas sob o domnio integral da <_ORGANISATION>, sociedade adjudicatria da Fase
A do denominado Concurso das Elicas,
conforme Contrato celebrado com a (agora
designada)
<_ORGANISATION_
ADMIN>
(<NAME3_ORGANISATION_
ADMIN>)
em
<NAME4_DATE>, nos termos do qual, e dos respectivos anexos, a <NAME5_ORGANISATION>
e a <NAME6_ORGANISATION> assumiram os
direitos e obrigaes relacionados co m as actividades de promoo dos Parques Elicos e do
Projecto Industrial previs tos no mesmo Contrato
com a <NAME7_ORGANISATION_ ADMIN>,
respectivamente;
(A) The Parties are two companies incorporated under the exclusive control of
<NAME1_ORGANISATION>, a company, which
has been awarded the contract for Phase A of the
Wind power Tender, in accordance with a Contract with the <NAME2_ORGANISATION_ ADMIN>
(<NAME3_ORGANISATION_ ADMIN>), as it is
now designated, signed on the <NAME4_DATE>.
According to the terms of the said Contract with
the <NAME7_ORGANISATION_ ADMIN> and the
annexes thereof, <NAME5_ORGANISATION> and
<NAME6_ORGANISATION> respectively assumed
the rights and obligations in relation to the promotion of the Wind Parks and Industrial Project
envisaged in the said Contract;
table 8: Annotation example.
[7] c o n c l u s i o n s a n d f u t u r e wo r k
We have presented a new 1 million token Portuguese-English parallel corpus,

covering the legal-financial domain, and shown how an existing general-purpose
NER-parser can be adapted for robust text anonymisation, achieving F-scores of
80-90% on the NER task as such, and over 98% ACNE recall for the anonymisationoptimized system as a whole. We were also able to show that alignment can be
used to propagate anonymisation between languages. Website publication of the
corpus with a suitable search-interface is planned for the immediate future, but
we also need to investigate how well our anonymisation method carries over into
other domain or language pairs, so that a more general database and search tool
for translation memories can be created.
acknowledgments
We would like to thank Metatrad for making it possible to create the corpus described here, and for allowing us to make it publicly available for searching. We
also would like to thank Hugo Gonalo Oliveira and Miriam Leite for relevant comments that helped improve this paper. Anabelas work was funded by FCT through
grant SFRH/BPD/91446/2012).
[123]
references
Barreiro, Anabela. 2009. Make it Simple with Paraphrases: Automated Paraphrasing for
Authoring Aids and Machine Translation: Universidade do Porto PhD dissertation.
Bick, Eckhard. 2000. The Parsing System Palavras: Automatic Grammatical Analysis
of Portuguese in a Constraint Grammar Framework: Aarhus University PhD dissertation.
Bick, Eckhard. 2003. Multi-Level NER for Portuguese in a CG Framework. In Jorge
Baptista, Isabel Trancoso, Maria das Graas Volpe Nunes & Nuno J. Mamede
(eds.), Computational Processing of the Portuguese Language: 6th International Workshop, PROPOR 2003. Faro, Portugal, June 2003 (PROPOR 2003), 118125. Springer.
Bick, Eckhard. 2006. Functional Aspects in Portuguese NER. In Renata Vieira,
Paulo Quaresma, Maria da Graa Volpes Nunes, Nuno J. Mamede, Cludia
Oliveira & Maria Carmelita Dias (eds.), Computational processing of the portuguese
language, proceedings of propor 2006, 8089. Springer.
Bick, Eckhard. 2014. Palavras, a constraint grammar-based parsing system for
portuguese. In Tony Berber Sardinha & Thelma de Lurdes So Bento Ferreira
(eds.), Working with portuguese corpora, 279302. Bloomsbury Academic.
Maia, Belinda. 2008. Corpgrafo V4 - Tools for Educating Translators. In Elia Yuste
Rodrigo (ed.), Topics in Language Resources for Translation and Localisation, 5770.
John Benjamins Pub. Co.
Medlock, Ben. 2006. An Introduction to NLP-based Textual Anonymisation. In
Nicoletta Calzolari, Khalid Choukri, Aldo Gangemi, Bente Maegaard, Joseph
Mariani, Jan Odjik & Daniel Tapias (eds.), Proceedings of the 5th International Conference on Language Resources and Evaluation (LREC 2006), 10511056.
Sang, Erik F. Tjong Kim & Fien De Meulder. 2003. Introduction to the CoNLL-2003
shared task: Language-independent named entity recognition. In Proceedings
of CoNLL 2003, .
Santos, Diana, Nuno Seco, Nuno Cardoso & Rui Vilela. 2006. HAREM: An Advanced NER Evaluation Contest for Portuguese. In Nicoletta Calzolari, Khalid
Choukri, Aldo Gangemi, Bente Maegaard, Joseph Mariani, Jan Odjik & Daniel
Tapias (eds.), Proceedings of the 5th International Conference on Language Resources
and Evaluation (LREC 2006), 19861991.
Santos, Diana Maria de Sousa Marques Pinto dos. 1996. Tense and aspect in English
and Portuguese: a contrastive semantical study: Instituto Superior Tcnico, Universidade Tcnica de Lisboa PhD dissertation.
[124]
bick & barreiro

Sweeney, Latanya. 2002. k-anonymity: a model for protecting privacy. International Journal on Uncertainty, Fuzziness and Knowledge-based Systems 10(5). 557
570.
Tagnin, Stella O. E., Elisa Duarte Teixeira & Diana Santos. 2009. CorTrad: a multiversion translation corpus for the Portuguese-English pair. Arena Romanistica
4. 314323.
c o n ta c t s
Eckhard Bick
University of Southern Denmark
eckhard.bick@mail.dk
Anabela Barreiro
INESC-ID
o japo visto de portugal

explorao usando um corpo
de textos jornalsticos
LUS FERNANDO COSTA
abstract
The Portuguese were the first Europeans establishing contact with Japan in
the 16th century. They wrote about what they had seen there, which was the
start of a long history of documenting Japan in Portugal. Even though the
relationship between the two countries had its ups and downs throughout
the times, fascination for Japan among the Portuguese seems to continue.
The goal of the study reported in this article was to identify which aspects
of Japan most drawn the attention of Portuguese media in the 90s. Concordances and frequencies from the CETEMPblico corpus, containing texts
published in the Portuguese daily newspaper PBLICO in the 90s, and a combination of automatic and manual processes, were used for that purpose.
[1] i n t r o d u o
Os portugueses chegaram ao Japo no ano de 1543, causando uma impresso to

forte nos japoneses que ainda hoje se podem observar os resultados desse encontro entre culturas to diversas. As influncias mais evidentes encontram-se na
alimentao e na prpria lngua japonesa.
O tempura, um dos pratos mais famosos da cozinha japonesa foi introduzido
pelos portugueses no Japo ( uma adaptao do prato portugus peixinhos da
horta). De referir tambm a adaptao do bolo po de l em que a verso japonesa se
chama kasutera e do kompeito (em Portugal, confeito) em que as verses adaptadas
no Japo sero nesta altura mais populares que os originais em Portugal.
Relativamente lngua japonesa, diversas palavras comuns provm do portugus. Alguns exemplos so pan (po), koppu (copo), shabon (sabo) e tabako (tabaco).
O fascnio foi recproco; a obra Historia de Japam (Fris 1976-1984) escrita pelo
portugus Lus Fris no sculo XVI relata com tal pormenor a poca em que viveu
que ainda hoje uma fonte muito utilizada mesmo por investigadores japoneses.
Outro portugus que escreveu sobre o Japo foi Joo Rodrigues, que escreveu
uma gramtica muito completa da lngua japonesa (Rodrigues 1604), para alm de
outras obras, relatando a histria do Japo e as suas observaes sobre diferentes aspetos da cultura japonesa como a pintura, a arquitetura, regras de cortesia
[126]
lus fernando costa

e a cerimnia do ch. Escreveu tambm sobre cincia, nomeadamente sobre os
conhecimentos de matemtica e astronomia no Japo.
Mais recentemente, outro portugus enamorou-se perdidamente pelo Japo:
Wenceslau de Moraes. No final do sculo XIX, princpio do sculo XX, escreveu
vrios livros, descrevendo o povo japons com uma profundidade inigualvel
poca (de Moraes 1993). Viveu trinta anos no Japo, no final da sua vida, com um
estilo de vida muito semelhante aos japoneses. Morreu mesmo no Japo, onde jaz
sepultado.
Janeira (1981) e Janeira (1988) so leituras muito interessantes sobre estas temticas. Nessas obras, fala-se destes e de outros portugueses que ajudaram a trazer Portugal a paragens to remotas.
Nesses tempos o Japo era um pas fechado ao exterior. Mas as coisas mudaram radicalmente desde ento. Hoje, muitos de ns, para alm de termos produtos japoneses em casa, tivemos tambm contacto de alguma forma com outras
criaes japonesas como o Sushi, o Karaoke, o Manga ou o Anime.
Atravs do trabalho descrito neste artigo, pretendeu-se determinar quais as
facetas do Japo que so mais destacadas pelos meios de comunicao social portugueses dos dias de hoje. Analisou-se, para tal, de forma semiautomtica um
conjunto de textos publicados no jornal Pblico na dcada de 90.
[2] m e t o d o l o g i a
Para realizar o estudo descrito neste artigo, usou-se um sub-conjunto do corpo

CETEMPblico (Rocha & Santos 2000). Este corpo um recurso valiosssimo que
contm o texto de cerca de 2.600 edies do jornal dirio portugus PBLICO, publicadas entre os anos de 1991 e 1998, totalizando cerca de 180 milhes de palavras. O CETEMPblico est dividido em 1.504.258 extratos, classificados por semestre e por assunto.
Cada um destes extratos est por sua vez dividido em pargrafos e frases, estando tambm assinalados os seus ttulos e autores. Para alm de tudo isto, a cada
palavra ou tomo (unidade) do corpo encontra-se associada informao gramatical, anotada automaticamente pelo analisador sinttico PALAVRAS (Bick 2000).
Esta informao inclui a categoria gramatical das palavras, bem como informao morfolgica, sinttica e semntica.
O objeto do estudo eram especificamente os textos relacionados com o Japo.
Para determinar estes textos e, consequentemente, criar um sub-corpo de textos
relacionados com o Japo, selecionaram-se todos os extratos de texto contendo
pelo menos uma das seguintes palavras: Japo, as vrias formas do lema japons
(japons, japonesa, japoneses e japonesas) e do lema nipnico (nipnico, nipnica, nipnicos e nipnicas). Concluiu-se, ento, que 24.673 dos extratos continham uma
destas palavras e, portanto, podem estar de alguma forma relacionados com o
Japo.
[127]
Os trabalhos de anlise de contedo de textos em portugus que consegui encontrar so feitos sobre amostras bem mais pequenas. Veja-se, por exemplo, Ferro
(2011), Lobo (2010) e Magalhes (2004) onde se estudaram respetivamente 161,
159 e 73 peas jornalsticas, e de Almeida Menezes (2011), onde se estudaram 10
entrevistas. Apenas em Magalhes (2004) e de Almeida Menezes (2011) indicado terem-se utilizado ferramentas computacionais para suportar a anlise do
contedo dos textos. Em ambos os casos foram usadas ferramentas do WordSmith
Tools (Scott 1996). Em Lobo (2010) referido explicitamente no se terem usado
programas de computador para suportar a anlise textual e em Ferro (2011) no
feita qualquer referncia ao seu uso.
Para outras lnguas existem variados exemplos do uso de ferramentas computacionais para suportar a anlise de quantidades muito maiores de texto. Vejase, por exemplo, Kutter & Kantner (2012), onde se trabalhou sobre um corpo de
meio milho de textos em ingls, holands, francs e alemo para analisar como
os meios de comunicao social de diferentes pases europeus cobrem guerras
e intervenes militares, e Baker et al. (2008) onde se usaram textos em ingls
contendo 140 milhes de palavras para estudar como a imprensa britnica relata
assuntos relacionados com refugiados, pessoas que pediram asilo, imigrantes e
migrantes.
Para o trabalho descrito neste artigo, dada a quantidade de texto e a abrangncia do objeto de estudo, usou-se uma mistura de processos computacionais e
manuais. Relativamente aos processos computacionais, utilizaram-se fundamentalmente concordncias e distribuies. Tanto umas como outras podem ser obtidas atravs do servio de interrogao a corpos AC/DC (Costa et al. 2009). Este
servio permite fazer pesquisas num conjunto de corpos com diferentes caractersticas, sendo o CETEMPblico um desses corpos.
Concordncias no so mais do que exemplos extrados de um corpo de textos que correspondem a uma determinada expresso de pesquisa. Por exemplo,
interrogando-se o corpo CETEMPblico no AC/DC com a expresso de pesquisa
[sem="93b" & word="Soares"] (esta expresso indica que se pretendem todas
as ocorrncias da palavra Soares no segundo semestre de 1993), obtm-se 2.176
concordncias, incluindo os seguintes exemplos.
(1)
par=ext53093-pol-93b-2: Antes da assinatura do protocolo, pelo presidente

da Cmara de Usuki, Toshio Shibasaki, e pelo comissrio-geral da Comisso dos Descobrimentos, Vasco Graa Moura, j Mrio Soares prometera s
cerca de duas mil pessoas que se deslocaram ao centro da cidade que Portugal tudo far para fazer do Museu Namban-Centro de Documentao das
Relaes Luso-Nipnicas um grande museu de amizade Portugal-Japo .
[128]
lus fernando costa

(2)
par=ext82501-pol-93b-1: Os originais devero ser entregues ao imperador

Akihito antes de 18 de Outubro, data em que se inicia a visita oficial ao
Japo do Presidente da Repblica, Mrio Soares .
(3)
par=ext111822-pol-93b-1: Soares respondeu que no se mostrava nada impressionado com a mensagem, pois acabava precisamente de chegar de
ptimos momentos de convvio com um imperador o do Japo .
As distribuies, tal como as concordncias, referem-se a expresses de pesquisa.

Mas em vez de exemplos, os resultados so apresentados atravs de contagens.
Exemplificando, veja-se a figura 1, onde se pode observar o resultado de um pedido de distribuio por assunto dos extratos relacionados com o Japo. Os extratos includos no CETEMPblico esto classificados por assunto, tendo esta classificao sido determinada automaticamente a partir da seco do jornal de onde
cada extrato proveniente. As categorias utilizadas para classificar o assunto dos
extratos so as seguintes: Sociedade, Poltica, Desporto, Cultura, ND (no determinado), Economia, Opinio e Informtica. Para detalhes sobre como esta classificao
foi feita, pode consultar o artigo Rocha & Santos (2000).
figura 1: Distribuio por assunto no AC/DC

Tal como referido anteriormente, o primeiro passo deste trabalho, foi criar
um sub-corpo do CETEMPblico contendo os extratos de texto relacionados com
o Japo. Determinou-se ento, a distribuio destes extratos por semestre e por
assunto.
Seguidamente, identificaram-se as personalidades que aparecem com maior
frequncia nos extratos usando-se a anotao morfolgica contida no CETEMPblico. Com base nesta anotao, geraram-se listas com o nmero de extratos em
que ocorre cada uma das palavras marcadas como nome prprio. Isto foi feito
para a globalidade do sub-corpo de extratos relacionados com o Japo e para cada
um dos semestres abrangidos pelo mesmo. Da lista ordenada pelo nmero de extratos em que cada um dos nomes prprios ocorre, extraram-se ento as quinze
personalidades mais citadas.
[129]
Partindo destes resultados, analisaram-se manualmente extratos onde essas

personalidades so nomeadas para determinar o motivo pelo qual estas aparecem
com maior ou menor frequncia ao longo do tempo. Esta anlise foi feita usando
concordncias obtidas atravs do servio AC/DC. Para alm disso foram tambm
consultadas fontes externas, como por exemplo a Wikipdia. Diga-se que esta
anlise manual dos extratos foi feita de forma bastante ligeira e pouco sistemtica.
Estou convencido que tambm aqui se podero automatizar partes do processo, e
pretendo investigar as melhores formas de o fazer em trabalhos futuros.
[3] r e s u l ta d o s
Comeou-se por contabilizar o nmero de extratos que referem de alguma forma o

Japo em cada um dos semestres abrangidos pelo estudo. Como se pode constatar
na figura 2, a percentagem de extratos referindo temas japoneses varia entre os
1,2% e os 2,1%. O semestre com mais referncias a temas japoneses foi o segundo
semestre de 1993. Possivelmente, isto deveu-se s mudanas polticas ocorridas
por essa altura no Japo: o Partido Liberal Democrata, que tinha governado o
Japo ininterruptamente desde 1955, foi destronado no decorrer desse semestre.
figura 2: Percentagem de extratos relacionados com o Japo

Como referido anteriormente, os extratos no corpo CETEMPblico esto classificados por assunto. Na figura 3 pode consultar a percentagem de extratos pertencentes a cada uma das categorias. Refira-se que, relativamente ao ano de 1991,
uma percentagem muito significativa dos extratos no est classificada e, portanto, no se podem tirar grandes concluses.
De qualquer modo, pode-se constatar que existe alguma variao de semestre
para semestre no que diz respeito s categorias mais representadas. Os extratos mais frequentes so sobre economia e pode-se verificar que, na maior parte
dos semestres, esses so os extratos em maior quantidade. As excees so (para
alm do ano de 1991, relativamente ao qual no se podem tirar grandes concluOSLa volume 7(1), 2015
[130]
lus fernando costa

ses, como referido anteriormente) o segundo semestre de 1993, onde os extratos
sobre poltica so os mais numerosos (devido s j referidas mudanas polticas
histricas) e o primeiro semestre de 1995, onde os extratos em maior quantidade
so os classificados como sociedade (isto deveu-se a dois acontecimentos trgicos:
um sismo devastador em Kobe e o ataque com o gs venenoso sarin no Metro de
Tquio).
figura 3: Distribuio dos assuntos dos extratos relacionados com o Japo

De forma a entender do que tratavam os vrios extratos referentes ao Japo
includos no CETEMPblico, contabilizaram-se os nomes de pessoas neles contidos. As figuras 4, 5 e 6 resumem os resultados obtidos. Os grficos apresentam o
nmero de extratos por semestre em que cada um dos nomes referido. A figura 4
inclui as personalidade japonesas, ao passo que a figura 6 refere-se s personalidades internacionais nos extratos com menes ao Japo. Considerou-se conveniente incluir um grfico separado (figura 5) para duas personalidades japonesas
(o realizador de cinema Akira Kurosawa e o Imperador Akihito). O motivo desta
separao prende-se com o facto de estas duas personalidades serem referidas ao
longo de todo o perodo de estudo, ao passo que as pessoas includas na figura 4 so
referidas muitas vezes em determinados semestres, mas desaparecem do radar
no resto do perodo de estudo.
[3.1] Personalidades japonesas

Como seria de esperar, nove das quinze pessoas mais referidas nos extratos estudados so personalidades japonesas. de referir tambm que todas estas personalidades so homens, sendo a maior parte deles, na realidade, os vrios primeirosministros que o Japo teve entre 1991 e 1998.
[131]
figura 4: Referncias a personalidades japonesas

Toshiki Kaifu foi primeiro-ministro entre Agosto de 1989 e Novembro de 1991.
As referncias ao seu nome aparecem maioritariamente durante a poro desse
perodo coberta pelo corpo CETEMPblico, o ano de 1991. Depois disso, o seu nome
aparece apenas esporadicamente. Surge no entanto um ligeiro aumento de ocorrncias no segundo semestre de 1994, que se deve criao do partido poltico
Partido da Nova Fronteira, do qual foi o primeiro presidente. Depois desse semestre, no entanto, o seu nome praticamente deixa de ser referido.
O seu sucessor no cargo de primeiro-ministro, Kiichi Miyazawa, ocupou o cargo
de Novembro de 1991 a Agosto de 1993. , alis, a personalidade japonesa mais referida no corpo CETEMPblico e, como seria de esperar, a maior parte dessas referncias ocorre no perodo em que foi primeiro-ministro. Depois desse perodo,
o seu nome deixa de ser referido quase de todo, aparecendo apenas algumas referncias no segundo semestre de 1998, aquando da sua nomeao como ministro
das finanas do governo liderado por Keizo Obuchi.
O primeiro-ministro que se seguiu, Morihiro Hosokawa, que ocupou o cargo
entre Agosto de 1993 e Abril de 1994, tem o maior nmero de referncias num
nico semestre de entre todas as personalidades japonesas estudadas. Isto devese a ter liderado a coligao que destronou o Partido Liberal Democrata, que tinha
governado o Japo ininterruptamente desde 1955. Para o grande nmero de referncias no primeiro semestre de 1994 contriburam, tambm, as suas tentativas
de melhorar as relaes com os pases vizinhos e a sua demisso, provocada pelas
acusaes de corrupo de que foi alvo.
[132]
lus fernando costa

Depois da demisso de Hosokawa, Tsutomu Hata ocupou o cargo de primeiroministro por umas breves nove semanas, entre Abril e Junho de 1994. A maior
parte das referncias ao seu nome no corpo CETEMPblico surgem, portanto, no
primeiro semestre de 1994, mas existem algumas referncias em 1993, por ter
fundado o partido Shinseito, que fez parte da coligao que apoiou o governo liderado por Hosokawa. Foi tambm ministro dos negcios estrangeiros desse mesmo
governo desde Agosto de 1993 at sua tomada de posse como primeiro-ministro.
Seguiu-se Tomiichi Murayama, que foi primeiro-ministro entre Junho de 1994
e Janeiro de 1996. O maior nmero de referncias ao seu nome surge no primeiro
semestre de 1995, isto porque o Japo esteve em foco internacionalmente devido
a dois acontecimentos trgicos: o devastador sismo em Kobe, a 17 de Janeiro, e o
ataque com gs sarin (uma arma qumica muito potente) no Metro de Tquio, a
20 de Maro.
O sucessor de Murayama no cargo de primeiro-ministro foi Ryutaro Hashimoto. Ele ocupou o cargo entre Janeiro de 1996 e Julho de 1998. No entanto, existem referncias ao seu nome j desde 1991, dado ter sido o ministro das finanas
do governo Kaifu em 1991 e o ministro da economia do governo Murayama entre
1994 e 1996.
A outra personalidade includa na figura 4 Shoko Asahara. Ele foi o fundador do grupo religioso Verdade Suprema, tristemente famoso por vrios dos seus
seguidores terem feito ataques com gs sarin no Metro de Tquio que causaram a
morte de 12 pessoas e um grande nmero de feridos. Como se pode observar no
grfico, foi o nome mais referido no semestre em que ocorreu o ataque, o primeiro
semestre de 1995.
Como referido anteriormente, o grfico que se pode observar na figura 5, contm a distribuio por semestre das referncias a duas outras personalidades japonesas, Akira Kurosawa e o Imperador Akihito.
As referncias a Kurosawa surgem na sua maior parte nos anos de 1991, 1992
e 1993. Foi no decorrer desse perodo que ele realizou os seus dois ltimos filmes:
Rapsdia em Agosto, em 1991, e Madadayo, em 1993. No segundo semestre de 1995,
surgem algumas referncias devido a um ciclo de cinema japons exibido no cinema Nimas, em Lisboa. O ciclo inclua filmes de Kurosawa, mas os seus filmes
foram tambm citados pela crtica especializada ao comentar filmes de outros realizadores. Finalmente, no segundo semestre de 1998, o nmero de referncias ao
realizador volta a aumentar, porque foi nessa altura que ele faleceu.
O imperador Akihito surge com alguma frequncia no segundo semestre de
1993, por um lado, por ter feito uma visita Europa e, por outro lado, por ter recebido o presidente portugus Mrio Soares, que visitou o Japo nessa altura. Mas o
perodo em que o imperador aparece mais vezes no corpo CETEMPblico no primeiro semestre de 1998, em que relatada a sua visita a Portugal, acompanhado
da imperatriz Michiko, aquando da Exposio Mundial em Lisboa (Expo-98).
[133]
figura 5: Referncias a Kurosawa e ao Imperador Akihito
[3.2] Personalidades internacionais

De entre as quinze personalidades mais referidas nos artigos estudados do CETEMPblico, seis delas no so japonesas. H dois presidentes dos Estados Unidos
(George Bush e Bill Clinton), o data presidente da Rssia, Boris Ieltsin, e o presidente portugus da altura Mrio Soares. Finalmente, a completar o rol, temos
duas personalidades do mundo do desporto motorizado: o piloto de Frmula 1
Michael Schumacher e o motociclista Michael Doohan.
Os Estados Unidos so parceiros muito importantes do Japo, tanto a nvel
comercial, como militar, pelo que natural que as personalidades internacionais
mais citadas nos artigos referentes ao Japo sejam os presidentes americanos Bush
e Clinton.
George Bush foi o presidente dos Estados Unidos entre Janeiro de 1989 e Janeiro de 1993. As referncias ao seu nome no corpo concentram-se, por isso, nos
textos publicados entre 1991 e 1993, e ocorrem mais vezes no primeiro semestre
de 1992. Isto deve-se ao facto de Bush ter feito uma visita de estado ao Japo nesse
semestre.
Foi sucedido no cargo por Bill Clinton, que foi presidente dos Estados Unidos
at 2001. Bill Clinton mais referido no primeiro semestre de 1993, que coincide
com os seus primeiros meses na presidncia. O incio do seu mandato foi marcado
por uma srie de medidas econmicas protecionistas que tiveram impacto no Japo, e isso contribuiu para o seu nome aparecer muitas vezes nos textos relacionados com este pas. Outro fator determinante foi uma visita aos Estados Unidos
feita pelo primeiro-ministro japons Miyazawa, que se encontrou com Clinton. As
[134]
lus fernando costa

referncias a Clinton estendem-se por todo o perodo de estudo, havendo, no entanto, um aumento de volume no primeiro semestre de 1996. Isto deve-se visita
que fez ao Japo por essa altura, e durante a qual se encontrou com o primeiroministro japons Hashimoto.
figura 6: Referncias a personalidades internacionais

Boris Ieltsin foi o presidente da Rssia de Julho de 1991 a Dezembro de 1999, ou
seja, a sua presidncia estendeu-se por quase todo o perodo abrangido pelos textos estudados neste artigo. Ieltsin aparece mais vezes relacionado com o Japo no
segundo semestre de 1992 e no ano de 1993. No que diz respeito a 1992, esse protagonismo deveu-se s dificuldades diplomticas entre a Rssia e o Japo, que levaram inclusive ao cancelamento de uma visita de Ieltsin a este pas. Nessa altura, a
Rssia enfrentava graves dificuldades econmicas e necessitava criticamente de
financiamento, mas o Japo fazia depender esse financiamento da resoluo do
conflito entre os dois pases relativo s ilhas Curilhas. Estas ilhas foram ocupadas
pelo exrcito sovitico no final da Segunda Grande Guerra. Relativamente a 1993,
a Rssia (e o seu presidente Ieltsin) aparecem frequentemente nos artigos sobre o
Japo devido cimeira do G7 (grupo englobando os pases mais economicamente
desenvolvidos do mundo), realizada em Tquio entre 7 e 9 de Julho. A Rssia,
data, no fazia parte do grupo, e causou sensao ter sido convidada a faz-lo pelo
Japo, que liderava o G7 na altura.
Mrio Soares foi presidente de Portugal de Maro de 1986 a Maro de 1996. A
sua ligao ao Japo deve-se principalmente sua visita quele pas em Outubro de
1993. A maior parte das referncias ao seu nome aparecem, portanto, nos textos
publicados no segundo semestre desse ano. Nesse semestre foi mesmo a personalidade internacional mais referida nos extratos estudados, tendo quase o mesmo
[135]
nmero de referncias que a personalidade japonesa mais citada, o primeiroministro Hosokawa.

Analisando-se extratos onde so nomeados os dois pilotos includos na lista
dos quinze nomes mais referidos nos textos estudados do CETEMPblico (Michael
Doohan e Michael Schumacher), percebe-se que estes no tm nenhuma ligao
particular ao Japo. Os seus nomes aparecem em extratos contendo a palavra
Japo porque existem Grandes Prmios do Japo, tanto em motociclismo, como
em Frmula 1. Para alm disso, Michael Doohan correu por uma marca japonesa,
a Honda, havendo tambm vrios pilotos japoneses nas provas de motociclismo
em que ele participou. Decorre da que o seu nome ocorra com alguma frequncia
em textos contendo as palavras nipnico, nipnica, japons e japonesa.
[4] o b s e r va e s f i n a i s
No trabalho descrito neste artigo usou-se uma abordagem semiautomtica para

analisar textos sobre o Japo publicados no jornal PBLICO. Comeou-se por selecionar de forma automtica, de entre todos os extratos de texto includos no CETEMPblico, aqueles que esto relacionados com o Japo. Para tal, usou-se como
critrio de escolha, a presena de determinadas palavras-chave nos extratos. Seguidamente, determinou-se a distribuio dos textos selecionados por semestre e
por tema. O passo seguinte foi identificar as personalidades que neles aparecem
com maior frequncia. Partindo desses resultados analisaram-se manualmente
extratos onde essas personalidades so nomeadas para determinar porque estas
aparecem com maior ou menor frequncia ao longo do tempo. Frequentemente
os resultados desta anlise acabaram por revelar os acontecimentos relacionados
com o Japo que mais captaram a ateno dos jornalistas portugueses.
A distribuio de extratos por assunto revelou uma maior abundncia de textos sobre economia. Isto no surpreende dado que o Japo uma das maiores
economias do mundo, produzindo e exportando inmeros produtos para todo o
mundo. Os nicos semestres em que os textos sobre economia no dominaram
foram o segundo semestre de 1993 (ano em que o Partido Liberal Democrata perdeu as eleies depois de inmeros anos no poder) e o primeiro semestre de 1995,
em que ocorreu um grande sismo em Kobe e o ataque com gs sarin no Metro de
Tquio.
No que diz respeito s personalidades referidas nos textos, refira-se que todas
as quinze pessoas mais referidas so homens, sendo nove deles japoneses. Seis
das personalidades japonesas so os vrios primeiros-ministros que governaram
o Japo durante o perodo de estudo (como se pode constatar, foi um perodo de
alguma instabilidade poltica). Adicionalmente fazem parte desta lista o Imperador Akihito, o realizador Akira Kurosawa e o lder da seita Verdade Suprema
Shoko Asahara.
[136]
lus fernando costa

Relativamente s seis personalidades internacionais mais citadas nos textos
relacionados com o Japo, concluiu-se que duas delas so desportistas que no tm
nenhuma ligao particular ao Japo. Os restantes foram presidentes das duas
superpotncias mundiais, os Estados Unidos e a Rssia, e o presidente portugus
Mrio Soares.
A metodologia utilizada neste trabalho, inclui uma fase em que textos so analisados manualmente para tentar determinar as razes da notoriedade das personalidades neles mencionadas variar ao longo do tempo. Dada a quantidade de
textos existentes, esta anlise foi necessariamente feita de forma ligeira e pouco
sistemtica. Em trabalhos futuros pretendo investigar como se poder estender
o suporte computacional tambm a esta fase da anlise dos textos.
Outras reas que pretendo explorar no futuro so as ocorrncias de outros
nomes prprios como locais e marcas, e a comparao de resultados com outros
corpos, como por exemplo um corpo de portugus brasileiro como o CETENFolha,
outro dos corpos que se pode pesquisar usando o AC/DC.
Finalmente, tambm pretendo investigar o processo oposto, ou seja estudar
as referncias a Portugal nos meios de comunicao social japoneses.
agradecimentos
Estou agradecido Diana por me ter desafiado a escrever este artigo e principalmente por me ter dado a oportunidade de comear a trabalhar para a Linguateca
em 2002. Para alm de ter aprendido imenso, conheci muitas pessoas interessantes, entre elas a homenageada neste livro, a Belinda, com a qual tambm tive o
prazer de trabalhar.
referncias
de Almeida Menezes, Danielle. 2011. Discurso sobre literaturas de lngua inglesa:
uma anlise baseada em ferramentas da lingustica de Corpus. Trabalhos em
Lingustica Aplicada 50(1). 97118.
Baker, Paul, Costas Gabrielatos, Majid Khosravinik, Michal Krzyzanowski, Tony
McEnery & Ruth Wodak. 2008. A useful methodological synergy? Combining
critical discourse analysis and corpus linguistics to examine discourses of refugees and asylum seekers in the UK press. Discourse and Society 19(3). 273305.
Bick, Eckhard. 2000. The Parsing System Palavras: Automatic Grammatical Analysis
of Portuguese in a Constraint Grammar Framework: Aarhus University. Tese de
Doutoramento.
Costa, Lus, Diana Santos & Paulo Alexandre Rocha. 2009. Estudando o portugus
tal como usado: o servio AC/DC. Em The 7th Brazilian Symposium in Information
and Human Language Technology (STIL 2009), 150153.
[137]
Ferro, Hugo. 2011. A construo meditica da sade mental e da doena mental: o caso
do Pblico e do Correio da Manh entre 1990 e 2010: Faculdade de Letras da Universidade de Coimbra. Tese de Mestrado.
Fris, Lus. 1976-1984. Historia de Japam. Biblioteca Nacional de Lisboa. 5 volumes.
Edio anotada por Jos Wicki.
Janeira, Armando Martins. 1981. Figuras de Silncio - A Tradio Cultural Portuguesa
no Japo de Hoje. Junta de Investigaes Cientficas do Ultramar.
Janeira, Armando Martins. 1988. O Impacto Portugus sobre a Civilizao Japonesa.
Publicaes Dom Quixote 2nd edn.
Kutter, Amelia & Cathleen Kantner. 2012.
Corpus-Based Content Analysis: A Method for Investigating News Coverage on War and Intervention. International Relations Online Working Paper. Stuttgart University.
http://www.uni-stuttgart.de/soz/ib/forschung/IRWorkingPapers/
IROWP_Series_2012_1_Kutter_Kantner_Corpus-Based_Content_
Analysis.pdf.
Lobo, Mafalda. 2010. Cobertura meditica de frica na imprensa europeia,
no contexto da II Cimeira UE-frica.
http://www.bocc.uff.br/pag/
silva-mafalda-cobertura-mediatica-de-africa-na-imprensa-europeia.
pdf.
Magalhes, Clia. 2004. Interdiscursividade e conflito entre discursos sobre raa
em reportagens brasileiras. Linguagem em (Dis)Curso 4. 3560.
de Moraes, Wenceslau. 1993. Antologia. Vega. Seleco de textos de Armando
Martins Janeira.
Rocha, Paulo & Diana Santos. 2000. CETEMPblico: Um corpus de grandes dimenses de linguagem jornalstica portuguesa. Em Maria das Graas Volpe Nunes
(ed.), Actas do V Encontro para o processamento computacional da lngua portuguesa
escrita e falada (PROPOR), 131140.
Rodrigues, Joo. 1604. Arte da Lingoa de Iapam. Collegio de Iapo da Companhia de
Iesu.
Scott, Mike. 1996. Wordsmith tools. Oxford University Press.
c o n ta c t o s
Lus Fernando Costa
Yamaguchi University e Linguateca
luis.f.kosta@gmail.com
pesquisa em educao:
perspectivas (qualitativas?) na
explorao de grandes corpora
MIRIAM LEITE E CLUDIA FREITAS
abstract
Research methods in Education usually rely on qualitative analysis, focusing on samples of individuals or small groups. On the other hand, it is well
known that education deals with large scale issues as well: in Brazil, the
planning of public policies must take into account the more than 50 million
students enrolled in Secondary Education. However, the quantitative approach is viewed with suspicion in Education, leading to very little development
of large scale studies. Since these studies can be based on written texts, the
dialogue between Education and corpus based approaches becomes highly
valuable. In this paper, we briefly present the results of two studies based
on corpora specifically designed to foster educational research: (i) a corpus
of blogs created and maintained by public schools; (ii) a corpus of teaching
materials used in public schools. When discussing the results of these researches, we draw attention to the crucial role played by corpus tools, and to
the risks and potentials of the corpus based approach in Education.
No preciso ser especialista em Educao para saber que se lida, nesse campo,
com questes que se colocam em larga escala: segundo o Censo Escolar da Educao Bsica, em 2013, registraram-se 50,04 milhes de matrculas nas redes pblica
e privada do pas. Por outro lado, tampouco necessria maior expertise para se
ponderar que o microcosmo da Educao tambm precisa ser considerado, tanto
pela pesquisa acadmica, quanto pelas polticas pblicas. A abstrao dos mais
de 50 milhes de matrculas se traduz em vida vivida, quando cada uma delas
ganha nome e sobrenome e impe a singularidade da sua localizao geogrficocultural, histria familiar, deficincia fsica ou mental etc. Interessam, portanto,
para a pesquisa em Educao, os estudos qualitativos que focalizam tais contingncias, mas tambm investigaes e reflexes que operem com dados massivos,
que, por certo, so do mesmo modo pertinentes a esse campo.
Entretanto, polmicas em torno das abordagens quantitativas, que marcaram
a pesquisa acadmica, sobretudo, nas dcadas de 1980 e 1990, parecem ainda repercutir na Educao, observando-se pouco desenvolvimento de estudos em larga
[140]
leite & freitas

escala1 , o que inclui a restrio de pesquisas com grandes volumes de texto organizados em corpora.
Diante da crescente multiplicao da produo e da facilitao do acesso a todo
tipo de acervo textual, as possibilidades de pesquisa em Educao com esse tipo
de focalizao so ampliadas e diversificadas, e julgamos que vale problematizar
o quadro ainda atual de resistncia a pesquisas com acervos empricos de larga
escala. Afinal, os desenvolvimentos tecnolgicos que permitiram a disponibilizao de um quantitativo informacional indito na histria da humanidade tambm
possibilitaram a criao de ferramentas que viabilizam abordagens inovadoras.
Neste artigo, discutimos o uso de corpora na pesquisa em Educao. Com esse
propsito, apresentamos o corpus BlogsSME/RJ2 (Leite 2013), para argumentar pela
pertinncia da utilizao de ferramentas de gerenciamento e explorao de corpus, como o Corpgrafo (Sarmento et al. 2004), como auxiliares poderosos do pesquisador na explorao do contedo de grandes acervos textuais. Trazemos ainda
o estudo desenvolvido a partir da anlise dos corpora ApostilasSME/RJCienc e ApostilasSME/RJMat (Romo 2014), como exemplo das especificidades da pesquisa no
campo educacional. Em concluso, assinalamos a necessidade de aproximao
entre Educao, Estudos da Linguagem e Lingustica Computacional, no apenas
para evitar uma apropriao ingnua de tais recursos, como tambm para criar
possibilidades de participar do seu desenvolvimento.
[1] r e s i s t n c i a s e p o t e n c i a l i da d e s
Concordando com Gatti (2004)3 , percebemos que bastante difundido no meio

acadmico da Educao brasileira o entendimento de que, at o perodo de redemocratizao poltica no pas, predominavam as pesquisas quantitativas de vis
tecnicista e fundamentao positivista. De fato, em publicao de 1986 que teve
grande circulao no campo da Educao Pesquisa em Educao: abordagens quali[1]
[2]
[3]
Em recente levantamento realizado a partir da reviso de peridicos publicados em lngua portuguesa

classificados nas faixas A1 e A2 do sistema Qualis/CAPES (http://qualis.capes.gov.br/) da rea da
Educao, constatou-se visvel crescimento de estudos estatsticos, porm, apenas em vis neotecnicista.
No se trata de anlises de corpora textuais de grande extenso, mas, sim, de pesquisas em torno dos resultados das avaliaes de rendimento escolar em larga escala. Entende-se aqui neotecnicismo como uma
nomeao genrica para perspectivas educacionais que se caracterizam pelas seguintes marcas: gesto
da vida escolar segundo parmetros da organizao empresarial, com mais profissionais da rea da economia e da administrao do que educadores atuando no seu planejamento e deciso; centralizao das
atividades de planejamento pedaggico e alto controle do trabalho docente; concepo de qualidade educacional mensurvel em parmetros estatsticos provenientes de testagem externa escola, em provas
com questes objetivas e padronizadas, em geral restritas s disciplinas de Lngua Portuguesa e Matemtica; criao de sistema de recompensas para o profissional da educao segundo desempenho dos seus
alunos nas avaliaes em larga escala, mas tambm na aprovao na escola; parceria pblico-privada;
ateno s estratgias de marketing na gesto da rede (Leite (2014), no prelo, nota 12).
O acrnimo SME/RJ refere-se Secretaria Municipal do Estado do Rio de Janeiro
Esta discusso foi tambm desenvolvida no artigo Pesquisa em Educao e cibercultura: questes de metodologia e poltica(Leite 2015), para tratar de aspectos polticos que no so aqui focalizados.
perspectivas (qualitativas?) na explorao de grandes corpora
[141]
tativas (Ldke & Andr 2008) anuncia-se, j na contracapa: A pesquisa em educao encontra-se atualmente em fase de grande evoluo, ampliando seu foco de
interesse e mtodos para alm dos estudos tradicionais do tipo survey ou experimental, que constituram suas mais fortes inclinaes durante as ltimas trs ou
quatro dcadas.
Entretanto, Gatti (2004) cita estudos que apontam que a pesquisa em Educao
era bastante limitada at ento e que, nesse universo restrito, apenas 29% operavam com dados quantitativos. Mas o que se observa que, com ou sem respaldo
emprico, difundiu-se, no campo educacional, robusto preconceito contrrio aos
estudos quantitativos, o que leva a autora a constatar quadro semelhante, passada quase uma dcada da publicao deste ltimo artigo citado: tudo o que vem
a partir de abordagens qualitativas bom; o que vem de abordagens quantitativas mau) (Gatti 2012, pg. 30).
Dificulta-se, assim, a construo de uma crtica mais consistente que permita
uma identificao menos apaixonada dos limites e potencialidades da pesquisa
com dados massivos. Desse modo, percebe-se a ausncia de pesquisadores da Educao quando se desenvolvem tais estudos, que so, com frequncia, realizados
por profissionais de outras reas, como especialistas em informtica, economistas, administradores de empresas.
Contudo, muitas j foram as vozes da academia que se mobilizaram para matizar tal entendimento e argumentar contrariamente ao reducionismo da antagonizao apriorstica qualitativo/quantitativo. Brando (2002), por exemplo, em
texto que j conta com mais de dez anos de publicao, argumenta que:
A incomensurabilidade das prticas sociais no significa, no entanto,
que no se possa e deva tentar aproximaes quantitativas dos fenmenos. Portanto, os antagonismos quantitativo/qualitativo, assim
como micro/macrossocial so improcedentes; informaes e dados
objetivos, assim como depoimentos e entrevistas em profundidade
podem ser produzidos em perspectiva positivista; sem uma conceituao prvia e uma reconstruo a posteriori, nenhum material de
pesquisa escapa superficialidade do mau jornalismo. (Brando 2002,
pg. 2829).
Ou seja, a associao apriorstica entre o trabalho acadmico com base em dados empricos de larga escala e abordagens homogeneizadoras e simplistas dos
contextos sociais focalizados pela pesquisa em Educao no se sustenta. O reconhecimento da irrepetibilidade do acontecimento social contingente pode nos
levar ao estudo do singular, mas tambm pode se beneficiar do olhar para um
quantitativo ampliado de casos singulares.
Santos (2014) faz outra ponderao que julgamos de ainda maior interesse
para esta discusso: a dicotomia entre qualitativo e quantitativo uma falsa
[142]
leite & freitas

questo, porque preciso atribuir qualidades para se poder contar, ou ter pelo
menos uma ideia de magnitude. Concordamos e destacamos: alm de falsa,
perigosa, pois reafirma a suposta neutralidade dos nmeros. O reconhecimento
dos aspectos qualitativos de todo ato de quantificao em pesquisa fundamental
para a desnaturalizao das categorias em operacionalizao.
Propomos, ento, com base nos recursos eletrnicos hoje disponveis, a busca
por uma abordagem qualitativa de dados textuais de larga escala na pesquisa em
Educao. Em outras palavras, tentamos desenvolver uma leitura desse tipo de
acervo textual por meio das novas tecnologias, em uma perspectiva reconfigurada
segundo as especificidades da pesquisa do campo educacional.
De fato, a crescente disponibilizao de documentos de interesse para a pesquisa em Educao, sobretudo por meio da internet, impe urgncia na superao
desses preconceitos e dificuldades. Documentos pblicos, legislao, textos tericos e literrios, registros etnogrficos (de observaes de campo, flmicas, televisivas, de redes sociais e outros espaos virtuais de publicao e interao social),
transcries de entrevistas e matrias jornalsticas so apenas alguns exemplos
dos textos que podem interessar ao pesquisador da Educao. At o momento,
predomina a abordagem manual dessa empiria, o que obviamente limita o escopo
dos estudos desenvolvidos.
Para argumentar pela pertinncia do acesso integralidade dos corpora cuja
extenso compromete a possibilidade do seu processamento por meio da leitura
convencional, apresentamos, a seguir, o corpus BlogsSME/RJ, para compararmos os
estudos desenvolvidos a partir de leitura amostral, com sua posterior abordagem
digital, que possibilitou acesso totalidade do corpus.
[2] l e i t u r a s d i g i ta i s
O estudo que deu origem ao corpus BlogsSME/RJ foi desenvolvido no contexto da

pesquisa Diferena e desigualdade na educao escolar do jovem adolescente: desconstrues, em que se indagava acerca dos sentidos de juventude e adolescncia afirmados em contextos virtuais de publicizao de atividades escolares dos anos finais
do ensino fundamental da rede pblica municipal do Rio de Janeiro. Tendo-se
constatado, em estudo anterior, o estmulo, por parte da Secretaria Municipal de
Educao do Rio de Janeiro/SME-RJ, utilizao dos recursos digitais de comunicao contemporneos, supusemos que os blogs das escolas municipais cariocas
que atendem aos anos finais do ensino fundamental poderiam conter registros
relevantes relativamente s identificaes desses estudantes. Por meio do portal
RioEduca4 , organizado pela SME-RJ e responsvel pela disponibilizao dos blogs
da sua rede de ensino, foram selecionados aqueles relativos aos anos finais do ensino fundamental, que atendem faixa etria priorizada em nossos estudos.
[4]
http://www.rioeduca.net
[143]
Chegou-se, ento, a um conjunto de 160 blogs, ativos entre janeiro de 2009

incio da gesto da SME/RJ que promoveu a criao e desenvolvimento desses
blogs e novembro de 2013, quando se realizou a pesquisa. Destes, 100 eram blogs
de escolas, 14, de projetos especficos, 30, de professores, 01, da 5 Coordenadoria
Regional de Educao/CRE5 .
Devido ao grande volume de documentos compilados, a leitura inicial desse
material teve de se restringir ao quantitativo possvel na abordagem convencional: foram selecionados 20 blogs, incluindo blogs de escolas, de professores e
de projetos especficos, de todas as 11 coordenadorias regionais de Educao. Foi
feita a leitura extensiva de todas as postagens, comentrios e da seo Quem somos, buscando destacar registros de interesse para a pesquisa.
No foram localizados registros significativos de ateno a juventude e adolescncia, focos da pesquisa. Predominava a postagem de fotos que pouco contavam
sobre a identificao atribuda aos estudantes adolescentes nos contextos retratados. Havia muitas imagens de atividades esportivas, formaturas, exposies de
trabalhos ou mesmo dos Aniversariantes do ms, como nas reprodues que se
seguem (figuras 1 e 2). As imagens eram postadas com poucas informaes que
esclarecessem sobre seu desenvolvimento e propsitos, e quase sempre no se seguiam comentrios. Entendeu-se ento que o estudo confirmava as concluses
de outras pesquisas: os anos finais do ensino fundamental geralmente no tm
sido atendidos em suas especificidades6 entre a escolarizao da infncia nos
anos iniciais do ensino fundamental e a profissionalizao e/ou preparao para
o ingresso na universidade, que tm lugar no ensino mdio, a educao escolar
do estudante adolescente no ensino fundamental parecia no estar recebendo a
devida ateno em polticas pblicas ou nas prticas escolares cotidianas. Mas
questionou-se tambm a pertinncia dessa empiria blogs disponibilizados no
portal RioEduca , que pareceu ser de interesse bastante restrito.
Neste momento, o contato com as ferramentas para gerenciamento e manipulao de corpora eletrnicos apareceram como uma alternativa a ser investigada.
Procedeu-se ento compilao de todo o contedo desses blogs, de modo a serem
processados por programas como o Corpgrafo (Sarmento et al. 2004). O corpus
assim construdo contm todas as postagens e comentrios dos 160 blogs, no perodo de janeiro de 2009 a novembro de 2013, alm do contedo da seo Quem
somos, totalizando mais de 4 milhes de palavras7 .
De incio, entre os vrios programas disponveis, optou-se pela utilizao do
Corpgrafo, por razes de ordem prtica, mas que tambm tinham contedo poltico: a opo por um programa gratuito, de uso pblico e em lngua portuguesa,
no apenas facilitava o trabalho, como implicava posicionamento poltico de re[5]
[6]
[7]
Subdiviso administrativo regional da SME/RJ

Como por exemplo em Davis et al. (2013).
A documentao completa e o corpus esto em http://www.ddeej.com
[144]
leite & freitas
figura 1: Reproduo de blog utilizado na pesquisa.
figura 2: Reproduo de blog utilizado na pesquisa.

levo, na medida em que fortalecia iniciativa em prol do acesso livre a recursos
digitais, dados e metadados, e de resistncia hegemonia da lngua inglesa nos
ambientes virtuais. Contudo, traremos para este artigo os dados gerados pelo
programa AntConc (Anthony 2012)(gratuito, de propriedade privada, em lngua
inglesa), posto que, em 2014, o acesso online ao Corpgrafo esteve irregular.
Na compilao dos contedos dos blogs, as fotos foram substitudas pela palavra foto e os vdeos, pela palavra vdeo. Ao ordenarmos as palavras pela
sua frequncia (figura 3), a palavra foto despontou como das mais recorrentes.
Pareciam se confirmar, desse modo, as concluses a que se havia chegado com a
leitura exaustiva da amostra dos blogs em estudo.
[145]
figura 3: Ordenao de palavras por frequncia no corpus BlogsSME/RJ

Entretanto, apesar de no terem sido localizadas em ocorrncias significativas
quando da leitura inicial, palavras de bvio interesse para a pesquisa apareceram
na ordenao da listagem de palavras por frequncia. Assim, foi possvel acessar
2200 repeties das palavras jovens/jovem, 1940 para adolescentes/adolescente, 270
para juventude/juventudes, 239 para adolescncia, o que evidenciou mais do que a
pertinncia dessa empiria: demonstrou uma riqueza inacessvel sem o auxlio de
recursos das tecnologias digitais.
No caberia aqui trazer todas as reflexes oportunizadas pela problematizao dessas palavras e seus contextos de enunciao. Analisando as linhas de concordncia, pudemos concluir que, no Rio de Janeiro, no se confirmava a tendncia mais geral de no reconhecimento de especificidades dos anos finais do ensino
fundamental. Pelo contrrio, havia clara ateno direcionada a essa faixa etria,
com contedo poltico que valia problematizar. Por exemplo, constatou-se que,
sob a expresso protagonismo juvenil e afins, desenvolviam-se atividades diversas
que trabalhavam pela formao de uma juventude cuja insero social pautada
por uma perspectiva individualista e neoliberal. A partir deste achado, invisvel
na leitura parcial dos blogs, foi concebido novo projeto de pesquisa8 , orientado
discusso de tais opes de formao escolar pblica dos jovens adolescentes.
Muitas vezes, no entanto, palavras com uma nica ocorrncia podem ter valor
para a pesquisa. Nesse caso, o acesso digital integralidade dos textos torna-se
[8]
Pesquisa O grmio e outros espaos-tempos de dilogo poltico na escola: possibilidades contemporneas, contemplada com financiamento pelo Edital Apoio Melhoria do Ensino em Escolas da Rede Pblica Sediadas no
Estado do Rio de Janeiro 2014.
[146]
leite & freitas

ainda mais produtivo, como se argumenta na prxima seo, a partir das concluses do estudo dos corpora ApostilasSME/RJCienc e ApostilasSME/RJMat (Romo
2014).
[3] q u a n d o a a u s n c i a c r i a s e n t i d o
Tambm no contexto da pesquisa Diferena e desigualdade na educao escolar do jovem adolescente: desconstrues, (Romo 2014) desenvolveram estudo sobre as repeties e deslocamentos em torno dos sentidos do feminino presentes nas apostilas
distribudas pela SME/RJ para os anos finais do ensino fundamental 7, 8 e 9 ano
sob o nome Cadernos Pedaggicos. Trata-se de material didtico amplamente utilizado na rede pblica carioca, posto que seu contedo pauta as avaliaes externas municipais e nacionais, condicionando rankings e respectivas recompensas
materiais e subjetivas.
As apostilas dos 4 bimestres letivos de 2013 de todas as disciplinas ficaram
disponveis9 nesse perodo e foram organizadas, por disciplina, de modo a constituir corpora com a ntegra dos contedos dos Cadernos Pedaggicos. Embora no
to extensos quanto em geral se apresentam os corpora dos estudos lingusticos,
sua explorao por meio das ferramentas especficas evidenciou mais uma vez a
potencialidade desse tipo de abordagem.
Entendia-se, com base em proposies da terica feminista Judith Butler (Butler 2003, 1997), que a identidade de gnero se constri performativamente, isto
, no se constitui em decorrncia de marcas biolgicas, mas, sim, pela constante
e difusa repetio do que socialmente se concebe como caracterstico de cada gnero. Interessavam, portanto, no apenas as passagens das apostilas em que a
temtica do gnero era explicitamente tratada, como tambm e sobretudo, aquelas onde, de forma naturalizada, se reafirmavam e/ou se deslocavam os modos do
feminino na nossa sociedade. Desse modo, a explorao do material didtico em
toda a sua extenso parecia especialmente importante. Destacamos, a seguir, duas
das concluses oportunizadas por essa abordagem, que entendemos exemplificar
potencialidades de uma outra maneira de leitura de grandes acervos textuais na
pesquisa do campo educacional.
O primeiro destaque diz respeito ao corpus de Cincias (ApostilasSME/RJCienc).
Na leitura exploratria dessas apostilas, chamou nossa ateno que as palavras
brasileira/brasileiras tinham quase a mesma frequncia de ocorrncia que a sua
variao no masculino. No entanto, quando acessamos os contextos de enunciao dessas palavras, por meio da leitura das linhas de concordncia, identificamos
flagrante desigualdade no valor poltico-cultural dessas referncias.
Enquanto a expresso no feminino qualificava a populao residente no pas,
espcies nativas e prticas culinrias, sua verso no masculino lembrava, na maior
[9]
http://www.rio.rj.gov.br/web/sme/material-pedagogico
[147]
parte dos casos (7 ocorrncias) feitos de cientistas. Quanto a cientistas brasileiras,

houve uma nica referncia. A seguir listamos alguns dos contextos:
A culinria brasileira bem original e diversificada. (Caderno Pedaggico
de Cincias, 8 ano, 2 bimestre, 2013)
Faa uma pesquisa sobre a variedade de aves brasileiras e seus cantos distintos. (Caderno Pedaggico de Cincias, 9 ano, 4 bimestre, 2013)
Foi a primeira brasileira a fazer o concurso para ser naturalista do Jardim
Botnico e foi aprovada em 2 lugar. (Caderno Pedaggico de Cincias, 7
ano, 3 bimestre, 2013)
MICHAEL NICOLELIS (1961), mdico, esse brasileiro considerado um dos
20 maiores cientistas mundiais da atualidade. (Caderno Pedaggico de Cincias, 8 ano, 1 bimestre, 2013)
O brasileiro Santos Dumont realizou o primeiro voo com o 14 BIS. (Caderno
Pedaggico de Cincias, 9 ano, 1 bimestre, 2013)
A doena de Chagas afeta rgos como o corao e os intestinos e foi descoberta pelo mdico brasileiro em abril de 1909. (Caderno Pedaggico de
Cincias, 7 ano, 2 bimestre, 2013)
A leitura convencional das apostilas, no entanto, talvez ocultasse esta e outras que consideramos importantes reiteraes da invisibilizao da mulher na
Cincia. Observe-se que, na apostila do 8 ano, encontra-se uma seo destinada a
problematizar as relaes de gnero, ali anunciadas como socialmente construdas. Julgamos possvel que a explicitao da problemtica do gnero se destacasse
mais do que suas menes fora dos holofotes textuais ao longo da ntegra do material didtico.
Do mesmo modo, no corpus que reuniu as apostilas de Matemtica, ocorrncias
singulares nos deram importantes pistas para se compreender o papel da educao escolar na perpetuao do sexismo na nossa sociedade. Consultando a lista de
palavras do corpus ordenadas por frequncia, encontramos, nas ltimas posies,
nomes prprios femininos e masculinos, e buscamos seu contexto de enunciao.
Descobrimos que, em geral, se tratava de personagens dos tradicionais problemas
de Matemtica, que reiteravam esteretipos masculinos e femininos:
Miriam quer fazer um bolo grande, aumentando, proporcionalmente, a quantidade de ingredientes. (Cadernos Pedaggicos de Matemtica, 7 ano, 4
bimestre, 2013)
Em uma partida de videogame, Aurlio conseguiu 160 pontos em trs rodadas. (Cadernos Pedaggicos de Matemtica, 8 ano, 2 bimestre, 2013)
[148]
leite & freitas

Conclumos, nesse estudo, pela importncia da ateno s nomeaes cotidianas do gnero, para alm da sua discusso explcita e focalizada. Seu poder de naturalizao considervel, na medida em que, ao trazer tais afirmaes de modo
perifrico ao tema central do texto, encontra um interlocutor desprevenido, que
tende a ponderar menos os enunciados a que se expe, posto que no se colocam
na direo primeira da sua ateno. Mas conclumos tambm que, para acessar
essas repeties do dia a dia, importante assegurar uma leitura mais abrangente
e sistemtica do que o possvel manualmente. De fato, a leitura de textos de interesse para a pesquisa em Educao pode se beneficiar de abordagens que tambm
levam em conta aspectos quantitativos do contedo, apropriando-se das ferramentas e utilizando-as de modo a enriquecer as formas tradicionais de anlise.
[4] a p r o p r i a e s : r i s c o s , l i m i t e s e p e r s p e c t i va s
Para alm do tratamento prioritariamente quantitativo oferecido pelo Corpgrafo

e programas similares, estudos que fazem uso de grandes corpora em reas que
no tematizam diretamente a linguagem comeam a surgir, como indica o crescimento do campo das Humanidades Digitais. Com respeito ao dilogo com o campo
educacional, especificamente, finalizamos com algumas consideraes acerca do
que denominamos como riscos, limites e perspectivas.
Sobre os riscos da pesquisa com corpus em Educao, destacamos que a prtica
da utilizao de corpora eletrnicos no deve ser incorporada ingenuamente, sem
levar em conta discusses a que pode estar associada no campo da linguagem,
dado o risco de fragiliz-la por incoerncia terica.
Como exemplo, podemos citar o alinhamento a abordagens chamadas corpusdriven ou a abordagens corpus-based, que dizem respeito sobretudo ao papel atribudo ao corpus em sua relao com a teoria.
Vale lembrar que, na Lingustica, boa parte dos estudos sobre a linguagem se
sustentava em dados provenientes de pelo menos uma das seguintes fontes: intuio do falante; testes de aceitabilidade/usabilidade; entrevistas com informantes.
Assim, o uso massivo de grandes corpora eletrnicos saudado como recurso capaz de revolucionar o estudo e descrio da lngua, quer propondo novos modelos,
quer validando ou refinando modelos j existentes (Sampson 2001; de Beaugrande
2002).
Em geral, quando se usa o termo corpus-driven (guiado ou conduzido por corpus), assume-se o corpus como espao que viabiliza uma observao neutra dos
fatos da lngua, que, por sua vez, ir promover a criao de hipteses. A lngua
vista como um fenmeno probabilstico (e da a relevncia de corpora grandes),
cabendo explorao com corpus, em ltima anlise, a substituio ou reviso de
teorias de linguagem, porque erguidas sobre bases inadequadas, ou estabelecimento de novas dimenses de descrio.
[149]
Na viso chamada corpus-based, o corpus o espao para validao, refutao

ou refinamento de hipteses prvias, de perguntas previamente formuladas.
A essa diferente maneira de perceber o corpus, podem corresponder, tambm,
diferentes posicionamentos com relao s possibilidades do fazer cientfico.
Perspectivas corpus-driven costumam estar vinculadas aplicao de testes estatsticos, sobretudo quando se trata da descrio/observao de fenmenos mais
vinculados ao sentido das palavras ou expresses. Tais testes estatsticos seriam
capazes de extrair resultados mais objetivos - porque obtidos sem a interferncia humana e sem as limitaes da intuio. A responsabilidade de responder s
questes de pesquisa transferida para o corpus; o pesquisador apenas informa o
que o corpus revela, o que veio tona por meio da explorao automtica.10
Outra caracterstica comum a essa abordagem aposta na impossibilidade de
atribuio de sentidos das palavras fora de seus contextos de uso, estando esse
contexto refletido no corpus da o destaque para estratgias vinculadas procura
por padres de uso e padres de co-ocorrncia e extrao de n-gramas.
Abordagens corpus-driven podem se associar, ainda que involuntariamente,
aos seguintes pressupostos: (i) crena na objetividade e na neutralidade do pesquisador, que no atua sobre os dados, apenas relata resultados de experimentos; (ii) crena na possibilidade de um sentido estvel, intrnseco s palavras e
expresses, que est no texto (ou contexto), ou seja, no corpus e o corpus confivel. sobre o corpus que o pesquisador atuar, fazendo uso das ferramentas
adequadas, tendo em vista revelar/extrair sentidos.
Tais pressupostos so respaldados pelo que a reflexo desconstrutora chama
de tradio logocntrica, caracterizada por separaes claras e objetivas entre
pares dicotmicos e hierrquicos como sujeito e objeto, leitor e texto, literal e
metafrico, significado imanente e significado acidental, ironia e no-ironia literariedade e no-literariedade, os quais nenhuma teoria da linguagem conseguiu,
at hoje, distinguir de maneira incontroversa (Arrojo 1992).
Quando constatamos que, no dilogo com o campo educacional, a reflexo desconstrutora tem comparecido com alguma frequncia (e com mais frequncia do
que nos estudos da linguagem, como nos lembram Arrojo (1992) e Martins (1999)),
as consideraes sobre o uso de corpus e sua relao com perspectivas de linguagem e de conhecimento no podem ser ignoradas, quando se valoriza a coerncia
e a consistncia da fundamentao terica da atividade de investigao cientfica.
Sabemos que o pesquisador no neutro, tampouco o so as ferramentas.
Sobre os limites, observamos que programas como o Corpgrafo so de grande
valia nas primeiras aproximaes de corpora mais extensos, sendo capazes de indicar pistas e caminhos que sero explorados por meio da leitura convencional.
[10]
No entanto, como obeservamos por Sampson (2001), nem sempre a nfase na objetividade dos dados obtidos com corpus est associada a uma perspectiva corpus-driven, e nem esta ltima est, necessariamente,
vinculada aplicao de testes estatsticos.
[150]
leite & freitas

No estudo do corpus Blogs SME/RJ, foram obtidas 2200 linhas de concordncia para
as palavras jovem/jovens, e 1940 para adolescente/adolescentes, implicando tempo
significativo para o acesso, caso a caso, dessas inscries constatao que nos
leva ao que propomos como perspectivas.
A aproximao com os estudos lingusticos com corpus leva aos trabalhos com
corpora anotados, do qual o servio do AC/DC (Costa et al. 2009) exemplar: voltando pesquisa sobre as questes de gnero, a leitura das linhas de concordncia
para verificar os contextos de brasileiro(s) em oposio a brasileira(s) ganharia
novos contornos com a observao da distribuio dos substantivos modificados
por cada um dos itens mencionados. Do mesmo modo, para os personagens dos
problemas de Matemtica, seria vantajoso poder buscar diretamente por nomes
prprios que se referem a pessoas (e no a lugares ou instituies, por exemplo).
Assim, para alm do tratamento prioritariamente quantitativo oferecido pelo
Corpgrafo e programas similares, entendemos que a anotao lingustica de textos, a partir de questes especficas da pesquisa em Educao, pode viabilizar
o trabalho de discusso sistemtica de grandes volumes textuais (Freitas 2014).
Trata-se de projeto multidisciplinar, que depende da mtua aproximao entre
os Estudos da Linguagem, a Lingustica Computacional e a Educao, o que certamente no se efetiva em curto prazo. Acena, no entanto, com a possibilidade
de ganho que parece valer os custos que coloca: a possibilidade da abordagem
qualitativa de corpora de larga escala.
Como nossas ltimas palavras, lembramos que inquietao e curiosidade fazem parte do perfil do pesquisador, e a apropriao do Corpgrafo que apresentamos aqui ilustra esse aspecto: idealizado por Belinda Maia, foi o primeiro programa com que tivemos contato para verificar as possibilidades de uma abordagem alternativa dos textos da pesquisa em Educao, mesmo tendo sido criado
com o objetivo de auxiliar a traduo e a gesto de terminologias.
No custa portanto imaginar um cenrio ideal para a pesquisa com grandes
corpora que conjugasse as ideias inicialmente concretizadas no Corpgrafo (compilao e gerenciamento dos prprios corpora, de interesse do pesquisador/a) e as
facilidades do AC/DC anotao morfossinttica e semntica, sistema de busca e
servios que a ele vem se associando (Santos 2014). Vale lembrar que se tais servios vm sendo desenvolvidos no contexto dos estudos da lngua, no improvvel
que outros usos surjam da, repetindo o prprio uso de corpora e do Corpgrafo,
situao favorecida quando se tem recursos de qualidade pblicos, abertos e disponveis - novas apropriaes, novos usos.
[151]
referncias
Anthony, Laurence. 2012. AntConc (version 3.3.5). http://www.antlab.sci.
waseda.ac.jp.
Arrojo, Rosemary (ed.). 1992. O signo desconstrudo. Pontes.
de Beaugrande, Robert. 2002. Descriptive linguistics at the millennium: corpus
data as authentic language. Journal of Language and Linguistics 1(2). 91131.
Brando, Zaia. 2002. Pesquisa em educao: conversas com ps-graduandos Coleo
Teologia e cincias humanas. Editora PUC-Rio.
Butler, Judith. 1997. Excitable speech. A politics of the performative. Routledge.
Butler, Judith. 2003. Problemas de gnero: feminismo e subverso da identidade. Editora Civilizao Brasileira. Traduo de Renato Aguiar.
Costa, Lus, Diana Santos & Paulo Alexandre Rocha. 2009. Estudando o portugus
tal como usado: o servio AC/DC. Em The 7th Brazilian Symposium in Information
and Human Language Technology (STIL 2009), s/pp.
Davis, Claudia Leme Ferreira, Gisela Lobo Baptista Pereira Tartuce, Patrcia C. Albieri de Almeida & Ana Paula Ferreira da Silva. 2013. Os esquecidos anos finais
do ensino fundamental: polticas pblicas e a percepo de seus atores. Em
Anais da 36a Reunio Anual da ANPEd, .
Freitas, Cludia. 2014. Corpus, Lingustica Computacional e as Humanidades Digitais. Em Miriam Leite & Carmen Gabriel (eds.), Linguagem, Discurso, Pesquisa e
Educao, 2251. DP et Alii.
Gatti, Bernardete. 2004. Estudos quantitativos em educao. Educao e Pesquisa
30(1). 1130.
Gatti, Bernardete. 2012. A construo metodolgica da pesquisa em educao:
desafios. Revista Brasileira de Poltica e Administrao da Educao 28(1). 1334.
Leite, Miriam. 2013. Blogs SME/RJ. http://www.ddeej.com.
Leite, Miriam. 2014. Adolescncia e juventude em desconstruo: textos e contextos na educao escolar. Em Miriam Leite & Carmen Gabriel (eds.), Linguagem,
Discurso, Pesquisa e Educao, 281307. DP et Alii.
Leite, Miriam. 2015. Pesquisa em educao e cibercultura: questes de metodologia e poltica. Em Edma Oliveira & Maria Luiza Oswald (eds.), Educao, cibercultura e redes sociais em tempos de mobilidade, no prelo.
[152]
leite & freitas

Ldke, Menga & Marli Andr. 2008. Pesquisa em educao: abordagens qualitativas
Temas bsicos de educao e ensino. EPU.
Martins, Helena. 1999. Metfora e polissemia no estudo das lnguas do mundo: uma
apresentao no representacionista: Universidade Federal do Rio de Janeiro. Tese
de Doutoramento.
Romo, Carla de Oliveira. 2014. Identificaes do feminino em materiais didticos contemporneos: Universidade do Estado do Rio de Janeiro. Tese de Mestrado.
Sampson, Geoffrey. 2001. Empirical linguistics. Continuum.
Santos, Diana. 2014. Podemos contar com as contas? Em Sandra Alusio & Stella
Tagnin (eds.), New language technologies and linguistic research: a two-way road,
194213. Cambridge Scholars Publishing.
Sarmento, Lus, Belinda Maia & Diana Santos. 2004. The Corpgrafo - a Web-based
environment for corpora research. Em Maria Teresa Lino, Maria Francisca Xavier, Ftima Ferreira, Rute Costa & Raquel Silva (eds.), Proceedings of the 4th International Conference on Language Resources and Evaluation (LREC2004), 449452.
c o n ta c t o s
Miriam Soares Leite
Universidade do Estado do Rio de Janeiro
miriamsleite@yahoo.com.br
Cludia Freitas
PUC-Rio
claudiafreitas@puc-rio.br
encadear
encadeamento automtico de notcias
CARLA ABREU, JORGE TEIXEIRA E EUGNIO OLIVEIRA
abstract
This work aims at defining and evaluating different techniques to automatically build temporal news sequences. The approach proposed is composed
by three steps: (i) near duplicate documents detention; (ii) keywords extraction; (iii) news sequences creation. This approach is based on: Natural
Language Processing, Information Extraction, Name Entity Recognition and
supervised learning algorithms. The proposed methodology got a precision
of 93.1% for news chains sequences creation.
[1] i n t r o d u o
Diariamente so publicadas grandes quantidades de notcias online, o que pode

conduzir a uma sobrecarga de informao para o leitor. Para estar informado e
atualizado de um determinado acontecimento, o leitor depara-se com um vasto
conjunto de artigos noticiosos, artigos esses que, em muitos casos, descrevem um
mesmo evento, podendo apresentar apenas pequenas variaes textuais. A situao agrava-se quando o leitor pretende saber mais detalhes sobre uma dada
histria ou sequncia de eventos. Um exemplo concreto o desaparecimento do
avio da Malaysia Airlines a 8 de maro de 2014. Considerando o dia 6 de outubro de
2014 a pergunta (query) avio Malaysia pesquisada no Google News (news.google.pt)
retorna uma lista com mais de 50 notcias relacionadas. Dessas notcias retiramos a informao de que as buscas pelo avio foram retomadas. Como possvel
observar pelos seguintes ttulos: Retomadas buscas pelo avio da Malaysia Airlines
(Renascena, 06/10/2014) e Recomeam as buscas pelo avio desaparecido da Malaysia
Airlines (Jornal de Notcias, 06/10/2014) o evento noticiado o mesmo, mas pelo
facto das notcias serem provenientes de fontes noticiosas diferentes apresentam
variaes textuais.
Este problema da sobrecarga de informao agrava-se quando o leitor quer
perceber a histria do desaparecimento do avio como um todo, e informar-se
sobre todos os eventos que ocorreram relativamente a este acontecimento. A
pergunta (query) desaparecimento Malaysia Airlines sem delimitaes temporais
ao Google News apresenta mais de 4.500 resultados. Neste conjunto de resultados
torna-se complicado ou at mesmo humanamente impossvel no s a deteo de
todos os eventos como apenas os mais relevantes para a histria. Por conseguinte,
[154]
abreu, teixeira & oliveira

o leitor no consegue ter a perceo de toda a histria, descrita em mais de 4.500
notcias diferentes.
O objetivo deste trabalho colmatar este problema: automaticamente detetar
e agrupar notcias similares e automaticamente criar histrias a partir de notcias relacionadas temporalmente. Proporciona-se deste modo ao leitor uma nova
forma de navegao entre eventos relativos a um mesmo acontecimento.
Pretendemos, numa primeira fase, detetar e agrupar notcias duplicadas (ver
Figura 1). Utilizamos mtodos de processamento de linguagem natural, algoritmos de medio de distncia entre strings1 (para o clculo da proximidade entre
notcias) e algoritmos supervisionados de aprendizagem automtica (para a determinao da similaridade entre notcias). Numa segunda fase (ver Figura 2), com
vista formao automtica de cadeias noticiosas, extramos termos relevantes
das notcias como por exemplo o tpico principal da notcia, as entidades, os locais e os nomes das personalidades; e ligamos os grupos de notcias pela medio
da distncia entre os mesmos. Utilizamos algoritmos de aprendizagem supervisionada para ligar notcias de forma sequencial para criar uma histria temporalmente lgica e contextualizada.
figura 1: Deteo e agrupamento de notcias similares

Este artigo encontra-se organizado da seguinte forma: na seco [2] apresentaremos o essencial sobre trabalhos relacionados. Na seco [3] vamos expor detalhadamente todos os passos da metodologia aplicada. Na seco [4] vamos enunciar os recursos lingusticos utilizados. Seguem-se a descrio das experincias
realizadas (seco [5]) e a apresentao e discusso dos resultados na seco [6].
Na seco [7] apresentada a interface grfica desenvolvida como prova de conceito. Por fim so apresentadas as concluses e o trabalho futuro na seco [8].
[1]
Sequncia de carateres.
encadear: encadeamento automtico de notcias
[155]
figura 2: Construo de cadeias noticiosas

[2] t r a b a l h o s r e l a c i o n a d o s
[2.1] Detetar Notcias Duplicadas

Notcias quase duplicadas so notcias publicadas por fontes distintas mas cujo
contedo e data de publicao so muito semelhantes. A publicao deste tipo de
notcias bastante comum mas no traz nenhuma mais valia ao leitor. Adicionalmente, o seu armazenamento tem elevados custos computacionais. Devido a estes
constrangimentos torna-se necessria a deteo deste tipo de notcias (Kumar &
Govindarajulu 2009).
So vrias as abordagens propostas para a resoluo do problema de deteo de notcias quase duplicadas, entre elas encontram-se: a abordagem baseada
no lxico, a abordagem baseada no URL e a abordagem baseada na semntica.
A abordagem baseada no lxico no requer nenhum conhecimento lingustico.
O objetivo perceber a existncia de termos em comum entre documentos. A
abordagem baseada no URL visa detetar notcias duplicadas pela comparao do
endereo URL. Porm esta abordagem continua a no ser suficiente. Isto porque, no existe um padro estabelecido pelas diversas fontes noticiosas de como
criar um URL e, portanto, podendo este conter ou no informao til. A abordagem semntica uma abordagem mais completa, esta inclui a necessidade de prprocessamento implicando: tokenization, stemming e remoo das stop-words. Aps
o pr-processamento do texto, as notcias so comparadas atravs de uma funo
de similaridade. Esta funo tem como objetivo medir o grau de semelhana entre pares de notcias. O valor retornado por esta funo varia entre [0,1], e tanto
maior quanto maior for a semelhana existente entre as notcias.
No trabalho intitulado Duplicate Record Detection: A Survey, Elmagarmid et al.
(2007) explicam todo o fluxo necessrio deteo de documentos duplicados. Este
trabalho refere-se abordagem semntica. As notcias so inicialmente processadas, seguindo-se a determinao dos campos a comparar; , depois, medido o grau
de semelhana entre pares de notcias; e por fim, com base no resultado obtido
determinado se os documentos so ou no similares. Os autores ilustram quatro
[156]

mtricas: similaridade de strings baseada em carateres; similaridade baseada em
tokens; similaridade fontica e similaridade numrica.
A similaridade baseada em caracteres foi desenvolvida para detetar erros tipogrficos. Alguns exemplos dessas mtricas so: algoritmos de edio de distncia
(Hamming (He et al. 2004) e Levenshtein (Levenshtein 1965)) que visam calcular
o nmero de adies, substituies e remoes necessrias para converter uma
string numa outra, como por exemplo futebol e futbol; distncia Affine Gap
(Waterman et al. 1976) que consiste em abrir ou estender um espao, para transformar uma string noutra, como: C Ronaldo e Cristiano Ronaldo; a mtrica
de distncia Jaro (Bilenko et al. 2003) que mede a semelhana entre duas strings
tendo em conta o comprimento das mesmas, o nmero de carateres em comum e
o nmero de transposies necessrias; e a mtrica Q-grams (Ullmann 1977) que
consiste na diviso das strings iniciais em substrings de tamanho q, a medio de similaridade entre documentos consiste na medio de substrings em comum entre
as duas notcias.
Para o clculo da similaridade entre pares de notcias utilizamos uma abordagem baseada em algoritmos de aprendizagem automtica.
Infelizmente, existem poucos estudos desenvolvidos no sentido de verificar a
eficincia da utilizao de mtricas de distncia (Elmagarmid et al. 2007). Existem,
por exemplo, alguns estudos que mencionam a eficincia da mtrica de distncia
Jaro (Bilenko et al. 2003; Yancey 2005) na comparao de nomes.
Para a deteo e agrupamento de notcias similares tambm recorrente a
utilizao de abordagens de clustering (Banerjee et al. 2007; Vadrevu et al. 2011).
Nesta abordagem o documento caracterizado por um conjunto de palavras, usualmente representado por um vetor de frequncia da ocorrncia dos termos. A determinao da similaridade entre agrupamentos e respetivo agrupamento efetuase aps a aplicao de um algoritmo de clustering sobre a coleo. Existem duas
abordagens de clustering que podem ser aplicadas: a supervisionada, onde os tpicos so conhecidos, e a no supervisionada, onde no existe conhecimento inicial.
Existem dois grandes problemas associados aplicao de tcnicas de clustering
supervisionado, estes so: definio de categorias, tornam o sistema rudimentar,
pois ao longo do tempo h uma tendncia para o aparecimento de novas categorias; uma categoria abrange no s notcias duplicadas, como abrange tambm
notcias que se referem ao mesmo tema. O problema relacionado com o clustering no supervisionado o de no conhecermos os elementos responsveis pela
elaborao dos agrupamentos.
O nosso contributo, na componente da deteo de notcias quase duplicadas,
diz respeito ao estudo da eficincia de alguns algoritmos de edio de distncia
para textos estruturados de dimenso varivel, pela utilizao de uma abordagem
baseada na semntica. As etapas necessrias para a elaborao deste mdulo pode
ser observada na Figura 1.
[157]
[2.2] Gerao Automtica de Histrias

Diversos trabalhos tem sido conduzidos com o objetivo de criarem histrias a partir de vrios documentos como: notcias (Shahaf & Guestrin 2010; Mei & Zhai
2005), blogs (Lin et al. 2012; Qamra et al. 2006) e resultados de pesquisas (Kumar
et al. 2004). Em alguns trabalhos, antes da criao da histria noticiosa o leitor
tem que indicar o tema de pesquisa (Shahaf & Guestrin 2010; Lin et al. 2012). Outros trabalhos porm, visam ser mais abrangentes, e determinar dentro do seu
conjunto de dados todas as histrias existentes (Allan et al. 1998b; McKeown et al.
2002). A primeira abordagem utilizada em estudos relacionados com o tpico
Gerao da Histria sendo que a segunda abordagem mais popular em estudos de Deteo de Tpicos e Monitorizao. Em relao a estes dois tpicos, de
notar que existem poucos estudos sobre o primeiro, mas, no entanto, o segundo
tpico tem vindo a ser extensivamente estudado (Lin & Liang 2008). Segundo Allan et al. (1998b), o conhecimento inicial dado ao sistema para a criao das histrias pode no ser adequado monitorizao das mesmas uma vez que o tema de
discusso associado a um evento muda frequentemente.
Outra rea que visa organizar e estruturar informao a classificao hierrquica (Sun & Lim 2001; Lawrie & Croft 2000; Li et al. 2007). A estrutura hierarquia
impe uma estrutura a um conjunto de dados. Porm, no identificamos nenhum
estudo realizado de forma a perceber se essa estrutura reflete as relaes existentes entre os diversos documentos (Nallapati et al. 2004).
A nossa abordagem para a gerao automtica de histrias a partir das notcias
baseia-se nas etapas utilizadas nos diferentes trabalhos com o mesmo propsito.
As diferentes etapas consideradas, bem com o seu fluxo, podem ser observadas na
Figura 2.
Gerao da Histria
O trabalho intitulado Connecting the Dots Between News (Shahaf & Guestrin 2010)
visa encontrar uma histria coerente num conjunto de artigos noticiosos a partir de um ou mais tpicos indicados pelo utilizador. O mtodo utilizado neste
trabalho aplicvel a outros domnios como: emails, artigos cientficos e inteligncia militar. Neste trabalho os autores introduziram a noo de coerncia, e
feedback do utilizador. A abordagem proposta pelos autores consistiu na identificao de ligaes entre notcias, tendo em conta: palavras omissas, palavras que
esto relacionadas com as palavras do texto embora no apaream no mesmo, e
a importncia das palavras. O problema da formao das cadeias de notcias foi
solucionado recorrendo a uma abordagem de programao linear.
Outro trabalho desenvolvido com o propsito de gerar uma linha temporal de
uma histria o A Graph Teoretic Approach to Extract Storylines from Serach Results
(Kumar et al. 2004). Neste trabalho os resultados de pesquisa so representados
numa estrutura de grafos, onde, os ns representam a informao associada ao
[158]

documento, e as ligaes entre os ns, representam o peso de ligao. Para a elaborao das cadeias, os autores recorrem utilizao de um algoritmo de pesquisa
local sobre a estrutura definida.
Deteo de Tpicos e Monitorizao

Existem trs tarefas associadas a deteo de tpicos e monitorizao, so elas:
monitorizao de eventos conhecidos (eventos j detetados pelo sistema), deteo
de novos eventos, e segmentao das notcias em histrias. O grande objetivo dos
estudos de deteo de tpicos e monitorizao o de identificar todas e quaisquer
notcias relacionadas com um dado evento (Allan et al. 1998a).
Para o nosso trabalho, a componente mais interessante deste estudo a forma
como executado o monitoramento de uma histria nas notcias. A abordagem de
monitoramento utilizada em On-line News event detection and tracking (Allan
et al. 1998b) comea por reduzir o contedo noticioso a um conjunto de entre
10 a 20 features. Os autores acreditam que poucas features so necessrias para
o monitoramento de notcias uma vez que o essencial de uma histria tende a
ser descrito por um conjunto pequeno de palavras ou frases. Neste trabalho, as
cadeias so obtidas pelo clculo de semelhana entre as queries que caracterizam
cada notcia.
[3] m e t o d o l o g i a
[3.1] Similaridade
Abordamos a similaridade entre artigos noticiosos em quatro passos distintos: (i)
normalizao do contedo noticioso;(ii) identificao dos elementos a comparar;
(iii) comparao entre pares de notcias; (iv) tomada de deciso.
Normalizao
A normalizao de textos uma etapa tradicional em NLP para simplificar a anlise posterior dos mesmos. Realizamos as seguintes tarefas de normalizao:
1) Remoo de smbolos de pontuao, como: <,>, /, ,, (, ), -;
2) Remoo de padres redundantes e que no mbito deste trabalho, no so informativos, como: Lusa - Esta notcia foi escrita nos termos do Acordo Ortogrfico;
3) Remoo de stop-words, atravs da utilizao de uma lista disponibilizada pelo snowball 2 (para a lngua portuguesa);
4) Reduo das palavras sua raiz atravs da utilizao do Porter Stemmer para lngua
portuguesa, disponibilizado pelo PTStemmer (Oliveira 2008).
Na Tabela 1 apresentamos um exemplo da normalizao, desde a notcia original at sua verso normalizada.
[2]
https://snowball.tartarus.org

Operao
Exemplo
Notcia original
Nova Deli, 02 jan (Lusa) - A ndia anunciou que vai permitir a cidados
estrangeiros investirem no seu mercado de aes.
1- Pontuao
Nova Deli 02 jan Lusa A ndia anunciou que vai permitir a cidados
estrangeiros investirem no seu mercado de aes.
2- Padres
A ndia anunciou que vai permitir a cidados estrangeiros investirem

no seu mercado de aes.
3- Stop-words
ndia anunciou vai permitir cidados estrangeiros investirem mercado aes.
4- Stemm
ndi anunc va permit cidad estrangeir invest merc a.
[159]
tabela 1: Exemplo do fluxo da normalizao.
Identificao dos elementos a comparar

Identificamos cinco contedos essenciais nos artigos noticiosos publicados em
formato digital: ttulo, corpo da notcia, data de publicao, URL e metadados
(tags).
URL: provenientes de diferentes domnios tm uma composio distinta. A Tabela 2 apresenta trs pares <ttulo, URL>. O primeiro URL composto pelo ttulo
da notcia; j o segundo d-nos a indicao das reas a que a notcia est associada,
no explicitando em concreto o acontecimento presente; o terceiro exemplo no
nos consegue transmitir nenhuma informao concreta para alm do domnio.
Al Qaeda revindica atentados em quartel militar do Imen
http://visao.sapo.pt/al-qaeda-revindica-atentados-em-quartel-militar-do-iemen=f803958
Plantel empenhado na vitria em Barcelos

http://www.record.xl.pt/Futebol/Nacional/1a_liga/academica/interior.aspx?content_id=
919169
Cidade chinesa gera energia com queima de notas de banco

http://diariodigital.sapo.pt/news.asp?id_news=750321
tabela 2: Exemplos de URL
Corpo da notcia: o ttulo ou corpo da notcia, como componentes isolados, podem no ser suficientes para a determinao da similaridade. Identificamos o cabealho da notcia, tipicamente o primeiro pargrafo, como sendo um elemento
adicional a considerar para o clculo da similaridade entre notcias (ver Figura 3).
Este cabealho corresponde muitas vezes ao resumo da notcia e como tal muito
informativo.
[160]
figura 3: Campos da notcia a serem comparados.
Data de publicao: as notcias contm informao temporal importante para a

contextualizao do evento. Assumimos que existe um intervalo de tempo restrito dentro do qual h uma maior tendncia para o aparecimento de notcias duplicadas. Por exemplo, mais provvel a existncia de notcias duplicadas com
intervalo de datas de publicao de 24 horas do que numa semana. Deste modo, o
fator tempo serve como delimitador do intervalo temporal de notcias comparveis.
Comparao de Notcias
Podem ser utilizadas diferentes mtricas para o clculo da similaridade. Neste
trabalho, consideramos as seguintes: Hamming (He et al. 2004), Levensthein (Levenshtein 1965) e Jaro (Bilenko et al. 2003).
De forma a que os resultados destas mtricas possam ser comparveis, necessrio proceder normalizao dos mesmos, aplicamos a seguinte frmula (Expresso 1) aos resultados retornados pelos mtodos de edio de distncia.
D (s, t) = 1
D(s, t)
, D Q|D [0; 1]
max (|s|, |t|)
(1)
Onde:
D(s, t) a distncia obtida pela mtrica de edio de distncia entre a string s e t;
max (|s|, |t|) o comprimento da string de maior dimenso entre s e t;
D (s, t) a distncia normalizada entre s e t.
Para cada par de notcias calculado o D . A deciso sobre a similaridade
decidida no passo posterior.
[161]
Deciso da similaridade entre notcias

Usamos diversos mtodos de aprendizagem supervisionada para a classificao de
notcias duplicadas. Os algoritmos usados foram: Support Vector Classifier (SVC),
SVC Linear, Decision Tree e Random Forest. Estes algoritmos esto disponveis,
atravs de bibliotecas python, no scikit learn (Pedregosa et al. 2011).
A partir das distncias calculadas na seco [3.1.3] tiramos partido de algoritmos de aprendizagem supervisionada para classificar pares de notcias como
duplicadas ou no duplicadas.
[3.2] Agrupamento de Notcias
Este mdulo responsvel pela criao de grupos de notcias duplicadas usando
os resultados dos pares de notcias previamente classificadas (ver seco [3.1.4]).
Um exemplo ilustrativo dos passos necessrios desde a receo das notcias
at composio dos agrupamentos pode ser ilustrado pela Figura 1. Neste caso,
estamos perante seis notcias (A,B,C,D,E,F) que formam quinze pares distintos (AB,
AC, AD, AE, AF,BC, BD, BE, BF,CD, CE, BF,DE, DF, EF). Estes pares de notcias so
comparados na seco [3.1] e deste mdulo so considerados como duplicados os
pares AD, AE, BF e DE. Pela observao do exemplo, constatamos que so formados
dois grupos (BF e ADE).
[3.3] Extrao de Termos Chave
Para cada grupo de notcias necessrio e essencial, sintetizar a informao contida nesses grupos.
Na nossa abordagem, vamos representar as notcias por um conjunto de termos chave. Os termos chave podem ser considerados termos que transmitem informao relevante do texto, como: o tpico da notcia, nomes de personalidades,
locais e outros. Consideramos trs tipos de termos chave: (i) palavras isoladas
(uni-grams) (ii) expresses relevantes (n-grams) e (iii) entidades.
Palavras Isoladas
As palavras isoladas correspondem a palavras compostas por um token que aparecem explicitamente no contedo noticioso. De forma a obtermos estas palavras
executamos trs tarefas: POS Tagger, normalizao e anlise da frequncia da palavra.
POS Tagger: visa a identificao das categorias gramaticais das palavras que compe o texto da notcia. Utilizamos nesta tarefa o TreeTagger (Schmid 1994) adaptado para a lngua portuguesa, disponibilizado por Garcia & Gamallo (2013).
Normalizao: corresponde remoo de padres lingusticos e frases recorrentes do corpo da notcia obtidos por inspeo manual, como: expresses de datas
[162]

(Porto, 12 Agosto 2014), resultados de futebol (21) e padres jornalsticos (Porto,
12 Agosto 2014 (Lusa)).
Anlise da frequncia da palavra: pela utilizao da mtrica estatstica Term Frequency-Inverse Document Frequency (TF-IDF). No seu clculo, esta mtrica relaciona
o aparecimento de um termo na notcia com o aparecimento do mesmo na coleo
permitindo assim detetar a existncia de termos relevantes.
Da anlise da frequncia de palavras no texto resulta uma lista de palavras
com peso associado. Consideramos como palavras relevantes, aquelas com maior
peso e pertencentes categoria gramatical nome.
Expresses Relevantes
As expresses relevantes correspondem a ngrams que aparecem explicitamente
no contedo noticioso e que de uma forma simplificada podem transmitir informao relevante contida no texto.
Para a extrao deste elemento do texto foi adicionado um passo intermdio
abordagem apresentada na seco [3.3.1]. Para tal, aps a normalizao foi aplicado um filtro de forma a obter expresses do texto. As expresses so ngrams,
que obedecem a certos padres gramaticais, como: sequncias de nomes (Domingos Pacincia), nome e adjetivo (homens encapuzados) entre outros.
A anlise da frequncia neste caso efetuada sobre os padres. O resultado
retornado pela anlise de frequncia indica-nos quais as expresses relevantes
para a notcia em questo. A ltima etapa consiste na atribuio das expresses
relevantes notcia.
Entidades
O reconhecimento de entidades mencionadas, nomeadamente o nome de personalidades, essencial no contexto de extrao de termos e expresses chave das
notcias.
Existem disponveis vrios recursos para o reconhecimento de entidades mencionadas para a lngua portuguesa, como os mencionados pela Linguateca3 . No
entanto e no mbito deste trabalho, estamos perante um domnio muito dinmico, as notcias, onde constantemente aparecem novas entidades (Charlie Hebdon, Fukushima). Optamos por implementar um sistema que se adapta a estas
caractersticas.
Foi implementado um algoritmo com o objetivo de verificar, numa primeira
fase, quais as palavras no texto que se iniciam com um carter maisculo. Das palavras encontradas, se a palavra maiscula estiver posicionada no inicio da frase
verificado se a palavra ou no uma stop-word, e caso seja, ento no considerada. Para as palavras que passarem a fase anterior verificado se so precedidas
[3]
http://www.linguateca.pt/LivroSegundoHAREM/
[163]
de outras palavras capitalizadas, sendo permitido uma palavra de ligao entre

termos capitalizados inicializada a minscula. Um exemplo de entidades extradas pelo algoritmo dado pelos seguintes termos: Passos, Paulo Portas.
De forma a enriquecer os termos chave extrados para o conjunto de expresses e entidades extradas de cada noticia tentamos identificar quais desses termos relevantes so nomes de personalidades. Para tal comparamos esses termos
com um recurso externo, o Verbetes4 .
[3.4] Atribuio de termos relevantes aos agrupamentos

Depois da juno de notcias similares em agrupamentos (seco [3.2]) e aps realizada a extrao de termos relevantes de cada notcia (seco [3.3]), possvel
fazer a atribuio dos termos chave aos agrupamentos de notcias.
Os termos chave associados a cada agrupamento correspondem aos termos
relevantes que esto associados a cada uma das notcias do agrupamento. de
referir que cada termo chave tem um peso (w), que est relacionado com a sua
frequncia (f ) no agrupamento. A importncia de um termo dado pela relao
entre o nmero de notcias em que o termo aparece e nmero total de notcias
que compe o agrupamento. Um exemplo de palavras relevantes associadas a um
agrupamento e respetiva importncia dado por:
reclusos[f=9;w=1];presos[f=9;w=1];
crcere[f=7;w=0.78];sudoeste[f=7;w=0.78];
representantes[f=6;w=0.67];
violao[f=6;w=0.67];cadeia[f=5;w=0.56];
quilmetros[f=4;w=0.44];irmos[f=4;w=0.44];
Neste agrupamento, o termo reclusos mais representativo do conjunto do que
o termo irmos. Isto porque, considerando que o agrupamento em questo tem
nove notcias, o primeiro termo aparece associado a todas as notcias do agrupamento (f = 9), tendo um peso de w = 99 , ou seja 1; enquanto o segundo termo s se
encontra associado a 4 notcias do conjunto (f = 4), tendo um peso de w = 0.44.
[3.5] Ligaes entre Agrupamentos

Este mdulo visa identificar as ligaes entre os agrupamentos de notcias duplicadas previamente calculadas com os respetivos termos relevantes associados
(ver Figura 2).
Partimos do pressuposto que as cadeias noticiosas s podem existir para a
mesma categoria de notcias, de forma a simplificar esta tarefa. Para isso, fizemos a atribuio das categorias aos grupos de notcias, atravs de uma fonte de
conhecimento externo que mapeia as tags atribudas pelos jornalistas com a categoria a que a notcia fica associada. As categorias indicam de uma forma geral a
[4]
https://store.services.sapo.pt/pt/Catalog/other/free-api-information-retrieval-verbetes
[164]

rea a que a notcia pertence como: desporto, sociedade, poltica, economia, entre
outros.
Detalhamos nas subseces apresentadas de seguida a abordagem utilizada
para o processo de ligao de pontos entre os agrupamentos. Este foi realizado
em duas etapas: clculo da distncia entre termos relevantes e determinao das
ligaes entre agrupamentos.
Similaridade de termos relevantes

Comeamos por fazer a normalizao dos termos relevantes. Para as palavras
isoladas, expresses, entidades e personalidades, o texto convertido para letra
minscula. Para as palavras isoladas que so constitudas apenas por uni-grams
tambm se efetua a reduo ao seu radical. Aps a normalizao do texto, efetuado o clculo da similaridade entre os termos de cada agrupamentos atravs do
clculo da distncia entre: palavras isoladas, expresses, entidades e personalidades.
Para o clculo da similaridade entre palavras isoladas, entidades e personalidades, consideramos o peso de cada palavra individual no agrupamento que
dada pelas Expresses 2 e 3.
D1 (a, b) = 0.3
|ka | |kb |
+ 0.7
max(|ka |, |kb |)
|ka | |kb |
D2 (a, b) =
max(|ka |, |kb |)
|ka | |kb |
i=1 ( j=1aj =bi W ka j W kb i )
|ka | |kb |
|ka | |kb |
i=1 ( j=1aj =bi W ka j W kb i )
|ka | |kb |
(2)
(3)
Onde:
W ka j o peso da palavra-chave j no agrupamento a;
W kb i o peso da palavra-chave i no agrupamento b;
|ka | e |kb | so o nmero de palavras-chave iguais entre os agrupamentos a e b;
max (|ka |, |kb |) o nmero mximo de palavras-chave distintas.
As distncias D1 (a, b) e D2 (a, b) tm em conta a percentagem de termos em
comum entre os dois agrupamentos e a relao dos pesos que os termos em comum tm nos seus agrupamentos. D1 (a, b) estabelece um peso entre as duas parcelas, dando um maior relevo parcela que mede o relacionamento dos pesos das
palavras em comum; em D2 (a, b) no existem pesos associados s parcelas, mas
sim, uma relao entre elas.
Para o clculo da similaridade entre as expresses relevantes a abordagem
utilizada foi distinta. Para este caso, a normalizao incluiu um passo adicional,
[165]
remoo das stop-words. Aps esta tarefa foi construda uma string com todas as
expresses pertencentes a cada agrupamento, no considerando para este tipo
de termo relevante o seu peso. O clculo da similaridade entre as expresses foi
baseado num algoritmo de edio de distncia o qgrams (Ullmann 1977) (q = 3).
Determinao das ligaes entre agrupamentos

Esta etapa tem como objetivo determinar a partir dos valores de similaridade calculados anteriormente quais as ligaes mais relevantes. a partir destas ligaes
que se formam as cadeias noticiosas.
Para a ligao de agrupamentos, utilizamos algoritmos de aprendizagem supervisionada. Estes algoritmos recebem um conjunto de treino manualmente
anotado com ligaes relevantes entre agrupamentos, sobre o qual vo inferir
regras para determinar, a existncia de ligaes vlidas e relevantes. Utilizamos
como caractersticas (features) a distncia entre as palavras isoladas, expresses,
entidades e personalidades. Os algoritmos utilizados foram: Support Vector Classifier (SVC), SVC Linear, Decision Tree e o Random Forest.
Ao longo desta seco apresentamos a metodologia utilizada na deteo de
notcias duplicadas e na gerao automtica de cadeias noticiosas.
[4] r e c u r s o s l i n g u s t i c o s
Nesta seco caracterizamos o conjunto de dados e as fontes de conhecimento

externo utilizadas na elaborao deste trabalho.
[4.1] Caracterizao do conjunto de dados

Para a realizao deste trabalho foram utilizadas notcias publicadas online, escritas na lngua portuguesa e provenientes de diversas fontes noticiosas da imprensa
portuguesas. O conjunto de dados compreende mais de 4 milhes de notcias publicadas entre 2008 e 2014.
As notcias so provenientes de 73Nmero de fontes com mais de 100 notcias
publicadas. fontes noticiosas distintas e compostas em mdia5 por: 9 palavras no
ttulo; 204 palavras no contedo; 10 frases no contedo.
Na imprensa portuguesa so publicadas online diariamente aproximadamente
2.500 notcias6 . A Figura 4 representa a distribuio de notcias durante ms de
Maro de 2014. Atravs da observao da mesma possvel constatar que tendencialmente so publicadas menos notcias durante o fim de semana.
[5]
[6]
Anlise de aproximadamente 74000 notcias selecionadas de um ms aleatrio de 2014.

Dados relativos s notcias publicadas na imprensa portuguesa, no formato digital, no ms de Maro de
2014
[166]
figura 4: Nmero de notcias publicadas por dia no ms de Maro de 2014.

Estima-se que aproximadamente 45%7 das notcias publicadas diariamente sejam duplicadas ou quase duplicadas. A relao entre o nmero de notcias publicadas mensalmente com o nmero de notcias utilizadas para a criao dos agrupamentos pode ser visualizada na Figura 5. Para os primeiros oito meses de 2014
o nmero mdio de notcias por grupo de 3.8, os dados referentes ao nmero
mdio de notcias por grupo relativo a cada ms pode ser observado na Figura 6.
figura 5: Relao entre o nmero de notcias publicadas por ms com o nmero

de notcias utilizadas na criao dos agrupamentos (Janeiro a Agosto de
2014)
[7]
Nmero mdio de notcias online dirias duplicadas, publicadas na imprensa portuguesa, de 10 a 15 de

Maro de 2014
[167]
figura 6: Nmero mdio de notcias por agrupamento (Janeiro a Agosto de 2014)
Na Figura 7 podemos constatar que maioritariamente os grupos so constitudos por 2 notcias similares. possvel observar que o nmero de grupos existentes inversamente proporcional ao nmero de notcias que o compe.
figura 7: Constituio dos agrupamentos (seleo aleatria de 5 dias de 2014)

Definimos nove categorias associadas aos agrupamentos que so as categorias tipicamente usadas nos media digitais para organizar as notcias publicadas
online: poltica, economia, desporto, sade, cincias e tecnologias, sociedade, cultura, local e educao. Dos agrupamentos com apenas uma categoria associada
a distribuio dos mesmos por reas pode ser observado na Figura 8. possvel
observar que a categoria com maior expresso a categoria desporto (54.4%) e
assim sucessivamente.
[168]
figura 8: Distribuio dos agrupamentos por categoria
[4.2] Enunciao de fontes de conhecimento externo

No decorrer deste trabalho foram utilizadas as seguintes fontes de conhecimento:
Lista stop-words: Lista de stop-words especfica para a lngua portuguesa disponibilizada pela snowball.
Verbetes: O Verbetes um sistema de recolha automtica de informao a partir das notcias. Para este trabalho utilizamos uma lista de personalidades
extrada deste sistema.
Lista de Tags e Categorias: Lista elaborada manualmente por jornalistas que relaciona a tag associada notcia com a sua categoria principal.
Nesta seco foi caracterizado o conjunto de dados e as fontes de conhecimento externo utilizadas na elaborao deste trabalho.
[5] e x p e r i m e n ta o
Nesta seco so referidas as diferentes mtricas de avaliao utilizadas e descrito

o conjunto de experincias realizadas.
[5.1] Mtricas de Avaliao

Para avaliar o mdulo de similaridade (ver seco [3.1]) e ligaes entre agrupamentos (ver seco [3.5.2]), foram utilizadas quatro mtricas de avaliao: a preciso (precision), a abrangncia (recall), a accuracy e a F-measure (F1 ). No contexto
deste trabalho, a preciso indica a taxa de notcias consideradas similares que realmente o so e a taxa de ligaes efetuadas entre agrupamentos que realmente
[169]
existem. A abrangncia (recall) indica-nos, neste contexto, taxa de notcias duplicadas encontradas face s realmente existentes mas que no conseguimos identificar manualmente. A medida F1 estabelece uma relao entre a preciso e a
abrangncia. A accuracy indica-nos a avaliao geral do sistema.
A avaliao aos termos relevantes focou-se em avaliar, dos termos extrados,
quais so de facto realmente representativos da notcia. A avaliao foi realizada
usando a Expresso 4. A avaliao geral do sistema dada pelo somatrio percentagem de termos representativos das notcias analisadas, Expresso 5.
E(ni) =
TermosRepresentativos
TermosAtribudos
(4)
||N ||
Avaliao =
(E(ni ))
||N ||
i=1
(5)
Onde:
TermosRepresentativos corresponde ao nmero de termos relevantes ou entidades atribudos pelo mtodo, que realmente representam o contedo noticioso;
TermosAtribudos corresponde ao nmero total de termos relevantes ou entidades
atribudas ao documento;
||N ||: nmero de notcias da coleo N;
ni : corresponde notcia de ndice i do conjunto de notcias N.
[5.2] Enunciao e definio das experincias

Nesta seco so apresentadas as cinco experincias realizadas. Comeamos por
apresentar trs experincias relativas determinao da similaridade entre notcias. Na primeira experincia pretendemos perceber qual o algoritmo mais adequado ao clculo da similaridade entre notcias. A segunda experincia visa entender qual a influncia do fator tempo neste domnio, ou seja, se as notcias
duplicadas ou quase duplicadas surgem em intervalos temporais longos ou curtos. Por fim a terceira experincia tem como objetivo perceber qual o mtodo
de aprendizagem supervisionado mais apto para a determinao da similaridade
entre notcias.
A quarta experincia enunciada est relacionada com os termos chaves extrados. Por fim a quinta experincia refere-se s ligaes entre agrupamentos.
Ser usado Expi,j para representar a j-sima configurao de parmetros
para a experincia i.
[170]
Similaridade - Algoritmos de Edio de Distncia

A similaridade entre notcias obtida atravs do clculo da:
Similaridade do ttulo (ST) que corresponde percentagem de semelhana
entre os ttulos;
Similaridade do 1 pargrafo (SB) que corresponde ao resultado de comparao entre a parte das notcias que foca o evento em si;
Similaridade de contedo noticioso (SC) que corresponde ao resultado da
comparao do corpo das respetivas notcias.
figura 9: rvore de deciso elaborada para verificar se um par de notcias ou

no similar.
Esta experincia Exp1 visou perceber qual o algoritmo com o melhor desempenho para o clculo da similaridade entre pares de notcias. Esta experincia
foi efetuada sobre uma estrutura em forma de rvore de deciso, representada na
Figura 9. Esta foi criada manualmente, onde os valores t, f, c, correspondem aos
valores de deciso para o ttulo, foco e contedo da notcia. L, H, J correspondem respetivamente aos algoritmos Leventshein, Hamming e Jaro. A parametrizao usada nesta experincia encontra-se enunciada na Tabela 3. Por exemplo,
a Exp1,1 efetuada individualmente para os algoritmos Levenshtein, Hamming e
Jaro, com um threshold de 0.6 para t, f e c. As diferentes experincias visam perceber a influncia que os diferentes thresholds tm nos algoritmos.
Para a realizao desta experincia foram comparadas aleatoriamente 124750
notcias, para um dia aleatrio de 2014.
Similaridade - Fator Tempo

A experincia sobre o fator tempo (intervalo temporal) tem como objetivo verificar a influncia do intervalo temporal no que diz respeito identificao e classificao de notcias similares. Para tal, foram considerados cinco intervalos de

Exp
1, 1
1, 2
1, 3
1, 4
1, 5
1, 6
1, 7
Algoritmos
LHJ
LHJ
LHJ
LHJ
LHJ
LHJ
LHJ
t
0.60
0,70
0,70
0,70
0,80
0,80
0,80
f
0.60
0,60
0,70
0,70
0,70
0,80
0,80
[171]
c
0.60
0,60
0,60
0,70
0,70
0,70
0,80
tabela 3: Parametrizao para a experincia do clculo da similaridade.

tempo distintos: 3, 6, 12, 24, 48 horas; e foram utilizados quatro mtodos de classificao para a determinao da similaridade: SVC, SVC Linear, Decision Tree e o
Random Forest. Esta experincia foi elaborada utilizando uma tcnica de avaliao
cruzada, o k-fold cross validation (k = 5). O conjunto de dados utilizado resulta da
seleo aleatria de 500 notcias de dois dias distintos e consecutivos, anotadas
manualmente.
Similaridade - Deciso da similaridade entre notcias

Foi efetuada uma experincia com o objetivo de perceber qual o algoritmo de
aprendizagem supervisionada com o melhor desempenho na determinao da similaridade entre pares de notcias. A experincia foi efetuada em 500 notcias
selecionadas de forma aleatria de um dia aleatrio de 2014.
Extrao de Termos relevantes
Esta experincia tem como objetivo testar a abordagem utilizada para a extrao
de termos chave (palavras isoladas, expresses e entidades). Para a realizao
desta experincia foi selecionado aleatoriamente um dia de cada ms do ano 2012.
De cada dia foi selecionado um intervalo de trs horas, e dessas trs horas foram
selecionadas aleatoriamente dez notcias sobre as quais se efetuou a inspeo manual das palavras-chave atribudas.
Ligaes entre agrupamentos
Para a determinao das ligaes entre agrupamentos de notcias, realizado o
clculo da distncia entre: palavras isoladas, expresses, entidades e personalidades.
Esta experincia Exp2 tem como objetivo avaliar qual a abordagem mais
adequada para o clculo da similaridade e qual o mtodo de aprendizagem supervisionado mais eficiente para a determinao das ligaes. Todas as experincias
consideraram o clculo distncia pelo algoritmo Q-grams, para as expresses. A
avaliao resultante das diferentes experincias realizadas entre grupos de notOSLa volume 7(1), 2015
[172]

cias ao longo do tempo, para a formao de ligaes entre agrupamentos de notcias, encontra-se na Tabela 4. O conjunto de dados composto por agrupamentos
pertencentes aos meses de maro e abril de 2014. Desses agrupamentos, foram selecionados aleatoriamente 10 cadeias de notcias com tamanho varivel para cada
uma das seguintes categorias: desporto, economia, poltica, cultura e sociedade.
O conjunto de dados compreende, em mdia, 317 comparaes por categoria.
Exp
2, 1
2, 2
2, 3
2, 4
Palavras
D1
D2
D1
D1
Entidades
D2
D2
D1
D2
Personalidades
D1
D1
D1
D2
tabela 4: Descrio das experincias para o clculo das ligaes.

Nesta seco foram apresentadas as diferentes mtricas de avaliao utilizadas e descrito o conjunto de experincias realizadas.
[6] r e s u l ta d o s e a n l i s e
[6.1] Experincias
Os resultados obtidos nesta experincia Exp1 podem ser observados na Tabela 5. Desta tabela exclumos os resultados obtidos para algoritmo Jaro, devido
ao seu desempenho constante.
Exp
1, 1
1, 2
1, 3
1, 4
1, 5
1, 6
1, 7
Levensthein
P
R
F
0,941 0,761 0,841
0,950 0,655 0,775
0,951 0,645 0,769
0,972 0,637 0,770
0,965 0,507 0,665
0,964 0,483 0,643
0,962 0,463 0,625
P
0,941
0,940
0,940
0,940
0,939
0,939
0,938
Hamming
R
F
0,289 0,442
0,284 0,436
0,284 0,436
0,284 0,436
0,279 0,430
0,279 0,430
0,279 0,430
tabela 5: Resultados dos testes aos algoritmos de edio de distncia.

Da comparao entre o algoritmo Levensthein e o Hamming em Exp1,1 podemos
verificar que os valores da preciso so semelhantes, o que indica que a percentagem de notcias consideradas similares que realmente o so (true positive) igual.
Para o mesmo caso podemos verificar uma melhoria para o algoritmo Levensthein
para o recall.
[173]

O resultado obtido desta anlise pode ser observado no grfico apresentado na Figura 10. Como podemos constatar pela anlise do grfico, o aumento do intervalo
de tempo faz com que os valores se tornem constantes. Ao alargar o intervalo
de tempo de 24 para 48 horas no h variao nos valores de precision, recall e da
mtrica F1 .
figura 10: Valor da mtrica F1 obtido pelos diferentes algoritmos nos diferentes
intervalos de tempo.
Similaridade - Determinao Semelhana

Os resultados dos algoritmos de aprendizagem supervisionados na determinao
da similaridade podem ser observados na Tabela 6. Pela visualizao da tabela
possvel constatar que apesar do valor do recall ser baixo, o valor obtido pela
precision alto, o que garante a elevada qualidade da informao recolhida. O
algoritmo que apresenta um melhor desempenho o SVC Linear.
Decision Tree
SVC
SVC Linear
Random Forest
P
0,863
0,931
0,938
0,803
R
0,679
0,508
0,561
0,542
F1
0,760
0,657
0,702
0,647
A
0,998
0,997
0,998
0,998
tabela 6: Resultado mdio das mtricas de avaliao obtidas pelo k fold cross validation.
[174]
Extrao de Termos Relevantes

Os resultados da extrao de termos relevantes pode ser observado na Tabela 7. A
representatividade das palavras extradas face informao contida nas notcias
de: 73,2% para as palavras isoladas, 76,2% para as expresses e 80.4% para as
entidades.
Palavras
Expresses
Entidades
Avaliao
0,732
0,762
0,804
tabela 7: Avaliao dos termos chave.

Na Tabela 8 so apresentados os resultados da preciso para as ligaes entre
agrupamentos. A partir da anlise dos resultados podemos verificar que o mtodo
com um melhor desempenho o SVC Linear e que em 93.3% dos casos analisados
as ligaes entre notcias so verdadeiras.
Exp
2, 1
2, 2
2, 3
2, 4
SVC
0.931
0.921
0.906
0.931
Decision
Tree
0.849
0.821
0.764
0.834
Random
Forest
0.859
0.852
0.824
0.858
tabela 8: Valor da preciso na determinao de ligaes entre agrupamentos de

notcias.
[6.2] Anlise dos resultados obtidos

Dos resultados obtidos nestas experincias, podemos observar na Tabela 5 que o
algoritmo Jaro o que apresenta a nvel global um pior desempenho. No entanto,
segundo estudos realizados, este algoritmo tem um melhor desempenho aquando
da comparao de pequenas strings (Bilenko et al. 2003), o que no acontece no
domnio das notcias. Os valores da preciso entre a utilizao do algoritmo Levensthein e o Hamming so muito prximos, obtendo o algoritmo Levensthein ao
longo das diferentes experincias um melhor desempenho nesta mtrica. Comparando as restantes mtricas de avaliao, para estes dois algoritmos, possvel
observar que o Levensthein obtm uma melhor performance a nvel da mtrica reOSLa volume 7(1), 2015
[175]
call, o que significa que consegue detetar mais casos do que o Hamming. Uma razo
para que isto suceda est relacionado com uma particularidade deste ltimo algoritmo que a comparao de strings do mesmo comprimento; a nvel da mtrica
F1 , tambm o Levensthein obtm um melhor resultado. Atravs da anlise efetuada a estes trs algoritmos possvel concluir que o Levensthein o algoritmo mais
indicado para o clculo da similaridade entre pares de notcias.

Um fator importante para a comparao das notcias a sua data de publicao.
Dos resultados apresentados, os algoritmos que apresentam uma melhor preciso
so o SVC e o SVC Linear. Sendo que destes dois, o SVC Linear tem um desempenho superior a nvel do recall e da mtrica F1 . Relativamente questo temporal,
podemos perceber, que todos os algoritmos tm um comportamento semelhante
medida que o intervalo temporal aumenta. Pela anlise do grfico possvel
verificar que no existem variaes dos resultados quando o intervalo de tempo
alargado de 24 para 48 horas. Isto pode indicar que os casos de notcias duplicadas ou quase duplicadas surgem quase sempre num intervalo inferior ou igual
a 24 horas. Com base nos resultados obtidos constatou-se que um intervalo de
tempo de 24 horas era o mais adequado para a comparao de notcias.
Similaridade - Determinao Semelhana
Para a determinao da similaridade das notcias, os algoritmos que apresentam
um melhor desempenho, considerando o T = 24 horas, so: a nvel da preciso
o SVC Linear (93.8%) e SVC (93.1%) ; em relao mtrica recall e a mtrica F1 o
Decision Tree (67.9% e 76.0%) e SVC Linear (56.1% e 70.2%). Comprando o desempenho dos diferentes algoritmos para as diferentes fases de processamento e tendo
em conta as opes escolhidas a nvel de algoritmo de clculo da similaridade e intervalo de tempo considerado, podemos constatar que o algoritmo que apresenta
um melhor desempenho a nvel global o SVC Linear.
Extrao de Termos Relevantes
A avaliao manual relevncia das palavras-chave extradas consistiu em analisar a representatividade dos termos extrados do texto em relao ao contedo
da notcia. O resultado da avaliao a estes elementos pode ser observada na Tabela 7. Os resultados indicam que 73,2% das palavras, 76,2% das expresses e 80,5%
das entidades so representativas do conjunto. Atravs da anlise ao teor dos termos extrados foi possvel constatar que as palavras relevantes dizem respeito a
palavras que descrevem de forma genrica o contedo da notcia; por sua vez, as
expresses relevantes j transmitem com mais especificidade o assunto da notcia.
No exemplo das notcias sobre o desaparecimento do Avio da Malaysia Airlines,
temos como palavra relevante avio e como expresso avio Malaysia Airlines.
[176]

Da anlise aos resultados obtidos pela comparao da Exp2,1 com a Exp2,2 , em
que o que foi modificada a frmula de clculo da distncia entre as palavras isoladas, possvel observar que todos os algoritmos conseguem um melhor desempenho considerando a frmula de clculo D1; face diferena da preciso entre os
algoritmos: 0.010 no SVC Linear; 0.028 no Decision Tree e 0.007 no Random Forest .
Estabelecendo uma comparao entre as experincias Exp2,1 e a Exp2,3 , que divergem apenas na frmula de clculo da distncia entre as entidades, temos que:
a utilizao da frmula D2 no clculo da proximidade de entidades entre dois conjuntos reflete um aumento de desempenho. Confrontando os valores obtidos para
a experincia Exp2,1 em relao experincia Exp2,3 possvel constatar que independentemente do algoritmo de aprendizagem supervisionada os resultados
da Exp2,1 so os que apresentam um melhor desempenho. Os valores da preciso
obtidos para a experincia Exp2,1 e a Exp2,4 so bastante prximos. Esta experincia difere da primeira na frmula de clculo da distncia entre personalidades.
A partir dos resultados obtidos conclui-se que as personalidades no tm grande
impacto na formao das ligaes comparativamente com as palavras isoladas e
entidades, uma vez que a mudana de clculo para este elemento no reflete uma
variao considervel no resultado. Podemos ainda observar que o melhor desempenho continua a ser o resultante da experincia Exp2,1 . Aps o estudo dos
resultados obtidos, podemos concluir que a frmula mais apta para cada tipo de
palavra-chave a seguinte: D1 personalidades e palavras isolada; D2 entidades; sendo que esta combinao se refere experincia Exp2,1 . Comparando
os resultados obtidos pelos diferentes mtodos de aprendizagem supervisionada
para Exp2,1 podemos observar que o mtodo com um melhor desempenho o
SVC Linear (93.1%).
[7] i n t e r fa c e
Desenvolvemos uma interface web para permitir ao leitor a navegao entre cadeias de notcias. A interface que elaboramos pode ser observada na Figura 11.
A interface composta por cinco seces distintas. A primeira seco permite que o utilizador defina as caractersticas das cadeias de notcias a visualizar. permitido definir o intervalo temporal, a categoria das notcias e ainda as
palavras-chave. A segunda seco, informa o utilizador quais as caractersticas
das histrias que esto representadas na interface.
As histrias so representadas visualmente na terceira seco. O grfico com
a representao das histrias pode ser repartido em trs elementos interconectados. Comeando pela parte inferior do grfico, em 3.3, as linhas representam
os agrupamentos de notcias existentes. O comprimento destas barras varia consoante o nmero de notcias que compe cada agrupamento. Na parte superior
do grfico, em 3.1, os arcos representam as ligaes existentes entre os agrupaOSLa volume 7(1), 2015
[177]
figura 11: Interface do sistema.

mentos de notcias (em 3.3). A barra situada em 3.2 posiciona temporalmente a
informao apresentada (em 3.1 e 3.3).
A informao presente na quarta seco varia consoante a interao do utilizador com o grfico. Se o utilizador navegar sobre a parte 3.3 do grfico a informao que aparece nesta seco informa o utilizador das caractersticas do agrupamento. Porm, se o utilizador navegar na parte 3.1 do grfico, a informao
contida na seco quatro informar o utilizador da histria noticiosa. A quinta
seco apresenta a lista de palavras-chave mais relevantes dentro do intervalo
temporal considerado.
A Figura 12 apresenta parte de uma cadeia obtida pelo sistema (para a categoria Cultura de 31 de Janeiro at 17 de Fevereiro de 2014). A interface ser
brevemente lanada ao pblico.
[8] c o n c l u s e s e t r a b a l h o f u t u r o
Este artigo pretende definir e avaliar tcnicas para o encadeamento automtico

de notcias com vista construo de histrias noticiosas temporais. A abordagem
utilizada para a criao das cadeias baseia-se: (i) deteo de notcias (quase) duplicadas e (ii) a criao de ligaes entre notcias relacionadas ao longo do tempo.
[178]
figura 12: Parte de uma cadeia obtida pelo sistema.
Para a deteo de notcias duplicadas usamos uma abordagem baseada na semntica para o clculo da similaridade entre notcias. Foi tambm utilizado um algoritmo de aprendizagem supervisionado na determinao da semelhana entre
as mesmas. Adicionalmente, as notcias incluem informao temporal e, tal como
acreditvamos, existe um intervalo onde h uma maior tendncia para o aparecimento de notcias cujo grau de similaridade aponta para a (quase) duplicao.
O nosso estudo indicou que tendencialmente as notcias consideradas duplicadas
aparecem num intervalo inferior a 24 horas. A nossa abordagem, para a determinao de notcias cujo grau de similaridade as classifica como (quse) duplicadas,
num intervalo de tempo de 24 horas, obteve uma preciso de 93.8% quando usado
o par Levenshtein, SVC Linear.
Para a criao de ligaes entre grupos de notcias similares, a nossa abordagem consistiu na medio do grau de semelhana entre os diferentes grupos. Para
esta etapa, sugerimos uma nova forma de medio de distncia que tem em conta
os termos em comum e a expresso de cada termo nos agrupamentos de notcias
similares. Para a determinao das ligaes, foram tambm utilizados algoritmos
de aprendizagem supervisionada. A abordagem proposta para a realizao desta
segunda tarefa apresenta uma preciso de 93.1%. Este resultado, no representa,
no entanto a preciso global do sistema, uma vez que h propagao de erro entre
as vrias etapas.
[179]
Como trabalho futuro ser importante criar testes mais exaustivos e objetivos
para as cadeias de notcias. Tais testes, consistiro, entre outros melhoramentos,
na medio da familiaridade do leitor com um tema em especfico antes e depois
da utilizao da plataforma e na medio do erro propagado pelo sistema.
Tambm pretendemos melhorar o sistema atravs da:(i) introduo de sumrios das notcias, (ii) deteo de novos factos e (iii) hierarquizao de notcias.
agradecimentos
Agradecemos a colaborao do Labs SAPO UP pela disponibilizao dos dados utilizados neste trabalho.
referncias
Allan, James, Jaime G. Carbonell, George Doddington, Jonathan Yamron & Yiming
Yang. 1998a. Topic detection and tracking pilot study final report. Em Proceedings of the DARPA Broadcast News Transcription and Understanding Workshop,
194218.
Allan, James, Ron Papka & Victor Lavrenko. 1998b. On-line new event detection
and tracking. Em Proceedings of the 21st annual international ACM SIGIR conference
on research and development in information retrieval, 3745. ACM.
Banerjee, Somnath, Krishnan Ramanathan & Ajay Gupta. 2007. Clustering short
texts using Wikipedia. Em Proceedings of the 30th Annual International ACM SIGIR
Conference on Research and Development in Information Retrieval, SIGIR 07, 787788.
ACM.
Bilenko, Mikhail, Raymond Mooney, William Cohen, Pradeep Ravikumar &
Stephen Fienberg. 2003. Adaptive Name Matching in Information Integration.
IEEE Intelligent Systems 18(5). 1623.
Elmagarmid, Ahmed K., Panagiotis G. Ipeirotis & Vassilios S. Verykios. 2007. Duplicate record detection: A survey. IEEE Transactions on Knowledge and Data Engineering 19(1). 116.
Garcia, Marcos & Pablo Gamallo. 2013. FreeLing e TreeTagger: um estudo
comparativo no mbito do Portugus. Relatrio tcnico. ProLab Technical Report, vol. 01. http://gramatica.usc.es/~gamallo/artigos-web/
PROLNAT_Report_01.pdf.
He, Matthew X., Sergei V. Petoukhov & Paolo E. Ricci. 2004. Genetic code, Hamming distance and stochastic matrices. Bulletin of mathematical biology 66(5).
14051421.
[180]

Kumar, J. Prasanna & P. Govindarajulu. 2009. Duplicate and Near Duplicate Documents Detection: A Review. European Journal of Scientific Research 32. 514527.
Kumar, Ravi, Uma Mahadevan & Alan D. Sivakumar. 2004. A Graph-theoretic Approach to Extract Storylines from Search Results. Em Proceedings of the tenth
international conference on knowledge discovery and data mining, 216225.
Lawrie, Dawn & W Bruce Croft. 2000. Discovering and Comparing Topic Hierarchies. Em Proceedings of the RIAO 2000 conference, 314330.
Levenshtein, Vladimir. 1965. Binary Codes Capable of Correcting Deletions, Insertions and Reversals. Doklady Akademii Nauk SSSR 163. 845848.
Li, Tao, Shenghuo Zhu & Mitsunori Ogihara. 2007. Hierarchical document classification using automatically generated hierarchy. Journal of Intelligent Information
Systems 29(2). 211230.
Lin, Chen, Chun Lin, Jingxuan Li, Dingding Wang, Yang Chen & Tao Li. 2012. Generating Event Storylines from Microblogs. Em Proceedings of the 21st ACM International Conference on Information and Knowledge Management, 175184.
Lin, Fu-ren & Chia-Hao Liang. 2008. Storyline-based summarization for news topic
retrospection. Decision Support Systems 45(3). 473490.
McKeown, Kathleen R., Regina Barzilay, David Evans, Vasileios Hatzivassiloglou,
Judith L. Klavans, Ani Nenkova, Carl Sable, Barry Schiffman & Sergey Sigelman.
2002. Tracking and summarizing news on a daily basis with Columbias Newsblaster. Em Proceedings of the second international conference on Human Language
Technology Research, 280285.
Mei, Qiaozhu & ChengXiang Zhai. 2005. Discovering Evolutionary Theme Patterns
from Text: An Exploration of Temporal Text Mining. Em Proceedings of the Eleventh ACM SIGKDD International Conference on Knowledge Discovery in Data Mining,
KDD05, 198207. ACM.
Nallapati, Ramesh, Ao Feng, Fuchun Peng & James Allan. 2004. Event threading
within news topics. Em Proceedings of the thirteenth ACM international conference
on Information and knowledge management, 446453.
Oliveira, Pedro. 2008. Ptstemmer - a stemming toolkit for the portuguese language. Obtido em Maio 2014. http://code.google.com/p/ptstemmer.
Pedregosa, Fabian, Gael Varoquaux, Alexandre. Gramfort, Vicent Michel, Bertrand Thirion, Oliver Grisel, Mathieu Blondel, Peter Prettenhofer, Ron Weiss,
Vicent Dubourg, Jake Vanderplas, Alexandre Passos, David Cournapeau,
[181]
Matthieu Brucher, Matthieu Perrot & douard Duchesnay. 2011. Scikit-learn:

Machine learning in Python. Journal of Machine Learning Research 12. 28252830.
Qamra, Arun, Belle Tseng & Edward Y Chang. 2006. Mining blog stories using
community-based and temporal clustering. Em Proceedings of the 15th ACM international conference on Information and knowledge management, 5867. ACM.
Schmid, Helmut. 1994. Probabilistic Part-of-Speech Tagging Using Decision Trees.
Em International Conference on New Methods in Language Processing, 4449.
Shahaf, Dafna & Carlos Guestrin. 2010. Connecting the Dots Between News Articles. Em Proceedings of the 16th International Conference on Knowledge Discovery and
Data Mining, 623632.
Sun, Aixin & Ee-Peng Lim. 2001. Hierarchical text classification and evaluation.
Em Proceedings IEEE International Conference on Data Mining, 521528.
Ullmann, Julian R. 1977. A binary n-gram technique for automatic correction of
substitution, deletion, insertion and reversal errors in words. The Computer
Journal 20(2). 141147.
Vadrevu, Srinivas, Choon Hui Teo, Suju Rajan, Kunal Punera, Byron Dom, Alexander J. Smola, Yi Chang & Zhaohui Zheng. 2011. Scalable clustering of news
search results. Em Proceedings of the fourth ACM International Conference on Web
Search and Data Mining, wsdm11, 675684. ACM.
Waterman, Michael S., Temple F. Smith & William A. Beyer. 1976. Some biological
sequence metrics. Advances in Mathematics 20(3). 367387.
Yancey, William E. 2005. Evaluating string comparator performance for record
linkage. Relatrio tcnico. Statistical Research Division. http://www.census.
gov/srd/papers/pdf/rrs2005-05.pdf.
c o n ta c t o s
Carla Abreu
Faculdade de Engenharia da Universidade do Porto
cfma@fe.up.pt
Jorge Teixeira
jft@fe.up.pt
Eugnio Oliveira
eco@fe.up.pt
affinity mining of documents sets

via network analysis,
keywords and summaries
PAVEL BRAZDIL, LUS TRIGO, JOO CORDEIRO,
RUI SARMENTO AND MOHAMMADREZA VALIZADEH
resumo
Encontrar pessoas com interesses semelhantes dentro de um domnio pode
fornecer um importante auxlio na gesto de centros de investigao. Como
a produo acadmica facilmente obtida em bases de dados bibliogrficas
e acadmicas, estas podem ser usadas para descobrir as afinidades entre os
investigadores que no estejam j evidenciadas pela co-autoria. Este processo de descoberta d-se com a ajuda de tcnicas de anlise de texto, na
base dos termos utilizados nos respectivos documentos. A afinidade pode
ser representada em forma de rede, em que os ns representam os artigos
de cada investigador e as ligaes representam similaridade entre os diferentes investigadores. Cada n pode ser caracterizado atravs de diversas
medidas de centralidade na rede e algoritmos de deteco de comunidades
permitem identificar grupos com interesses semelhantes. Cada n ainda
caracterizado por um conjunto de palavras-chave e resumos descobertos
automaticamente com a ajuda de tcnicas avanadas. Este artigo fornece
mais detalhes sobre os mtodos adoptados e/ou desenvolvidos, alguns dos
quais foram implementados no nosso prottipo. Os mtodos descritos so
gerais e aplicveis a muitos domnios diferentes, incluindo documentos que
descrevem projetos de I&D, documentos associados a legislao, processos
judiciais ou procedimentos mdicos. Acreditamos deste modo que este trabalho pode ser til para um pblico relativamente amplo.
Researchers seek to discover other researchers with similar interests to follow

their work and plan future collaborations. At management level, this knowledge enables to identify suitable researchers for a given task, which precedes the
implementation of partnerships with other institutions and researchers policies.
Another advantage of this analysis is that it goes beyond the formal hierarchical
framework within the organization, thereby revealing its unknown connections
that can be followed up.
The main scientific contribution is beyond re-using standard techniques of
text mining to bibliographic databases, but rather using these techniques to ob-
[184]
brazdil, trigo, cordeiro, sarmento & valizadeh

tain two kinds of graphs, co-authorship and affinity graphs, and exploring a differential analysis with the aim of identifying new useful knowledge.
Our aim is to focus on affinity analysis between certain R&D centers for various reasons: First, the outcome of the study may be useful to these centers. It
may propose that certain collaborations be initiated. Besides, the outcomes of
automatic analysis may be easily verified by some members of these centers. This
research could be extended later to cover a larger set of centers.
Regarding the particular bibliographic database, we have chosen Authenticus1 ,
as its design is based on Buglas work and was adopted by the University of Porto.
It has the advantage that it retrieves publications from several other bibliographic
databases (incl. e.g. SCOPUS).
Regarding the discovery of similarities between researchers, Price et al. (2010)
developed a methodology for the Web, called SubSift, which enabled to establish
profiles for researchers on the basis of researchers publications. Based on these
profiles, a typical Information Retrieval task is performed aiming to compare the
papers submitted to a scientific conference (playing the role of Query in IR) with
different profiles, in order to optimize the task of distributing articles to review.
A similar idea was followed by Trigo & Brazdil (2014), although the aim in
this work was different to uncover affinity among researchers that are not evidenced by co-authorship. Various researchers have analyzed co-authorship networks (e.g. Bugla 2009; Choobdar et al. 2012), but no one to our best knowledge
has analyzed the differences between the two types of information. To uncover
these we resort to many diverse techniques.
The publications titles are extracted into plain text files, each representing
a particular author. The text files are retrieved and preprocessed in the usual
manner. We use bag-of-words (BoW) and vector representation (Feldman & Sanger
2007), but perform usual preprocessing including removal of numbers, stop-words,
punctuation and other spurious elements. After this task, the list of documents is
transformed into a document-term vector representation with tf-idf weighting.
The vector representation is used to generate the cosine similarity matrix. This
matrix can be visualized in the form of a graph and is used as the basis for further
processing following (Iacobucci 1994).
After transforming the similarity matrix into a graph format, we use the community discovery algorithm. There are many approaches that could be used for
this aim. Here we mention one of them Walktrap (Pons & Latapy 2006). This
technique finds densely connected sub-graphs, also referred to as communities,
through random walks. It assumes that short random walks tend to stay in the
same community.
[1]
Authenticus bibliographic database. https://authenticus.up.pt/.
affinity mining of documents sets via network analysis
[185]
The affinity network enables to calculate certain measures of importance of

the researchers within their affinity group and in the context of different communities. This involves different centrality measures (Wasserman & Faust 1994).
The degree centrality is based on the number of connections to a vertex. The betweenness centrality indicates the number of times a vertex joins two other vertices
on the shortest path. The eigenvector centrality shows the importance of vertices
that connect to a given vertex. Some centrality measures can be computed to
account for different weights of the connections.
Our work is also concerned with the problem of characterizing each individual/subgroup with appropriate keywords or short summaries. This is important, as the user does not only want to identify individual subgroups, but also
see what distinguishes them. In terms of distinction, we can consider techniques
from forensic linguistic analysis (Sousa-Silva et al. 2010) to better shape the subgroup/author textual boundaries. As for automatic keyword generation, there
are really many approaches that could be followed. In our previous studies we
have explored the approach of TextRank (Mihalcea & Tarau 2004), who used a
graph-based language independent key phrase extractor. They explored the fact
that many multi-word units can be identified by looking at relative positions in
which these occur. This is because there is a tendency for a pair of single-words to
co-occur in fixed positions relatively to each other. We plan to evaluate different
approaches in the future and adopt the one that achieves the best results.
Besides keywords, users / documents can also be characterized using automatically generated summaries. Automatic text summarization (ATS) aims at the
transformation of textual information into a more humanly tractable representation. Normally, this transformation involves a reduction of the original text by
eliminating the irrelevant portions, while maintaining the most relevant ones.
In this area, a great number of methods have been experimented throughout
the last twenty years, following mainly extractive approaches (EA) (Erkan & Radev
2004; Wei et al. 2008; Valizadeh & Brazdil 2015, 2014), which basically summarizes
texts by selecting the most relevant sentences. One rather successful approach
uses supervised learning to do this (Valizadeh & Brazdil 2015). It tries to enhance
the coherence of the summary by trying to detect a particular kind of anaphoric
chain actor-object relationship (AOR) between sentences. The sentences that
satisfy this relationship have their importance value enhanced.
Extractive approaches have the disadvantage that they permit the inclusion
of rather long sentences into the summary. We have tried to overcome this by
generating shortened versions of such sentences with the help of machine learning methods (Cordeiro et al. 2013). However, other possible transformations /
reformulations could be considered in the future. We intend to explore them in
collaboration with linguists from the Faculty of Arts of the University of Porto
(FLUP).
[186]

[2] m e t h o d o l o g y
This section presents the main steps undertaken to uncover the unknown information regarding affinities. The method involves the following steps:
(i) Identify institutions and obtain researchers names;
(ii) Use web/text mining to process researchers publications;
(iii) Elaboration of similarity matrix and visualization as a graph;
(iv) Discovering potential communities linked by affinities;
(v) Elaboration of a co-authorship graph and differential analysis of graphs;
(vi) Identification of important nodes (researchers) in the graph;
(vii) Characterization of nodes using keywords;
The details about all these steps are given in the following sub-sections. Additional functionalities that are not part of the implemented prototype include:
(i) Characterization of nodes using summaries;
(ii) Learning to generate shortened sentences for summaries.
The details about all these steps are given in the section [3].
[2.1] Identify institutions and obtain researchers names

Our pilot study was carried out in conjunction with a dataset that includes approximately 3000 publications of about 100 researchers belonging to 5 different
R&D centers of INESC Tec (LIAAD, CRACS, CESE, CTM and CEGI). This data was provided by the authors of Authenticus database discussed further on. Therefore we
did not require any sophisticated procedure to obtain this. However, in general,
it may be necessary to retrieve this information from websites and so in the rest
of this section we describe the method.
Each research institution has normally a webpage listing their researchers.
Lists of researchers can be extracted by building an expression in the XPath query
language to obtain their names from the website. Regarding implementation, different languages can be used. We have used R and exploited its tm package for part
of text mining and the XML package for web mining.
Each researchers name can be used in the search through the chosen bibliographic database, such as DBLP, which enables direct access to each researcher
list of publications. The retrieval of publications can be done automatically, using XPath expressions. However, a problem of named entity identification arises
here. Typically, one of the variants will appear on the institution site, which may
[187]
not match the name used in the bibliographic database. Also, as researchers may
have several variants of their name, several entries may exist in the bibliographic
database for the same researcher. So these issues need to be resolved.
It could be argued that the researchers names might not be retrieved from
the web pages of a particular research institution / R&D center, as these appear
in the articles. This approach has, however, a disadvantage that the set of research institution / R&D centers would grow, as more articles would be encountered and processed. We prefer to restrict the number of R&D centers to a certain
pre-defined set.
Another problem is that we may have several investigators with the same
name in the bibliographic database. One of the techniques used by Bugla (2009)
is the following. To determine whether a given publication of P in some bibliographic database should be attributed to person P on a given site, a check is made
whether both (i.e. P and P ) have the same home institution. Various other researchers have investigated the issue of determining whether several variants of
one name belong to the same author and various methods have been proposed
(e.g. Santos & Ribeiro 2011).
Regarding the particular bibliographic database, we have chosen Authenticus
database, which was developed by the University of Porto, because it retrieves
publications from several other bibliographic databases (incl. SCOPUS, Google
Scholar, ISI Web of Science, DBLP and Orcid). In the work reported here, we were
able to skip many of the Web/Text Mining steps just described, as we were provided with a database that included all relevant information.
[2.2] Use web/text mining to process researchers publications

The publications titles are extracted into plain text files, each representing a particular author. The text files are retrieved and preprocessed in the usual manner.
We have used BoW representation, removed numbers, stop-words, punctuation
and other spurious elements. After this task, the list of documents is transformed
into a document-term vector representation with tf-idf weighting (Feldman &
Sanger 2007).
[2.3] Elaboration of similarity matrix and visualization as a graph
The vector representation described in the previous step is used to generate the
cosine similarity matrix. This matrix can be visualized in the form of a graph and
is used as the basis for further processing following (Iacobucci 1994). Figure 1
shows an example of an affinity graph for the R&D unit LIAAD. Each researcher
is represented by a circle and its size is related to his/her number of publications
in the Authenticus database. The thickness of the edges represents the similarity
value between pairs of researchers. The wider the line, the more similar the two
researchers are joined by this link. For simplicity all links / similarities below a
[188]

given threshold have been considered irrelevant and removed. The value of the
threshold was chosen somewhat arbitrarily, but in future the user will be given an
option to adjust it according to his/her needs. Besides, we note that the software
determined the length of each edge automatically. The value of similarity is taken
into account in this process. In general, the nodes with high similarity appear
closer than others.
figure 1: Researcher affinity network for R&D center LIAAD of INESC Tec
Visualization tools
Visualization tools play an important role in data analysis, as visual information
organization enables the analyst/user to interpret and detect patterns or other
relevant information faster and more effectively. This requires developing tools
that show the information in an intuitive and interactive way.
The developed web application prototype Affinity Miner2 is based primarily on R language and an appropriate set of packages. With the data conveniently indexed we used R as a language platform for the implementation and to
represent the data which needs to be conveniently indexed.
For this task we use the shiny package (RStudio, Inc 2014) that is a web application framework. In this way, our web application can react instantly to user
inputs with the goal of changing the output displayed to the user.
[2]
See http://gallicyadas.pt/affinity-miner/.
[189]
Another requirement is the output availability in remote locations and the use
of standardized frameworks and software (e.g. HTML, JavaScript etc.). The best
way of doing this is by presenting the output, including network graphs, in a web
browser. For this task we chose sigma.js library, a JavaScript library dedicated to
graph drawing (Jacomy 2013). It enables the network display on web pages and
may be used to integrate network exploration in rich web applications.
[2.4] Discovering potential communities linked by affinities

After transforming the similarity matrix into a graph format, we use the community discovery algorithm called Walktrap (Pons & Latapy 2006). This technique
finds densely connected sub-graphs, also defined as communities, through random walks. It assumes that short random walks tend to stay in the same community.
The hierarchical agglomerative approach is based on a measure of distance
between vertices (node to node). An optimal level of modularity of the network,
based on the weighted connections between internal and external community is
used by the algorithm to identify non-hierarchic communities.
Different discovered communities can be identified in the graph in different
ways. In our case we have used color to highlight different communities. In the
example shown in Figure 1 the system discovered three communities. The largest
one on the right (ochre), corresponds to machine learning / data mining subgroup. The one at the bottom of the figure (purple) corresponds the subgroup
working in optimization and operational research. Finally, the one at the top
(black) includes researchers working in mathematical modeling.
The graph elaborated on the basis of the five R&D centers of INESC Tec (Figure 2) is much more complex than the one shown on Figure 1. It includes 13 communities, some larger, others smaller. The machine learning / data mining affinity group is identified by blue color. As can be seen, it includes quite a relatively
high number of researchers belonging not only to LIAAD, but also to CRACS, CESE,
CTM and CESI. This information is available in our prototype.3
The communities discovered may not correspond to the organizational structure of the given institution. Such situation can be analyzed to determine whether
this is desirable, or else what would be the best organization to consider.
[2.5] Elaboration of a co-authorship graph and differential analysis of graphs
The generation of the co-authorship graph is a relatively simple matter. A link
between authors Ai and Aj is introduced, if they are co-authors of at least one of
the papers. After the affinity and co-authorship graphs have been constructed, it
is possible to proceed to carry out a differential analysis, following Trigo & Brazdil
[3]
Available from http://gallicyadas.pt/affinity-miner/.

[190]
figure 2: Researcher affinity network for the 5 R&D centers of INESC Tec and identified communities
(2014). This involves constructing a graph that represents basically the difference
between the two graphs.
The following two figures illustrate this. Figure 3 shows a part of co-authorship
graph that includes some researchers of LIAAD. Figure 4 shows a part of differential graph resulting from the differential analysis. It shows all the affinity links
that do not have a corresponding link in the co-authorship graph.
For example, we note that Mrcia Oliveira has just one co-authorship link
with Joo Gama, while the differential graph shows three other affinity links
to Alpio Jorge, Pedro Campos and Pedro Quelhas Brito. These links have been
revealed by the differential analysis. Such links may be of interest firstly to the
researchers involved, but also to the management when creating new teams for
a new project.
[2.6] Identification of important nodes (researchers) in the graph

The affinity network enables to calculate certain measures of importance of the
researchers within their affinity group and in the context of different communities. This involves different centrality measures (Wasserman & Faust 1994). Degree centrality is based on the number of connections to a vertex.
Betweenness centrality indicates the number of times a vertex joins two other
vertices on the shortest path. A node with high betweenness centrality has a large
influence on the transfer of items through the network, provided that the transfer
follows the shortest paths.
[191]
figure 3: A part of co-authorship graph for LIAAD
figure 4: A part of differential graph (affinity co-authorship) for LIAAD

Eigenvector centrality shows the importance of vertices that connect to a given
vertex. Some centrality measures take into account different weights of the connections.
Closeness can be regarded as a measure of how long it will take to spread information from a given node to all other nodes sequentially. It can be calculated
on the basis of farness of a given node. This measure is defined as the sum of its
distances to all other nodes. Closeness is defined as the reciprocal of the farness.
Currently, our prototype shows two of the centrality measures for a chosen
researcher (betweenness and eigenvector centrality). The centrality values are
not significant in themselves, but need to be compared to other ones. Thus we
can affirm that a particular researcher has rather high betweenness centrality,
when this value is high in relation to others.
[192]
[2.7] Characterization of nodes using keywords

In general, it is important to have a concise description for each node that will
provide a quick overview of the content of that node. The issue of characterizing
each node with appropriate keywords enables the user to decide whether to zoom
on this node while searching for relevant information, or otherwise focus on some
other part of the network.
As for automatic keyword generation, there are really many approaches that
could be followed. Up to now we have explored the approach of Mihalcea & Tarau (2004), who used a graph-based key phrase extractor. This approach is incorporated in our prototype. The TextRank is a multi-word unit extraction algorithm that explores the centrality measure of PageRank. The latter algorithm infers the importance of a web page by the number of web pages that have links
to it, while taking also into account their relevance measure. Rather than connected pages, TextRank considers adjacent terms that may also be represented as
a graph. Terms are represented by nodes and undirected edges represent their
co-occurrence. Following the approach of PageRank, the multi-word terms that
are similar to others are used to increment their importance.
The DegExt algorithm (Litvak et al. 2011) is also based on a graph-based representation, but takes into account the order of terms in the process of constructing
directed graphs. It is assumed that the more often the terms appear linked, the
more relevant they are.
Ventura (Ventura 2014; Ventura & Silva 2013) explored the fact that many
multi-word units can be identified by looking at relative positions in which these
occur. This is because there is a tendency for a pair of single words to co-occur
in fixed positions relatively to each other. So, for instance, the multi-word unit
surgical abortion can be identified, as the term surgical co-occurs quite often in 1
position to the left from the term abortion.
We plan to re-evaluate different approaches and adopt the one that achieves
the best results.
Evaluation of keywords generated
The present quality of the characterizing keywords generated by our prototype
is quite reasonable, at least when considering some of the terms generated. So
far, we have performed an informal evaluation, by just comparing the keywords
generated with the keywords extracted from researchers web pages. We plan
to carry out a more thorough quantitative study later using conventional term
overlap metrics (e.g. precision, recall).
Let us consider some examples shown in Table 1, in which we compare the
real profile (R) expressions, characterizing two researchers from LIAAD, with the
list of key words automatically generated (S) by our current prototype.

Researcher
R
Pavel Brazdil
S
R
S
Joo Gama
[193]
Keywords
Data Mining and Decision Support; Algorithm Selection via Metalearning and Planning; Meta-Learning;
Web Mining, Text Mining and Web Intelligence; Artificial Intelligence.
classification algorithm; logic programming; inductive logic programming; knowledge discovery; data mining; artificial intelligence;
Data Mining and Decision Support; Knowledge Discovery from Data Streams; Artificial intelligence
data stream; decision tree; change detection;
knowledge discovery; data mining; sensor network; artificial intelligence; classification algorithm; computer science; sensor data; decision
support system;
table 1: Comparison of the automatically selected keywords (S) with their real
keywords (R) obtained from web pages
Table 1 shows that several keywords agree well with the real ones, identified by the researchers on their web pages. It appears that the real expressions
are more meaningful and would lead to better thematic assessment. In this area
it is important to avoid both too general keywords (e.g. computer science) and
too specific ones. This reveals the need for further studies in this area, which is
related to the problem of summarization using short sentences or snippets discussed next.
[3] c h a r a c t e r i z at i o n o f n o d e s ( r e s e a r c h e r s ) u s i n g s u m m a r i e s
[3.1]
Extractive summarization of nodes (researchers)
Nodes (representing individuals with associated sets of documents) can also be

characterized using automatically generated summaries. Automatic text summarization (ATS) aims at the transformation of textual information into a more humanly tractable representation. Normally, this transformation involves a reduction of the original text by eliminating the irrelevant portions, while maintaining
the most relevant ones. This approach is referred to as extractive summarization.
An alternative to this is abstractive summarization whose aim is to produce a short
text and the process can include reformulation of the given set of sentences. In
this section we will focus on extractive summarization. The methods can be divided into unsupervised approaches and supervised ones. Both will be discussed
in the following in some detail.
[194]
Unsupervised graph-based approaches

One key work in this area is that of Erkan & Radev (2004) who proposed a graphbased method, referred to LexRank, where nodes represented sentences and links
between two sentences the measure of similarity between them. PageRank algorithm was adopted to enhance the importance of nodes (sentences). Thus a node
(sentence) that is similar to many other important nodes (sentences) is likely to
end up with a high score. Sentences were then selected according to the score.
The main steps of this approach are shown in Figure 5.
figure 5: Basis steps in unsupervised graph-based summarization

Otterbacher et al. (2005) adapted LexRank algorithm to topic-sensitive multidocument summarization. This algorithm is known as T-LexRank. Wan et al.
(2006) proposed a topic-sensitive graph-based model that was used for a querybased multi-document summarization. They used two graphs to show inter- and
intra-links in query-oriented multi-document summarization.
Wei et al. (2008) extended the previous work in two aspects: First, by using the
centroid value of words in the algorithm for generic summarization task and second, by exploiting similarity between documents in query-based multi-document
summarization task. They showed that their algorithms, DsR-G and DsR-Q, lead
to better summaries than earlier approaches.
We have improved these algorithms further (Valizadeh & Brazdil 2015). The
improvement was mainly due to the inclusion of the concept of density (as an alternative to centroid) to the sentence ranking method. This was done both for
generic and query-based multi-document summarization. The resulting algorithms, DensGSD and DensQSD lead to further improvements of summaries, as
judged by the ROUGE measure (Lin 2004).
Supervised approaches for summarization

The aim of both unsupervised and supervised approaches is to generate a score
for each sentence. The score is used to rank the given sentences and the sentences
with the highest score are selected for the summary. However, the approaches
differ in the way they calculate the score. The unsupervised graph-based approaches derive the score from a graph. The supervised methods used training
data to construct a model with the help of machine learning (ML) methods. The
model is used to predict the score (Toutanova et al. 2007; Ouyang et al. 2011; Valizadeh & Brazdil 2015).
[195]
The training data for supervised methods is in the form of a list of sentences
S1 . . . Sm , each characterized by a set of n features and a score, which represents
the target variable.
< S1i , f11i , . . . , f1ni , score1i >
< S2i , f21i , . . . , f2ni , score2i >
..
.
< Smk , fm1k , . . . , fmnk , scoremk >
Machine Learning
Modelu
figure 6: Training data for creating a model for a given document set DS
This scheme is illustrated in Figure 6. The index i (or k) represents a particular
document, index u a particular human summarizer who has supplied the golden
standard summaries.
Various features were proposed in the past. The features of Ouyang et al.
(2011) were sentence length without stop-words, sentence position, average tf-idf, sentence to query similarity, among others.
Valizadeh & Brazdil (2014) enriched this set with some features that were derived from the graph-based representation, such as sum of similarities between current sentence and other sentences, number of nonzero links sentence rank of T-LexRank,
besides others which lead to marked improvements in the quality of summaries.
Enhancing the coherence of summaries by detecting actor-object relationship (AOR) between sentences
Ideally, the sentences selected into the summary based on their scores should
be coherent and supplement each other in their meaning. One method that can
model this is by detecting a special case of direct anaphora, which was studied by
Valizadeh & Brazdil (2015). This occurs when one sentence introduces an object
that plays the role of an actor or a subject in another sentence. This relationship
is referred to shortly as actor-object relationship (AOR). The sentences that satisfy
this relationship have their score value enhanced.
To be able to do this, it is necessary to use a parser. The authors have opted for
the Stanford dependency parser, as it is freely available (de Marneffe et al. 2006).
The parser returns, for each sentence, a set of relations of the type tag(ti , tj ),
where tag characterizes the relationship between the terms ti and tj . The tags
that were exploited in this work were, for instance, dobj, representing the direct
object of the verb, nsubj(tj , tk ), representing a nominal subject/actor of the action. One example of a tag is dobj(seize 47, compound 51). The items 47 and
51 represent identifiers determining where the words seize and compound appear
in the parse tree.
[196]

The summary (SS) is generated sentence by sentence from the candidate ranked
list (CS) for the test document set. The sentence with the highest score is selected
for the summary (SS). After this, the combined ranked list (CS) is updated taking
into account the sentence chosen for SS, AOR and MMR. Here, MMR represents the
Maximum Marginal Relevance approach described by others (Carbonell & Goldstein 1998). Figure 7 illustrates how the AOR relationship is detected. It shows
that the object of sentence number 3 in the summary is the nominal subject of sentences number 1 and 4 in the ranked list CS. Consequently, the scores of these
sentences are increased.
figure 7: Detecting certain dependency parser patterns

If the AOR relationship has been detected, the corresponding score of the sentence in the candidate ranked list (CS) is increased by
(Score(Shighscore ) Score(Si ))
where, Score(Si ) denotes the score of sentence Si in the candidate ranked list CS,
Score(Shighscore ) the score of the selected sentence for the summary (i.e. in SS) in
the previous round. Moreover, is a parameter which determines the influence
of this rule. Setting it to a high value means that the user would like AOR to have
a strong effect on the sentence selection. The increased score of sentence Si will
increase the chance that this sentence will be selected into the summary.
After updating the sentence scores, the highest scored sentence in the candidate ranked list CS is selected to be included in the summary. This process is
continued until the length limitation of the summary has been reached.
Valizadeh & Brazdil (2015) confirmed that this approach improves the quality
of summaries significantly, as judged by the ROUGE values. As was shown here,
this method enables to detect certain cases of direct anaphora, enhancing thus
coherence between pairs of sentences in the summary. It is thus not surprising
that this has a positive effect on the ROUGE score. ROUGE compares the generated
[197]
summary with human summaries and the latter tend to be more coherent than
the ones generated previously by automatic methods.
[3.2] Learning to generate shortened versions of sentences

The art of being concise requires the ability to communicate ideas through a very
short representation. In textual communication, this means not only to use fewer
sentences but also choose the simpler and shortest ones. The aim is to achieve
maximum efficiency. One particular line is concerned with characterizing texts
with short snippets, that is, parts of the original sentences. Snippets are not
so different to multi-word keywords. These can be obtained from the original
sentences through various methods, like sentence decomposition and reduction
(Cordeiro et al. 2013).
In the past decade, a number of works has been carried out in the field of
sentence reduction. There is the work of Knight & Marcu (2002) who applied two
machine-learning methods a Bayesian model (noisy channel) and Decision Tree
based model. This work was taken further by Galley & McKeown (2007) who explored probabilistic synchronous context free grammars (CFG). Clarke & Lapata
(2006) proposed a hybrid system, where the sentence compression task is defined
as an optimization of an integer-programming problem. Despite the fact that it
is an unsupervised approach, it is completely knowledge driven, by a set of handcrafted rules and heuristics that are incorporated to solve the optimization problem.
More recently Cohn & Lapata (2008, 2009) addressed a more complex issue of
abstractive sentence compression/transformation by using a discriminative treeto-tree transduction model, through a supervised learning setting. This work
brings in new directions to the field, but still relies on supervised learning and
deep linguistic analysis.
All of the above approaches rely on supervised learning or inclusion of manual
knowledge. This is obviously a disadvantage. Normally, a training set of sentence
reduction cases, manually selected and/or hand-crafted, is used, which is limiting
in terms of scalability and applicability. Cordeiro et al. (2013) have pioneered a
new approach were the training data is automatically collected from texts available on the web. Their aim was to develop an unsupervised scalable methodology
for learning sentence reduction rules. In this work three important assumptions
were made: (1) Only word deletions are possible and no substitutions or insertions allowed; (2) The word order is fixed; (3) The scope of sentence compression
is limited to isolated sentences and the textual context is not taken into account.
In other words, the compressed sentence must be a subsequence of words of the
source sentence, which should retain the most important information and remain
grammatical.
[198]

The methodology is based on a pipeline shown in Figure 6. First, some news
sites are crawled with the aim of retrieving news stories about a certain topic.
The news items are clustered by topic. The next step involves alignment and extraction of paraphrases, using text surface similarity measures (Cordeiro et al.
2007b) and specific alignment algorithms (Cordeiro et al. 2007a). Then pairs of
paraphrases, are transformed into first order logic clauses, additionally enriched
with certain linguistic knowledge. An example of a pair of paraphrases is shown
in Figure 9.
figure 8: The pipeline architecture for learning sentence reduction rules from
web news text.
figure 9: Example of a paraphrasic sentence pair, automatically extracted and

aligned.
The massive corpus of aligned paraphrases is used to generate sentence reduction rules, with the help of a specific machine learning algorithm. The authors have opted for an Inductive Logic Programming (ILP) system Aleph (Srinivasan
2004). In this process, a combination of lexical and syntactical features is exploited: word tokens, part-of-speech tags, and phrase tags. For the syntactical
tags, the Penn Treebank tag set was used. Figure 10 shows a pair of sentence reduction cases enriched by additional tags.
figure 10: Two sentence reduction cases with three kinds of features highlighted.
[199]
The learning process yields a relatively large set of reduction rules which can
then be applied to new sentences. A combination and even a composition of several reduction rules can be applied to a single sentence. The reduction rules incorporate different conditions, like for example, a restriction on the length of the
eliminated segment. Besides, the reduced version should still maintain its grammaticality. For the former we use statistical lexical and syntactical models, automatically constructed from corpora. Example of two rules generated are shown
in Figure 11.
figure 11: Application of two learned reduction rules on two sentences.

The rules shown in Figure 11 include a conjunction of conditions, representing lexical and syntactical constraints for a given sub-sentence segment. The X
letter represents the candidate elimination segment, while L and R represent the
left and right position relative to X. For instance, in the second example, the rule
expresses the following: Eliminate a noun phrase segment (NP) of length 2 that is preceded by the word the and followed by a singular noun (NN).
An effective automatic summarization system that incorporates sentence reduction can serve as a useful tool for creating small summaries characterizing
the individuals and subgroups in the Affinity Miner. So far, different summarization systems exist as stand-alone prototypes. We plan to incorporate them in the
Affinity Miner.
Summaries can be constructed from a collection of multi-documents, where
a small and representative set of relevant sentences have been selected by the
summarizer and subsequently simplified through our set reduction rules. This
is quite important since the available space for characterizing nodes using summaries is limited, due to visualization space constraints. Therefore, the sentence
reduction process allows us to incorporate a larger number of original sentences
or snippets, yielding summaries with a higher information density.
As an example suppose that our system selects the following four sentences
as the most relevant ones, describing a certain individual (researcher):
S1 : In this work we investigate several new mathematical models for Plagiarism Detection.
[200]

S2 : As a conclusion, we have proposed a completely new algorithm on probabilistic topic
modeling.
S3 : Our concern was to prove that LDA is the best-known approach for text segmentation.
S4 : This comparative study sets a new milestone in social network mining.
Let us also assume that in order to satisfy size constraints, a limit of 25 words
has been imposed on the length of the summary. As a consequence, we are only
allowed to include two sentences, due to this limit. However, the use of a sentence reduction rule set could transform the original sentences in their reduced
versions. We note that some of these (S2 , S3 and S4 ) are in the form of snippets.
S1 : We investigate models for Plagiarism Detection.
S2 : A new algorithm on probabilistic topic modeling.
S3 : LDA for text segmentation.
S4 : A milestone in social network mining.
This transformation allows us to display most of the information contained in S1
- S4 , as S1 - S4 does not exceed the limit of 25 words. We note that each item in
this list characterizes one particular area of research.
[4] c o n c l u s i o n s a n d f u t u r e wo r k
Conclusions
We have presented a framework that uncovers research communities, real or potential ones, based on their scientific production. This is done by retrieving publication tiles for a given set of researchers, representing them in corresponding
text files and elaborating a similarity matrix. This in turn can be used to construct
a network of affinities.
Further processing leads to representations in the form of graphs. The community detection algorithms are used to uncover sub-graphs representing real or
potential communities. These can be compared to the formal organization structure.
In our prototype we have devoted a special attention to the visualization of the
graph of communities, as well as the characterization of its nodes (researchers).
For this we have reused existing automatic techniques for selecting relevant keywords from texts.
Further steps involve differential analysis based on the affinity and co-authorship graphs. This analysis enables us to identify people that could potentially
benefit from working together.
[201]
Future work
In the future we intend to process the abstracts or even full articles. We will
consider also a substantially higher number of research centers and include thus
more researchers. This represents some challenges for the process of elaborating the similarity matrix and the corresponding network. To overcome these, we
plan to use the incremental / data-streaming approaches (Gama 2010).
It would also be interesting / useful to incorporate into our prototype certain techniques of update summarization explored recently by Costa (2014) who is
a member of our group. This would enable to determine in what way a particular
node differs from others.
As was shown earlier our current prototype is capable of characterizing each
node with a set of keywords. In sections [3.1] and [3.2] we have discussed some
aspects of our research in the area of automatic summarization. So far, these
techniques have been implemented in the form of stand-alone programs. We plan
to incorporate them in our prototype (Affinity Miner). This will lead to a more
comprehensive characterization of nodes (researchers), which may be of interest
to users.
A validation step needs to be added to our methodology. We plan to carry out
a survey by questioning some researchers included in our study. We will inquire
about who are the closest colleagues that conduct the most similar research. The
outcome will be compared to the predictions obtained from the graph generated
by our system.
An important issue that could be addressed stems from the fact that different
researchers may use different vocabulary/terminology to describe the same concepts. This happens frequently when the researchers belong to different communities. This problem is difficult to overcome. It is possible to use, as some others
did, Wordnet and DBpedia (Leal et al. 2012) to identify synonyms and related terms.
This may be difficult for some specific domains, which may require the use of specific dictionaries, or the use of techniques that can identify potential synonyms
(e.g. Grigonyt et al. 2010).
Another line of research that will be followed will exploit linguistic knowledge. We note that the sentence reduction can be attained through the transformation of an adverbial finite clause into a prepositional or adverbial phrase or
non-finite clauses. Consider, for instance quando anoiteceu = noite. In this
example, the number of words is the same, the number of characters has been
reduced, yielding a simpler and equivalent expression. Another example is the
transformation of relative clause into a gerundive or participial clause (e.g. as garrafas que continham cerveja = as garrafas contendo cerveja). Since the same relations of meaning can be inferred in different types of structures, it is possible to
use shorter sequences to convey the same meaning as the longer ones. To account
for different semantic values of sentences, we will use a theoretical framework
[202]

that includes rhetorical relations (i.e. relations of meaning) (Asher & Lascarides
2003). The work on this line will build on the expertise of linguists from FLUP
described in various publications (Silvano 2010; Leal 2011; Silvano 2012). This is
a new and promising approach, as it joins researchers from two rather different
research areas.
Regarding further management needs, we intend to go beyond similarity analysis with the aim to identify who should be collaborating with whom, considering
their complementary capabilities / skills for a given task.
acknowledgments
This work has been partially funded by FCT/MEC through PIDDAC and ERDF/ON2
within project NORTE-07-0124-FEDER-000059 and through the COMPETE Programme (operational programme for competitiveness) and by National Funds through
the FCT Fundao para a Cincia e a Tecnologia (Portuguese Foundation for
Science and Technology) within project FCOMP-01-0124-FEDER-037281.
We wish to thank Fernando Silva and his collaborators, who are responsible
for the Authenticus bibliographic database, for providing us with data that we
needed for this study titles of publications of INESC Tec researchers.
We wish to thank also the colleagues working from FLUP carrying out research
in the area of linguistics Ftima Oliveira, M. da Purificao Silvano and Antnio
Leal for taking interest in abstractive summarization and their willingness to
contribute. This may open possibilities for interesting new advances in the future.
references
Asher, Nicholas & Alex Lascarides. 2003. Logics of Conversation. Cambridge University Press.
Bugla, Sylwia. 2009. Name identification in scientific publications. University of Porto
MSc thesis.
Carbonell, Jaime & Jade Goldstein. 1998. The Use of MMR, Diversity-based Reranking for Reordering Documents and Producing Summaries. In Proceedings of the
21st Annual International ACM SIGIR Conference on Research and Development in Information Retrieval, 335336.
Choobdar, Sarvenaz, Pedro Ribeiro, Sylwia Bugla & Fernando Silva. 2012. Comparison of Co-authorship Networks Across Scientific Fields Using Motifs. In
Proceedings of the International Conference on Advances in Social Networks Analysis
and Mining (ASONAM), 147152.
Clarke, James & Mirella Lapata. 2006. Constraint-based Sentence Compression an
Integer Programming Approach. In Proceedings of the COLING/ACL, 144151.
[203]
Cohn, Trevor & Mirella Lapata. 2008. Sentence Compression Beyond Word Deletion. In Proceedings of the 22Nd International Conference on Computational Linguistics, 137144.
Cohn, Trevor & Mirella Lapata. 2009. Sentence Compression As Tree Transduction. Journal on Artificial Intelligence Research 34(1). 637674.
Cordeiro, Joo, Gael Dias & Guillaume Cleuziou. 2007a. Biology Based Alignments
of Paraphrases for Sentence Compression. In Proceedings of the Workshop on Textual Entailment and Paraphrasing, 177184.
Cordeiro, Joo, Gal Dias & Pavel Brazdil. 2007b. New Functions for Unsupervised
Asymmetrical Paraphrase Detection. Journal of Software 2(4). 1223.
Cordeiro, Joo, Gal Dias & Pavel Brazdil. 2013. Rule induction for sentence reduction. In Lus Correia, LusPaulo Reis & Jos Cascalho (eds.), Progress in Artificial
Intelligence, vol. 8154, 528539. Springer.
Costa, Vitor. 2014. Update Summarization. Universidade do Porto MSc thesis.
Erkan, Gnes & Dragomir R. Radev. 2004. LexRank: Graph-based Lexical Centrality As Salience in Text Summarization. Journal on Artificial Intelligence Research
22(1). 457479.
Feldman, Ronen & James Sanger. 2007. Text Mining Handbook: Advanced Approaches
in Analyzing Unstructured Data. Cambridge University Press.
Galley, Michel & Kathleen McKeown. 2007. Lexicalized Markov Grammars for Sentence Compression. In Human Language Technologies 2007: The Conference of the
North American Chapter of the Association for Computational Linguistics, 180187.
Gama, Joo. 2010. Knowledge Discovery from Data Streams. Chapman & Hall/CRC.
Grigonyt, Gintar, Joo Cordeiro, Gal Dias, Rumen Moraliyski & Pavel Brazdil.
2010. Paraphrase Alignment for Synonym Evidence Discovery. In Proceedings of
the 23rd International Conference on Computational Linguistics, 403411.
Iacobucci, Dawn. 1994. Graphs and Matrices. In Social Network Analysis, 92166.
Cambridge University Press.
Jacomy, Alexis. 2013. sigma js. http://sigmajs.org.
Knight, Kevin & Daniel Marcu. 2002. Summarization Beyond Sentence Extraction:
A Probabilistic Approach to Sentence Compression. Artificial Intelligence 139(1).
91107.
[204]

Leal, Antnio. 2011. Some Semantic Aspects of Gerundive Clauses in European
Portuguese. Cahiers Chronos 22. 85113.
Leal, Jos Paulo, Vnia Rodrigues & Ricardo Queirs. 2012. Computing Semantic Relatedness using DBPedia. In 1st Symposium on Languages, Applications and
Technologies (SLATE), 133147.
Lin, Chin-Yew. 2004. ROUGE: A Package for Automatic Evaluation of summaries.
In Proceedings of ACL Workshop: Text Summarization Branches Out, 7481.
Litvak, Marina, Mark Last, Hen Aizenman, Inbal Gobits & Abraham Kandel. 2011.
DegExt - A Language-Independent Graph-Based Keyphrase Extractor. In Advances in Intelligent Web Mastering, 121130.
de Marneffe, Marie-Catherine, Bill MacCartney & Christopher D. Manning. 2006.
Generating Typed Dependency Parses from Phrase Structure Parses. In Proceedings of the IEEE / ACL 2006 Workshop on Spoken Language Technology, 449454.
Mihalcea, Rada & Paul Tarau. 2004. TextRank: Bringing Order into Text. In Conference on Empirical Methods in Natural Language Processing, 404411. ACL.
Otterbacher, Jahna, Gnes Erkan & Dragomir R. Radev. 2005. Using Random Walks
for Question-focused Sentence Retrieval. In Proceedings of the Conference on Human Language Technology and Empirical Methods in Natural Language Processing,
915922.
Ouyang, You, Wenjie Li, Sujian Li & Qin Lu. 2011. Applying Regression Models to
Query-focused Multi-document Summarization. Information Processing & Management 47(2). 227237.
Pons, Pascal & Matthieu Latapy. 2006. Computing Communities in Large Networks
Using Random Walks. Journal of Graph Algorithms and Applications 10(2). 191218.
Price, Simon, Peter A. Flach, Sebastian Spiegler, Christopher Bailey & Nikki
Rogers. 2010. SubSift Web Services and Workflows for Profiling and Comparing
Scientists and Their Published Works. In IEEE Sixth International Conference on
e-Science, 182189.
RStudio, Inc. 2014. Easy web applications in R. http://www.rstudio.com/shiny/.
Santos, Diana & Fernando Ribeiro. 2011. Uma incurso pelo universo das publicaes em Portugal. Linguamtica 3(2). 8598.
Silvano, Purificao. 2010. Temporal and rhetorical relations: the semantics of sentences with adverbial subordination in european portuguese: University of Porto PhD
dissertation.
[205]
Silvano, Purificao. 2012. The rhetorical Relations in complex sentences with

quando (when) in European Portuguese. Belgian Journal of Linguistics 26.
Sousa-Silva, Rui, Luis Sarmento, Tim Grant, Aston University, Eugnio Oliveira &
Belinda Maia. 2010. Comparing Sentence-Level Features for Authorship Analysis in Portuguese. In International Conference on Computational Processing of the
Portuguese Language (PROPOR 2010), vol. 6001, 5154.
Srinivasan, Ashwin. 2004. The Aleph Manual. Tech. rep. University of Oxford.
http://www.comlab.ox.ac.uk/activities/machinelearning/Aleph/.
Toutanova, Kristina, Chris Brockett, Michael Gamon, Jagadeesh Jagarlamudi,
Hisami Suzuki & Lucy Vanderwende. 2007. The PYTHY Summarization System:
Microsoft Research at DUC 2007. In Proceedings of DUC, s/pp.
Trigo, Lus & Pavel Brazdil. 2014. Affinity Analysis between Researchers using
Text Mining and Differential Analysis of Graphs. In ECML/PKDD 2014 PhD session
Proceedings, 169176.
Valizadeh, Mohammadreza & Pavel Brazdil. 2014. Exploring actorobject relationships for query-focused multi-document summarization. Soft Computing 1
13.
Valizadeh, Mohammadreza & Pavel Brazdil. 2015. Density-Based Graph Model
Summarization: Attaining better Performance and Efficiency. To be published
in IDA Journal.
Ventura, Joo. 2014. Automatic Extraction of Concepts from Texts and Applications:
Universidade Nova de Lisboa PhD dissertation.
Ventura, Joo & Joaquim Silva. 2013. Automatic Extraction of Explicit and Implicit
Keywords to Build Document Descriptors. In Lus Correia, Lus Paulo Reis & Jos
Cascalho (eds.), Progress in Artificial Intelligence, 492503. Springer.
Wan, Xiaojun, Jianwu Yang & Jianguo Xiao. 2006. Using Cross-Document Random Walks for Topic-Focused Multi-Document. In Proceedings of the 2006
IEEE/WIC/ACM International Conference on Web Intelligence, 10121018.
Wasserman, Stanley & Katherine Faust. 1994. Social network analysis: Methods and
Applications. Cambridge University Press.
Wei, Furu, Wenjie Li, Qin Lu & Yanxiang He. 2008. A Cluster-Sensitive Graph Model
for Query-Oriented Multi-document Summarization. In Craig Macdonald, Iadh
Ounis, Vassilis Plachouras, Ian Ruthven & Ryen W. White (eds.), Advances in Information Retrieval, vol. 4956, 446453. Springer.
[206]
c o n ta c t s
Pavel Brazdil
LIAAD-INESC Tec; FEP, Univ. of Porto
pbrazdil@inescporto.pt
Lus Trigo
LIAAD-INESC Tec
lptrigo@inescporto.pt
Joo Cordeiro
LIAAD-INESC Tec; Univ. of Beira Interior
jpaulo@di.ubi.pt
Rui Sarmento
LIAAD-INESC Tec
rui_sarmento@hotmail.com
Mohammadreza Valizadeh
LIAAD-INESC Tec; Univ. of Ilan
valizadehmr@gmail.com
traduo automtica, ma non troppo

ANABELA BARREIRO
abstract
This paper describes two machine translation tasks that require language
expertise: (1) paraphrasing as a technique to prepare texts for translation
and a method for linguistic quality assurance, and (2) the evaluation of translation produced by machine translation systems. These tasks will be exemplified through support verb constructions, a subtype of multiword units
that machine translation systems have difficulty translating. The paper raises awareness of the need to integrate enhanced linguistic knowledge in machine translation systems and the need to place the human factor as a core
value in order to ensure translation quality.
[1] i n t r o d u o
A tecnologia de traduo automtica chegou vida do comum dos mortais com

o advento da Internet. Apesar de a qualidade da traduo ainda ficar aqum das
expectativas dos utilizadores linguisticamente mais exigentes, esta uma ferramenta imprescindvel para resolver as necessidades dirias de traduo de milhes de internautas. Por esse motivo, os investigadores e programadores de sistemas de traduo automtica sentem a necessidade de criar sistemas linguisticamente mais robustos e capazes de produzir tradues com qualidade comparvel
s que so produzidas por tradutores humanos. Dcadas de investigao nesta
rea resultaram na inveno e aperfeioamento de mtodos estatsticos que aceleram o processo de traduo, e no desenvolvimento de ferramentas e de recursos
lingusticos de melhor qualidade, em maior quantidade e para mais lnguas. Os
avanos alcanados em diferentes aproximaes e tcnicas de traduo automtica tornam-se um campo frtil para o desenvolvimento de uma nova gerao de
sistemas linguisticamente mais avanados, os sistemas hbridos, que combinam
regras de anlise e aquisio de conhecimento lingustico tpicas dos sistemas de
regras (Scott 2003) com mtodos estatsticos caractersticos dos sistemas baseados em dados (Koehn 2005). A combinao de sistemas conduz geralmente a uma
melhoria da qualidade da traduo, na medida em que sistemas de natureza diferente abordam desafios de traduo diferentes, completando-se na resposta s
dificuldades. No entanto, embora os sistemas hbridos representem uma linha
de investigao promissora, a traduo automtica um problema longe de estar
resolvido. Uma hibridao bem sucedida requer uma compreenso profunda das
diferentes abordagens, dos seus pontos fracos e fortes, tema que tem sido discu-
[208]
anabela barreiro
tido apenas marginalmente na investigao em traduo automtica. A integrao ainda mal explorada dos recursos lingusticos em sistemas essencialmente
estatsticos , em muito, responsvel pelos erros crassos que as tradues produzidas pelos sistemas de traduo automtica online apresentam, impedindo que
estas sejam usadas para fins comerciais na ausncia de um esforo significativo
de ps-edio. No caso dos sistemas de base gramatical, a falta de recursos lingusticos para alimentar as bases de dados destes sistemas tambm cria graves
lacunas de origem maioritariamente lexical. No se sabe ainda que aproximao
hbrida ser a mais eficaz a longo prazo e conduzir a uma qualidade de traduo
superior.
Enquanto os investigadores procuram avanar o estado da arte e melhorar a
tecnologia atravs da criao e desenvolvimento de sistemas que traduzem cada
vez melhor, a traduo automtica representa uma realidade que j no pode ser
ignorada tambm no universo da traduo profissional, fazendo parte da formao e currculo dos tradutores (Maia 2005). Apesar dos resultados ainda pouco
fidedignos, a traduo automtica comea a integrar o quotidiano de um nmero
crescente de clientes e mercados, que colmatam as suas deficincias atravs do
treino de sistemas em domnios especficos usando corpora baseados em textos
traduzidos profissionalmente para esses domnios (Bick & Barreiro 2015) e atravs do uso de ferramentas automticas de ps-edio dos textos traduzidos automaticamente (Vieira & Specia 2011). Por conseguinte, na esfera da traduo profissional, a interveno humana essencial no processo de correo e certificao
do controlo de qualidade lingustica da traduo automtica. Outra forma de interveno e que tem sido menos explorada do ponto de vista do processamento da
linguagem natural a do parafraseamento usado como tcnica de pr-edio do
texto da lngua-fonte, por vezes conduzindo a uma linguagem controlada usada
em textos tcnicos e cientficos. Queremos aqui reforar que uma traduo automtica de qualidade no ser alcanvel sem o fator humano, nomeadamente sem
a interveno de especialistas das lnguas envolvidas na traduo e a sua participao nas tarefas que visam a qualidade do texto a traduzir e do texto traduzido.
Este artigo apresenta duas importantes tarefas da traduo automtica que
requerem a participao de peritos com conhecimentos lingusticos profundos
das lnguas de traduo. A primeira tarefa consiste no parafraseamento como
mtodo de preparao do texto na lngua-fonte, de modo a garantir uma melhor
qualidade de traduo desse texto. A segunda tarefa corresponde avaliao da
traduo produzida pelos sistemas de traduo automtica. As duas tarefas sero
exemplificadas atravs das construes com verbos-suporte, um tipo de unidade
lexical multipalavra que os sistemas de traduo automtica em vigor no conseguem traduzir com qualidade.
[209]
[2] c o n s t r u e s c o m v e r b o s - s u p o r t e e m t r a d u o a u t o m t i c a
As construes com verbo-suporte so um tipo de unidade lexical multipalavra

que se caracteriza pela ocorrncia de verbos semanticamente fracos, designados
verbos-suporte, e predicados nominais (fazer um esforo (por)), adjetivais (ser til
(para)) ou adverbiais (ficar aqum (de)). Estas construes desempenham um papel de destaque na comunicao em muitas lnguas, incluindo o portugus. Num
estudo anteriormente realizado por Barreiro (2009), num corpus de 500 frases,
64.2% da ocorrncia dos verbos dar, tomar, pr, fazer e ter, realiza-se em construes com verbos-suporte; i.e., em apenas 33.8% dos casos esses verbos ocorrem
como verbos plenos. A lxico-gramtica, proposta por Gross (1984) e estabelecida no quadro da gramtica transformacional harrissiana, explora uma metodologia sistemtica para o processamento automtico das construes com verbossuporte, contemplando trabalhos para o portugus (Ranchhod 1983, 1990; Baptista 2005; Chacoto 2005) e estudos contrastivos entre o ingls e o francs (Salkoff
1999).
As unidades lexicais multipalavra, nas quais as construes com verbos-suporte se incluem, ocorrem frequentemente quer em textos genricos (Gross & Senellart 1998) quer em textos tcnicos ou de domnios especficos (Ramisch et al.
2010) em muitas lnguas. A integrao eficaz das unidades lexicais multipalavra
em modelos de traduo automtica tem sido assinalada como um fator de impacto na obteno de traduo de qualidade (Chiang 2005; Marcu et al. 2006;
Zollmann & Venugopal 2006). A reforar esta posio, a avaliao da traduo
automtica de construes com verbos-suporte descrita em Barreiro et al. (2013)
comprovou que estas unidades multipalavra constituem um osso duro de roer para
o processamento de linguagem natural, especialmente para a traduo automtica. A maioria dos sistemas no consegue apresentar uma soluo eficaz para o
problema da no composicionalidade das construes com verbos-suporte que,
quando processadas de forma incorreta, provocam um impacto negativo na compreensibilidade e qualidade das tradues.
A ambiguidade dos verbos-suporte, por um lado, e sua leveza semntica, por
outro, representam fatores adversos traduo (humana e automtica) das construes com verbos-suporte, que impedem que estas sejam, em muitos casos, traduzidas literalmente. As suas tradues, por vezes idiomticas e pouco previsveis, devem-se ao facto de nem sempre existir uma expresso equivalente na
lngua-alvo ou, no caso de existir, essa expresso assumir uma forma distinta da
forma da lngua-fonte. Por exemplo, mesmo com proximidade estrutural entre
as duas lnguas, a expresso em portugus dar um passeio traduz-se em ingls por
take a walk ou go for a walk. Uma traduo literal da expresso por *give a walk teria
um efeito nefasto para a qualidade da traduo.
As propriedades morfossintticas das construes com verbos-suporte permitem um certo nmero de variaes formais com a possibilidade de dependncias
[210]
anabela barreiro
entre os elementos mesmo quando esto distantes entre si na frase. Por exemplo, deu [muitos e longos] passeios pela [N] ou no fez [absolutamente nenhum] comentrio sobre [N] representam construes com verbos-suporte no adjacentes que
mantm inseres entre os verbos-suporte dar e fazer e os predicados no verbais passeios e comentrio, respetivamente. Uma insero qualquer palavra que
se encontre entre dois elementos da unidade lexical multipalavra, exceto se essa
palavra for um artigo definido ou indefinido antes de um nome predicativo. Em
geral, quanto mais inseres e variabilidade morfossinttica existir numa construo com verbo-suporte, mais difcil a sua traduo automtica. Os estudos j
referenciados mencionam tambm a variedade lingustica apresentada pelas variantes estilsticas ou parafrsticas (fazer um estudo = realizar/efetuar/desenvolver
um estudo ou fazer um trabalho = elaborar um trabalho, entre outras), que utilizam
verbos-suporte no elementares (Ranchhod 1990). Essas variantes estilsticas podem apresentar diferentes graus de variabilidade, indo desde as construes que
permitem um nmero consideravelmente extenso de inseres entre o verbosuporte e o predicado nominal, at as expresses idiomticas semi- ou totalmente
fixas (dar o brao a torcer = ceder)1 . Construes com verbos-suporte no adjacentes so difceis de processar, alinhar e traduzir, permanecendo um dos maiores
desafios contrastivos para os sistemas de traduo automtica.
[3] fa c t o r h u m a n o n o c o n t r o l o da q u a l i da d e l i n g u s t i c a
Desde que os sistemas de traduo automtica estatstica comearam a ser treinados com grandes quantidades de dados, nomeadamente com milhes e milhes de
corpora paralelos disponveis na internet, que o efeito de erro gramatical se comeou a diluir e a ter um impacto gradualmente menor em tradues cada vez mais
robustas do ponto de vista lexical. Ao nvel da traduo comercial, os menores
custos envolvidos na tarefa da ps-edio justificam o uso da traduo automtica e um papel relevante desempenhado pelos tradutores tem consistido na correo dos erros gramaticais nos textos traduzidos automaticamente. No entanto,
muitos dos problemas lingusticos das tradues automticas tm na sua base a
falta de qualidade do texto na lngua-fonte. Em geral, o controlo da qualidade
lingustica dos textos da lngua-fonte tem sido relegado para segundo plano, no
havendo ferramentas robustas de auxlio edio e reviso de texto que envolvam
parafraseamento. Neste sentido, em trabalho anteriormente realizado, apresentmos uma abordagem cientfica baseada no parafraseamento que tem como objetivo melhorar a traduo automtica (Barreiro 2009), acentuando a necessidade
[1]
Como expresses idiomticas entendem-se expresses no transparentes, no entendidas/traduzidas literalmente, em que o significado da expresso diferente do significado individual das palavras que a
constituem. Podemos considerar a existncia de uma gradao da idiomaticidade, que pode variar entre o ligeiramente no literal e o muito obscuro. Algumas expresses idiomticas assumem um valor
figurativo que se conhece apenas atravs do uso comum, outras acabam por fossilizar-se com o passar
do tempo.
[211]
de uma aproximao parafrstica para a resoluo de problemas que levantam no

campo da traduo, tal como descrevemos na seco [3.1]. O controlo da qualidade
lingustica tambm no prescinde de uma avaliao sistemtica, feita por humanos, que permite verificar onde e como que os sistemas falharam. De facto, a
avaliao uma fase importante no desenvolvimento de um sistema de traduo
automtica e dela que depende a qualidade das tradues obtidas pelos tradutores automticos. Tambm nesta rea, apresentmos anteriormente um exerccio
de avaliao humana sistemtica de construes com verbos-suporte que contempla a sua traduo do ingls para vrias lnguas por dois sistemas de traduo
automtica conhecidos (Barreiro et al. 2014). A avaliao realizada prova que os
atuais sistemas de traduo automtica no conseguem traduzir com qualidade
os fenmenos lingusticos representados por estas construes. com base nos
estudos referidos e face aos desafios que as construes com verbos-suporte apresentam para a traduo automtica que reforamos e ilustramos a necessidade de
envolver especialistas lingusticos nas diferentes tarefas da traduo automtica.
[3.1]
Parafraseamento como Tcnica de Pr-Edio
Um dado importante no estudo das construes com verbos-suporte consiste em

estas lhes terem geralmente associadas um verbo semanticamente forte, morfossintaticamente relacionado, que constitui o seu sinnimo. Por exemplo, a construo com verbo-suporte fazer uma apresentao (de) morfossinttica e semanticamente equivalente ao verbo apresentar. Uma das abordagens por ns realizada
anteriormente (Barreiro 2009) consiste no parafraseamento de construes com
verbos-suporte de modo a melhorar a qualidade da traduo automtica. Para
alm da criao de uma ferramenta de parafraseamento, o desafio dessa investigao consistiu em parafrasear expresses nominais predicativas por construes
verbais (fazer uma anlise = analisar), tirando partido das potencialidades parafrsticas da lngua. Em casos particulares, o parafraseamento consistiu em substituir
o verbo-suporte da construo nominal, semanticamente fraco, por uma variante lexical ou estilstica (realizar uma anlise ou efetuar uma anlise), entre outras.
Quando as construes com verbos-suporte foram identificadas e substitudas por
verbos lexicais ou expresses verbais semanticamente equivalentes ou prximas,
numa fase de pr-processamento do texto, obteve-se aproximadamente 21% de
melhoria na qualidade dos resultados avaliados da traduo automtica do portugus para o ingls e aproximadamente 31% na dos resultados avaliados da traduo automtica do ingls para o portugus. A investigao baseou-se numa anlise
lingustica contrastiva, em que as construes com verbos-suporte foram organizadas em subclasses sinttico-semnticas de acordo com os princpios tericos
e metodolgicos da Lxico-Gramtica. Esse estudo incidiu sobre as construes
com verbos-suporte, mas seria interessante aplic-lo a outros tipos de unidades
lexicais multipalavra, nomeadamente a expresses idiomticas, mas tambm a
[212]
anabela barreiro
construes sintticas livres, tais como a coordenao de sintagmas nominais e a
passiva, entre outras. A informao lingustica relevante para a construo das
parfrase que foram geradas (como resultado dessa investigao) foi formalizada
em dicionrios e gramticas desenvolvidos no ambiente lingustico NooJ e utilizados em vrias tarefas de processamento de lngua natural, sob o ponto de vista
monolingue e bilingue. Os recursos bilingues portugus-ingls do Port4NooJ, disponvel em domnio pblico2 , integram a ontologia SAL do modelo OpenLogos e
foram construdos como o alicerce desse estudo. O seguimento desse trabalho
deu origem aos sistemas ReEscreve, ReWriter, ParaMT e eSPERTo apresentados
em (Barreiro 2008, 2009, 2011; Barreiro & Cabral 2009; Barreiro et al. 2011). O
eSPERTo um Sistema de Parafraseamento para Edio e Reviso de Texto, atualmente em fase de desenvolvimento no mbito de um projeto com o mesmo nome3 .
Este projeto tem como objetivo o desenvolvimento de uma plataforma web para
gerao de parfrases linguisticamente complexas. As parfrases sero geradas a
partir da aplicao de uma tcnica hbrida de aquisio de conhecimento lingustico baseada em estatstica e regras gramaticais. A integrao de conhecimento
frsico e de unidades lexicais multipalavra no sistema permitir um mapeamento
otimizado de construes, estruturas e frases semanticamente equivalentes, que
servir de auxlio no ensino de escrita e na produo e reviso de textos em portugus. Este conhecimento lingustico poder ser tambm usado em pr-edio
para a traduo automtica, de modo a garantir uma maior qualidade dos textos
a traduzir e da qualidade da traduo desses textos.
[3.2] Avaliao da Qualidade da Traduo Automtica

A tarefa de avaliao da qualidade da traduo automtica para o portugus ganhou fora no incio da dcada de 2000, com os primeiros esforos direcionados
para uma avaliao conjunta no mbito do projeto Linguateca. Nessa poca, criouse um grupo de interesse na rea, o ARTUR, integrado no AVALON 2003, que deu
origem a diversos trabalhos sobre avaliao da traduo automtica, nomeadamente o desenvolvimento de uma ferramenta automtica de gerao de baterias
de teste e de um programa de categorizao de erros, realizados na Universidade
do Porto (Maia et al. 2003, 2004; Maia & Barreiro 2007; Sarmento et al. 2007). A avaliao desta rea permitiu identificar problemas relacionados com a preservao
de significado no processo de traduo, em particular em no que respeita a usos
no literais, envolvendo construes idiomticas, coloquialismos, usos metafricos, entre outros. Nesta linha de ao, e na tentativa de criar um modelo hbrido
de traduo automtica melhorando a tecnologia atualmente existente, uma anlise humana sistemtica do desempenho de diferentes modelos pareceu-nos um
passo importante a dar. Muito do trabalho de avaliao que se tem feito nos lti[2]
[3]
http://www.linguateca.pt/Repositorio/Port4NooJ/
http://esperto.l2f.inesc-id.pt/
[213]
mos anos incide essencialmente sobre a tarefa da ps-edio e contempla aspetos

relacionados com a definio de mtricas de medio do esforo humano e tempo
usados na correo de erros gerados pelos sistemas, tais como contar a quantidade
de teclagem utilizada pelos revisores (Aziz et al. 2012). Foi com base nas lacunas
verificadas ao nvel da avaliao qualitativa dos fenmenos lingusticos em sistemas de traduo automtica com abordagens diferentes, que propusmos, em
Barreiro et al. (2014), uma avaliao humana conjunta dos erros de traduo de
construes com verbos-suporte pelo OpenLogos e pelo Google Translate.
O OpenLogos (Scott 2003; Barreiro et al. 2011) a cpia em cdigo aberto
do sistema comercial Logos, um sistema pioneiro de traduo automtica (19702001). Baseia-se em regras que contemplam a morfologia, a sintaxe e a semntica,
mas assemelha-se em esprito aproximao estatstica na medida em que as regras so aplicadas a padres em contexto. O sistema tem analisadores sintticos
(parsers) robustos, conjuntos de regras semntico-sintticas, terminologia e ferramentas variadas, tais como um construtor automtico de termos (TermBuilder)
e uma ferramenta de aquisio automtica de regras semnticas (Semantha), entre outras. Devido sua nfase na semntica, considerado um sistema de alta
qualidade, que se baseia na anlise da lngua de forma a que esta seja entendida
pelo sistema computacional. O motor que faz girar o sistema consiste numa
linguagem de representao intermdia (SAL) que usada para codificar toda a
informao lingustica e processar texto. O conhecimento lingustico representado nesta linguagem permite aliviar o problema da escassez de dados e colmatar
falhas apresentadas pelos mtodos estatsticos, contribuindo para um aumento
da qualidade das tradues. Devido ao grande investimento de tempo e recursos
humanos no desenvolvimento do sistema OpenLogos, as suas bases de dados de
conhecimento lingustico j no so atualizadas desde 2001.
O Google Translate um dos sistemas de traduo online mais usados na atualidade. um sistema de base estatstica que beneficia de grandes volumes de corpora paralelos existentes na internet. O Google Translate traduz mais de 80 pares
de lnguas, mas a qualidade da traduo varia muito do par de lnguas envolvido,
produzindo melhores resultados para pares de lnguas mais prximas (portugus
e espanhol) e lnguas para as quais existam grandes quantidades de corpora paralelos. A qualidade dos dados tambm pertinente para a traduo, pelo que
quanto melhor for a qualidade dos corpora de um par de lnguas, melhor ser a
qualidade dos textos traduzidos para essas lnguas. As tradues podem variar
de qualidade dependendo do domnio do texto e dos corpora (ou outros recursos)
que foram utilizados para treinar o sistema nesse domnio. O Google Translate
um sistema comercial no se sabendo como funciona, e muito menos se tem algum
mdulo de compreenso semntica.
A avaliao do desempenho dos sistemas OpenLogos e Google Translate relativamente s tradues de construes com verbos-suporte, para alm de nos
[214]
anabela barreiro
ter dado a possibilidade de contrastar um sistema de regras baseadas em padres
com um sistema estatstico, permitiu-nos diagnosticar e avaliar qualitativamente
erros de traduo em fenmenos lingusticos muito especficos.
Corpus e Metodologia de Avaliao

O corpus usado na avaliao contm 100 construes com verbos-suporte que
ocorrem em frases recolhidas de notcias e da internet (textos genricos, de nenhum domnio especfico). Cada construo com verbo-suporte foi anotada no
contexto frsico em que se encontra e classificada de acordo com a tipologia apresentada na Tabela 1. Seguidamente, o corpus foi traduzido para alemo, espanhol,
francs, italiano e portugus pelos sistemas de traduo automtica OpenLogos e
Google Translate. Nenhum dos sistemas foi previamente treinado para esta tarefa de avaliao. Linguistas falantes nativos das lnguas de chegada avaliaram a
qualidade da traduo das construes com verbos-suporte para as suas lnguas
(um avaliador por lngua) e classificaram as tradues de acordo com uma mtrica binria: OK para as tradues corretas e ERR para as tradues erradas. Nas
classificaes marcadas como ERR, respeitantes a tradues semanticamente incorretas ou com problemas sintticos dentro da construo, os linguistas identificaram erros de concordncia (AGREE) e erros de outro tipo (OTHER) para distinguir
erros relacionados com a morfologia da palavra ou outros problemas, tais como o
uso incorreto de preposies, ordem de palavras incorreta dentro da construo,
etc. Por ltimo, os linguistas tambm apresentaram uma avaliao mais detalhada onde descreveram os problemas mais relevantes nas tradues que avaliaram de acordo com os diferentes tipos de construo.
Primeiros Resultados
O objetivo principal da avaliao realizada foi identificar a raiz dos problemas
na traduo das construes com verbos-suporte tendo em conta cinco pares de
lnguas e indicar que direo em que a avaliao qualitativa deve avanar para
que estes desafios lingusticos traduo de qualidade sejam vencidos. Fizemos
isso, tendo em conta dois sistemas de natureza diferente (o OpenLogos e o Google Translate) para podermos verificar, em relao a este fenmeno lingustico
em particular, at que ponto o fracasso de um sistema pode ser colmatado pelo
sucesso do outro. Nesse sentido, verificmos que o desempenho de ambos os sistemas relativamente s construes com verbos-suporte foi globalmente mau por
razes que se prendem natureza intrnseca de cada um destes sistemas. Os problemas de traduo apresentados pelo Google Translate so, em geral, de natureza mais estrutural (cf. exemplo (viii)), enquanto que os problemas de traduo
do sistema OpenLogos so de natureza mais lexical (cf. exemplo (i)). A avaliao
humana sistemtica das tradues das construes com verbos-suporte obtidas
atravs destes sistemas mostrou que, excepo do par de lnguas ingls-alemo,
[215]
Construo com verbo-suporte nominal

make a presentation
Nominal no adjacente
have [ADV+ADJ-particularly good] links
Nominal preposicional
give an illustration of
Nominal preposicional no adjacente
be the [ADJ-immediate] cause of
Nominal idiomtica
set in motion, place at risk, go on strike
Nominal preposicional idiomtica
earn an income of
Nominal idiomtica no adjacente
hold [NP-the option] in place
be of [ADJ-practical] value
Nominal preposicional idiomtica no adjacente
give [PRO-us] a [birds-eye] view of
be [ADV-clearly] at odds with
open talks [May 14] with
Construo com verbo-suporte adjectival
be meaningful
Adjetival no adjacente
be [ADV-extremely] selective
Adjetival preposicional
be known as; be involved in
Adjetival preposicional no adjacente
fall [ADV-so far] short of
tabela 1: Categorias principais de construes com verbos-suporte no corpus

o Google Translate traduziu corretamente mais construes com verbos-suporte
do que o OpenLogos, devido larga dimenso da sua base de dados lexical.
Em relao ao par ingls-alemo, o OpenLogos traduziu corretamente 60 construes, enquanto que o Google Translate traduziu corretamente apenas 40. Os
erros, tanto do OpenLogos como do Google Translate dizem respeito escolha
incorreta de palavras, ordem incorreta das palavras dentro da construo, escolha incorreta da forma da palavra (morfologia) e falta de palavras. Os maiores
problemas apresentados pelo Google Translate foram a falta de cobertura lexical
em relao s construes adjacentes e a dificuldade em traduzir bem a separao
do verbo.
No caso da traduo do ingls para as lnguas romnicas, o desempenho do Google Translate foi superior ao do OpenLogos. A maior parte dos erros de traduo
dos dois sistemas correspondem a uma escolha lexical incorreta para alguns dos
elementos da construo (por vezes, no existe traduo de algumas palavras, outras vezes, a traduo literal), erro de concordncia (entre o sujeito e o verbo, ou
entre o sujeito e o adjetivo predicativo), e construes no adjacentes e idiomticas. No caso das construes menos idiomticas, h preposies erradas, traduo
[216]
anabela barreiro
literal do verbo-suporte e escolha lexical errada para o nome predicativo, preposies e determinantes. Estes problemas requerem um esforo pequeno de psedio, j que se tratam de palavras muito curtas. Os resultados quantitativos, os
exemplos ilustrativos, e as avaliaes qualitativas detalhadas para todos os pares
de lnguas podem ser consultados em Barreiro et al. (2014). Passaremos a apresentar com especial pormenor a descrio dos erros de traduo de construes
com verbos-suporte do par inglsportugus, apenas superficialmente referidos
no trabalho anterior.
Anlise Lingustica dos Erros de Ingls-Portugus

Distribumos os erros de traduo das construes com verbos-suporte do par
ingls-portugus entre erros lexicais e erros estruturais. Os erros relacionados
com a falta ou uso incorreto de palavras dentro da construo so caracterizados
como erros de cobertura lexical, incluindo a escolha de verbo-suporte, de predicado no verbal, de preposio ou de qualquer outro elemento inserido. Estes
erros no afetam a estrutura geral da frase. Por outro lado, os erros relacionados com a ordem incorreta das palavras, com a morfologia e com a concordncia
so caracterizados como erros estruturais. Os erros de ordem das palavras dizem
respeito inverso da posio das palavras dentro da construo. Os erros morfolgicos dizem respeito a problemas relacionados com a forma incorreta das palavras, como o tempo verbal errado. Finalmente, os erros de concordncia dizem
respeito falta de concordncia entre os elementos do interior da construo com
verbo-suporte ou entre um ou mais elementos dentro da construo e os elementos exteriores, tal como o sujeito da frase. Os erros estruturais ocorrem no interior
da construo com verbo-suporte ou na relao entre esta e outros elementos da
frase e afetam a sua gramaticalidade. Por exemplo, a falta de concordncia entre
o sujeito da frase e a construo com verbo-suporte um erro que, embora esteja
relacionado com a construo com verbo-suporte, ultrapassa as suas fronteiras.
A grande maioria dos erros de traduo, tanto por parte do Google Translate
como por parte do OpenLogos, diz respeito escolha lexical das palavras dentro da
construo com verbo-suporte. Muitos dos erros dizem respeito a uma traduo
direta de construes com verbos-suporte idiomticas, que tornam o significado
destas incompreensvel. Ambos os sistemas falharam em come to a rest, open talks,
put in place, fall short of e have a spotty record. O Google Translate apresentou erros
nas tradues das construes hold in place, be in charge of, be on guard. O OpenLogos
apresentou erros nas tradues das construes come into the picture, place at risk,
put under the microscope, be on strike, be at odds with, earn an income. O exemplo (i)
ilustra a traduo literal de give a birds-eye view of.
(i)
EN
PT
- It gives us a birds-eye view of the economy.

- D-nos uma *vista de olho de pssaro da economia.
[217]
Em alguns casos, ambos os sistemas apresentaram erros na traduo do nome

predicativo com consequncias ao nvel da traduo da preposio por este selecionada. Por exemplo, em (ii), o nome predicativo insight foi traduzido como
viso em vez de perspetiva com um consequente erro no uso da preposio. A preposio into selecionada pelo nome predicativo insight em ingls, mas o nome
predicativo perspetiva em portugus seleciona a preposio de e no para.
(ii)
- These specifications gave insight into the space of possible case-based systems, and elucidated
human interaction properties.
P T - Estas especificaes deu uma *viso *para o espao de possveis sistemas baseados em casos, e
elucidou Propriedades interao humana.
EN
Nos casos de construes menos idiomticas, os erros afetam geralmente apenas um ou dois elementos da construo, como o verbo-suporte ou a preposio.
Por exemplo, em (iii) o verbo-suporte makes foi traduzido literalmente por faz em
vez de torna. Em (iv), a preposio for foi traduzida por para em vez de por. Em (v),
a preposio to foi traduzida pela preposio para em vez de a.
(iii)
(iv)
(v)
- On the one hand, such a rich grammatical theory makes it possible to write grammars that contain very rich linguistic knowledge.
P T - Por um lado, uma teoria tal gramatical rica *faz possvel escrever gramticas que contm o conhecimento lingustico muito rico.
EN
EN - Schafer testified he believed his bureau chief in Beirut, Lester Coleman, was responsible for his
photo appearing as part of the Pan Am affidavit.
P T - Schafer atestou que ele acreditou no seu chefe de escritrio em Beirut, Lester Coleman, foi responsvel *para sua fotografia que aparece enquanto a parte da panela declarao.
- The new Government which came to power in April 1984 has expressed a desire to give priority
to agriculture development and to remove past obstacles.
P T - O governo novo que assumir poder em Abril 1984 exprimiu um desejo de dar *a prioridade *para
o desenvolvimento de agricultura e de retirar-se por obstculos.
EN
O sistema Google Translate apresenta vrios erros de concordncia em construes que o sistema OpenLogos consegue traduzir corretamente. Esses erros
podem ser entre o sujeito da frase e o verbo-suporte (vi), ou entre o sujeito da
frase e o adjetivo predicativo da construo com verbo-suporte ((vii) e (viii)).
(vi)
EN
PT
(vii)
EN
PT
(viii)
- the protests will have no effect on negotiations

- os protestos no *ter nenhum efeito sobre as negociaes
- Descriptive economics and economic theory are both concerned with facts
- Economia descritiva ea teoria econmica *so *tanto *preocupado com os fatos
- To be meaningful, facts must be systematically arranged, interpreted, and generalized upon.

- Para *ser *significativa, os fatos devem ser sistematicamente organizados, interpretados e generalizada sobre.
EN
PT
[218]
anabela barreiro
Tarefas de Avaliao Futuras

As tradues produzidas por sistemas de traduo automtica vastamente utilizados ainda mostram erros lamentveis que requerem um esforo significativo
de ps-edio. As construes com verbos-suporte, entre outras unidades lexicais multipalavra, so responsveis por muitos desses erros de traduo. As atuais mtricas de avaliao da qualidade, concentradas na medio do tempo e esforo de ps-edio, no contemplam este e outro tipo de unidades lingusticas,
mostrando-se ineficazes e insuficientes para avaliar a verdadeira qualidade dos
sistemas e incapazes de identificar problemas que possam ajudar a melhorar a
estrutura sinttica e o significado na traduo. O trabalho de avaliao de sistemas de traduo automtica apenas deu os seus primeiros passos. H um trabalho
ainda muito grande a fazer para colmatar as deficincias na avaliao qualitativa
atual. No existem publicaes sobre uma avaliao lingustica conjunta que tenha como objetivo comparar os pontos fortes e fracos de diferentes abordagens
de traduo automtica, com o objetivo de melhorar a qualidade da traduo. Os
investigadores precisam de desenvolver mtricas para a avaliao peridica sistemtica da qualidade lingustica da traduo automtica, independentemente da
natureza de cada sistema. A avaliao deve incluir tarefas de categorizao de
erros onde fenmenos lingusticos especficos possam ser avaliados individualmente por linguistas especializados em traduo automtica. Esta avaliao deve
ser elaborada por fases, em que cada fase corresponda avaliao de um fenmeno lingustico particular (por exemplo, para as unidades lexicais multipalavra,
avaliar individualmente as construes com verbos-suporte, as unidades compostas, os phrasal verbs do ingls, etc.). A categorizao de erros em unidades menores
do que a frase pode contribuir para tarefas de avaliao mais controladas e sistemticas. A avaliao tem de ser dirigida a grupos de erros lingusticos e identificar
que sistemas tm mais dificuldades em traduzir cada tipo de desafio lingustico
(avaliao paradigmtica). Para alm disso, devem ser construdos corpora especficos ou coletneas de frases que sero usadas para avaliar construes relativas,
passivas, pronomes, determinantes, preposies locativas, etc. Essas mtricas de
avaliao qualitativa devero ser desenvolvidas e validadas por especialistas lingusticos que trabalham na rea da traduo automtica. Estamos convencidos
de que um mtodo eficaz para o avano da investigao em traduo automtica
comparar os resultados de diferentes abordagens e medir que mdulos requerem melhoramento. Uma hibridizao eficaz s ter lugar quando o desempenho
de sistemas com abordagens diferentes for linguisticamente testado. Acreditamos que tal avaliao qualitativa conjunta possa ser valorizada pela comunidade
cientfica.
[219]
[4] c o n c l u s o e t r a b a l h o f u t u r o
Estudos realizados anteriormente revelam lacunas importantes ao nvel da anotao, identificao, representao, reconhecimento, processamento e avaliao
das construes com verbos-suporte. Os atuais sistemas de traduo automtica
no conseguem traduzir com qualidade os fenmenos lingusticos apresentados
pelas construes com verbos-suporte. Uma tarefa importante que pode conduzir
a uma melhor traduo das construes com verbos-suporte a do seu parafraseamento. Um sistema que permita mapear construes com verbos-suporte com
os seus equivalentes semnticos, sejam eles variantes estilsticas, variantes parafrsticas ou verbos, constitui uma mais valia para a traduo (humana e automtica). Entre outros aspetos positivos, o parafraseamento tem a vantagem de servir
como ferramenta de auxlio na transformao estilstica de textos, permitindo a
converso de um texto palavroso num texto semanticamente equivalente, mas
utilizando um menor nmero de palavras e uma linguagem mais controlada, e por
conseguinte, mais fcil de traduzir por uma mquina.
Outra tarefa de grande relevo para o aperfeioamento dos sistemas de traduo a da avaliao da traduo das construes com verbos-suporte. Os erros
refletidos na traduo destas construes por dois importantes sistemas de traduo automtica, o OpenLogos e o Google Translate, permitem concluir que as
unidades lexicais multipalavra continuam a ser um problema em aberto na rea da
traduo automtica, independentemente do tipo de aproximao adotada pelo
sistema. Os erros encontrados no interior das construes traduzidas poderiam
ser minimizados se as unidades lexicais multipalavra fossem tratadas como unidades indissociveis. A falta de composicionalidade das unidades lexicais multipalavra, nomeadamente a das construes com verbos-suporte, fica tambm comprometida com a falta de interveno humana qualificada na tarefa de alinhamento
de segmentos bilingues ou multilingues usados para treinar sistemas de aprendizagem automtica. Apesar da grande pertinncia da qualidade dos alinhamentos
dos vrios elementos da frase nos sistemas estatsticos, este tema est ainda pouco
explorado do ponto de vista lingustico e computacional, motivo pelo qual optmos por no o incluir neste artigo. No entanto, no podemos deixar de referir que
a impossibilidade de os sistemas de traduo automtica estatsticos permitirem
alinhar unidades lexicais multipalavra cujos elementos que as compem se encontrarem em situaes de no adjacncia, constitui uma das razes do fracasso dos
sistemas de traduo automtica. Tambm nesta tarefa, o envolvimento de fator
humano especializado ou a especializar-se em traduo ser determinante para
o processo de aprendizagem automtica de conhecimento lingustico que conduzir qualidade da traduo destas expresses, tema que merece ser abordado
com a devida ateno em trabalho futuro.
[220]
anabela barreiro
agradecimentos
Agradeo a Diana Santos e a Stella Tagnin os comentrios pertinentes, que permitiram melhorar este artigo. Este trabalho foi parcialmente financiado pela FCT
atravs de uma bolsa de ps-doutoramento (SFRH/BPD/91446/2012).
referncias
Aziz, Wilker, Sheila Castilho Monteiro de Sousa & Lucia Specia. 2012. PET: a tool
for post-editing and assessing machine translation. Em Eighth International Conference on Language Resources and Evaluation (LREC2012), 39823987.
Baptista, Jorge. 2005. Sintaxe dos nomes predicativos com verbo-suporte SER DE. Fundao para a Cincia e a Tecnologia/Fundao Calouste Gulbenkian.
Barreiro, Anabela. 2008. ParaMT: A paraphraser for Machine Translation. Em
Computational Processing of the Portuguese Language, 8th International Conference,
(PROPOR 2008), 202211.
Barreiro, Anabela. 2009. Make it Simple with Paraphrases: Automated Paraphrasing
for Authoring Aids and Machine Translation: Universidade do Porto. Tese de Doutoramento.
Barreiro, Anabela. 2011. SPIDER: A System for Paraphrasing in Document Editing
and Revision Applicability in Machine Translation Pre-editing. Em Alexander
Gelbukh (ed.), Computational Linguistics and Intelligent Text Processing, vol. 6609
Lecture Notes in Computer Science, 365376. Springer.
Barreiro, Anabela & Lus Miguel Cabral. 2009. ReEscreve: a translator-friendly
multi-purpose paraphrasing software tool. Em Marie-Jose Goulet, Christiane
Melanon, Alain Dsilets & Elliott Macklovitch (eds.), Proceedings of the Workshop
Beyond Translation Memories: New Tools for Translators, The Twelfth Machine Translation Summit, 18.
Barreiro, Anabela, Johanna Monti, Brigitte Orliac & Fernando Batista. 2013. When
Multiwords Go Bad in Machine Translation. Em Proceedings of the Workshop on
Multi-word Units in Machine Translation and Translation Technology, Machine Translation Summit XIV, 2633.
Barreiro, Anabela, Johanna Monti, Brigitte Orliac, Susanne Preu, Kutz Arrieta,
Wang Ling, Fernando Batista & Isabel Trancoso. 2014. Linguistic Evaluation of
Support Verb Constructions by OpenLogos and Google Translate. Em Nicoletta
Calzolari, Khalid Choukri, Thierry Declerck, Hrafn Loftsson, Bente Maegaard,
Joseph Mariani, Asuncion Moreno, Jan Odijk & Stelios Piperidis (eds.), Proceedings of the Ninth International Conference on Language Resources and Evaluation
(LREC14), 3540. ELRA.
[221]
Barreiro, Anabela, Bernard Scott, Walter Kasper & Bernd Kiefer. 2011. OpenLogos
Rule-Based Machine Translation: Philosophy, Model, Resources and Customization. Machine Translation 25(2). 107126.
Bick, Eckhard & Anabela Barreiro. 2015. Automatic anonymisation of a new
Portuguese-English parallel corpus in the legal-financial domain. Neste volume.
Chacoto, Luclia. 2005. O Verbo Fazer em Construes Nominais Predicativas: Universidade do Algarve. Tese de Doutoramento.
Chiang, David. 2005. A hierarchical phrase-based model for statistical machine
translation. Em Proceedings of the 43rd Annual Meeting on Association for Computational Linguistics, ACL05, 263270. Association for Computational Linguistics.
Gross, Maurice. 1984. Lexicon-grammar and the syntactic analysis of French. Em
10th International Conference on Computational Linguistics and 22nd Annual Meeting
of the Association for Computational Linguistics, Proceedings of COLING , 275282.
Gross, Maurice & Jean Senellart. 1998. Nouvelles bases pour une approche statistique. Em Actes du colloque international JADT-98, .
Koehn, Philipp. 2005. EuroParl: A Parallel Corpus for Statistical Machine Translation. Em Conference Proceedings: the tenth Machine Translation Summit, 7986.
AAMT.
Maia, Belinda. 2005. Machine Translation and Human Translation: using machine
translation engines and parallel corpora for teaching and research. Em International Contrastive Linguistics Conference, 123145.
Maia, Belinda & Anabela Barreiro. 2007. Uma experincia de recolha de exemplos
classificados de traduo automtica de ingls para portugus. Em Diana Santos
(ed.), Avaliao conjunta: um novo paradigma no processamento computacional da
lngua portuguesa, 205216. IST Press.
Maia, Belinda, Anabela Barreiro & Lus Sarmento. 2003. EVAL - Evaluation of
Machine Translation at FLUP. Apresentao em AvalON2003. http://www.
linguateca.pt/documentos/MaiaBarreiroSarmentoEVALAvalon2003.
pdf.
Maia, Belinda, Diana Santos, Lus Sarmento & Anabela Barreiro. 2004. TrAva
- a tool for evaluating Machine Translation - pedagogical and research possibilities. Apresentao na ABRAPT. http://web.letras.up.pt/bhsmaia/
belinda/pres/abrapt-trava.ppt.
[222]
anabela barreiro
Marcu, Daniel, Wei Wang, Abdessamad Echihabi & Kevin Knight. 2006. SPMT: statistical machine translation with syntactified target language phrases. Em Proceedings of the 2006 Conference on Empirical Methods in Natural Language Processing,
EMNLP 06, 4452. Association for Computational Linguistics.
Ramisch, Carlos, Aline Villavicencio & Christian Boitet. 2010. Multiword Expressions in the wild? The mwetoolkit comes in handy. Em Proceedings of the 23rd
International Conference on Computational Linguistics (COLING 2010), 5760.
Ranchhod, Elisabete. 1983. On the Support Verbs Ser and Estar in Portuguese.
LingvisticInvestigationes Volume 7. 317 353.
Ranchhod, Elisabete. 1990. Sintaxe dos Predicados Nominais com Estar. Instituto
Nacional de Investigao Cientfica.
Salkoff, M. 1999. A French-English Grammar: A Contrastive Grammar on Translational
Principles Linguisticae investigationes. J. Benjamins.
Sarmento, Lus, Anabela Barreiro, Belinda Maia & Diana Santos. 2007. Avaliao
de Traduo Automtica: alguns conceitos e reflexes. Em Diana Santos (ed.),
Avaliao conjunta: um novo paradigma no processamento computacional da lngua
portuguesa, 181190. IST Press.
Scott, Bernard (Bud). 2003. The Logos Model: An Historical Perspective. Machine
Translation 18(1). 172.
Vieira, Lucas & Lucia Specia. 2011. A review of translation tools from a postediting perspective. Em 3rd joint EM+/CNGL Workshop bringing MT to the user:
Research meets translators (JEC), 3342.
Zollmann, Andreas & Ashish Venugopal. 2006. Syntax augmented machine translation via chart parsing. Em Proceedings of the Workshop on Statistical Machine
Translation, StatMT 06, 138141. Association for Computational Linguistics.
c o n ta c t o s
Anabela Barreiro
INESC-ID
estudos de terminologia no brasil:

dilogos com portugal
MARIA JOS BOCORNY FINATTO
abstract
This paper contrasts some texts that deal with the history of the terminology research in Brazil, especially the research aimed to extract or recognize
terminology in corpora, a widespread practice among us only from the year
2000, with pioneering texts on this topic produced by Portuguese researchers, represented here by Belinda Maia. The intention is to recognize her
role as disseminator of the corpus-based methodologies. The paper follows
showing how the dialogue between the Terminology studies from Brazil and
Portugal is important for the promotion of Portuguese language in the global scenario of scientific and technical communication.
[1] i n t r o d u o
Este texto trata de cotejar algumas publicaes que servem como um exemplo de
testemunhos da trajetria da pesquisa terminlogica no Brasil, especialmente a
pesquisa orientada para a extrao ou reconhecimento de terminologias a partir
de corpora, mtodo de trabalho que s foi nacionalmente disseminado entre ns
a partir dos anos 2.000, e textos pioneiros sobre esse modo de pesquisa apresentados por estudiosos portugueses, representados aqui por Belinda Maia. A inteno
deste trabalho, assim, prestar o devido reconhecimento ao papel de Belinda Maia
como disseminadora da ideia do trabalho com corpus, quando nossos primeiros
estudos sobre Lingustica de Corpus recm conseguiam alguma repercusso e reconhecimento no Brasil (Sardinha 2000). Desde ento, essa metodologia de trabalho, que tem reunido no Brasil a Lingustica de Corpus (LC) e o Processamento
de Linguagem Natural (PLN), permanece como algo altamente desafiador, sobretudo entre a comunidade de pesquisadores linguistas que ainda hoje tm pouco
contato com tcnicas computacionais.
Do lado lusitano, revisamos dois textos de Maia (2003), Using Corpora for
Terminology Extraction: Pedagogical and computational approaches produzido
para um evento de 2001 (PALC) e Maia (2002), Corpora for terminology extraction
the differing perspectives and objectives of researchers, teachers and language
services providers produzido para um evento de 2002 (LREC). Do lado brasileiro,
tratado um texto de minha autoria (Finatto 2003), publicado em um boletim
da Associao Brasileira de Lingustica (ABRALIN), no qual, juntamente com ou-
[224]
maria jos bocorny finatto

tras colegas da Terminologia e Terminografia brasileiras, apresentava o desafio de
tratar manuais de Qumica Geral como corpora em busca de conexes entre suas
terminologias e os gneros textuais e discursivos envolvidos. Por fim, examino,
de modo panormico, em contraponto com os textos de Belinda Maia e esse meu,
o conjunto de ideias postas em um livro brasileiro bastante recente (Tagnin & Bevilacqua 2013) sobre o assunto, cujo ttulo justamente Corpora na Terminologia.
Ao final do texto, mostra-se como o dilogo entre os estudos de Terminologia do Brasil e de Portugal tem sido positivo para a promoo da Lusofonia no
cenrio global da comunicao cientfico-tcnica. Nesse cenrio, os repertrios
terminolgicos, sejam glossrios, dicionrios, bases de dados, mapas conceituais
ou ontologias de domnio, gerados a partir de corpora, tm um destaque especial.
[2] a n o v i da d e d o t r a b a l h o c o m c o r p u s e da s f e r r a m e n ta s c o m -
p u ta c i o n a i s
Para a construo de um corpus, bem sabemos, h todo um conjunto de procedimentos, bastante penosos, mas ao final muito gratificantes, de modo que o acervo,
criteriosamente reunido, realmente sirva para representar, com segurana, um
dado estado de uso de lngua. Maia (1997) j nos apresentava um texto sobre como
se poderia enfrentar essa tarefa de um modo relativamente tranquilo, produtivo e
colaborativo, reunindo-se esforos de diferentes pessoas que tivessem interesses
de pesquisa semelhantes em torno desse trabalho.
Mais tarde, em 2004, conforme apontavam Maia et al. (2004, pg. 45), em um
texto que tratava justamente da cooperao entre brasileiros e portugueses em
torno de corpora para ensino, ensino de traduo, traduo e pesquisa de terminologias, uma vez construdo um corpus, definido, grosso modo, como uma coleo
de textos em formato digital, sendo ele etiquetado ou em cru, havia toda uma
parte de ferramentas para observar e analisar o uso da lngua nesse conjunto de
textos. Essas ferramentas, como vamos quela poca no Brasil, pareciam uma
mgica. Afinal, elas permitiam a observao de muitos dados ao mesmo tempo,
em vez do antigo mas familiar trabalho de se ler uma mesma ocorrncia de
palavra ou de uma dada expresso linha a linha ao longo de um texto ou de vrios
textos disponveis apenas em formato impresso. Eu mesma, em 1998, ainda examinava os textos das mais de centenas de leis brasileiras sobre o meio ambiente
desse modo, com lpis, caneta sinalizadora colorida e papel, para a produo de
um dicionrio da sua terminologia.
Pois aquelas ferramentas computacionais mgicas j ofereciam informao
de natureza estatstica, que poderia, posteriormente, ser analisada para fins especficos. E, conforme ensinavam Maia et al. (2004), os grandes corpora monolngues
traziam a possibilidade de se estudar a lngua no nvel lexical e sinttico, o que
tenderia a auxiliar imensamente quem se interessasse, por exemplo, por identificar terminologias em grandes acervos de textos cientficos ou tcnicos.
estudos de terminologia no brasil: dilogos com portugal
[225]
Infelizmente, ainda hoje no Brasil, em 2015, muitos colegas linguistas desconhecem quaisquer metodologias do trabalho com corpus, embora estejamos em
uma poca de grande informatizao, quando nem mesmo se precisa mais comprar algum software para realizar o papel das ferramentas. Afinal, no faltam opes gratuitas e ferramentas prontas para uso on-line. Conforme j afirmamos em
trabalho recente (Novodvorski & Finatto 2014), a LC no Brasil e por extenso
os trabalhos com corpora e com ferramentas para sua explorao associou-se a
diferentes aventuras de investigao e praticamente nada rejeitou em termos de
parcerias de trabalho. O dilogo tem sido uma marca constante, mesmo com quem
conceba a LC apenas como um modus operandi computacional e quantitativo. A
despeito dessa impresso, deve ter ficado claro, pelo menos nesses primeiros 10
anos de percurso do trabalho com corpora no Brasil comemorados em 2015 com
uma dcada da publicao do artigo de Sardinha (2000) , que fomos muito alm
de apenas contar palavras.
[3] r e c o n h e c i m e n t o d e t e r m i n o l o g i a s e m c o r p o r a
Conforme j assinalava Maia (2002), para alm do trabalho da padronizao de

termos que estabelece os termos corretos de uma dada especialidade, levado a
cabo por especialistas de um domnio, geralmente sem a colaborao de linguistas,
h todo um outro trabalho terminolgico, que inclui uma parte de recuperao de
informao e de obervao de descrio de usos alm dos usos padronizados. Esses
inventrios de termos padronizados geralmente ficam registrados em dicionrios
e glossrios oficiais, publicados como terminologia padronizada e preconizada
por associaes de classe, visando uniformizar denominaes e conceituaes que
lhes paream mais adequadas. Desse modo, trata-se de normatizar usos.
Assim, num outro cenrio, descritivo e no prescritivo, so estudados os diferentes modos e circunstncias de emprego de termos o foco o de descrever
usos (quaisquer usos), independentemente de serem mais ou menos normatizados. O trabalho descritivo, feito dessa forma, geralmente levado a cabo por linguistas, tradutores, professores que lidam com ensino de lnguas para propsitos
especficos. Esse seria o caso, por exemplo, do ensino de escrita cientfica em
ingls para mdicos, ou a situao de profissionais que lidam com recuperao
de informao e representao de conhecimento como cientistas da informao e informatas que trabalham com Processamento de Linguagem Natural (PLN).
Nessa situao, so identificadas todas as realizaes encontradas em diferentes
corpora: os termos corretos, incorretos, desviantes, aceitveis, tolerveis, adaptados (entre outros), desde que empregados em textos produzidos por pesquisadores de diferentes perfis. So observados tambm e especialmente os termos
presentes em diferentes cenrios comunicativos, incluindo a comunicao cientfica, tcnica ou tecnolgica dirigida para leigos e semileigos entrando aqui o
sempre pungente tema da popularizao ou vulgarizao de temas cientficos.
[226]

Desse modo, j que a variao terminolgica um fenmeno natural da lngua em uso, coloca-se a necessidade de se organizar corpora de diferentes perfis
para o reconhecimento de terminologias, pois h muita coisa envolvida, conforme
Belinda, magnificamente, j nos ensinava e resumia (Maia 2002, pg. 2, traduo
minha1 ):
[O trabalho da] Terminologia no a simples acumulao de palavras, seus
equivalentes em outras lnguas, definies e uma certa quantidade de informao gramatical. Tambm no a simples correspondncia de um termo
para um conceito. A pessoa tem que lidar com todos os problemas usuais
da linguagem - sociais, geogrficos, histricos, polticos, e outros aspectos de
estilo e de registro. Ao nvel da padronizao, a pessoa pode at mesmo se
envolver em verdadeiras batalhas entre acadmicos ou sociedades comerciais que querem ver prevalecer as palavras que eles usam para descrever suas
teorias ou produtos especficos.
Esse trabalho descritivo, como normalmente visto e produzido por linguistas, abastece recursos voltados para o uso de tradutores. Mas, claro, h um nmero sem fim de finalidades para ele. Alm disso, ainda que se possa argumentar
que a variao ou variabilidade de formas e de significados dos termos seja um entrave para um ideal de comunicao cientfica unvoca, sem ambiguidades, h que
se descrever a situao, reconhecendo o que ocorre para que se possa, inclusive,
melhor administrar uma situao de padronizao.
Em um outro trabalho, que corresponde a uma comunicao apresentada em
2001, Maia (2003) discutia sobre o uso de corpora menores para a extrao de terminologias, trazendo-nos uma abordagem pedaggica e computacional. Na parte
pedaggica, estava a formao de tradutores que se envolviam, sob a superviso
de seus professors, com o processo de compilar e explorar os seus corpora; e, na
parte computacional, aquilo que ela denominou de terminologia computacional, o que j havia mencionado no seu texto de 2002 antes referido.
O relato da parte pedaggica mostrava que Belinda ento se concentrava em
produzir e usar pequenos corpora para estudar assuntos especializados com mais
profundidade e para a extrao de termos (cf. Ibid, pg. 1). Dessa parte, preciso
salientar a sua seguinte frase aqui reproduzida no original: One of the principal
objectives of our work is to convince the humanities educated translator that the serious
study of specialised language from the text to the term is essential training for future translators. (pg. 2, grifo nosso). O grifo, conforme entendo, reflete uma viso
[1]
No original: Terminology is not the simple accumulation of words, their equivalents in other languages,
definitions and a certain amount of grammatical information. Nor is it the simple matching of term
to concept. One has to deal with all the usual problems of language - social, geographical, historical,
political, and other aspects of style and register. At the level of standardisation, one can even become
involved in authentic battles between academics or commercial companies who want to see the words
they use to describe their particular theories or products prevail.
[227]
pioneira da perspectiva textual do estudo e do trabalho com as terminologias, com

a qual nos temos alinhado h bastante tempo, o que se confirma nesses trechos
a seguir apresentados de um trabalho nosso produzido em 2001 (Finatto 2003).
Nele j apresentavmos uma proposta diferenciada pelo menos no mbito dos
estudos de Terminologia do Brasil para o enfoque lingustico-terminolgico de
manuais acadmicos de Qumica (Finatto 2003, pg. 186):
O texto especializado (tambm chamado texto tcnico-cientfico) fruto da
ao perceptiva e transformadora de um sujeito enunciador, individual e
mltiplo, sobre um conjunto de conhecimentos e textos com os quais se relaciona. Essa ao, que pode ser vista como um redizer algo ou o recontar a
estruturao de um conhecimento tornando-o acessvel ao outro, est materializada e sobremodalizada (ou particularizada) no amplo conjunto de enunciados que estabelece o texto e tambm envolve relaes de intertextualidade.
Isto , o texto do Manual de Qumica, nosso objeto de observao particular,
construdo pelo enunciador e , igualmente, uma sntese de diversos outros
textos: os que o precedem e o acompanham, compartilhando com ele a constituio scio-histrica de uma rea de conhecimentos, de um continuum de
conhecimentos que a Qumica.
Nesse ponto, ainda vale destacar nossa outra afirmao, colocada naquele trabalho de 2001 (cf. (Ibid, pg. 186)) e que sustentamos como vlida at hoje, de que
no
h como desvincular termos e textos, mesmo que se escolha privilegiar os
aspectos lexicais mais pontuais de uma terminologia. So, assim, esses referenciais elementos muito importantes e que certamente podem contribuir
para os novos desenvolvimentos de uma teoria Terminolgica de base comunicativa voltada compreenso do texto tcnico-cientfico em seus diferentes
tipos.
O artigo de Maia (2003) trazia j, alm dessa postura textual, uma reflexo
sobre o portugus de Portugal e o do Brasil no mbito da comunicao cientfica
posta em textos. Trazia ela um relato, cuja leitura indispensvel para professores de Traduo ou de Terminologia do Brasil, sobre como conduzia, com alunos
de um curso de Traduo em Portugal, as relaes travadas com os especialistas
do domnio em foco e a formao desses futuros profissionais frente ao atravessamento do Portugus do Brasil. Afinal, ao buscarem seus corpora em portugus,
os alunos via de regra deparavam-se com fontes brasileiras e lusitanas.
Conforme explicava Maia (2003, pg. 10), muitas vezes textos em portugus
simplesmente no existiam ou no eram encontrveis para compor os corpora dos
estudantes. Mas, em geral, quando eram encontrados, estavam em Portugus do
Brasil, algo a que as pessoas de Portugal muitas vezes reagiam negativamente
[228]

especialmente os especialistas do domnio e tambm os estudantes, conforme
pude supor. A estrutura do vocabulrio e texto do Portugus do Brasil particularmente em domnios cientficos e tcnicos conforme relatava sofria de uma
influncia considervel do ingls norte-americano o que no ocorria do mesmo
modo no portugus de Portugal. No material brasileiro, termos em ingls eram
muitas vezes adotados e a estrutura de sentena em tais textos tendia a seguir a
ordem SVO dominante de Ingls em detrimento do estilo vernculo.
Anos mais tarde, em 2010, experimentaramos, in vivo, a situao relatada por
Belinda, mas pela via inversa, em relao a corpora de um domnio disponveis
apenas em portugus de Portugal. Com estudantes de Traduo da nossa Universidade, alunos de graduao e de ps-graduao, acompanhados por colegas
mdicos associados nossa Universidade, colaboramos em um trabalho sobre o
tema das pneumopatias ocupacionais (Brasil)/profissionais (Portugal) integrado
por uma equipe brasileira e uma equipe portuguesa, o que registramos nos trabalhos Marcolin et al. (2010) e em Finatto & Goldnadel (2013).
Mais uma vez, ter tido acesso ao relato de experincias de Belinda Maia permitiu que nos entendssemos e nos situssemos em um enquadramento de uma situao geogrfica e temporalmente diferente, mas muito semelhante. Havia, enfim,
o desafio de uma lusofonia a enfrentar e a promover com nossos alunos e com os
especialistas do domnio. Esse percurso, ainda que parcialmente registrado, pode
ser conferido ao acessar-se o nosso Glossrio Experimental de Pneumopatias Ocupacionais.2 Esse um prottipo de glossrio brasileiro, fruto do trabalho comum com
os colegas de Portugal, que estamos construindo ano a ano com nossos estudantes
da disciplina de Terminologia do curso de Traduo. Sua proposta apenas a de
ser um material didtico para nossos alunos de Letras.
Quanto ao modo como lidar com essa lusofonia em meio pedagogia de terminologias para futuros tradutores, nossa opo tem sido a de separar as variantes
de um modo bastante claro. Recomendamos agrupar os dados em blocos distintos, ainda que esses blocos estejam compartilhados em um mesmo trabalho, de
modo a salvaguardar as diferenas importantes entre usos terminolgicos e prticas textuais entre Brasil e Portugal. Incluir essas diferenas ou separar as informaes, em um corpus ou em um glossrio, pode incomodar algumas pessoas; mas
o incmodo tambm demonstra a necessidade de se pensar em um portugus
internacional.
De nossa parte, alertamos que um perigo, para o tradutor brasileiro que
produz um texto em portugus para clientes brasileiros, utilizar uma fonte portuguesa sem dar-se conta de sua procedncia e das potenciais diferenas terminolgicas. Vale mencionar alguns exemplos bastante ilustrativos de diferenas
terminolgicas entre Brasil (BR) e Portugal (PT): AIDS (BR) e SIDA (PT), cidos
[2]
Disponvel gratuitamente em: http://www.ufrgs.br/textecc/pneumopatias/index.php.
[229]
graxos (BR) e cidos gordos (PT), disbarismo (BR) e embolia gasosa (PT), entre
outros casos concretos que se poderia conferir, por exemplo, no Glossrio Panlatino
de Pneumopatias Ocupacionais/Profissionais.3
Em sntese, recomendamos que corpora portugueses sejam tratados em separado dos corpora brasileiros, sempre muito bem identificados, especialmente se o
uso dos dados extrados servir para abastecer produtos para a traduo. H muitos pontos coincidentes, naturalmente, mas as diferenas no se pode ignorar,
tampouco essas diferenas, devidamente repertoriadas, devem servir para que
se possa pensar na inviabilidade de se escrever tambm em portugus o conhecimento cientfico e tcnico. Em um trabalho que rena as fontes e as terminologias dos dois pases, as denominaes comuns ficariam marcando, assim, um
portugus internacional, ao passo que se assinalam, sempre, os usos diferentes de
Portugal (PT) ou do Brasil (BR).
Uma tal postura, o que discute Santos (2014) quando trata da questo de
diferenas lingusticas entre Portugal e Brasil em seu trabalho intitulado Como
estudar variantes do portugus e, ao mesmo tempo, construir um portugus internacional? A autora entende que importante termos corpora em portugus sem uma
separao de variantes considerando a ideia de um portugus internacional. No
contexto dessa pergunta, pelo menos no mbito da Terminologia, entendo que
importa descrever essas variantes e p-las em contato, em conjunto, ainda que
individualizadas, de modo que todos saibamos uns dos outros e de seus usos especficos.
Sob uma outra tica, igualmente interessante para uma reflexo que abarca e
extrapola o trabalho de Santos (2014), temos o estudo de Coulthard (2005). Nesse
trabalho, o autor j aponta, com base em um extenso estudo em corpus, uma influncia do estilo redacional do artigo em ingls sobre a escrita original de artigos
em portugus por parte de pesquisadores de Pediatria no Brasil. Assim, o estilo
em portugus brasileiro, pelo menos em artigos cientficos de Pediatria, j aparece anglofonizado, talvez at para facilitar a traduo do texto para um ingls
lingua franca. O corpus paralelo de Pediatria reunido por Coulthard (2005), por
ns expandido, encontra-se disponvel para consulta, em diferentes formatos e
recursos.4
[4] corpora na terminologia e nas terminologias
Em 2013, organizado por Tagnin & Bevilacqua (2013), foi publicada no Brasil uma
coletnea de artigos que servem, em tese, para atestar a boa juno e o sucesso
do trabalho terminolgico baseado ou guiado por corpora. O objetivo da obra ,
na verdade, reiterar, para ns do Brasil, que j h uma interface produtiva e pro[3]
[4]
Disponvel
gratuitamente
em
http://www.oqlf.gouv.qc.ca/ressources/bibliotheque/
dictionnaires/panlatin_pneumopathies20130124.pdf.
Consultar em http://www.ufrgs.br/textecc/textped/Dicionarios/DicPed/.
[230]

missora entre Lingustica de Corpus (LC) e Terminologia. Seus textos podem ser
divididos em trs grupos de artigos que tratam: a) da trajetria histrica dessa
inter-relao; b) de situar essa juno no cenrio da formao de tradutores; e,
c) de experincias de elaborao de produtos terminogrficos para tradutores e
redatores.
Entre vrios textos que poderia citar, um trabalho digno de referncia aqui, visando ilustrar a riqueza de perspectivas da obra, o de Maciel (2013). Isso porque
a autora frisa que, embora a LC goze de prestgio no cenrio da pesquisa terminolgica brasileira atual, h muitos trabalhos que, embora lidem com corpora, no
seguem seus princpios terico-metodolgicos. Mais, ainda, ela nos alerta que (op.
cit., pg. 40):
O uso de corpora em formato digital abre mltiplos caminhos e aqueles que
se dedicam aos estudos terminolgicos no conseguem prescindir deles. No
entanto, no raras vezes, o pesquisador levado a acreditar em falcias e a
sonhar com o impossvel. Engana-se com o poder da mquina, busca a mgica de um aplicativo automtico, ilude-se com a velocidade operacional prometida, entrega-se a clculos matemticos e, em clima de entusiasmo pela
evidncia emprica, passa ao largo da reflexo, do estudo e dos fundamentos
tericos do seu trabalho.
A partir disso, importante no perder de vista que a informatizao, mediada pela LC, mostra para a pesquisa em Terminologia que a melhor observao da
linguagem , sim, extensiva. evidente que preciso contrastar padres da linguagem cientfica ou tcnica em diferentes corpora, pois, pela lente de aumento
dos corpora, evidenciam-se as caractersticas dos textos e dos discursos (Finatto
2007). Ainda assim, pelo menos no Brasil, conforme percebo pessoalmente, a pesquisa em Processamento da Linguagem Natural (PLN) no tem dialogado to intensivamente quanto poderia com a pesquisa em LC, visto que a primeira territrio de informatas e a segunda, de linguistas. Apesar dessa percepo negativa,
uma boa integrao entre essas duas reas temos visto em alguns grupos do Brasil e de Portugal, como o Ncleo Interinstitucional de Lingustica Computacional
(NILC) de So Carlos (So Paulo) e a Linguateca (citados em Maia et al. (2004)), que
renem linguistas e informatas. Mas, pelo menos no mbito acadmico brasileiro,
h ainda muito a se avanar rumo a um dilogo produtivo e igualmente positivo
para as partes nele envolvidas.
claro, hoje, entre ns linguistas brasileiros que lidamos com Terminologia e Terminografia, que um termo especializado , antes de tudo, um valor ativado no discurso (o termo discurso, para mim, no exatamente um sinnimo de texto, mas
no cabe aqui essa discusso). Essa concepo devemos principalemente Teoria
[231]
Comunicativa da Terminologia (TCT), desenvolvida por Maria Teresa Cabr e seus

colaboradores na Espanha.
Em funo desse entendimento de um valor terminolgico ativado no discurso/texto, identificar uma terminologia passa a ser uma tarefa que envolve
tambm reconhecer um texto, um modo de dizer, uma famlia de textos, elementos que se concretizam em diferentes usos de uma lngua. Alm dos textos,
e por causa deles, temos que acessar todo um conjunto de itens de conhecimento
inter-relacionados e apresentados social, cultural e historicamente em um dado
espao-tempo. Portanto, identificar os termos no representa apenas o reconhecimento de um conjunto de palavras de um domnio determinado, tampouco apenas listar as palavras tcnicas que se extraem de um conjunto de
textos.
Um termo, como sabemos, corresponde a um conceito, que uma poro de
conhecimento. E, tal como as palavras comuns, tambm os conhecimentos morrem, nascem ou caem em desuso. Afora isso, a sua utilizao peculiar pode identificar grupos socais, perspectivas nacionais ou internacionais de uma cincia e
correntes de pensamento locais. Afinal, os produtores do pensamento de uma
cincia, de uma tecnologia ou de uma especialidade expressam-se com escolhas
lexicais prprias do seu discurso.
Por outro lado, no cenrio da pesquisa sobre terminologias partindo de corpora, destacam-se hoje os softwares especialmente desenhados ou adaptados para
a localizao semi-automtica de terminologias, de construes, de fraseologias,
de sintagmas e de palavras ou de expresses que seriam potencialmente termos.
Isso sem contarmos os novos recursos de PLN, hoje capazes de gerar automaticamente ontologias a partir de corpora, tal como, por exemplo, j faz a ferramenta
ExATOlp Extrator Automtico de Termos para Ontologias em Lngua Portuguesa. (Lopes 2012).
Neste momento atual, marcado pela intensa informatizao do trabalho, considerando o sempre necessrio e produtivo dilogo entre os estudos de Terminologia do Brasil e de Portugal, importante refletirmos sobre o quanto corpora
gigantes ou pequenos e ferramentas computacionais no so panaceias. Afinal,
ainda h muito trabalho subjetivo envolvido. O apoio computacional e estatstico
d um suporte importantssimo ao terminlogo/termingrafo que segue lidando
com acervos de conhecimento escritos em portugus. Embora a tarefa esteja hoje
muito menos rdua com tal suporte tecnolgico, o pesquisador ainda precisa trabalhar intensamente, sem perder de vista o cenrio, algumas vezes belicoso, da
prescrio versus descrio.
E, em meio a isso, permanecem os desafios para a promoo da lusofonia no
cenrio global da comunicao cientfico-tcnica, de modo que possamos apreciar a nossa propria diversidade, dando-nos conta de que a ideia de um portugus
internacional ou supranacional implica o reconhecimento de um patrimnio coOSLa volume 7(1), 2015
[232]

mum nosso (conforme bem assinala Santos 2014, pg. 21. Nesse cenrio global,
temos um portugus pan-nacional como uma lngua que abarca e subsume as
suas diferentes variantes frente a um ingls lingua franca ou frente a outras lnguas que tambm tm suas variantes nacionais como o francs da Frana ou do
Canad. Esse ingls lingua franca, entretanto, parece a tudo e a todos engolir, pois
o que no estiver publicado em ingls, na prtica, em termos de textos cientficos ou tcnicos, tende a no ser citado ou reconhecido, ignorado, mesmo que a
traduo automtica partindo do portugus para o ingls esteja disposio de
todos. Com o apoio da traduo automtica, apesar dos seus erros mais comuns,
poderia-se ao menos tentar entender os tpicos principais de um trabalho originalmente escrito em portugus. O problema que, em geral, por vrios motivos,
sequer se tenta.
Ser a influncia maior ou menor do ingls uma medida de distanciamento entre as terminologias do Brasil e de Portugal e seus respectivos fazeres cientficos?
Eis aqui um bom tema para pesquisas com base em corpora. Mas, se isso for verdade, qual seria, ento, a medida de aproximao entre elas? Como conduzir um
trabalho terminolgico que acolha e promova a lusofonia em uma poca como a
atual em que o Brasil se abre, intensivamente, internacionalizao e que parece
dominar o cenrio em muitas frentes? Creio que as respostas certas para essas
perguntas no estejam dadas prontas em trabalhos de colegas portugueses como
os de Belinda Maia aqui citados. Apesar disso, qualquer trao de resposta disponvel, legitamente construdo em um percurso de reflexo, em meio profuso de
perguntas e de desafios a equacionar, j pode nos ajudar a encontrar as nossas
quem sabe novas melhores perguntas. O dilogo renovado entre Brasil e Portugal, pelo menos no mbito dos estudos de Terminologia, tende a nos ajudar nessa
direo.
agradecimentos
Agradeo a Diana Santos pela oportunidade de participar desta publicao e tambm FAPERGS, CAPES, no mbito do Programa Stic-AmSud (projeto 047/2013),
FAPERGS e ao CNPq, instituies de apoio pesquisa no Brasil, pelo apoio s
minhas iniciativas de estudo de pesquisa.
referncias
Coulthard, Robert James. 2005. The application of corpus methodology to translation:
the jped parallel corpus and the pediatrics comparable corpus: Universidade Federal
de Santa Catarina. Tese de Mestrado.
Finatto, Maria Jos Bocorny. 2003. Sobre o enfoque lingstico-terminolgico de
manuais acadmicos de Qumica Geral. Em Associao Brasileira de Lingustica ABRALIN (ed.), II congresso internacional da ABRALIN, 2001, 184186.
[233]
Finatto, Maria Jos Bocorny. 2007. Explorao terminolgica com apoio informatizado: perspectivas, desafios e limites. Em Aparecida Negri Isquerdo & Ieda Maria Alves (eds.), As Cincias do Lxico. Lexicologia, Lexicografia, Terminologia. Volume
III, 447458. Editora da UFMS/Humanitas.
Finatto, Maria Jos Bocorny & Marcos Goldnadel. 2013. Formao de terminlogos: experincia com /corpus/ em uma graduao em traduo. Em Stella
Tagnin & Cleci Bevilacqua (eds.), Corpora na Terminologia , 87112. HUB Editorial.
Lopes, Lucelene. 2012. Extrao automtica de conceitos a partir de textos em lngua
portuguesa: Pontifcia Universidade Catlica do Rio Grande do Sul (PUCRS). Tese
de Doutoramento.
Maciel, Anna Maria Becker. 2013. Terminologia e corpus. Em Stella Tagnn &
Cleci Regina Bavilacqua (eds.), Corpora na terminologia, 2945. HUB Editorial.
Maia, Belinda. 1997. Do it yourself corpora... with a little bit of help from your friends! Em B. Lewandowska-Tomaszczyk & P. J. Melia (eds.), Practical applications
in language corpora, 403410. Lodz: Lodz University Press.
Maia, Belinda. 2002. Do-it-yourself, disposable, specialised mini corpora - where
next? Reflections on teaching translation and terminology through corpora.
Cadernos de Traduo 1(9). 221235.
Maia, Belinda. 2003. Using Corpora for Terminology Extraction: Pedagogical and
computational approaches. Em Barbara Lewandowska-Tomaszczyk (ed.), PALC
2001: practical applications in language corpora, 5668. P. Lang.
Maia, Belinda, Lus Sarmento, Stella E. O. Tagnin & Sandra Maria Alusio. 2004.
Idias que cruzam o Oceano. CROP - Revista da rea de Lngua e Literatura Inglesa
e Norte-Americana 10. 4364.
Marcolin, Paula, Aline Evers, Maria Jos Bocorny Finatto & Marcos Goldnadel.
2010. Pneumopatologias: formao em terminologia em curso de traduo no
Brasil. Em Actas da RiTerm 2010, 254278.
Novodvorski, Ariel & Maria Jos Bocorny Finatto. 2014. Lingustica de Corpus no
Brasil: uma aventura mais do que adequada. Letras & Letras - UFU 30(2). 716.
Santos, Diana. 2014. Como estudar variantes do portugus e, ao mesmo tempo,
construir um portugus internacional? http://www.linguateca.pt/Diana/
download/VariantesPIGSCP.pdf.
Sardinha, Tony Berber. 2000. Lingstica de Corpus: histrico e problemtica.
DELTA 16(2). 323367.
[234]

Tagnin, Stella Esther Ortweiler & Cleci Regina Bevilacqua. 2013. Corpora na terminologia. So Paulo: HUB Editorial.
c o n ta c t o s
Maria Jos Bocorny Finatto
Instituto de Letras, Universidade Federal do Rio Grande do Sul, Brasil
maria.finatto@gmail.com
ensinador paralelo:
alicerces para uma pedagogia nova
DIANA SANTOS E ALBERTO SIMES
abstract
After outlining some of Belinda Maias main ideas of how to use comparable
corpora in translation teaching and learning, we present a new translator
training tool: Ensinador Paralelo. It is an extension of Ensinador, originally
developed for use with monolingual corpora (Simes & Santos 2011). This
new tool produces exercises based on translations (previously done by professional translators or students, as we will see).
In order to make the text more interesting to Belinda Maia we also study
critically four translations of Lewis Carrolls children books.
[1] i n t r o d u o
Como professora de traduo, terminologia e de lngua inglesa para portugueses,

Belinda Maia sempre insistiu na primazia pedaggica dos corpos comparveis em
detrimento dos paralelos, no obstante a fama e a moda que estes ltimos obtiveram a partir dos anos 90. Da a sua variada produo cientfica em prol dos
mesmos, como pode ser apreciado em Maia (2003c,b,a, 2006a); Maia et al. (2005a).
Por questes prticas corpos comparveis necessitam de um ambiente para
corpos monolingues acabou por ser conhecida e reconhecida pela conceo do
Corpgrafo (Maia & Sarmento 2003a, 2005; Maia et al. 2005c; Maia 2008d), que
desde sempre foi sonhado como o ambiente para estudar corpos comparveis,
embora nunca (ou apenas bastante mais tarde) se tenha chegado a implementar
as funes exatamente associadas comparabilidade (Maia & Matos 2008). De
facto, o Corpgrafo ao longo dos anos tornou-se um sistema poderoso e robusto e
as suas vertentes de motor terminolgico ou mesmo ontolgico foram tomando a
primazia (Oliveira et al. 2005; Sarmento et al. 2007; Matos & Maia 2008).
Contudo, o prprio Corpgrafo foi expandido para tambm incorporar corpos
paralelos, como Matos et al. (2008) testemunha.
Mas ns estamos conscientes de que, com a moda dos corpos paralelos, Belinda
Maia sempre tentou equilibrar o fiel da balana para que os alunos (e tradutores)
pudessem apreciar questes de estrutura textual, modos de expresso, que, devidos camisa de foras de uma traduo, sobretudo literria, no apareceriam
com tanta fora no lado traduzido.
[236]
santos & simes

Pois um dos problemas e cavalos de batalha da Belinda como tecnloga da
lngua era contrabalanar o paradigma da traduo literria com todas as outras
formas de traduo, para a qual ela conscienciosa e apaixonadamente treinava os
alunos. E no preciso ser linguista ou literato para saber que existem muitssimo
menos textos (bem) traduzidos no-literrios em corpos paralelos. Alm disso, e
com o advento das ferramentas de traduo automtica, vocacionadas e treinadas sobretudo para a traduo tcnica, pareceu Belinda que a familiarizao dos
alunos com tais ferramentas era fundamental, e que seria mais vantajoso treinar
tradutores que colaborassem com a mquina (como a Belinda diz) do que a ignorassem ou temessem.
Com isto tudo, um leitor que no conhecesse a Belinda no acharia natural
escrever um artigo em honra dela sobre (mais!) um sistema para corpos paralelos.
Contudo, temos duas razes para o fazer:
A Belinda sempre foi uma colega maravilhosa, capaz de apreciar tudo e de
se entusiasmar e ajudar em qualquer projeto, mesmo que fosse completamente fora do domnio das suas mltiplas tarefas: por exemplo, lembramonos do seu entusiasmo perante a infraestrutura do Museu da Pessoa, uma
vez que foi ao Minho.
um sistema prtico que foi pensado para o ensino, e nesse aspeto pode
ser mais til e mais do agrado da Belinda do que o COMPARA (FrankenbergGarcia & Santos 2002) e o CorTrad (Teixeira et al. 2012), que no foram inicialmente desenhados para ensinar e que tinham, ou tm, outras aspiraes.
Esperamos pois, com a descrio do sistema e das suas aplicaes ou mesmo ferramentas de apoio ao ensino, ajudar a convencer a Belinda de que, pelo menos nesta
vertente, tambm pode ser til usar corpos paralelos no ensino, da a pedagogia
nova no ttulo desta contribuio.
No que ela no esteja j ou mesmo sempre convencida disso; a luta dela era
por ir mais alm, e dar mais espao e importncia aos corpos comparveis.
Para que seja mais fcil convenc-la da utilidade da ferramenta ou, quem sabe,
para ainda piorar o efeito, no resto do artigo iremos tentar ilustrar as capacidades
pedaggicas do Ensinador e de corpos paralelos multi-traduousando corpos
literrios.
[2] o e n s i n a d o r p a r a l e l o
A ideia, alis j h muito descrita para o par ingls-portugus (Frankenberg-Garcia

1998, 1999b,a), s foi implementada depois de termos, na Linguateca, desenvolvido o Ensinador (Simes & Santos 2011) para criar exerccios gramaticais sobre
corpos monolingues.
ensinador paralelo: alicerces para uma pedagogia nova
[237]
Mas com o envolvimento de ambos os autores em cada vez mais novos corpos paralelos, como mostraremos no que se segue, pareceu chegada a altura de
expandir a ideia, e a funcionalidade, para os muitos casos j existentes.
Ao contrrio do Ensinador, que foi pensado para se apoiar exclusivamente sobre os corpos do AC/DC dado o seu tamanho e abrangncia, no parecia necessrio ainda usar mais material, o ParaEnsinador (nome do ensinador para
corpos paralelos) pretende poder ser usado pelo menos sobre os corpos da Linguateca e sobre os corpos do Per-fide (Arajo et al. 2010). Isto obrigou-nos a ter
mais cuidado na sua implementao, de modo a permitir a sua fcil instalao em
diferentes sistemas, assim como a possibilidade de configurao, para poder lidar
com vrios corpos, lnguas e diferentes formas de codificao e anotao.
[2.1]
Implementao
Embora o ParaEnsinador no tenha grandes novidades em termos de implementao em relao ao Ensinador monolingue, parece-nos importante realar, neste
documento, a sua tecnologia de base.
Tal como para o Ensinador, os corpos usados pelo ParaEnsinador devem estar,
naturalmente, codificados em Open Corpus Workbench (OCWB)1 . Tendo o OCWB
suporte para corpos paralelos, o ParaEnsinador baseia-se nessa informao para
realizar pesquisas paralelas.
Assim, para que um corpo paralelo possa ser usado pelo ParaEnsinador necessrio que cada uma das lnguas seja codificada de forma independente no OCWB,
seguida da importao de dados de alinhamento (que indicam, para cada segmento de uma lngua qual o segmento da lngua de destino que lhe corresponde)2 .
A interface Web implementada usando o mdulo Perl Dancer23 que pode funcionar sob um qualquer servidor Web, desde Apache a Starman.
A interligao entre a interface Web e o OCWB realizada usando o mdulo
CWB::CQP::More4 que, recentemente, recebeu uma atualizao para corpos paralelos.
Para que fosse possvel a gerao de diferentes tipos de exerccios foi necessrio alterar a sintaxe pr-definida usada pelo Corpus Query Processor do OCWB,
adicionando-lhe alguns atributos extra.
As alteraes sintaxe do OCWB so detalhadas na prxima seco, junta[1]
[2]
[3]
[4]
Ver http://cwb.sourceforge.net/.
Alguns investigadores tm usado ficheiros em formato TMX (Translation Memory eXchange) para armazenar os seus corpos paralelos. Uma TMX pode ser importada facilmente para o OCWB usando a ferramenta
tmx2cwb do mdulo Perl XML::TMX::CWB http://metacpan.org/release/XML-TMX-CWB.
Ver http://metacpan.org/release/Dancer2.
Ver http://metacpan.org/release/CWB-CQP-More.
[238]
santos & simes

mente com alguns exemplos do seu uso5 .
Embora o ParaEnsinador esteja, atualmente, funcional, a verdade que ainda
lhe faltam vrias propriedades do Ensinador original. E, para alm dessas funcionalidades em falta, tambm existem muitas ideias de como tornar esta ferramenta
mais til, nomeadamente a realizao de exerccios validados automaticamente
ou de escolha mltipla (apresentando, por exemplo, diferentes formas geradas
usando um gerador morfolgico, ou um dicionrio bilingue).
[2.2] Exemplos de uso

Passamos a ilustrar o que se pode fazer. Mas, antes, chamamos a ateno de que
esta uma ferramenta para o professor, no para ser usada diretamente pelo
aluno (de traduo ou de lngua). Nesse aspeto, tal como o Ensinador, difere essencialmente dos sistemas Trivial Corpus Pursuit (Ebeling 2006) e Oslo Interactive
English (Ebeling 2009), que so pensados para o utilizador final.
Um primeiro exemplo muito simples d-nos casos de traduo da palavra admirar para ingls, no CorTrad jornalstico para mais informaes sobre este
corpo, veja-se Santos et al. (2012); para a razo do interesse pela palavra admirar, veja-se Santos & Mota (2015a).
figura 1: Procura do lema admirar para escolher concordncias paralelas.

Na figura 2, mostramos o resultado de uma procura para escolher entre as
tradues pedir e perguntar do verbo ingls ask. Como esperamos que seja evidente
[5]
Convm realar que, infelizmente, neste momento ainda no foi possvel tornar a linguagem de pesquisa
flexvel suficiente para as duas lnguas do corpo paralelo. Assim, o utilizador ter de escolher uma lngua para a qual a sintaxe estendida deva ser usada, enquanto que para a outra lngua s poder usar
expresses de pesquisa do OCWB.
Espera-se que, no futuro, ou atravs da incorporao de algumas funcionalidades extra de pesquisa do
lado do OCWB, ou atravs de alguma soluo intermdia, se possa vir a ter a linguagem estendida para
ambas as lnguas.
[239]
para um leitor conhecedor do fenmeno da vagueza contrastiva, ask vago entre

o que em portugus se tem de especificar como ato de fala (pedido de informao)
(perguntar), ou pedido de ao ou objeto (pedir). Mas s quem contata diretamente
com falantes de portugus lngua estrangeira de lnguas germnicas que tenham
verbos vagos a esse respeito pode ter a noo de que no bvia a escolha de qual
verbo utilizar, e que por isso vale a pena fazer este tipo de exerccios para tornar
o aprendiz mais consciente dos diferentes casos.
figura 2: Resultado da procura de casos com pedir e com perguntar.

Pode-se depois escolher os casos que queremos usar na construo de exerccios, como se v na figura 3.
Em relao sintaxe de procura, explicamo-la na Tabela 1, sobretudo visto que
o artigo inicial sobre o Ensinador ainda no apresenta todas as funcionalidades
que foram sendo desenvolvidas e criadas.
.NOME
significa manter no enunciado

indica a classificao (atributo CQP, por exemplo lema
ou pessnum) que se mostra para o aluno poder fazer o exerccio
tabela 1: Informao sobre extenses sintaxe do OCWB
A figura 4 exemplifica o resultado final: o enunciado de um exerccio muito

simples dedicado explorao das possveis tradues da palavra inglesa ball, apenas para tornar claro o tipo de exerccios contrastivos aqui em jogo.
[240]
santos & simes
figura 3: A interface de escolha das unidades de traduo a reter

O estudante teria de puxar pela cabea para escolher livremente qual a melhor palavra em portugus, ou no caso de alunos menos avanados para efetuar
uma escolha entre bola, carretel, bolo e engrenagem. Note-se que este exerccio foi
feito com base nos textos do CorTrad literrio, traduo de contos em ingls australiano e canadiano para portugus do Brasil.
[3] a l i a da s
O texto de Lewis Carroll Alice in Wonderland (Carroll 1865), assim como a sequela
Through the Looking-Glass, and What Alice Found There (Carroll 1871), um clssico
da literatura britnica e mundial, e alm disso um livro de culto at aos nossos
dias. Belinda Maia no esconde o seu entusiasmo por ele, demonstrado pela sua
invocao em lides acadmicas, como em Maia (2008a) por ocasio dos dez anos
da Linguateca. Mas encontra-se em boa companhia: Com efeito, h outros textos
na rea da traduo que tambm invocam, embora de maneira diferente, a genialidade deste matemtico-escritor, como o caso de Chesterman (1998, pgs. 56).
Tambm um dos principais socilogos portugueses, de renome mundial, escolheu
mais uma vez estes livros (ou a sua personagem principal) para denominar vrios
dos seus projetos: veja-se Santos (1994) e o projeto aludido em Santos (2014c).
Aps termos escrito este artigo, descobrimos que j havia pelo menos dois
artigos escritos com base nestes mesmos textos, analisando, felizmente, outras
questes (Silva & Fromm 2011, 2012). Alm disso, a verso inglesa tem sido usada
em vrios livros e artigos de estatstica, como o caso de Baayen (2008), ou simplesmente como referncia ou citao em tudo o que possa ter algo a ver com
[241]
figura 4: Um exerccio sobre possveis tradues de ball

matemtica6 . Citamos tambm a verso anotada por Gardner (1960), um clssico
de interpretaes matemticas e xadrezsticas, e mesmo uma anlise das personagens de Alice como rede social (Agarwal et al. 2012).
Por um lado, isto torna a nossa tentativa aparentemente bastante pretensiosa, ao tentarmos ombrear com tais sumidades na interpretao ou uso da Alice.
Mas, por outro lado, convm chamar a ateno para que o nosso campo de atuao, pelo menos no presente artigo, tem a ver com o ensino de portugus ou
de ingls, a universitrios com ainda menos referncias literrias do que ns (e
que possivelmente apenas conhecem a Alice do Walt Disney). Por isso, esperamos
conseguir ainda encontrar alguns ngulos interessantes, contrastivos, de como
explorar um corpo de tradues pela mo da Alice, e por inspirao da Belinda.
Mais concretamente, temos ao nosso dispor, atravs de trabalho recente no
CorTrad, quatro tradues diferentes dos livros de Lewis Carroll7 .
Atravs da inspeo deste corpo multitradues, tentaremos indicar como os
tradutores conseguiram (ou no) passar as ambiguidades e os jogos de palavras
de Carroll para o portugus. Ao mesmo tempo chamaremos a ateno para alguns
erros de palmatria que so provavelmente resultado da pouca ateno e cuidado
que a literatura infantil, e a literatura traduzida, tm ou tinham em geral. Se isso
especialmente apontado sobre o Brasil por Wyler (2003), a mesma observao
foi feita sobre as tradues portuguesas de literatura infantil por Santos (1997).8
[6]
[7]
[8]
A biografia de Alan Turing (Hodges 1983) est cheia de aluses, e mesmo livros de ensino a nvel universitrio na Noruega (Borge 2008).
Ver
http://dinis.linguateca.pt/dispara/CorTrad/AutoresTradutoresCorTradlit.php#
alice para informao detalhada sobre elas.
Os erros de traduo no foram encontrados de forma sistemtica, mas sim atravs da nossa interao
diria com o corpo. Este artigo no pretende apresentar uma metodologia de deteo ou quantificao
de problemas, limita-se a notar que uma anlise em paralelo permite identificar muitos problemas.
[242]
santos & simes

Vejamos alguns casos flagrantes de erros de traduo encontrados9 .
[3.1] A traduo de likely

Considerem-se as seguintes tradues de likely:
(1)
A likely story indeed! said the Pigeon, in a tone of the deepest contempt.
Uma bela histria, de fato! disse a Pomba com o mais profundo desprezo.
Uma histria promissora, certamente, disse a Pomba, com um tom do
mais profundo desprezo.
(2)
Just then she noticed that the Queen was close behind her, listening: so she
went on likely to win, that its hardly worth while finishing the game.
Justo neste momento, notou que a Rainha estava atrs dela, ouvindo tudo.
Da continuou: ... competente no jogo, que nem sei se vale a pena ir at
o final da partida.
Exatamente neste instante ela percebeu que a Rainha estava bem ao seu
lado, ouvindo, ... boa nesse jogo que vai ser muito difcil chegar ao final
da partida.
No primeiro caso, no conseguimos encontrar uma boa explicao para no usar

os termos provvel ou credvel, excetuando o possvel desconhecimento destes termos da parte das crianas brasileiras da poca. No segundo, podemos aventar a
seguinte explicao: colocar um adjetivo positivo a seguir a ela exprime a maneira de Alice sair da situao complicada em que se encontrava. Existe, contudo,
em portugus uma forma semelhante ao ingls (adjetivo que pede completiva infinitiva) que daria exatamente o mesmo resultado: capaz de, alm de ser mais fiel
ao texto original.
Outro comentrio que ambos os tradutores, embora em teoria independentes, tomaram as mesmas decises, o que leva a suspeitar de que a segunda traduo se inspirou na primeira e lhe absorveu os erros ou escolhas menos felizes.
[3.2] A traduo de English

O outro caso que queremos salientar e que revela uma crassa falta de adaptabilidade ao pblico alvo, neste caso crianas brasileiras ou simplesmente falantes
de portugus, o nome da lngua no ter sido substitudo pela lngua em que a
histria (re)contada, o portugus.
(3)
[9]
Perhaps it doesnt understand English, thought Alice.

Talvez ele no entenda ingls, pensou Alice.
Talvez ele no entenda ingls, pensou Alice.
Pode parecer contraditrio que exemplifiquemos erros de traduo em vez de tradues perfeitas, mas
lembremos que o Ensinador Paralelo para ser usado por professores, que podem ter um fito pedaggico
precisamente na exposio de problemas.
[243]
Este um caso que no raro mas cuja importncia, sobretudo num contexto
didtico, nunca demais salientar.
Vamos agora observar alguns casos de jogos lgico-matemticos clebres dos
livros de Carroll.
[3.3] I mean what I say

Um dos trocadilhos mais clebres de todo o mundo da Alice tem que ver com a
troca dos verbos mean e say e o uso convencional da expresso inglesa I mean what
I say, num sentido que se pode exprimir em portugus como Estou a falar a srio,
como o caso da segunda ocorrncia, em (5).
(4)
Then you should say what you mean, the March Hare went on. I do,
Alice hastily replied; at least... at least I mean what I say... thats the same
thing, you know.
Ento voc deve dizer o que pensa, continuou a Lebre de Maro. Eu digo
o que penso, Alice apressou-se em dizer, ou, pelo menos... pelo menos
eu penso o que digo... a mesma coisa, no ?
Ento voc pode dizer o que acha, a Lebre de Maro continuou. E vou,
Alice replicou rapidamente, pelo menos-pelo menos, eu acho o que digo
o que a mesma coisa, voc sabe.
(5)
I mean what I say, the Mock Turtle replied, in an offended tone.

Quero dizer o que disse, respondeu a Falsa Tartaruga em tom ofendido.
Eu quero dizer o que disse, a Falsa Tartaruga replicou em um tom ofendido.
Mean um verbo ingls notoriamente difcil de traduzir. A sua traduo padro,

querer dizer, mais apropriada descrio de factos ou palavras do que a um emprego na primeira pessoa, em que tradues como achar so igualmente possveis.
J nos referimos ao caso (5), em que a (mesma) traduo escolhida no nos parece
idiomtica. Quanto ao caso (4), ambos os tradutores mantiveram a troca lexical
dos dois verbos e conseguiram, na nossa opinio, o mesmo efeito no portugus,
mas um usou achar e o outro pensar.
No que se refere ao ato de fala, interessante reparar que, enquanto o primeiro tradutor interpreta corretamente, na nossa opinio a fala da Lebre de
Maro como uma admoestao, o segundo transforma-a num conselho para o futuro, ou uma autorizao para as futuras falas de Alice.
Um caso em que no s ambas as tradues diferem como nenhuma delas parece transmitir o sentido original a frase (6).
[244]
santos & simes

(6)
Thats a great deal to make one word mean, Alice said in a thoughtful
tone.
Uma grande coisa fazer uma palavra significar o que a gente quer! murmurou Alice pensativamente.
Isto fazer uma s palavra exprimir muita coisa disse Alice num tom
de voz duvidoso.
Aproveitamos este exemplo para tambm realar aquilo que j foi mencionado
antes por vrios investigadores (veja-se, por exemplo, Caldas-Coulthard (1996)):
o portugus tem consideravelmente maior riqueza no que se refere aos verbos de
expresso, comparada com o quase monoplio do say ingls. Temos pois murmurar neste exemplo, e muitos outros so tradues de say nestes textos. Por outro
lado, a dificuldade em converter o discurso direto ingls, misturando por exemplo as convenes das duas lnguas, tambm notrio em (6), complexidade essa
discutida e exemplificada por Santos (1998b).
Antes de deixar a questo do sentido, fulcral na lingustica, vejamos a clebre
sentena de Humpty Dumpty e como foi atacada pelos dois (novos10 tradutores.
(7)
When I use a word, Humpty Dumpty said, in rather a scornful tone, it

means just what I choose it to mean... neither more nor less.
Quando eu use uma palavra, replicou Humpty com superioridade, ela
significa o que eu quero que signifique e nada mais.
Quando uso uma palavra disse o Gorducho em tom desdenhoso -- ela
passa a ter o sentido que eu escolher, entendeu?
Repare-se que, neste caso, a traduo dos nomes prprios foi diferente, tendo a
segunda tido o cuidado de escolher uma palavra mais apropriada lngua de destino, mas perdendo na nossa opinio a graa do nome ingls. Neste caso a primeira
traduo rigidamente colada ao texto fonte, enquanto a segunda tem a preocupao de falar como se fala na oralidade, e parece-nos bem mais conseguida. No
entanto, adiciona a informao de que as palavras passam a ter outro sentido,
quando o Gorducho (ou Humpty Dumpty) apenas diz, taxativamente, que tem
esse sentido.
Terminamos por um caso, o (8), em que os tradutores discordam na sua interpretao, mas produzem ambos frases pouco inteligveis.
(8)
[10]
What does it mean?

Que quer significar?
Que significa ele?
Os exemplos que se seguem referem-se ao segundo livro de Carroll, que foi traduzido por dois tradutores
diferentes dos que traduziram o primeiro, e que so os que temos estado a analisar at agora.
[245]
[3.4] Negao inesperada e outras no-palavras

Outros casos de criatividade lingustica nas Alices so a negao de palavras cujo
sentido no parece aceitar uma negao. Como a estranheza ser a mesma em
portugus, tal no parece causar problemas aos tradutores.
(9)
They gave it me, Humpty Dumpty continued thoughtfully as he crossed

one knee over the other and clasped his hands round it, they gave it me...
for an un-birthday present.
eles me deram esta gravata como presente de in-aniversrio continuou Humpty amvel, montando uma perna sobre a outra e cruzando as
mos em torno ao joelho.
Gorducho cruzou um joelho sobre o outro, uniu as mos em torno deles e
continuou pensativo: Foi um presente de no-aniversrio...
Mais complicado quando as novas palavras dependem de semelhana fontica,

como em (10), que se poder de facto considerar intraduzvel.
(10)
Un-dish-cover the fish, or dishcover the riddle?

Pergunta: o que mais fcil fazer? destampar a sopeira ou... pedir peixe
assado?
Pois agora, mate essa: mais fcil descobrir a travessa? Ou a charada?
Enquanto o primeiro tradutor produz algo sem ps nem cabea, e que no pode
deixar de ser interpretado pelo leitor como perfeito disparate, o segundo consegue transmitir pelo menos parte da graa, ao usar o mesmo verbo descobrir em
dois sentidos diferentes, embora tenha perdido a parte da negao e da pronncia
no padro.
Em (11) temos outro exemplo de um neologismo negativo que hoje em dia
usado em ingls corrente ao contrrio da traduo portuguesa aqui proposta,
que continua cmica.
(11)
un important, your Majesty means, of course, he said, in a very respectful tone, but frowning and making faces at him as he spoke.
Desimportante o que Vossa Majestade quer dizer, claro, disse em
tom muito respeitoso, embora franzindo as sobrancelhas e fazendo caretas enquanto falava.
Desimportante, o que Vossa Majestade quer dizer, claro, ele disse,
em um tom respeitoso, mas franzindo o cenho e fazendo caretas.
[3.5] Outras surpresas e enigmas

Outra das habilidades carrollianas violar o que os linguistas computacionais chamam restries de seleo, ou seja, aplicar verbos ou substantivos a argumentos
inesperados. Veja-se o exemplo (12).
[246]
santos & simes

(12)
Thats just what I complain of! You should have meant! What do you
suppose is the use of a child without any meaning? Even a joke should
have some meaning... and a childs more important than a joke, I hope.
You couldnt deny that, even if you tried with both hands.
o que me aborrece. Voc vive julgando. Onde se viu uma simples criana julgar? Isso bom para os juzes.
Pois isto o pior! Voc deveria ter a inteno! De que serve uma menina sem intenes? At um passarinho que abre as asas tem inteno
de voar; uma menina deve ter muito mais intenes que um passarinho!
Voc no pode negar isso, nem que tente com as duas mos!
Neste exemplo, mais uma vez difcil de traduzir para portugus dados os dois sentidos de meaning usados (alis, note-se que cada tradutor escolheu uma alternativa
diferente), o primeiro tradutor escolhe dizer algo que completamente contraditrio com o sentido original, criticando que uma criana julgue11 , enquanto o segundo mantm o sentido de reprovao por a criana no ter intenes/opinies,
mas substitui a comparao de uma criana com uma piada (uma comparao que
s faz sentido se se traduzir meaning por sentido, claro) pela introduo espria de
um passarinho com o qual compara uma criana.
A segunda comparao inesperada no mesmo trecho, nomeadamente tentar
negar algo com ambas as mos, mantida satisfatoriamente pelo segundo tradutor, mas omitida completamente pelo primeiro.
Acabamos este artigo, que poderia continuar quase indefinidamente, com a
discusso da adivinha que motiva uma discusso filosfica sobre semelhana em
Chesterman (1998)12 :
(13)
The Hatter opened his eyes very wide on hearing this; but all he said was
Why is a raven like a writing-desk?
O Chapeleiro arregalou os olhos ao ouvir isso, mas tudo o que disse foi:
Por que um corvo se parece com uma escrivaninha?
O Chapeleiro arregalou os olhos ao ouvir isso, mas, tudo que ele disse foi:
Por que um corvo se parece com uma escrivaninha?
A traduo escolhida foi literal claramente, a palavra secretria foi preterida devido a ser uma palavra ambgua entre uma profisso e uma pea de mobilirio
e praticamente igual nos dois casos (apenas uma vrgula e um pronome pessoal
a mais no segundo), o que mostra sem sombra de dvida que os tradutores no
se preocuparam em resolver ou compreender a adivinha. Passaram-na simples[11]
[12]
de tal maneira estranho que podemos at imaginar que a censura na altura vogente no Brasil tenha
algo a ver com isto.
Uma possibilidade de tentar compreender a adivinha seria comparar a sua traduo nas vrias lnguas e
pelo menos tentar ver se algum tradutor teria chegado a uma resposta satisfatria. Chesterman, contudo,
no faz nem sequer prope fazer isso.
[247]
mente igualmente opaca para a lngua de destino provavelmente tornando a sua

resoluo impossvel.
Poder-se- argumentar que o objetivo desta adivinha precisamente ilustrar
perguntas sem sentido, e nesse caso uma traduo literal que no introduza outros
problemas igualmente disparatada e capaz de produzir a mesma situao de
confuso na mente do leitor. Mas, por outro lado, a palavra like no de forma
alguma neutra, e parecer-se com apenas uma das suas interpretaes. Ou seja, He
is like me ou What is he like? seriam traduzidos por Ele como eu e por Como que ele
?, e no fariam qualquer referncia a parecenas, mas sim a essncias.
Isto chama baila a questo da conformidade discursiva: Conforme o tipo de
resposta esperada, existem tipos diferentes de adivinhas em portugus, tal como
a estafada Qual a semelhana entre um mdico e um copo de gua?13 , que levariam a uma traduo mais idiomtica do gnero textual adivinha, se fossem
seguidas: Qual a semelhana entre um corvo e uma escrivaninha?.
Ou seja, uma traduo literal que no mantenha o gnero esperado de lengalenga ou adivinha pode no funcionar no texto de destino. Mais uma vez um
assunto que pode ser interessante levantar num contexto de ensino, por exemplo
pedindo para os alunos sugerirem diversas alternativas e depois compar-las na
sala de aula, sobretudo depois de terem lido o clssico por Hofstader (1997).
[3.6] Atravessando o espelho

O exemplo anterior leva-nos a terminar este artigo com uma adivinha: Qual
coisa qual ela, que sem se ver aumenta a nossa viso? E uma adivinha paralela no
sentido de que a sua resposta tem de obedecer tambm regra quando demais,
sufoca-nos e transforma-nos. Ajuda: A Belinda Maia uma das pessoas que mais
nos ajudou a compreend-la (a soluo da adivinha).
[4] c o m e n t r i o s f i n a i s
Concluindo, pretendemos apresentar uma ferramenta que pode tornar mais fcil
ao professor ser mediador entre duas culturas, duas pocas, dois estilos, duas lnguas mas, se os exemplos da Alice so emocionantes, a mesma riqueza se poder
encontrar em tradues tcnicas ou de livros de outra ndole. Basta que os alunos
sejam dirigidos para os casos mais interessantes e pedaggicos no seu domnio.
O Ensinador Paralelo apenas uma ferramenta para ajudar o professor, que aqui
dedicamos Belinda.
[13]
Um copo de gua mata a secura, um mdico se mata no cura.

[248]
santos & simes
agradecimentos
Agradecemos a Flvia Santos da Silva e a Guilherme Fromm por nos terem facultado os textos da Alice e as suas tradues, e a Jamilly Alvino e a Stella Tagnin pela
reviso do seu alinhamento para o CorTrad. Estamos tambm muito gratos a Signe
Oksefjell e a Brett Drury pelos seus comentrios pertinentes, que nos permitiram
melhorar este captulo.
referncias
Agarwal, Apoorv, Augusto Corvalan, Jacob Jensen & Owen Rambow. 2012. Social
Network Analysis of Alice in Wonderland. Em Proceedings of the NAACL-HLT 2012
Workshop on Computational Linguistics for Literature, 8896. Association for Computational Linguistics.
Arajo, Slvia, Jos Joo Almeida, Alberto Simes & Idalete Dias. 2010. Apresentao do projecto Per-Fide: Paralelizando o Portugus com seis outras lnguas.
Baayen, R. Harald. 2008. Analyzing Linguistic Data: A practical introduction to Statistics
using R. Cambridge University Press.
Borge, Inger Christin. 2008. Matematisk verktykasse. Universitetsforlaget.
Caldas-Coulthard, Carmen Rosa. 1996. A traduo e os problemas da representao da fala. Em Malcolm Coulthard & Patricia Anne Odber de Baubeta (eds.), Theoretical Issues and Practical Cases in Portuguese-English Translation, 145156. The
Edwin Meilen Press.
Chesterman, Andrew. 1998. Contrastive functional analysis. Benjamins.
Ebeling, Signe Oksefjell. 2006. Trivial Corpus Pursuit: An online game that facilitates autonomous learning. Em Susanne Anette Kjekshus Koch (ed.), Ringer i
vann. Fleksibel lring - Kvalitetsreformen i praksis, 93104. Fleksibel lring, Universitetet i Oslo.
Ebeling, Signe Oksefjell. 2009. Oslo Interactive English: Corpus-driven exercises
on the Web. Em Karin Aijmer (ed.), Corpora and Language Teaching, 6782. John
Benjamins Publishing Company.
Frankenberg-Garcia, Ana. 1998. Using translation traps to sort out portugueseenglish crosslinguistic influence. Em Proceedings of the 1st Brazilian International
Translators Forum, University of So Paulo, 2633.
[249]
Frankenberg-Garcia, Ana. 1999a. Crosslinguistic influence as a key to extracting second language teaching materials for monolingual classes from translation corpora. Apresentao em Workshop Contrastive Linguistics and Translation
Studies: Empirical Approaches. http://www.linguateca.pt/Repositorio/
Frankenberg-Garcia99.pdf.
Frankenberg-Garcia, Ana. 1999b. Using bilingual corpora to produce second language teaching materials. Apresentao em Symposium on contrastive linguistics
and translation studies.
Frankenberg-Garcia, Ana & Diana Santos. 2002. COMPARA, um corpus paralelo de
portugus e de ingls na Web. Cadernos de Traduo IX(1). 6179.
Gardner, Martin. 1960. The Annotated Alice: Alices Adventures in Wonderland [and]
Through the Looking Glass. Bramhall House.
Hodges, Andrew. 1983. Alan Turing: The Enigma. Simon and Schuster.
Hofstader, Douglas R. 1997. Le Ton beau de Marot: In praise of the Music of Language.
Basic Books.
Maia, Belinda. 2003a. Constructing comparable and parallel corpora for terminology extraction - work in progress. Em Dawn Archer, Paul Rayson, Andrew
Wilson & Tony McEnery (eds.), Proceedings of the Corpus Linguistics 2003 conference
(CL2003), 485.
Maia, Belinda. 2003b. The pedagogical and linguistic research implications of the
GC to on-line parallel and comparable corpora. Em Jos Joo Almeida (ed.),
Corpora Paralelos, Aplicaes e Algoritmos Associados (CP3A), 3132. Universidade
do Minho.
Maia, Belinda. 2003c. What are comparable corpora. Em Silvia Hansen-Schirra
& Stella Neumann (eds.), Proceedings of the workshop on Multilingual Corpora: Linguistic Requirements and Technical Perspectives, 2734.
Maia, Belinda. 2006a. Corpora Comparveis. Material de ensino na Primeira Escola de Vero da Linguateca. http://www.linguateca.pt/escolaverao2006/
Corpora/EDV2006Corporacomparaveis.pdf.
Maia, Belinda. 2008a. Alice no Pas das Maravilhas ou as aventuras e desventuras de uma linguista no mundo do PLN. Apresentao no Encontro Linguateca:
10 anos. http://www.linguateca.pt/Linguateca10anos/Apresentacoes/
AprMaiaL10.pdf.
[250]
santos & simes

Maia, Belinda. 2008d. Corpgrafo V4 - Tools for Educating Translators. Em
Elia Yuste Rodrigo (ed.), Topics in Language Resources for Translation and Localisation, 5770. John Benjamins Pub. Co.
Maia, Belinda, Ceclia Fris & Manuel Brito. 2005a. Comparable corpora for
studying the evolution of concepts and terms. Apresentao em International
Contrastive Linguistics Conference.
Maia, Belinda & Srgio Matos. 2008. Corpgrafo V4 - Tools for Researchers and
Teachers using Comparable Corpora. Em Pierre Zweigenbaum, ric Gaussier &
Pascale Fung (eds.), LREC 2008 Workshop on Comparable Corpora (LREC 2008), 7982.
ELRA.
Maia, Belinda & Lus Sarmento. 2003a. GC - Integrated Web Environment for
Corpus Linguistics. Poster na Corpus Linguistics 2003 (CL2003). http://www.
linguateca.pt/documentos/cl2003.pdf.
Maia, Belinda & Lus Sarmento. 2005. The Corpgrafo - an Experiment in Designing a Research and Study Environment for Comparable Corpora Compilation
and Terminology Extraction. Em Proceedings of eCoLoRe / MeLLANGE Workshop,
Resources and Tools for e-Learning in Translation and Localisation, 4548.
Maia, Belinda, Lus Sarmento, Diana Santos, Lus Cabral & Ana Sofia Pinto. 2005c.
The Corpgrafo - a Web-based environment for corpus research. Poster
na Corpus Linguistics Conference. http://www.linguateca.pt/documentos/
poster_cpgf_cl2005.pdf.
Matos, Srgio, Anabela Barreiro & Belinda Maia. 2008. Corpgrafo and NooJ: using
linguistic resources to obtain aligned concordances from corpora. Presentation
at the Workshop on Language Resources for Teaching and Research. http://www.
linguateca.pt/lrtr/MatosLRTR08.pdf.
Matos, Srgio & Belinda Maia. 2008. NooJ and Corpgrafo A New Partnership.
Apresentao na The 2008 International NooJ Conference (NooJ08). http://www.
linguateca.pt/documentos/MatosMaiaNooJ08Slides.pdf.
Oliveira, Dbora, Lus Sarmento, Belinda Maia & Diana Santos. 2005. Corpus analysis for indexing: when corpus-based terminology makes a difference. Em Pernilla Danielsson & Martijn Wagenmakers (eds.), Proceedings from the Corpus Linguistics 2005 Conference Series, vol. 1 1, s/pp.
Santos, Boaventura de Sousa. 1994. Pela mo de Alice: o social e poltico na psmodernidade. Edies Afrontamento.
[251]
Santos, Diana. 1997. O traduts na literatura infantil traduzida em Portugal. Em

Actas do XIII Encontro da Associao Portuguesa de Lingustica (Lisboa, 1-3 de Outubro
de 1997), 25974.
Santos, Diana. 1998b. Punctuation and multilinguality: Reflections from a language engineering perspective. Em Jo Terje Ydstie & Anne C. Wollebk (eds.),
Working Papers in Applied Linguistics, 138160.
Santos, Diana. 2014c. Kulturforskjeller og hvordan de vises i sprk: noen penbare
og ikke s penbare konsekvenser av snakke et annet sprk. Apresentao
na Universidade de Oslo. http://www.linguateca.pt/Diana/download/
KultFor.pdf.
Santos, Diana & Cristina Mota. 2015a. A admirao luz dos corpos. OSLa: Oslo
Studies in Language, Este volume.
Santos, Diana, Stella E. O . Tagnin & Elisa Duarte Teixeira. 2012. CorTrad and
Portuguese-English translation studies: investigating colours. Em Signe Oksefjell Ebeling, Jarle Ebeling & Hilde Hasselgaard (eds.), Aspects of corpus linguistics:
compilation, annotation, analysis Studies in Variation, Contacts and Change in English, University of Helsinki.
Sarmento, Lus, Anabela Barreiro, Belinda Maia & Diana Santos. 2007. Avaliao
de Traduo Automtica: alguns conceitos e reflexes. Em Diana Santos (ed.),
Avaliao conjunta: um novo paradigma no processamento computacional da lngua
portuguesa, 181190. IST Press.
Silva, Flvia Santos da & Guilherme Fromm. 2011. Atravs do lxico maravilhoso
de Alice. Fronteira Digital 2. 1627.
Silva, Flvia Santos da & Guilherme Fromm. 2012. Alice no Pas dos Neologismos:
um estudo luz da Lingustica de Corpus. Scientia Traductionis 11. 293309.
Simes, Alberto & Diana Santos. 2011. Ensinador: corpus-based Portuguese grammar exercises. Procesamiento del Lenguaje Natural 47. 301309.
Teixeira, Elisa D., Diana Santos & Stella E. O. Tagnin. 2012. CorTrad: um novo
corpus paralelo multiverso para o par de lnguas portugus-ingls. Em Tania
Shepherd, Tony Berber Sardinha & Marcia Veirano Pinto (eds.), Caminhos na
Lingustica de Corpus, 151176. Mercado de Letras.
Wyler, Lia. 2003. Lnguas, poetas e bacharis: Uma crnica da traduo no Brasil. Rocco.
[252]
santos & simes
o b r a s l i t e r r i a s m e n c i o n a da s
Carroll, Lewis. 1865. Alice in Wonderland.
Carroll, Lewis. 1871. Through the Looking-Glass, and What Alice Found There.
c o n ta c t o s
Diana Santos
Alberto Simes
Linguateca e CEHUM, Universidade do Minho
ambs@ilch.uminho.pt
a tool at hand:
gestures and rhythm in listing events
case studies of european and
african portuguese speakers
ISABEL GALHANO RODRIGUES
resumo
Este artigo explora os gestos e os movimentos do corpo na interao face
a face a partir uma perspetiva etnogrfica dos estudos do gesto. A anlise
centra-se na comparao entre os gestos de listar e outros meios usados
para apoiar a atividade de elaborar uma lista. Os aspetos considerados so
as caractersticas formais e o ritmo dos gestos, e a sua coordenao com as
unidades lexicais correlacionadas dos enunciados. O corpus recolhido para
esta anlise consiste em quatro interaes com falantes de diferentes culturas, cuja atividade de listar foi examinada em termos de caractersticas
morfolgicas e padres rtmicos, com o objetivo de detetar tanto regularidades como diferenas (culturais) nos gestos de listar.
The main question I will explore in this paper is how listing activities, so frequent in face-to-face interaction, are performed in different languages/cultures.
In spite of being aware of the impossibility to generalize the results of these case
studies, this paper offers some examples of different forms of making lists, of how
hand gestures are coordinated with speech and how these modalities work together: not only in making a list, but also in making the list visible for the hearer.
This article is divided into three parts: an overview of the theoretical background
(section [2]), the description of listing gestures, their subdivisions and further aspects related to their use (section [3]), and the micro-analysis of some parts of the
recorded corpus (section [4]). The corpus consists of four interactions: the first between European Portuguese speakers speaking Portuguese, the second between
German speakers speaking German, the third and the fourth between Angolan
speakers speaking Portuguese. The analysis considers speech lexical items and
prosody and co-speech body movements, or kinesic modalities, above all gesture, head and trunk movements and gaze orientation.
[254]
isabel galhano rodrigues

[2] t h e o r e t i c a l p r e l i m i n a r i e s
This linguistic approach of speech and gesture involves an interdisciplinary theoretical background: 1) several orientations of Conversation and Discourse Analysis (e.g. Sachs et al. (1974); Henne & Rehbock (1982); Roulet et al. (1985)) and
Contextualization Theory (e.g. Gumperz (1982a, 1992)); 2) Interactional Linguistics (cf. Selting & Couper-Kuhlen (2000)); 3) and Gesture Studies (Ekman & Friesen
(1969); Goodwin (1981); Hall (1974); Kendon (2004); McClave (2000, 2001); McNeill
(1992, 2000); Mller et al. (2013, 2014)).
The first group allowed to consider face-to-face interaction (a) as an activity
that is reciprocally and simultaneously constructed by speaker and hearer; and
(b) as a phenomenon comprising different levels: the level of thematic development, the level of structural relations between units, the level of emotion and
modalization, and the level of the interpersonal relations between speaker and
listener regarding their interactional roles (Galhano Rodrigues (1998, 2007). The
second group offers the framework for the analysis of prosody. Its principles,
developed from the Contextualization Theory of Gumperz (1982b), view prosodic
phenomena as important contextualization cues for the codification and decodification of speech. The categories of analysis within these theories were conceived to access prosody from a pragmatic point of view, so that they are flexible
enough to explain prosodic variations caused by different kinds of spontaneous
phenomena in the interactional context. Gesture Studies, on its turn, represents
the background for the description of gestures and other body movements in their
relation to speech.
The following units and their subdivision were taken into account for speech
segmentation: the turn-taking system (Sachs et al. 1974), which corresponds to
the exchange in Discourse Analysis theory (Sinclair & Coulthard 1975; Moeschler
1987, 1994); the turn (Goffman 1974, pg. 201); the conversational acts (Henne &
Rehbock 1982, pg. 17); and the conversational signals (Galhano Rodrigues 1998).
For the description of the prosody, were considered the following categories
and phenomena: intonational unit, pitch, intensity, quantity, beat-clashes and
rhythm (e.g. Auer & Couper-Kuhlen (1994)), silent pauses, full pauses and sound
elongations (e.g. Boomer & Dittman (1962); Goldman-Eisler (1972); Selting (1988);
Uhmann (1992)).
Regarding gestures, a fundamental concept for their identification is the gesture unit, which is composed of gesture phrases (gestures) that can be divided into
different phases: preparation, stroke and retraction ((Kendon 1980, pg. 214) (McNeill 1992, pg. 83)). The identification of units in other body movements is more
complex, as the various body parts have very different (and sometimes very subtle) features when it comes to movement shape and direction. The trunk is the
body part that makes the least complex movements: it can only move forwards,
backwards, and to both sides, according to two axes. Eye movements are slightly
a tool at hand: gestures and rhythm in listing events
[255]
more complex, because they involve the direction one is looking at, as well as
the position of the eyes in the ocular globe, eye-lid movements and the degree of
eye opening. Linked to eye movement is eyebrow-raising, here included in the
group of facial expressions. Due to technical constraints, only the movements of
the mouth and eye region were taken into account, while the micro-movements
of the face had to be left aside. Thus, in the case of less defined or more complex
movements, movement units as I called the units considered for the other parts
of the body are limited by the points of the greatest amplitude (which can, in
fact, be minute) of its trajectory. Another unit is, for instance, the period of time a
gaze is kept in a certain direction. In this case, we cannot talk about a movement,
but about a movement-freezing, in other words, a static unit.
[3] l i s t i n g g e s t u r e s
It is common knowledge that when people make lists of items, be they objects,
feelings, problems, situations, theories, etc., they tend to use some cues to inform
the interaction partner(s) that they are listing a certain number of items. This
quantity of items is supposed to be small enough to be counted with the fingers
(from 5 to 10), or big enough to justify the use of a support that helps speakers
organize their speech, so that the hearers know which elements of the utterance
belong together and constitute a listing unit. This structuring support is given by
different kinds of tools. One of these tools is prosody: prosodic cues like pitch,
intensity and speech rate, as well as voice quality, are important discourse markers. They can show which parts of the utterances belong together. The asides,
which are generally performed at a higher speech rate, a lower and constant pitch
and a lower voice quality, are a good illustration of this. Prosodic cues are also
important for the creation of rhythmic patterns and rhythm. A rhythmic pattern
is established after the repetition of three similar prosodic patterns. Rhythm creates expectations in the hearers (cf. (Auer & Couper-Kuhlen 1994, 82 segs) (Galhano Rodrigues 2007, pg. 175)), since after each unit in a rhythmic sequence the
hearers expect to hear another unit with the same rhythmic pattern. In the case
of listing lists, the prosodic pattern is characterized by an ascending pitch at the
end of the intonational unit (in this case, the intonational unit coincides with the
listing unit). This ascending pitch also indicates that something else is going to
be said; in other words, its function is to keep the hearers attention and to focus this attention on what is going to be said next (this ascending pitch can also
be described as a conversational opening signal, cf. Galhano Rodrigues (2007,
pg. 509)). Most of the times, prosodic prominence coincides with the countable
item, i.e., the most important topic. According to Erickson (1992), listing events
are characterized by the fact that each new item of information is introduced at a
regular rhythm, with identical time intervals between the information units. As
a rule, the primary accents fall on the most important topics of the listing list and
[256]

they build up the rhythmic beats. In order to maintain the regular time intervals, some adaptations are made during speech production by resorting to both
a strategic choice of syntactic structures and variations in speech rate (Erickson
1992, pg. 389). Thus, we could talk of an ideal listing activity composed of several listing units. Each of these units contains a single important idea or topic; it
is accompanied by a listing gesture, and it has typical prosodic properties, namely,
typical prosodic boundaries in relation to the other units. In sum, the listing units
coincide with the intonational units.
Another tool at hand (figuratively and literally), which conveys visible cues
to the hearer(s) and proves very efficient for both speaker and hearer/observer,
consists in the use of the hands and fingers. Due to its morphological features, this
physical (bodily) tool allows to allocate different items to different parts (fingers),
helping to organize speech and functioning as a kind of mnemothechnical and
structuring means. Given that it fulfils this function so efficiently, it is no wonder
that listing gestures are used in many different cultures. The question, however,
is whether their use and function can be regarded as universal, and whether there
is a great discrepancy between this ideal form and the empirical evidences.
In the Portuguese culture as well as in many southern European cultures, the
listing gesture unit is composed of several gesture phrases. In each of these gesture phrases (I shall call them gestures here), one finger of one hand is touched or
pressed by the pointing finger of the other hand, or even grasped and shaken with
the other hand, depending on the speakers intensity, involvement and emotion.
The listing action also has its order: it begins with the little finger and ends with
the thumb and, whenever necessary, the same procedure is repeated with the
same or with the other hand. The listing gesture and the way the listing activity
proceeds can vary not only within the same culture, but also across cultures: it
can be performed with one or both hands. In the second case, several features
can differ: the trajectory and the position of the active hand, i.e., the hand whose
index finger touches the fingers of the other hand; the sequence of the listing fingers, i.e., one can start listing with the number one on the little finger or on the
thumb. For instance, in Northern European countries, people generally use one
hand and list the first topic by stretching their thumb out and upwards (while
keeping the other fingers closed), the second topic, by stretching out the index
finger, the third topic, by stretching out the middle finger, and so forth. Sometimes both hands are used, and the list fingers (the fingers used embodying the
topic) are touched with the index of the other hand. In Southern Europe, the
Portuguese listing gesture described above dominates: that is, people use both
hands, one as the listing hand, and the other as the listable hand and they start
listing with the number one on the little finger. However, in some cases, the listing gesture is performed with one hand only, where the thumb functions as active
listing finger successively touching the other fingers, and starting the little fin-
[257]
ger. When number five is reached (i.e., when the thumb of one hand touches the
thumb of the other hand) the thumb bends against the palm of the hand (and the
hand is closed). It is important to note that these remarks are not the result of a
systematic study, but some general empirical observations and annotations I have
collected in these past few years. In fact, when listing is explored in a systematic
way, other interesting details can be found such as, for instance, the regularity,
intensity and amplitude of the movements in relation to the listed items, which,
in their turn, are correlated to the speakers emotions and motivation in communicating.
To facilitate the description of listing gestures and account for their precise
synchronization with speech and prosodic prominence, it is essential to distinguish between the different phases of a listing gesture. Here the listing gesture
is defined as a gesture-unit composed of several gesture-phrases whose function
is to enumerate instances, objects, events, etc. Each gesture accompanies a listing
act; in other words, its function is to accompany the verbalization of one element
within the set of elements to be counted. This act coincides with the listing unit,
as mentioned above. According to the subdivisions of the gesture-units, these
gestures are also composed of preparation, stroke and retraction. But in the case
of two-hand listing gestures, the part of the stroke with more amplitude is the
moment when the index finger touches the finger of the other hand. For this
reason, I use the term touch instead of stroke.
In the case of Portuguese, we may say that the most current form consists in
the following phases:
Preparation one hand is open, with the palm almost turned upwards
(listable hand); the other (listing hand) is raised, with palms downwards, index finger stretched, the other fingers relaxed or closed.
Touch the index finger of the listing hand touches/presses/grasps the
little finger of the listable hand, positioned with the palm upwards.
Retraction the listing hand lets go of the finger and moves slightly upwards (together with the arm).
This sequence is repeated starting with the little finger, followed by the ring
finger, the middle finger, the index and the thumb; then, the same procedure can
be repeated with the same hand or the other way round, i.e., the listable hand becomes the listing hand. In an ideal listing activity, each topic or listed element is
isolated from the others and iconically located on one finger only. Therefore, the
fingers become markers for parts of speech and actively support discourse organization. Sometimes, when each topic involves more than one act (for instance a
longer sequence, with side sequences), fingers may be pressed and held down for
the entire period of time during which these acts are verbalized. Furthermore,
[258]

the very first gesture already signals the beginning of a listing activity. Thus,
from this moment onwards, the hearers will expect the speaker to keep his/her
turn at least for the time it takes to finish the listing activity. Irrespective of the
number of listed topics, the information related to them, or of whether the list
is complete or not, this first gesture functions as an announcement1 , giving instructions about what is going to happen next. Finally, if we compare prosody
and listing gestures in terms of their efficiency in supporting discourse organization, we identify an interesting pragmatic difference: whereas the listing gesture
immediately provides clues about the kind of activity which is going to follow, the
prosodic pattern of a first listing unit alone cannot be said to have the same effect,
and may not be recognized as the first item in a listing list. This is explained by the
fact that, as mentioned earlier on, a rhythmic pattern is achieved and perceived
only after the repetition of, at least, three units with the same prosodic pattern. A
further point can also be considered in this cultural approach: it has to do with
the distance between interaction partners, gesture space, movement forms, body
postures, and gesture morphology (i.e., the way arms move, their direction and
trajectory, the shape of the hands, the angles at the articulation points) (Galhano
Rodrigues 2010).
[4] c a s e s t u d i e s : l i s t i n g g e s t u r e s i n s e v e r a l c u l t u r e s
This part presents a micro-analysis of listing activities in different cultures. Each

section within this part examines a single case. Thus, Case One (section [4.1])
describes a listing activity performed by European Portuguese native speakers;
Case Two (section [4.2]) analyses a listing activity performed by German speakers;
and Case Three (section [4.3]) and Case Four (section [4.4]) examine two examples
of listing activity by Angolan speakers speaking Portuguese.
[4.1]
Case One: European Portuguese native speakers
Three Portuguese female students talk about gender roles giving the example of
their own parents. In the interaction interval transcribed below, the speaker, LV,
the student sitting in the middle, is saying that women come home from work and
have to do all the housework, while men come home from work and do nothing.2
[1]
[2]
Announcements are the metacommunicative preparatory and focusing acts as the topographic opening signals (Galhano Rodrigues 2007, pgs. 200203, 490491, 502504), one kind of conversational signals
(Galhano Rodrigues 2001, pgs. 448449). The conversational signals are polisemic and polifunctional and
can, in different proportions, assume interactive, topographic, modal and turn-taking functions (Galhano Rodrigues 1998, 70 sec). Conversational act is the communicative unit produced simultaneously by
speaker and hearer (Galhano Rodrigues 2007, pg. 222).
Prosodic transcription after the GAT system (Selting et al. 1998).
[259]
Prosodic transcription / movements description

1-38
LV: !`-NO!=-::`fA-zem:- `fA`ZEM

no!
really,
they do
`tu`do;
do
everything
|_______________________________|
|
looks at VB, raises her head slightly
1-39
looks up and then down to her hands
(0,115) -dE:sde=AlmOos
from
|_________
|
lunches
`jan-tares em `CA::-:sa-
and
dinners
at
home
_____| |________________| |__| |_______________________|

|
|
|
touches left little finger
with thumb of other hand
1-40
raises hand
(retraction)
touches left ring finger and holds

it backwards;
at 'casa' lets go of left ring finger
`desde -arru`mAr as`CA::`sas.

from
tiding up
the
houses
|______________________________|
|
touches middle finger with right thumb and pressures it backwards; at 'casas' looks at VB
1-41
desde- ah'
from
ah
|_____________|
|
always looking at VB, touches left index finger with right thumb, and holds it down;
looks upwards; lowers hands, always holding right index.
1-42
(0,485)`fAzem `mEsmo=MUIto MAÌS;

they really
do
much
more
|____________________| |_____________|
|
|
looks ahead, continues pressing left
index with right thumb; head and gaze
towards VB.
1-43
parts her hands, palms up;

turns head to the front, looks in front.
elas `vm de`trabalhar;

they
come
from work
|________________________|
|
moves hands to the front of the trunk; raises right hand at 'tra-',
raises left hand at '-lhar'; turns head to the right and looks again at VB.
1-44
<<all> a minha -me vem

my mother
comes
do`tra`balho>=s `SEte,
from
work
at seven
|_____________________| |__________________________
|
|
turns head to the front, looks to the front;
moves left arm to the left side
leans head slightly to the front, looks down;

puts hands together in front of the trunk,
back of the right hand against palm of left hand.
[260]

1-45
(0,538)`chE-ga a casa tem`que fa`zer o jan`TAR::;

she
gets
home
has
to
make
the dinner
____________________||______| |__________________|
|
|
raises head
moves hands
apart
1-46
`depois-a`caba defa`zer
then
she finishes
making
at 'fazer' touches left ring finger with

right index holding it backwards; maintains
position; after 'jantar' turns head and
looks at VB; moves hands apart.
o-jantar=àrrumar-TU::dodinner
tidies everything up
|_______________________| |__________________________|
|
|
turns head to the front
looks down, brings
right hand close to left hand.
1-47
VB:
touches middle finger with right index,

holding it backwards; at 'tudo' starts moving
head to the left.
<<p>-e o seu pai [senta-se,>]

and
your father
sits down
|___________________________|
|
LV looks at VB, parts her hands and inspires
1-48
LV:
[-o meu `pAI=ali

my
father there
sen`ta dI::`nho,]
sitting
|_________________| |___________________|
|
|
turns head to the front; leans trunk
backwards and moves arms apart to
both sides, hands with palms down
raises right arm, elbow supported by

left hand; left arm on the lap; leans
head slightly forwards (pantomime:
imitating her father)
Listing units: topics and gestures

On line 38, speaker LV takes the turn with the lexical item no, a linguistic signal
with the functions of closing her preceding turn and opening a new turn, attracting the hearers attention to what is going to be said. Afterwards, she summarizes
what VB has just said, and, at the same time, expresses her agreement with the
last speaker and announces the topic for the next turn. In this segment of interaction, two sequences of listing activities can be found. In the first one, (between
lines 139141), LV raises her head slightly, although always looking down and,
with the right thumb (other fingers closed), she
a) touches and holds back/down her little finger at almoos, and then lets it go
(line 139);
b) touches and holds back/down her ring finger at jantares, and then lets it go
after casa (line 139);
c) touches and holds back/down her middle finger at desde, then lets it go and
looks at the hearer after casas (line 140);
[261]
d) touches and holds back/down her index finger at desde, turns her head to
the front, looks up, lowers her hands, always holding the index finger down;
she then lets go of it at muito (line 142);
Act d) is the beginning of a listing act on the index finger. However, the
speaker could not remember more items to list. Her gaze orientation upwards
and the lowering of the hands (a normal reaction during a hesitation) reveal a
moment of increasing cognitive effort, when the speaker is trying to remember
other items to list. The strategy to overcome this obstacle in speech production
consists in summarizing the content of all these listing acts together in a single
one: fazem mesmo muito mais (they really do much more). The prosodic features
of this unit typical of an emphatic speech style focus on act 142, the solution for this problem, drawing the hearers attention to it and, consequently, distracting them from the incomplete preceding listing act. Afterwards she goes on
enumerating further activities by women in general. To introduce this sequence
she makes opening gestures, raising first the right and then the left hand, with
palms up, focusing on the verbalized act: elas vm de trabalhar (line 143). This act
(line 143) is composed of a false start. To go on speaking, and again distracting
hearers from this moment and drawing their attention to what is going to be said
next, she makes another gesture with focusing/opening properties: she moves
her arm slightly apart and gesticulates with one hand marking the noun phrase:
a minha me (my mother). In this case, these elements function as the repair element of the repairable elas form (Schegloff et al. 1977). After having overcome
this difficult moment, she puts her hands on her lap in a resting position, and goes
on verbalizing the elements needed to contextualize a narration. The actions in
the narration begin at 7 p.m., when her mother comes home from work. At this
point, to announce the many things her mother does, which she is preparing to
enumerate, she makes a new listing gesture. This time, however, she does not use
her thumb but her right index as listing finger. Her right index:
e) touches and holds back/down the ring finger at fazer and lets go of it after
jantar (line 144);
f) touches and hands back/down the middle finger at jantar and lets go of it
after tudo (line 145).
We can see that the left hand finger is held down with the right index during
the whole verbalization of the sequences: fazer o jantar (make dinner), [fazer o]
jantar arrumar tudo ([prepare] dinner, tidy everything). We may ask if the fact
that she started listing on the ring finger has a logical explanation. In my opinion,
the speaker perceives the preceding syntactic cluster ela chega a casa as a first
countable topic, though she fails to accompany it with a listing gesture. The use of
the ring finger to accompany the verbalization of the next topic/cluster tem que
[262]

fazer o jantar shows that this is already the second topic in a list and functions
as a repair mechanism.
Comparing these two groups of listing sequences, we notice, first of all, a formal difference regarding the listing finger. It is interesting to note that the very
same person uses different listing fingers within the span of only a few seconds
of speech, so that we could say that she does differentiate between the use of one
or the other finger. The only variation in significance could be that, in the second
case, she is more assertive than in the first case, when she was still starting her
turn. We may conclude that the use of the index finger shows more determination than the use of the thumb with the rest of the hand closed. Secondly we see
that, in the first case, the listing gesture consisting of finger touch and holding
back coincides with syntax: these sequences correspond to phrases:
almoos / jantares em casa // desde arrumar as casas // desde
On the contrary, the elements corresponding to the touch and maintain pressure
do not coincide exactly with the syntactic units:
fazer o jantar // jantar arrumar tudo
In f) touch was anticipated: it coincides not with the word arrumar, maintaining a parallelism with the preceding sequence, but with the word jantar, which
belongs to the preceding phrase fazer o jantar. To investigate these irregularities,
which are so typical of orality, it is important to examine the prosodic features of
these listing acts and the way rhythm is created. Thus, synchronization between
the moment of touch, the moment of prosodic prominence and the relevant lexical elements of the utterance will be the focus of the next section.
Listing units: prosody, topics and gestures

Figure 1 is a graphic representation of the acoustic signal corresponding to the
segment of speech analyzed in the previous section. The black dashes correspond
to the intonational units. The second dash is prosodically the first listing unit
it ends with an ascending-descending pitch. In this single unit we can find two
touches marked with the white short dashes; in other words, two listing gestures. The same happens with the second intonational unit. The gestures accompany the lexical elements almoos and jantares respectively in the first unit, and
desde and desde in the second unit.
The spotted dash marks acts 142 and 143, and the overcoming of the hesitation in 141, which introduces a new listing activity. We can see that the pitch
variations are different from the preceding intonational unit. In the next listing
activity, which prosodically begins at 144, there is no listing gesture. In the second intonational unit, we find a listing gesture accompanying the lexical elements
fazer o jantar and, in the next unit, another gesture accompanying arrumar tudo. At
[263]
figure 1: Representation of the acoustic signal (138148).
this point we could ask whether the listing gesture is more linked to prosody or to
the topics expressed by words. It seems that, in this case, the modalities gesture
and prosody are responsible for establishing a kind of hierarchical structure: the
largest unit is structured by prosody, whereas the smaller units within this larger
unit, which correspond to two topics, are accompanied by gestures. The morphological features of the listing gestures confirm what was said in Section [3]. in
relation to the sequential use of the listable fingers. As for the trajectory of movements, their reduced amplitude could be attributed to both personality, gender
and context but could also be determined by cultural habits. Only a quantitative
research of this phenomenon could provide reliable data on the individual and
cultural features of the listing gestures. Nevertheless, some more easily observable aspects can be anticipated, i.e., the fingers used to list, the preferred order
of the fingers and the kind of information allocated to the fingers.
[4.2]
Case Two: German native speakers
Three German students, a man and two women, talk about adoption. The speaker
in this segment of interaction humorously narrates a recent event involving a
child, which illustrates his position regarding the theme.
Prosodic transcription
2-01 FH ich Habe dann ein NachmI have (spent) the afternoon-
|_______________________|
|
sitting leaning backwards, hands on the lap, palms on the belly, head turned to the front.
turns head to the left, and raises left arm up and to the front, hand with palm up, thumb
stretched out
[264]

2-02
ich war den ganzen nachmittag
IM `CAso`lare`JA.
I was the whole afternoon
at casolare
right
|_____________________________| |__________________|
|
|
continues the movement to the left,
simultaneously going up and down with the arm.
keeps hand configuration and position,

makes some head nods, a stronger and
circular head movement accompanying 'ja'.
[
2-03 ST
]
kinder
children
2-04 FH ich musste auf `diesesMON`ster von `DA`vid ja aufpAssen'

I had to (look after) this monster
of
david
right
look after
|_____________________________| |___| |___________________|

|
|
|
draws his arm back, maintaining a 90 angle,
maintains hand configuration; at monster
looks, turns head and looks to the left
2-05
turns head and

looks again to
the front; closes
hand, thumb upwards
touches thumb with right

index and holds it
backwards; keeps
it so
(--)
|___|
|
Looks to the left to ST and again to the front; maintains finger pressured.
[
]
2-06 AF ((laughter))
2-07 FH dAnn will ER immer
then he wants
`SPIE:::len ja
always
to play, right
|__________________|
|
|_______________|
|
Lets go of thumb and raises

right hand slightly, head shaking
head leaning backwards and eyes closed.
touches left thumb with

right index again, continues shaking
head with the same head position.
[
2-08 ST
]
((laughter))
[
2-09 AF
]
((laughter))
2-10 FH -und er will

and he
wants to throw
KAR`ten
`wErfen;
the cards
|____________________________________|
|
keeping left hand configuration (hand closed, thumb upwards) and posture (head and trunk leaning
backwards) makes a gesture with right hand depicting the act of throwing forwards. Afterwards prepares
the following gesture: lowers right hand, touches relaxed the index finger of the left hand.

[
[265]
2-11 ST
((laughter))
[
2-12 AF
((laughter))
2-13 FH -und dann will er wieder GELD?

and then he wants money again
|______________________________|
|
raises the right hand slightly, moves left hand upwards, thumb and index finger
stretched out, and touches left index with right index. Makes a kind of head shake.
[
2-14 ST
]
((laughter))
2-15 FH `dann will er `Sssig`KEITen gehAbt=Haben;

then he wants to have sweets
|_______________________|
|
raises hand looks to his hand and touches again the left index with the right index making
a head shake; at sssigkeiten he leans head backwards, turned to the left, holding finger down.
[
2-16 ST
]
((laughter))
2-17 FH -ECHT
`die schnauze
Really
|_____|
|
fed up
with children
|_____________| |_________________|
|
|
moves head to the front, leaning

backwards, eyes closed; raises
right arm, hand with palms downwards.
2-18 ST
voll von kindern.
moves open hand with palms

downwards from the left to
the right against his neck.
lowers hand, shaking

head looking at ST
and raises trunk
[
]
((laughter)) von kindern
[
2-19 AF
2-20 FH
((laughter))
|__________|
|
sits with erect trunk, lookind

at the hearers, right hand and
arm still raised at chest level
2-21 ST
[
((laughter)]
]
((laughter))
-ECHT `die schnauze voll JA?.

|______________________________|
|
moves hand again a little higher to the neck.
at 'ja' he leans again backwards and continues laughing.
[266]

On line 204, at the same time as the speaker says the word david, he touches his
left thumb with his right index and holds his thumb back while waiting for the
hearers reactions (their laughter). He lets go of his thumb only at the beginning
of the next act (207). The next touch coincides with the verbalization of the
lexical item spielen.
Against all expectations, he then uses his thumb a second time (and not the
index finger) to count on.
On line 210, the next intonational unit, an expected listing gesture is replaced
by an iconic gesture depicting Davids enervating activity of throwing cards around.
It seems that this depicting performance is more important than the simple listing gesture, which indicates only another important item of the list. The speaker
was clearly more interested in showing his hearers how utterly irritating David
was. Nevertheless, as will be shown later, there are other cues that enable the
hearers to recognize this act as yet another listing act.
On line 213, the following intonational unit/listing act, the speaker makes
another listing gesture; this time he touches his left index finger with his right
index while simultaneously shaking his head. This head movement not only reinforces the idea conveyed by the utterance, but also reveals the speakers attitude
of rejection/disapproval in relation to the content of the utterance. The moment
of touch coincides with the verbalization of the lexical item geld.
The next listing unit (215) is accompanied by a touch on the same finger,
happening at the same time as the verbalization of the lexical element sssigkeiten.
Here, the speaker leans his head backwards and to the left, looking at ST and
monitoring her reaction, while holding his index finger down.
Afterwards, on 217, he utters the conclusion of his arguments (lines 202
215), expressing his feelings on the topic of adoption: he is fed up with children
(217 and 220). Both utterances are accompanied by an emblematic gesture, precisely conveying the meaning of being fed up with something (die Nase/Schnauze
voll haben).
To sum up, the listing gestures follow a different sequence than the ones described in the first example. As was to be expected of a German native speaker, the
listing activity starts with the thumb and goes on with the index finger, middle
finger, ring finger and little finger. In the present case, the gestures accompany
a) the verbalization of david and spielen, located on the thumb;
b) the verbalization of geld and sssigkeiten, located on the index finger.
In the first example, on [4.1] (lines 138141), we can identify two touches in
one intonational unit; in this case we find two intonational units, two touches,
but two subsequent allocations on the same finger. The listing activity is not long
[267]
enough to be able to yield a logical reason for such distribution, but what matters
is the regularity observed as well as the interruption of this regularity in order to
make another type of gesture capable of transmitting the speakers emotions and
intentions in a more convincing way: he wants to justify why he is not interested
in having children by resorting to the efficient example of David.

From the representation of the acoustic signal in Figure 2, we can see that the intonational units have different lengths, so that a prosodic rhythmic pattern cannot be detected. In spite of this, the listing activity is recognized as such. In fact,
there are other cues besides prosody and gestures, namely syntax. There is a clear
parallelism in sentence construction: the identical lexical elements und dann will
er are used to introduce most of the listing units (207, 210, 213, 215). Thus, it
is safe to assume that speakers have so many codification means/tools to choose
from when contextualizing a listing list that, even if one of them is not used, there
are others that will support the organization and identification of items in a list.
In this case, the morpho-syntactic means play the main role in the organization
of the listing list; gestures and prosody, although taking on their normal form and
function in the listing activity, are used irregularly and do not create a rhythmic
pattern, a typical indicator for making a list. One interesting aspect is the first
touch and holding down of the thumb, which continues after the end of the utterance, during the silent pause between the acts. How should this listing unit be
segmented? Should it correspond only to the verbalized utterance, or go on also
during the silent pause? In my opinion, it could be described as being composed
of a speech-gesture compound, where gesture lasts longer than speech, in frozen
position.
[268]
[4.3] Case Three: Angolan Portuguese speakers

This example was taken from an interaction between three Angolan students talking about their experiences during their first contact with the Portuguese culture.
The speaker talks about some historical and socio-cultural facts he had never
heard about in Angola and that he learned in Portugal.
3-01 DS -fiquei a saber
I learned that
-qu'existia o -VASco da
GA:ma'
there was Vasco da Gama
|______________| |________________________________|
|
|
preparation phase of gesture
3-02
(XXX)
with right hand index touches and holds down little finger
of the left hand, raising hands to the chest and lowering
them again to the waist, turning thumb upwards
jogar BASquete'
play
basket
|______________| |________________________________|
|
|
lowers right hand and moves it
to the right, stretching index
finger upwards;
3-03
-fiquEI=a
touches left little finger with right index and raises hands;
lowers and moves hands apart at 'banquete', smiling and
looking at hearers.
a sabEr
I learned
that there was
|__________|
|
raises and streches out
right arm,pointing with
the index at hearer on
the right.
3-04
-qu'exisTIA=A
|________|
|
raises left arm to chest

height and touches ring
finger with right index
(nA:::::me)'
(name)
|____________| |___________|
|
|
holds ring finger
down and raises
hand almost to the
chest
moves right hand apart,

stretches right arm out
and points at on
on the right; slowly
lowers left hand,returns
to rest position.
<<a>> `de resto no `sabia nada dEste mun `do; (--)

besides that
I did not know anything about this world
|_______________________________________________| |____|
|
|
beats four times with palm of one hand against back of the other hand, making
trajectories of considerable amplitude.
one identical
beat and back
to rest position
[
3-05 GF
]
ai ?
really?
3-06 DS `yah'
yes
|_____|
|
hand at rest position, always looking at the hearers
[269]
3-07 GF ((laughter))
[
]
3-08 NP ((laughter))

Similarly to the Portuguese, these Angolans speakers locate the listing acts/topics
on their fingers, starting with the little finger. In the first listing gesture of this
example, the speaker touches the little finger of his left hand with the index finger
of the right hand when he verbalizes the lexical item existia; he keeps holding the
finger down, while raising and lowering his hands, during the production of the
lexical items o vasco da gama, with an elongation of the first phoneme /a:/ at gama.
These items correspond to the rest of the listing act/intonational unit (cf. line 3
02). During the production of the first part of the second listing unit, he moves
his hands wide apart, with his index raised, almost pointing at the hearer on the
right. The second part of this unit, the item to be listed, is accompanied by the
finger touch the little finger, once more and the same choreography as in the
preceding unit: he raises and lowers both hands, holding his finger down. At the
next unit, line 303, the whole choreography is repeated: the first part of the unit
is accompanied by a pointing gesture, directed towards the hearer on the right,
the second part, containing the listing item, is accompanied by a finger touch, this
time the ring finger. At the end of this unit, accompanying the vowel elongation
/a:::/, the speaker points to his right again. Although the syntactic structure of
this unit is parallel to the unit on line 301, the coordination with the gesture
trajectories is not the same: while in the first unit, the touch coincides with the
verbalization of existia, the holding down of the finger with o vasco da gama, and
the movement apart with the subsequent unit, in the act on line 303, the touch
is anticipated: it is simultaneous to the production of saber, the holding down to
que existia, and the pointing gesture to the last part of this unit (na:::me). The next
unit is composed of a verbal part (from de resto to mundo) and of a nonverbal part:
a gesture signifying indifference, a repeated and alternated beating of the palm
of one hand against the back of the other hand. This gesture lasts longer than the
verbal unit it accompanies (line 304305).
Summing up, the listing gesture is characterized by a stroke composed of
touch and holding down, and of an up-and-down waving movement of both hands,
intensifying the gesture. This stroke is anticipated by a deictic gesture, integrated
in the preparation phase, with the function of attracting the hearers attention
(pointing at them) and orienting it towards a point, virtually located by the index
finger, and corresponding to the lexical elements conveying an important item of
information, which the speaker is going to verbalize. As regards the coordination
of the topics/syntactic regularities and gesture regularities, syntax and gestures
are clearly not synchronized.
[270]

The end intonational contour of the three units (301, 302 and 303) is identical
and pitch is ascending and slightly descending. Therefore, in the second unit
(which does not display a syntactic parallelism with the first unit of the listing
activity) prosody and gesture contribute to the creation of a specific rhythm. In
the first and the third units there is a redundancy of rhythmic cues, although
their synchronization is not regular.
[4.4] Case Four: Angolan Portuguese speakers
In this last example, another Angolan student is commenting on how his habits
and personality have changed since he moved to Porto. More specifically, he mentions the fact that he was a DJ in Luanda and that he had a huge stereo at home.
His friends in Porto cannot imagine that he was DJ back home in Angola.
4-01 GF EU no èra assim
I was not like this
|________________|
|
moves arms to both sides, palms turned upwards,
turns head to DS and moves arms again to the front,
to rest position, hands relaxed between his legs.
4-02 DS FA`la=a `Srio `(XXX);

really (XXX)
|______________________|
|
leaning backwards, head turned to the speaker, arms relaxed, dangling
on both sides of the chair.

4-03 GF `JUro=eu
-euFUI-
I sware
[271]
DiJEI:::-
I have been
dj
|_________| |_________| |__________|

|
|
|
turns head to
the front
4-04
raises hands,
left hand palm upwards,
stretches right index out
(preparation)
touches left index with right index and holds it down

moving both hands down movement of big amplitude
(stroke and post-stroke hold); declines head down, looks
down, then moves head to the left, largest amplitude at
DJ, lowering hand, head accompanying this movement
eu fui di `JEI:::
I was a
dj
|__________________|
|
repetition of gesture touches the same finger and head movement
4-05
em minhÀ casa-
`tenho
at home
I have
|_______________|
|
|_______|
|
raises right hand, index finger stretched

out to chest height (preparation), turns
head to the left
4-06
touches and holds ring finger down
`tinha `TEnho
I had
I have
|_____________|
|
moves both hands to the right, turning
head to the left and looking down.
4-07
um aparelho
GRAN:::`de `pa CARAmba
a sound system (stereo)
damned
|_____________|
|
turns head to the front;
opens wide arms to both sides,
depicting size.
big
|_____________|
|
brings hands together in front of the chest,
maintaining elbows raised, at shoulder height

On line 401, the speaker displays an attitude of resignation which can be paraphrased as I cant help it, I dont know how to explain this, but it is like this. The means
used to express this attitude are an opening gesture, hands and arms to both sides,
overlapping the territory of his interaction partners, palms turned to the front;
to capture his partners reaction or to address them more directly, he also turns
his head and looks at the partner to his left side, raising his eyebrows. The hearer
reacts to the confession addressed to him (line 402). Afterwards the speaker
turns his head to the front, looks down, and raises his hands. At this point, his
hand configuration announces a listing activity (left palm upwards, right index
stretched out) and the hearers understand that the speaker is about to make a
list of a few countable items. This moment coincides with the verbalization of the
[272]

lexical items eu fui (line 403). The next listing act or intonational unit is a repetition of the first listing unit, a means of overcoming a delay in the organization
of discourse/ideas. Repeating the first listing act, the speaker gains some more
time to structure the next utterance and to find the best way to present further
ideas according to his intentions. The performance of this act (404) involves the
listing gesture on the little finger once again as well as a head movement from the
left to the right, which accompanies the gesture trajectory. This strategy, known
as repair (Schegloff et al. 1977), consists in a repetition of both gesture and words.
The next act/intonational unit (line 405) is nonverbally accompanied by a gesture similar to the preceding unit. The first part of the act em minha casa
corresponds to the preparation phase of the gesture; the second part tenho is
accompanied by the gesture of touching and holding down the ring finger. There
is also a head movement (first to the left and then to the right) accompanying the
gesture trajectory. On line 406 there is a second and third repair: the first lexical
element tinha replaces the preceding verbal element tenho. The speaker
seems to suddenly realize or remember that what hes talking about actually belongs to a past period of his life, and so he shifts from the present to the past form
of the verb. The next correction, the replacement of tinha by tenho (shift from past
to present tense), shows that he is now admitting that his house still exists and
his sound system is still there. The second repair is achieved only through verbal
means (and not through gestures and/or prosody). The speaker now abandons
the listing gestures and begins another gesture unit: he raises his arms and opens
them to both sides during the verbalization of aparelho, giving additional information about the aparelho. The formal features of the gesture convey the meaning
of big size, huge. Thus, this gesture anticipates the verbalization of the lexical
elements with the same meaning grande pa caramba. This anticipation is a strategy of reinforcement and focalization on the lexical element aparelho. Similarly
to what was described in example [4.2], the speakers emotional involvement in
the content of his utterance and the need to reinforce and depict certain details
in a more realistic way (attracting the hearers attention and drawing them into
the narration) leads to the performance of other gestures apart from the simple
discourse structuring and more objective listing gestures.
A closer look at the movements of other body parts shows that the arms, the
trunk and the head move in synchrony, as if the whole body were following the
same rhythm or choreography. Each movement to the left with one part of the
body involves movements of other body parts accordingly. As in the preceding
case (example [4.3]) the listing gestures are of a considerable amplitude: the listing index, stretched out upwards, draws a trajectory from a point at shoulder
height to the waist, touching the countable finger in the middle of this trajectory
and holding it and the hand down until the end of the trajectory.
[273]

As we can see on Figure [4] (black dash corresponds to the intonational unit, grey
dash to finger touch and holding back), the first two units are prosodically identical, the second being a repetition of the first. The third listing unit, although
located on the next listable finger the ring finger does share the same features. This is maybe due to the sequence of repairs that give this unit a different
length. This is also the moment when the listing activity changes into a narration.
Indeed, if there were no repairs, the end of this listing unit would coincide with
the lexical element caramba, produced with a light ascending pitch.
[5] d i s c u s s i o n
The conclusions that can be drawn from the above analysis are the following:
(i) An ideal and complete listing activity is not to be found in these examples
of spontaneous interactions.
(ii) Listing activities are structured and marked as such by morphosyntactic,
prosodic, and nonverbal means. These means help the speaker structure
and organize his/her discourse and provide the listeners with interpretation cues that allow them to decode without effort the information conveyed by the speaker.
(iii) The nonverbal cues found are listing gestures, accompanied or not by head
movements.
(iv) The listing activities described are performed with both hands: the listing
hand, whose index finger or thumb are used to list on the fingers of the
other hand, which has been called the listable hand (with listable fingers).
[274]

(v) The most obvious differences in the listing gestures are:
(a) the finger that starts and ends the listing activity;
(b) the trajectory and amplitude of the movement.
(vi) There are idiosyncratic variations within not only the same culture (case
study), but also the same person, e.g., hand configuration of the listable
hand and the listing finger used (both the index and the thumb) (example
from section [4.1]);
(vii) The synchronization between all these different cues is not always perfect:
sometimes morphosyntax and gestures are not synchronized.
(viii) One intonational listing unit can encompass two syntactic units and two
listing gestures.
(ix) Listing gestures sometimes last longer than verbalization (verbal turns/acts),
as illustrated by the fact that a countable finger is held down for a longer
period of time than it takes to utter the lexical elements.
(x) Gestures can be used to emphasize speakers emotions and involvement in
the listing activity (e.g., grasping and holding the countable fingers down,
or raising and lowering the hands while holding the countable fingers).
(xi) If the speaker feels the need to give more realism to an aspect of the narration, s/he abandons the listing gestures in order to use an iconic gesture,
depicting actions or qualities related to the topics being discussed.
The analysis of listing gestures in a more extensive and diversified corpus coupled with the consideration of other variables such as gender, age, social-status,
state of mind, and nationality can certainly contribute to a better understanding
of this common strategy in spoken language and interaction. More importantly,
the focus on this single phenomenon does not imply the non-consideration of
other psycholinguistic and ethnographic aspects of body movements and speech.
On the contrary, a detailed and rigorous description of listing gestures forces the
observer to take into account all the social, psychological and relational aspects
that can be detected in a face-to-face interaction.
[275]
appendix
[5.1]
Case Study 1
[276]
[5.2]
Case Study 2
[277]
[278]
[5.3]
Case Study 3
[5.4]
Case Study 4
[279]
references
Auer, Peter & Elisabeth Couper-Kuhlen. 1994. Rhythmus und tempo konversationeller alltagssprache. Zeitschrift fr Literaturwissenschaft und Linguistik 96.
78106.
Boomer, Dieter & Allen T. Dittman. 1962. Hesitation pauses and juncture pauses
in speech. Language and Speech 5(4). 215220.
Ekman, Paul & Wallace Friesen. 1969. The repertoire of nonverbal behavior: categories, origins, usage and coding. Semiotica 1(1). 4998.
Erickson, Frederick. 1992. They know all the lines: Rhythmic organization and
contextualization in a conversational listing routine. In Peter Auer & Aldo Di
Luzio (eds.), The Contextualization of Language, 365397. John Benjamins.
Galhano Rodrigues, Isabel (ed.). 1998. Os sinais conversacionais de alternncia de vez.
Granito Editores e Livreiros.
Galhano Rodrigues, Isabel. 2001. O papel da entoao na alternncia de vez. In
Actas do XVI Encontro Nacional da APL, 447458.
Galhano Rodrigues, Isabel (ed.). 2007. O corpo e a fala. Sinais verbais e no-verbais na
interaco face a face. FCG/FCT.
Galhano Rodrigues, Isabel. 2010. Gesture space and gesture choreography in European Portuguese and African Portuguese interactions: a pilot study of two
cases. In Stephan Koop & Ipke Wachsmuth (eds.), International Gesture Workshop
2009, 2333. Springer.
Goffman, Erving (ed.). 1974. Frame Analysis. An Essay on the organization of experience.
Harper Colephon Books.
Goldman-Eisler, Frieda. 1972. Pauses, clauses, sentences. Language and Speech
15(2). 103113.
Goodwin, Charles (ed.). 1981. Conversational Organization. Interaction between speakers and hearers. Academic Press.
Gumperz, John (ed.). 1982a. Discourse Strategies. Cambridge University Press.
[280]

Gumperz, John (ed.). 1982b. Discourse Strategies. Cambridge University Press.
Gumperz, John. 1992. Contextualization revisited. In Peter Auer & Aldo di Luzio
(eds.), The Contextualization of Language, 3953. John Benjamins.
Hall, Edward. 1974. Proxemics. In Shirley Weitz (ed.), Nonverbal Communication,
205229. Oxford University Press.
Henne, Helmut & Helmut Rehbock (eds.). 1982. Einfhrung in die Gesprchsanalayse.
Walter de Gruyter.
Kendon, Adam. 1980. Gesticulation and Speech: two aspects of the process of
utterance. In Mary Ritchie Key (ed.), The relationship of verbal and nonverbal communication, 208227. Mouton.
Kendon, Adam (ed.). 2004. Gesture. Visible action as utterance. Cambridge University
Press.
McClave, Evelyn. 2000. Linguistic functions of head movements in the context of
speech. Journal of Pragmatics 32. 855878.
McClave, Evelyn. 2001. Head movements in Arabic, Bulgarian, Korean and African
Amercian English: Whats cognitive and whats cultural? In Charles Cav, Isabelle Guatella & Serge Santi (eds.), Oralit et Gestualit. Interactions et comportements multimodeaux dans la communication. Actes du colloque ORAGE 2001, vol. 3960,
560564.
McNeill, David (ed.). 1992. Hand and Mind. Chicago University Press.
McNeill, David. 2000. Catchments and context: non-modular factors in speech
and gesture production. In David McNeill (ed.), Language and Gesture, 312328.
Moeschler, Jacques. 1987. Structure, dynamique e compltude conversationnelles. In Lanalyse des interactions verbales. La dame de Caluire: une consultation.
Actes du Colloque , 123156. Peter Lang.
Moeschler, Jacques. 1994. Das Genfer Modell der Gesprchsanalyse. In Gerd Fritz
& Franz Hundsnurscher (eds.), Ethnometodologische Konversationsanalyse, 6994.
Niemeyer.
Mller, Cornelia, Alan Cienki, Ellen Fricke, Silva Ladewig, David McNeill & Sedinha
Tessendorf (eds.). 2013. Body-Language-Communication. An International Handbook
on Multimodality in Human Interaction, vol. 1. de Gruyter Mouton.
[281]
Mller, Cornelia, Alan Cienki, Ellen Fricke, Silva Ladewig, David McNeill & Sedinha
Tessendorf (eds.). 2014. Body-Language-Communication. An International Handbook
on Multimodality in Human Interaction, vol. 2. de Gruyter Mouton.
Roulet, Eddy, Antoine Auchlin, Jacques Moeschler, Christian Rubattel & Marianne
Schelling (eds.). 1985. Larticulation du discours en franais contemporain. Peter
Lang.
Sachs, Harvey, Emanuel Schegloff & Gail Jefferson. 1974. A simplest systematics
for the organization of turn-taking for conversation. Language 50. 696735.
Schegloff, Emanuel, Gail Jefferson & Harvey Sachs. 1977. The preference for self
correction in the organization of repair in conversation. Language 53. 361382.
Selting, Margret. 1988. The role of intonation in the organization of repair and
problem handling sequences in conversation. Journal of Pragmatics 12. 293322.
Selting, Margret, Peter Auer, Brigit Barden, Jrg Bergmann, Elisabeth CouperKuhlen, Susanne Gnthner, Christoph Meier, Uta Quasthoff, Peter Schlobinski
& Susanne Uhmann. 1998. Gesprchsanalytisches Transkriptionssystem (GAT).
Linguistische Berichte 173. 91122.
Selting, Margret & Elisabeth Couper-Kuhlen. 2000. Argumente fr die entwicklung einer interaktionalen linguistik. Gesprchsforschung - On-line-Zeitschrift zur
verbalen Interaktion 1. 7695.
Sinclair, John & Malcom Coulthard (eds.). 1975. Towards an Analysis of Discourse.
The English used by teachers and pupils. Oxford University Press.
Uhmann, Susanne. 1992. Contextualizing Relevance: On some forms and functions of speech rate changes in everyday conversation. In Peter Auer & Aldo
di Luzio (eds.), The Contextualization of Language, 297336. John Benjamins.
c o n ta c t s
Isabel Galhano Rodrigues
irodrig@letras.up.pt
traduo automtica na
interao com mquinas
ANTNIO TEIXEIRA, JOS CASIMIRO PEREIRA,
PEDRO FRANCISCO E NUNO ALMEIDA
abstract
Automatic translation is usually related to conversion between human languages. Nevertheless, in human-machine interaction scenarios new forms
of translation emerged. This work presents two examples. First, from the
area of Natural Language Generation, is presented a data-to-text system,
where data stored in a database regarding a medication plan is translated
to Portuguese. As second example, is presented a system addressing the
transmission of information from humans to computers, showing that automatic translation can be useful in the development of systems that use
voice commands for interaction and having multilingualism as a requirement. The examples presented, part of our recent work, demonstrate the
increase of application areas for automatic translation, area that received
many and valuable contributions from Belinda Maia.
[1] i n t r o d u o
A traduo automtica de linguagem , em geral, associada converso entre lnguas humanas. No entanto, sendo a interao com computadores (ou sistemas
integrando estes, como os robs), no essencial, a transmisso de informao e
sendo as linguagens naturais a melhor forma, at hoje, criada pelo Homem para
codificar informao - como defende, por exemplo, Santos (1992) Natural language is so far the most comprehensive tool for (humans to) encode and reason
with knowledge - natural que a traduo automtica tenha papis a desempenhar na nossa interao com as mquinas (e das mquinas connosco).
A nossa interao com as mquinas , em geral, bidirecional. Tomemos como
exemplo uma aplicao simples para nos informar sobre a previso do tempo, a
correr num dos cada vez mais omnipresentes Smartphones (que no nos atrevemos a traduzir...). A linguagem natural passvel de utilizao na transmisso de
informao da previso para a semana, sob a forma de um texto ou mesmo pela
leitura desse texto, usando um sintetizador de voz (dois exemplos do que se designa habitualmente como modalidades de sada). Outra utilizao na interao
consiste em navegar nas vrias informaes disponveis utilizando comandos de
voz, dizendo, por exemplo, quero saber a previso para os prximos dias (exem-
[284]
teixeira, pereira, francisco & almeida

plo de uma modalidade de entrada). Para tornar possveis funcionalidades como
as dos exemplos, torna-se necessrio tecnologias capazes de:
(i) traduzir o sinal acstico da voz em comandos com um significado preciso
para a aplicao.
(ii) traduzir (uma pequena provocao na utilizao da palavra!) em frases, ou
textos, informao que existe internamente nas mquinas;
[1.1] Controlo por voz de aplicaes multilingue

A tecnologia atual da rea do processamento de fala e de linguagem natural permite o controlo de aplicaes e a procura de informao com um razovel desempenho. Permite tambm ditar mensagens, como o contedo de um email ou
qualquer outro documento. Por forma a se conseguir utilizar a linguagem falada
como modalidade/forma de entrada de informao ou controle de uma aplicao
de computador, necessrio efetuar pelo menos duas tarefas1 :
Primeiro, converter o sinal acstico numa sequncia de palavras. Tarefa que
desempenhada pelos denominados reconhecedores de fala. De seguida, a sequncia de palavras processada por um sistema de Compreenso de Fala (em ingls,
Spoken Language Understanding SLU) responsvel por extrair informao semntica significado.
Para que possam efetuar a sua tarefa, os reconhecedores necessitam de informao sobre as palavras e frases que devem considerar no seu processo de reconhecimento. Em geral, para aplicaes de controlo de aplicaes, esta informao
fornecida por gramticas.
Para a compreenso da linguagem foram propostos vrios tipos de abordagens
(ver Tur & De Mori 2011) com graus diferentes de complexidade. Um dos mtodos
mais utilizados baseia-se na utilizao de gramticas semnticas (Tur & De Mori
2011, p. 51), sendo o sistema mais conhecido o Phoenix (Ward 1990).
Estas gramticas so dependentes da lngua e so criadas com base no contexto de uma aplicao, sendo necessrio traduzir as gramticas de cada aplicativo para cada idioma que a aplicao deve suportar. Atendendo a que, em geral,
os programadores no possuem conhecimentos num conjunto alargado de lnguas, e a traduo das gramticas algo custoso, mesmo por tradutores formados
segundo a filosofia defendida pela Belinda de serem capazes de colaborar com a
mquina (Santos & Simes 2015), torna-se pertinente explorar as capacidades
da traduo automtica nestes contextos, o que os autores tm vindo a fazer (Teixeira et al. 2014a).
[1]
Pelo menos com a tecnologia mais comum. Existem propostas recentes de sistemas que integram estas
duas partes.
traduo automtica na interao com mquinas
[285]
[1.2] Converso de dados em frases

Os sistemas de Gerao de Linguagem Natural precisam de mapear alguma fonte
de informao (como uma base de dados, por exemplo) em algum tipo de mensagem gerada automaticamente (Bateman & Zock 2003). Esse mapeamento pode
ser feito recorrendo a diferentes tipos de sistemas, desde os baseados em modelos pr-definidos (templates) at aos sistemas baseados em aprendizagem automtica. A escolha do tipo de sistema depende da aplicao, recursos e conhecimentos
disponveis. Para uma utilizao em interao essencial que as frases geradas
apresentem variabilidade e que o desenvolvimento seja possvel sem grandes conhecimentos de Lingustica.
Se por um lado, a opo por modelos pr-definidos proporciona resultados rpidos, por outro verifica-se uma uniformidade nas respostas produzidas pelo sistema. Esta uniformidade torna este mtodo desadequado para sistemas que pretendam um grau elevado de naturalidade na interao com o ser humano, como
os que estamos interessados.
Os sistemas convencionais, no usando templates, profusamente descritos em
(Reiter & Dale 2000), efetuam este mapeamento em 3 fases: (1) Planificao do Documento; (2)Planeamento Fino, incluindo Lexicalizao (escolha das palavras que
melhor descrevem o que foi definido na planificao do documento), Agregao e
Gerao de Expresses Relacionadas; (3) Realizao de superfcie, que concretiza
todas as decises tomadas nas fases anteriores.
Estes sistemas utilizam, frequentemente, regras bastante especficas, relacionadas com o domnio do problema que desejam solucionar, sendo fortemente
dependentes da experincia e conhecimento do seu desenvolvedor. A sua adaptao a novos requisitos , em geral, bastante difcil (Lemon 2010).
Tentando dar resposta a estas limitaes, foram propostos, mais recentemente,
sistemas usando aprendizagem automtica. O objetivo treinar/ensinar um sistema com base em informaes previamente conhecidas. Depois, com este conhecimento adquirido, possvel inferir novas expresses. Expresses que, em geral,
no fazem parte do conjunto de treino.
Diversas abordagens tm sido seguidas. Algumas utilizam ontologias como estrutura para recolher o corpus e posteriormente gerar as novas expresses (Stent
et al. 2004; Stent & Molina 2009; Vogiatzis et al. 2008); outras formulam o processo de gerao como um processo de traduo entre uma linguagem interna e
uma lngua natural (Langner & Black 2009; Langner 2010) e utilizam ferramentas
de traduo automtica como o MOSES (Koehn et al. 2007).
A gerao de linguagem para converso de dados (internos a um sistema) em
texto (Data2Text em ingls), em que se pode incluir a gerao para sistemas de dilogo, apresenta algumas diferenas importantes relativamente a outros sistemas
de gerao de linguagem natural (Langner 2010). Neste caso, a gerao consiste
quase exclusivamente na ltima fase, a realizao de superfcie.
[286]

As abordagens usando aprendizagem automtica so particularmente interessantes para este cenrio de gerao simplificado.
Alguns exemplos de sistemas orientados converso de dados em texto:
BabyTalk - Este sistema (Portet et al. 2009; Hunter et al. 2011) surgiu com o
objetivo de apoiar os profissionais de sade (enfermeiros e mdicos) de uma
Unidade de Cuidados Intensivos Neonatais, na sua necessidade de assimilar
uma grande quantidade de informao, em muito pouco tempo, sobre os
bebs a internados.
Mountain - Foi desenvolvido por Langner, como parte da sua tese de doutoramento e utiliza, igualmente, um corpus alinhado (Langner & Black 2009;
Langner 2010). Utiliza o MOSES (Koehn et al. 2007; Koehn 2014) como forma
de gerar as frases. A sua linguagem de entrada corresponde a uma sequncia de cdigos que representam a disponibilidade de um court de tnis. A
linguagem de sada corresponde traduo desse cdigo em ingls.
figura 1: Exemplo do corpus do Mountain (retirado de Langner (2010)).

SINotas - Apresentado em (Arajo et al. 2010; Novais et al. 2009), um dos
poucos exemplos, de que tenhamos conhecimento, de sistemas deste gnero, orientados para uso da lngua portuguesa. Desenvolvido no Brasil,
destina-se a dar suporte a uma aplicao de divulgao de notas de alunos,
numa universidade. O SINotas utiliza um corpus alinhado, onde a cada nota
possvel de um aluno associa uma descrio para essa nota.
[1.3] O que se segue ...

Neste artigo apresenta-se trabalho recente nestas duas aplicaes das tecnologias
da traduo automtica - converso de dados para texto e suporte interao por
voz multilingue - descrevendo as abordagens, trabalho recente e apresentando
exemplos para o Portugus.
[287]
[2] t r a d u o n a c o n v e r s o e n t r e da d o s e t e x t o p a r a p o r t u g u s
Os autores tm vindo a trabalhar num sistema de gerao de linguagem natural

para utilizao em aplicaes necessitando de transformar informao interna em
frases passveis de ser lidas pelo utilizador, ou mesmo convertidas em fala sinttica atravs de um sintetizador. Este sistema, que se pretende seja de fcil aplicao a novos domnios, baseia-se na utilizao de corpora paralelos para treino de
um sistema de traduo.
O cenrio escolhido para os primeiros testes a este sistema de gerao foi o da
informao sobre medicao a ser tomada (Ferreira et al. 2014; Pereira et al. 2012).
Numa primeira fase, o problema foi simplificado, recorrendo apenas gerao de
uma frase relativa a um nico medicamento. Neste cenrio, a informao relativa
a cada um dos medicamentos a tomar, em determinada altura, pode ser visualizada sob a forma de uma frase, complementando outras formas de apresentao,
como listas e imagens.
[2.1] Implementao
Em linhas gerais, o funcionamento do sistema ilustrado na Figura 2):
Moses
Variante
baseada em
sintagmas
Base de
Dados com
Informao
sobre
medicao
Variante
baseada em
sintaxe
Gerador de Frases
Aplicao
figura 2: Funcionamento do sistema de converso de informao de medicao

em frases.
A parte central deste sistema o mdulo capaz de criar uma frase em resposta
a um vetor com dados, fornecido como entrada. Para se alcanar este objetivo so
necessrios trs componentes:
A base de dados com informao relativa aos planos de medicao, que
designaremos por BD, o componente responsvel por armazenar informao
sobre o plano(s) de medicao.
O componente Moses responsvel pela traduo para portugus das frases,
enviadas pelo mdulo gerador de frases. Para efetuar a traduo, o Moses tem
de ser treinado com um corpus paralelo. A cada frase na linguagem de entrada
deve corresponder uma frase na linguagem de sada, respeitando o ordenamento
[288]

dos ficheiros. A linguagem de entrada ser constituda por valores correspondentes aos fornecidos pelo mdulo BD. Na linguagem de sada esto as expresses,
em portugus, que se deseja que o Moses seja capaz de gerar.
O mdulo gerador de frases responsvel por receber os pedidos dos utilizadores e interagir com a base de dados. tambm sua responsabilidade enviar
mensagens escritas na linguagem de entrada para o mdulo Moses e receber a
resposta na linguagem de sada. Por ltimo, compete-lhe processar as respostas
e apresent-las ao utilizador, atravs da respetiva Aplicao.
Como referido anteriormente, foi utilizado um corpus constitudo por duas
linguagens, alinhadas.
A linguagem de entrada reflete os dados que so obtidos por consulta, na
base de dados, tendo sido selecionados 9 tipos de dados: Nome e Apelido do utilizador, Mensagem de cortesia, Nome do medicamento a tomar, Tipo do medicamento, Forma de tomar o medicamento, Cor do medicamento, Dose a tomar e
Frequncia da toma.
Correspondentemente, na linguagem de sada surge uma frase que exprime
o mesmo tipo de informao da linguagem de entrada, mas em portugus. A
Tabela 1 apresenta exemplos destas duas linguagens.
Linguagem interna
pessoa32n saudacao_0 pessoa0a medicamento21 tipo0 tomar0 cor00 dose0 freqtoma00
pessoa0n saudacao_0 pessoa0a medicamento14 tipo1 tomar2 cor00 dose4 freqtoma02
pessoa0n saudacao_m pessoa12a medicamento0 tipo8 tomar3 cor00 dose0 freqtoma02
pessoa78n saudacao_f pessoa0a medicamento3 tipo1 tomar2 cor00 dose3 freqtoma04
Frase correspondente
Helena pode tomar agora o Seretaide.
Vai-se deitar ento tome quatro comprimidos Primperan.
Antes de deitar senhor Lima no se esquea da bomba de inalao.
Dona Teresinha est na hora de almoo
tome os trs comprimidos Ibuprofeno.
tabela 1: Excerto do corpus alinhado utilizado nas experincias.

Foram criadas duas verses do sistema, diferindo apenas no mtodo de traduo: um baseado em sintagmas (phrase-based), outro adoptando a chamada traduo baseada em sintaxe (syntax-based). O corpus utilizado constitudo por 643
frases, obtidas pela expanso de 126 frases produzidas por voluntrios. Os dados
presentes na base de dados correspondem a medicamentos e prescries reais.
[289]
[2.2] Exemplos de resultados

Nesta seco apresentam-se vrios exemplos selecionados de forma a ilustrar os
vrios tipos de resultados obtidos. Pretende-se familiarizar o leitor com o que de
facto foi possvel obter usando os dois tipos de sistemas.
Ilustrando as capacidades do sistema e a disparidade de qualidade das frases
obtidas, comeamos por apresentar exemplos de gerao produzidos por diferentes entradas.
Usando como entrada o vetor
< pessoa45n saudacao0 ... medicamento17 ... cor00 dose0 freqtoma00 >
que se refere ao medicamento 17 (Pulmicort) e contm informao sobre dose,

tipo, ..., obteve-se a no frase (1).
(1)
Lus Pulmicort de tomar agora o.
Para outra entrada,

< pessoa61n ... medicamento4 tipo0 tomar0 cor00 dose2 freqtoma00 >
os resultados so muito mais aceitveis (2).

(2)
Senhor Paulo tome dois comprimidos de Maltofer.
Os resultados (1) e (2) e outros anlogos podem ser comparados com os gerados
por humanos, e que integram o corpus. Apresentam-se de seguida dois exemplos
de sada do sistema (assinalados com S antes) alinhados com frases produzidas
por humanos (com H antes). Estes exemplos mostram o alinhamento entre as frases criadas pelos humanos, e que servem de referncia, e as geradas pelo sistema,
para uma mesma entrada. As frases so, aqui, apresentadas em minsculas para
que seja possvel evidenciar as suas diferenas, como a seguir explicado. Nos alinhamentos, a falha do sistema em incluir uma palavra na frase marcada com
***. Quando ocorrer troca de palavras, ou quando houver adio de palavras,
estas diferenas so evidenciadas atravs de maisculas. Esta evidenciao especialmente direcionada para os casos em que haja marcao com ***.
(3)
H: dona denise assim que se levantar no se esquea de tomar OS COMPRIMIDOS nicotibine

S: dona denise assim que se levantar no se esquea de tomar O COMPRIMIDO nicotibine
(4)
H: DEVE TOMAR AGORA ao acordar *** a bomba de inalao DE pulmicort

AUGUSTO
S:*** *** AUGUSTO ao acordar APLIQUE a bomba de inalao *** pulmicort
***
Em (3) a grande diferena resulta do sistema usar o singular para OS COMPRIMIDOS. Num cenrio em que a frase gerada a nica informao que transOSLa volume 7(1), 2015
[290]

mitida ao utilizador esta falha pode ter consequncias muito graves ao potenciar
a toma de uma dose errada. No entanto, em cenrios multimodais em que a frase
complementa outra informao clarificando o nmero de comprimidos a tomar,
como o caso dos que interessam aos autores, esta diferena pode no ter grandes consequncias. No exemplo (4) existem vrias diferenas, mas no se pode
dizer que o sistema se tenha sado muito mal: APLIQUE a bomba ser at mais
adequado do que TOMAR... a bomba; bomba de inalao pulmicort tem a sua
lgica. De referir que nesta fase optmos por no incluir vrgulas e outra pontuao na gerao, devido a problemas com o analisador sinttico (parser) utilizado.
Sendo claramente uma limitao, foi j iniciada a explorao de parsers alternativos.
A diferena entre as frases geradas pelo sistema e as produzidas por humanos
pode ser ainda maior. Os exemplos (5) e (6) mostram frases geradas inteligveis
e que se podem considerar boas em termos de naturalidade, mas que so completamente diferentes das produzidas por humanos. Este tipo de frases constitui
um grande desafio para a avaliao, sendo normalmente consideradas como erros
pelas mtricas automticas de avaliao, mas constituem, na opinio dos autores,
uma das mais valias destes sistemas, afastando-os da monotonia dos sistemas de
gerao baseados em templates.
(5)
H: HORA DE ALMOAR marcos no se esquea de tomar *** quatro gotas

de guttalax *** ***
S:*** *** *** *** marcos no se esquea de tomar AS quatro gotas de guttalax AO ALMOO
(6)
H: *** *** MEIO-DIA TOME AS trs gotas de zaditen *** PATRCIA

S:PATRCIA NO SE ESQUEA DE TOMAR trs gotas de zaditen AO MEIO-DIA
Em (7) e (8) exemplifica-se a diferena entre os resultados obtidos pelos 2 tipos

de sistema. Utilizou-se a mesma informao de entrada na gerao das frases. Notamos por F a gerao baseada em sintagmas (phrase-based) e por S a gerao
baseada em sintaxe.
(7)
F: Patrcia no se esquea de tomar trs gotas de Zaditen ao meio-dia

S: Patrcia ao Zaditen gotas tome de trs meio-dia
(8)
F: Senhora Carvalho aps o seu almoo tome cinco comprimidos de Duphaston

S: Senhora Carvalho Duphaston comprimido branco cinco almoo
Destes exemplos transparece uma pior capacidade da variante do sistema baseada em sintaxe. Possivelmente, pelo tamanho bastante limitado do corpus utilizado e pelo facto de no se ter ainda conseguido um bom desempenho da anotao sinttica. Estes resultados esto a ser encarados pelos autores no como uma
[291]
prova de que esta variante do sistema tem menor potencial, mas como um desafio
para melhorar o desempenho dos processos adicionais que envolve.
[3] t r a d u o n o s u p o r t e i n t e r a o p o r vo z m u l t i l i n g u e
Como referido na introduo, uma forma de configurar o conhecimento e compreenso de fala atravs de gramticas, definidas para a aplicao em vista. Adoptamos essa abordagem para o desenvolvimento de diversas aplicaes suportando
a interao por voz, destacando-se o assistente AALFred (Saldanha et al. 2013;
Teixeira et al. 2014b) do projeto AAL PaeLife. Para que a interao possa ser efetuada em mltiplas linguagens - o AALFred suporta atualmente Ingls, Portugus,
Francs, Hngaro e Polaco - definida uma gramtica semntica de base e as gramticas para as outras lnguas so obtidas por traduo, seguida de verificao
manual durante o desenvolvimento. As gramticas necessrias para o reconhecedor de fala so tambm derivadas automaticamente.
[3.1] Implementao
Por forma a dar resposta s necessidades de desenvolvimento distribudo de aplicaes e facilitar a verificao manual, o sistema foi implementado como um servio web (webservice) e um portal web associado.
O sistema (Figura 3) dual na funcionalidade. Suporta o desenvolvimento
e o uso em contextos de interao real, altura em que as gramticas nas vrias
lnguas ficam disponveis para utilizao, sendo selecionadas em funo da lngua
em utilizao.
Em contextos de interao, o sistema responsvel pela compreenso da linguagem natural, aproveitando as gramticas enviadas para o servio em fase de
desenvolvimento. Recebe a sada de reconhecimento de fala e retorna as informaes semnticas extradas. Tambm retorna, a pedido, as informaes necessrias
sobre as palavras e frases necessrias para configurar o reconhecedor de fala.
Dadas as limitaes das tradues automticas, o servio tambm oferece suporte a reviso manual e atualizao subsequente de gramticas. Esta utilizao
particularmente adequada quando se est na fase de desenvolvimento de uma
aplicao, como o AALFred, ao permitir que cada parceiro envolvido no projeto
possa rever e corrigir as gramticas geradas automaticamente.
Todas as operaes so feitas atravs do acesso a APIs2 , garantindo um controlo de operao consistente e completo.
Para permitir a introduo de novas gramticas, uma interface especfica
necessria para o desenvolvedor. Esta interface permite submeter uma gramtica
e verificar os resultados da sua traduo, tanto em termos de gramtica gerada
como de frases geradas por ela.
[2]
Application Programming Interface (em portugus: Interface de Programao de Aplicaes)

[292]
figura 3: Sistema de anlise semntica multilingue, baseado na traduo de gramticas semnticas.
[3.2]
Gramticas semnticas e parser
O Phoenix (Ward 1990) foi escolhido como o analisador (parser) tendo sido tambm
adoptado o seu formato de especificao de gramticas. A escolha teve por base
a robustez do Phoenix a erros no reconhecimento e desempenho e versatilidade
que demonstrou em variadssimas aplicaes.
O sistema de anlise semntica Phoenix (Ward 1990) modela diretamente a
semntica de um domnio especfico usando gramticas semnticas baseadas em
quadros (frames) e slots. Cada slot tem uma gramtica livre de contexto associado,
que especifica padres de sequncias de palavras que coincidem com o slot e
compilada como uma rede de transio recursiva (RTN). So preenchidos atravs
da comparao entre a sequncia de palavras das frases em anlise com estas redes
recursivas (Tur & De Mori 2011, p. 51).
O objetivo do analisador (parser) extrair as anotaes semnticas (tags), conforme definido na gramtica semntica. Esta operao efetuada sobre a lista
de palavras que foi fornecida pelo sistema de reconhecimento de fala. Aps esta
tarefa, o texto juntamente com as respetivas anotaes enviado para processamento pelo Gestor de Interao. Por ltimo, o resultado final usado pela aplicao.
As gramticas do Phoenix contm as regras livres de contexto que especificam
os padres da palavra. Uma pequena gramtica exemplo apresentada em (9).
[293]
Trata-se de um exemplo muito simples que servir para a explicao do processo

de traduo apresentado na prxima subseco que permite transformar
sequncias de palavras como show this contacts pictures numa interpretao
do que o utilizador pretende: que lhe seja mostrada a foto do contacto atualmente
selecionado:
(9)
[Main]
([AGENDA])
([CONTACTS])
;
[CONTACTS]
(show this contact's [PHOTOS])
;
[PHOTOS]
(photographies)
(photos)
(pictures)
;
As regras, uma por linha, aparecem entre parntesis curvos. Nomes entre parntesis rectos indicam no-terminais. Palavras em minsculas indicam smbolos
terminais. possvel indicar que algo opcional utilizando o * ou que pode ter
uma ou mais ocorrncias usando o +.
[3.3] Processo de traduo das gramticas

O principal objetivo deste processo gerar automaticamente uma gramtica derivada em outros idiomas de destino. Isso conseguido atravs da preservao,
tanto quanto possvel, da estrutura da gramtica, gerando frases coerentes na
lngua-alvo e tendo em considerao o processo de reordenao de palavras.
O objetivo traduzir para uma lngua-alvo todas as palavras terminais preservando as anotaes (tags) semnticas. A traduo tambm deve produzir uma
lista completa das frases definidas pela gramtica.
O processo adotado e implementado composto por trs etapas: 1) expanso
completa da gramtica; 2) traduo; e 3) reconstruo de gramtica.
Expanso da gramtica
Com o objetivo de manipular as gramticas do Phoenix, uma de duas abordagens
teria de ser seguida: alterar o Phoenix ou ter um analisador separado. Foi decidido implementar um analisador separado e contar com o analisador de Phoenix
apenas para a sua funo j especificada e bem testada: anlise de texto de entrada
com base em uma gramtica definida.
[294]

Para traduzir corretamente a gramtica, necessrio apresentar frases completas ao tradutor, para assim ter forma de avaliar adequadamente qual a traduo mais plausvel. Para obter essas frases, o algoritmo desenvolvido faz uso de
duas estruturas de dados: uma pilha em andamento e uma fila feito at agora.
Na primeira, o algoritmo armazena a regra atual, enquanto no segundo armazena
as palavras traduzidas. A expanso de todas as regras feita mantendo o histrico
das regras visitadas ao longo da expanso.
O nosso exemplo ser expandido como em (10).
(10)
show this contacts photographies

show this contacts photos
show this contacts pictures
Traduo
O processo de traduo consiste em submeter o resultado da expanso (palavras
mais as suas regras gramaticais/histria) e receber as frases traduzidas resultantes (emparelhamento de palavras na traduo com as palavras correspondentes
na fonte).
Para a traduo, a escolha recaiu sobre o tradutor Bing (Microsoft 2014), utilizado atravs da Microsoft Translator API (Microsoft 2015), devido sua capacidade de fornecer informao sobre a reordenao das palavras. Esta informao facilita a correspondncia das palavras da traduo com palavras de origem,
essencial para a reordenao das palavras aquando da reconstruo das regras.
Alm disso, este tradutor tambm permite obter mltiplas tradues por pedido,
o que permite a expanso de uma gramtica existente para oferecer suporte a vrias frases semelhantes, sem a necessidade de entrada adicional. Podemos, assim,
aumentar a cobertura da nossa gramtica de forma automtica e sem esforo.
Em (11) apresentam-se as frases resultantes da traduo da expanso apresentada anteriormente, em (10).
(11)
mostrar fotos deste contacto

mostrar fotografias deste contacto
Reconstruo da gramtica
Quando a gramtica analisada (a fim de expandi-la depois), um objeto diferente
criado para cada instncia de qualquer regra. Como tal, para cada palavra terminal presente na instruo resultante da expanso da gramtica, podemos determinar exatamente qual a regra que deu origem ao caminho que leva a ela, aps
a traduo. Como temos informao relativa reordenao disponvel, sabemos
quais as regras que geraram o texto resultante da traduo.
[295]
O algoritmo desenvolvido utiliza a histria de expanso da gramtica e as frases traduzidas. Consiste em analisar informaes de histrico dos antepassados
para refazer a gramtica. Isto feito atravs da fuso de no-terminais, do mesmo
nvel, em toda a gramtica numa abordagem de cima para baixo. As Figuras 4 e 5
ilustram as fases inicial e final deste processo.
[M ain]
[CON T ACT S]
mostrar
[M ain]
[CON T ACT S]
[P HOT OS]
fotos
[M ain]
[CON T ACT S]
deste
[M ain]
[CON T ACT S]
contacto
figura 4: Representao da informao na fase inicial do processo de reconstruo da gramtica.

[M ain]
[CON T ACT S]
mostrar
[P HOT OS]
fotos
deste
contacto
figura 5: Representao da informao na fase final do processo de reconstruo

da gramtica.
[3.4] Exemplo de utilizao

Este sistema foi adoptado pelo assistente pessoal AALFred (Saldanha et al. 2013;
Teixeira et al. 2014b) desenvolvido no projeto AAL PaeLife. O AALFred uma aplicao com interao multimodal (voz, toque, gestos, teclado, rato) que facilita a
utilizao das redes sociais, das mltiplas formas de comunicao (email, twitter,
Skype) e acesso a informao (meteorologia, notcias, ) assim como a gesto
da agenda e contactos.
As gramticas semnticas e as suas tradues atrs descritas suportam toda
a interao por voz do AALFred. A ttulo de exemplo, apresenta-se, a seguir, a
subgramtica referente a funcionalidades da agenda, na verso inicial em ingls
(12) e o resultado do processo de traduo atrs descrito em (13).
(12)
[AGENDA]
(agenda)
([CHANGEDATE])
(go to my agenda)
(*go *to [NEXT] [DATEELEMENT])
(*go *to [PREVIOUS] [DATEELEMENT])
[296]

(i want to see my agenda)
(*open [WEEKDAYS])
(show my agenda)
;
(13)
[AGENDA]
(abre a minha agenda)
(abre [WEEKDAYS])
(abrir *a agenda)
(abrir a minha agenda)
(*abrir [WEEKDAYS])
(agenda)
([CHANGEDATE])
(*eu quero ver a minha agenda)
(ir para a minha agenda)
(ir para *a [NEXT] [DATEELEMENT])
(ir para *a [PREVIOUS] [DATEELEMENT])
(ir para [WEEKDAYS])
(mostra-me a minha agenda)
(mostra-me [WEEKDAYS])
(mostra a minha agenda)
(mostrar a minha agenda)
(mostrar [WEEKDAYS])
([NEXT] [DATEELEMENT])
([PREVIOUS] [DATEELEMENT])
(quero ver [WEEKDAYS])
;
[4] c o n c l u s e s
Neste artigo apresentam-se dois exemplos de aplicao de traduo automtica

na rea da interao entre humanos e mquinas em que existe trabalho recente
para o portugus.
O primeiro exemplo, na rea da gerao de linguagem, faz uso de um sistema
de traduo automtica, o MOSES, para a converso de informao relativa a planos de medicao em frases em portugus.
O segundo, do lado oposto da interao - transmisso de informao entre humanos e mquinas por oposio transmisso entre as mquinas e os humanos
do primeiro exemplo -, mostra quo til pode ser a traduo no desenvolvimento
de aplicaes que incluam comando por voz e que tenham por objetivo suportar
mltiplas lnguas. Atendendo s limitaes atuais dos sitemas de reconhecimento
e de compreenso, a tarefa de traduo ainda simples. No entanto, com o evoluir
[297]
destas tecnologias e a adoo de sistemas capazes de dialogar com o utilizador, tero de ser contempladas as diferenas entre as lnguas e culturas. Por exemplo3 ,
em algumas lnguas h mais preliminares o que dever implicar dimenses diferentes para cada bloco ou mesmo a necessidade de adicionar blocos inexistentes
na lngua original. Consideramos que o prottipo existente pode desempenhar
um papel relevante na criao de corpos comparveis, ao permitir recolha das
interaes em situaes similares para diferentes lnguas.
Estes dois exemplos mostram a utilidade crescente dos sistemas de traduo
automtica, mesmo para a nossa comunicao com as mquinas. Estas possibilidades s se tornaram possveis com o trabalho de muitos, em que se inclui e
destaca a Belinda, para que a traduo, automtica ou no, evolusse.
Para terminar, consideramos que a relao entre mquinas, humanos e traduo vem acrescentar ainda mais riqueza relao que Belinda Maia sempre tem
considerado ser benfica entre tradutores (humanos) e mquinas, em que as mquinas podem ajudar humanos na traduo. Nos exemplos apresentados, a traduo ajuda comunicao/interao entre esses mesmos humanos e as mesmas,
ou outras, mquinas.
agradecimentos
Os autores agradecem a todos os que contriburam para a criao do corpus e a todos os que participaram na avaliao das frases que tornaram possvel o trabalho
na gerao de frases. Um agradecimento especial ao Mrio Rodrigues pela ajuda
na obteno e utilizao do analisador sinttico para o portugus.
Relativamente ao trabalho na traduo das gramticas semnticas, os autores
no podem deixar de agradecer a todos os parceiros do projeto AAL PaeLife, e
em especial ao Microsoft Language Development Center (MLDC), pela ajuda na
definio de requisitos, pelo retorno que nos forneceram, e pela adopo deste
componente no AALFred.
Os autores agradecem a preciosa ajuda na reviso do texto de Samuel Silva.
O trabalho mencionado neste artigo foi parcialmente financiado pelo FEDER,
COMPETE and FCT atravs dos projetos AAL/0015/2009, AAL PaeLife, QREN AAL4ALL
e financiamento unidade de investigao IEETA (PEst-OE/EEI/UI0127/2014).
Os nossos agradecimentos, tambm, aos Editores deste volume pelo convite que muito nos honra -, pela ajuda, comentrios, disponibilidade em todo o processo e, muito mais importante, por se dedicarem a esta nobre iniciativa.
[3]
Agradecemos Diana Santos pela ideia.

[298]
referncias
Arajo, Roberto, Rafael Oliveira, Eder Novais, Thiago Tadeu, Daniel Pereira &
Ivandr Paraboni. 2010. SINotas: the Evaluation of a NLG Application. Em Proceedings of the Seventh International Conference on Language Resources and Evaluation
(LREC), 23882391.
Bateman, John & Michael Zock. 2003. Natural language generation. Em Ruslan
Mitkov (ed.), The Oxford Handbook of Computational Linguistics, 284304. Oxford
University Press.
Ferreira, Flvio, Nuno Almeida, Ana Filipa Rosa, Andr Oliveira, Jos Casimiro Pereira, Samuel Silva & Antnio Teixeira. 2014. Elderly centered design for interaction - the case of the S4S medication assistant. Em Procedia Computer Science,
vol. 27, 398408.
Hunter, James, Yvonne Freer, Albert Gatt, Ehud Reiter, Somayajulu Sripada, Cindy
Sykes & Dave Westwater. 2011. BT-Nurse: computer generation of natural language shift summaries from complex heterogeneous medical data. Journal of
the American Medical Informatics Association (JAMIA) 18. 621624.
Koehn, Philipp. 2014. MOSES: Statistical Machine Translation System - User Manual
and Code Guide. http://www.statmt.org/moses/manual/manual.pdf.
Koehn, Philipp, Hieu Hoang, Alexandra Birch, Chris Callison-Burch, Marcello Federico, Wade Shen, Christine Moran, Richard Zens, Ondej Bojar, Alexandra
Constantin & Evan Herbst. 2007. Moses: Open source toolkit for statistical machine translation. Em 45th annual meeting of the association for computational linguistics (demo and poster sessions), 177180.
Langner, Brian. 2010. Data-driven Natural Language Generation: Making Machines
Talk Like Humans Using Natural Corpora: Carnegie Mellon University. Tese de
Doutoramento.
Langner, Brian & Alan W. Black. 2009. MOUNTAIN: A Translation-based Approach to Natural Language Generation for Dialog Systems. Em First International
Workshop on Spoken Dialogue Systems Techology (IWSDS), s/pp.
Lemon, Oliver. 2010. Learning what to say and how to say it: joint optimization
of spoken dialogue management and natural language generation. Computer
Speech & Language 25. 210221.
Microsoft. 2014. Bing translator. http://www.bing.com/translator/.
Microsoft. 2015. Microsoft translator API.
translator/translator-api.aspx.
http://www.microsoft.com/
[299]
Novais, Eder, Rafael Oliveira, Daniel Pereira & Thiago Tadeu. 2009. A Testbed for
Portuguese Natural Language Generation. Em Seventh Brazilian Symposium in
Information and Human Language Technology, 154 157.
Pereira, Jos Casimiro, Antnio Teixeira & Joaquim Sousa Pinto. 2012. Natural
Language Generation in the context of Multimodal Interaction in Portuguese.
Electrnica e Telecomunicaes 5. 400409.
Portet, Franois, Ehud Reiter, Alberto Gatt, Jim Hunter, Somayajulu Sripada,
Yvonne Freer & Cindy Sykes. 2009. Automatic generation of textual summaries from neonatal intensive care data. Artificial Intelligence 173. 789816.
Reiter, Ehud & Robert Dale. 2000. Building natural language generation systems. Cambridge University Press.
Saldanha, Nuno, Jairo Avelar, Miguel Dias, Antnio Teixeira, Daniel Gonalves,
Emmanuel Bonnet, Karine Lan, Nmeth Gza, Petra Csobanka & Artur Kolesinski. 2013. A Personal Life Assistant for natural interaction: the PaeLife
project. Em AAL Forum, poster presentation.
Santos, Diana. 1992. Natural Language and Knowledge Representation. Em Proceedings of the ERCIM Workshop on Theoretical and Experimental Aspects of Knowledge
Representation, 195197.
Santos, Diana & Alberto Simes. 2015. Ensinador paralelo: Alicerces para uma
pedagogia nova. Neste volume.
Stent, Amanda & Martin Molina. 2009. Evaluating automatic extraction of rules
for sentence plan construction. Em Proceedings of the SIGDIAL 2009 Conference:
10th Annual Meeting of the Special Interest Group on Discourse and Dialogue, 290297.
Stent, Amanda, Rashmi Prasad & Marilyn Walker. 2004. Trainable sentence planning for complex information presentation in spoken dialog systems. Em Proceedings of the 42nd annual meeting on association for computational linguistics, 7986.
Teixeira, Antnio, Pedro Francisco, Nuno Almeida, Carlos Pereira & Samuel Silva.
2014a. Services to support use and development of speech input for multilingual multimodal applications for mobile scenarios. Em The Ninth International
Conference on Internet and Web Applications and Services (ICIW), Track Web Servicesbased Systems and Applications, 4146.
Teixeira, Antnio, Annika Hmlinen, Jairo Avelar, Nuno Almeida, Gza Nmeth, Tibor Fegy, Csaba Zaink, Tams Csap, Blint Tth, Andr Oliveira &
Miguel Sales Dias. 2014b. Speech-centric multimodal interaction for easy-toaccess online services. Em Procedia computer science, vol. 27, 389397.
[300]

Tur, Gokhan & Renato De Mori. 2011. Spoken language understanding: Systems for
extracting semantic information from speech. John Wiley & Sons.
Vogiatzis, Dimitrios, Dimitrios Galanis, Vangelis Karkaletsis, Ion Androutsopoulos
& C. D. Spyropoulos. 2008. A Conversant Robotic Guide to Art Collections. Em
Proceedings of the 2nd workshop on Language Technology for Cultural Heritage Data
(LREC), s/pp.
Ward, Wayne. 1990. The CMU air travel information service: Understanding spontaneous speech. Em Proceedings of the darpa speech and natural language workshop,
127129.
c o n ta c t o s
Antnio Teixeira
Departamento de Electrnica Telecomunicaes e Informtica/IEETA
Universidade de Aveiro
ajst@ua.pt
Jos Casimiro Pereira
Instituto Politcnico de Tomar
casimiro@ipt.pt
Pedro Goucha Francisco
IEETA, Universidade de Aveiro
goucha@ua.pt
Nuno Almeida
Departamento de Electrnica Telecomunicaes e Informtica/IEETA
Universidade de Aveiro
nunoalmeida@ua.pt
reporter fired for plagiarism:

a forensic linguistic analysis
of news plagiarism
R U I S O U S A- S I L V A
resumo
O plgio tem sido tradicionalmente classificado como um ato imoral e violador das normas ticas, mais do que uma ao ilegal (Garner 2009; Goldstein 2003), e o plgio jornalstico no exceo. Como referem Coulthard &
Johnson (2007), a reutilizao de texto por jornalistas, sem atribuio ou com
atribuio de autoria inadequada, no normalmente considerada plgio. A
isto acresce o facto de as convenes relativas reutilizao de notcias das
agncias no serem universais. Porm, as graves consequncias inerentes
m prtica jornalstica (como o caso de Jayson Blair, do The New York Times)
mostram que as implicaes no se limitam esfera da tica, mas, pelo contrrio, possuem impacto legal, incluindo processos de demisso. Um dos
problemas, no entanto, consiste em provar determinada reutilizao textual
como plgio.
Este estudo apresenta os resultados de uma anlise lingustica forense que
pode ser utilizada para provar casos de suspeita de plgio ou para iniciar a
investigao de textos insuspeitos. Com o objetivo de identificar os mecanismos utilizados e como pelos jornalistas para comporem os seus prprios textos a partir das notcias das agncias, este trabalho compara notcias publicadas na seco Mundo de jornais de referncia portugueses com
possveis fontes publicadas em ingls. Os resultados da anlise mostram que:
(a) a atribuio de autoria , frequentemente, inadequada, mesmo quando os
jornais de referncia citam as suas fontes (normalmente, conhecidas agncias internacionais); (b) nem sempre existe uma correspondncia direta com
uma nica fonte entre a verso plagiadora e a verso plagiada (indicando
reutilizao de texto de diferentes media e websites internacionais); e (c) as
notcias so plagiadas a partir de textos publicados noutras lnguas, constituindo plgio translingue. Conclui-se que a anlise lingustica forense possui
potencial de prova e de investigao em casos de plgio e violao de direito
de autor, no s monolingue, mas tambm translingue.
[1] n e w s p l a g i a r i s m
News plagiarism has been perhaps one of the most challenging areas of research
into plagiarism. Unlike student plagiarism, text reuse by journalists with little or
[302]
rui sousa-silva
no attribution at all does not seem to be usually regarded as plagiarism (AnglilCarter 2000; Coulthard & Johnson 2007), not even when substantial amounts of
text are reused. This is one of the problems reported by Anglil-Carter (2000) in
her discussion of the subject. As the borderline of plagiarism is as dependent on
its definition and on the authors intention as much as it is on the text genre, the
usage of large amounts of text by journalists with little or no attribution tends
to be overlooked. This is a result of the underlying assumption that news pieces
are expected to report on real-world facts and events. And since, for reasons of
faithfulness, these facts and events cannot be reported differently, the more faithfully a journalist reports them, the more professionally they act, and the higher
the likelihood that a higher textual overlap is to be expected. Therefore, texts
reporting those facts and events can hardly be charged with plagiarism.
Another reason for this apparent leniency with news text lifting is that news
corporations frequently subscribe to paid newswire services whose contents they
are allowed to reuse. Additionally, when faced with the need to acknowledge their
sources, journalists seem to have a double-standard. On the one hand, they do not
hesitate to clearly cite their primary sources and keep their identity confidential when necessary to protect them in order to ensure the truthfulness of the
news piece. In some extreme cases, they even resist pressure to identify these
sources. On the other hand, they often reuse text from other (secondary) sources
to write their articles, while not always citing them. This is the case of reusing
text from other media organisations, or even from newswire services.
Notwithstanding these underlying assumptions, journalists have been punished for plagiarising. In February 2015, Jared Keller, the news director of the
news site Mic, was fired after he was found to have lifted passages of text from
other news sources. Keller reproduced the text literally or with minor changes,
with little or no reference to the source. Where he provided a reference, this was
made in passing. That same month, the columnist Tanveer Ahmed was dismissed
by the Australian after a blogger accused him of plagiarising an American political website. Two years earlier, the New Yorker writer Jonah Lehrer was fired for
recycling New Yorker blog posts, among other misdeeds. One of the most paradigmatic cases, however, is that of Jayson Blair, who in 2003 resigned from The New
York Times after facing accusations of journalistic fraud, including plagiarism. In
particular, he was accused of lifting material from newswire services and other
newspapers, such as the Washington Post and The San Antonio Express-News. In
2007, a reader of the Portuguese quality newspaper Pblico found that the journalist Clara Barata plagiarised from other sources, including Wikipedia. This case
is even more complex than the others, as the texts were not lifted from an original
in the same language, but instead from an original in another language. A similar
case is that of a reporter of the Telegraph-Journal in Canada, who was fired in
2009 for lifting a news piece from LAcadie Nouvelle.
a forensic linguistic analysis of news plagiarism
[303]
This paper investigates how a forensic linguistic analysis can assist the detection and/or provision of evidence of news plagiarism. It builds on the assumption
that it is crucial to devise a method for identifying the textual elements that can
be used to flag a text as a potential instance of plagiarism, not only to raise suspicion about its originality, but also to develop translingual plagiarism detection
techniques (Sousa-Silva 2014). A method of this type is presented below.
[2] n e w s , p l a g i a r i s m , a n d l i f t i n g
Indeed, although a vast body of research into plagiarism has been published over
the last decades (Anderson 1998; Anglil-Carter 2000; Carroll 2001; Carroll & Appleton 2001; Jameson 1993; Lindey 1952; Pecorari 2008; Howard & Robillard 2008;
Roig 2001; Scollon 1995; Howard 1995), it has focused mostly on academic plagiarism, to the detriment of other instances of text reuse. One of the reasons
why academic plagiarism has attracted most research attention is that it is seen
as an educational issue that needs to be identified during the students academic
path (Carroll 2001; Carroll & Appleton 2001), and especially teach students how to
adopt an appropriate academic conduct (Howard 1995). On the contrary, comparatively little research has been conducted into news text reuse. This is supported
by the strong views, usually matching the infringing journalists argument, that
writing news pieces is different from academic writing, and that in order to preserve the readability of the article citing all the secondary sources used is impractical. Paradoxically, although the conventions and regulations applying to the use
of newswire copy are not universal, they tend to be clear in this respect. Cases of
such conventions and regulations abound. Agencies require that the source(s)
be credited, and forbid the unacknowledged use of authored articles, i.e. news
pieces signed by individual reporters, rather than being simply news wires.
The Reuters Handbook of Journalism (Reuters 2008), e.g., describes plagiarism
as a cardinal sin. It strongly argues that, whereas ethical guiding principles contribute to a better journalism, rigid rules restrict and constrain the ability to
operate. The Reuters Style Guide states in addition that, in accordance with the
Reuters Code of Conduct, the companys journalists are required to always search
for and report the truth, fairly, honestly and unfailingly (Reuters 2008, pg. 1). In
addition to stating that plagiarism is a cardinal sin, this style guide considers
fabrication and plagiarism two of the 10 Absolutes of Reuters Journalism. Their
journalists are, therefore, required to do a proper attribution to the source of
material that is not theirs, and are instructed that it is insufficient to label video
or a photograph as handout ; on the contrary, it is a requirement that the source
be clearly identified. This style guide further states that it is essential for transparency that material we did not gather ourselves is clearly attributed in stories
to the source, including when that source is a rival organisation and concludes
that failure to do so may open us to charges of plagiarism (Reuters 2008, pg. 5).
[304]
rui sousa-silva
Likewise, the International Federation of Journalists1 (IFJ) and the Portuguese
journalists union (Sindicato dos Jornalistas2 ) consider plagiarism a serious professional offense. Similarly, the style guide of the main Portuguese quality newspaper, Pblico3 , establishes that plagiarism is forbidden by the newspaper, and
adds that all relevant information collected from other media organisations or
news agencies must be attributed. In cases where the news piece is based on
news wires of different agencies, these should be cited in the text in the order
they have most contributed to the news article. When the news wires are used
as mere sources, and the article is mainly written by the journalist, the agencies
should be cited in the body of the news article. But if the article is based mainly
on news wires, then a reference to these should be included. In addition, the
style guide explicitly states that texts translated from other languages should be
clearly marked as translations and include the translators name.
It is then unsurprising that, in accordance with its policy, Pblico published
an apology, in 2006, for one of their journalists, Clara Barata, who published an
article that was mainly translated from the New Scientist and Wikipedia. The
suspicion was raised by a reader, who noticed that the text looked familiar to
him when he first read it, and later identified the original sources. The newspaper initiated an investigation and later realised that the journalist plagiarised
13 significant extracts using translation. The case was compared to that of the
famous New York Times journalist, Jayson Blair, who in 2003 was dismissed after the newspaper was challenged by other news organisations for accusations of
plagiarism. Cases of news plagiarism have however long been reported. In 1996,
another news organisation, the Portuguese news agency Lusa, had submitted a
complaint to the journalists union, Sindicato dos Jornalistas, claiming that several Portuguese media organisations were plagiarising texts authored and signed
by their own journalists, and which were not included in newswire services.
Given the stance adopted by these organisations and media self-regulatory
measures, news plagiarism cases have been unsurprisingly addressed more often by self-regulation, codes of ethics and deontology than by the law. And this
traditional perspective of journalism as being exempt from plagiarism has been
challenged, not the least by journalistic practice, as well as by the practice illustrated by the cases discussed above. It is thus evident that, despite reporting
facts, news are subject to principles of originality as much as other text genres,
including student assignments. News plagiarism therefore is not treated much
differently from academic plagiarism. Like academic plagiarism, it is not only
subject to internal rules and regulations, but also tends to be resolved internally
by the respective organisations.
[1]
[2]
[3]
See http://www.ifj.org/en
See http://www.jornalistas.online.pt/
Available at http://static.publico.clix.pt/nos/livro_estilo/16p-palavras.html
[305]
Nevertheless, establishing a framework and guiding principles to address news

plagiarism is not the only issue at stake. An additional challenge to handle news
text reuse is that of detection. Coulthard & Johnson (2007) argue that the technologies that make it easier to plagiarise also make it easier to catch plagiarists.
The technological developments of the last decades have, in fact, facilitated the
detection procedure. But in cases of news plagiarism, instances of lifting are not
uncommonly detected by intuition, although the feeling of dj-vu is less likely
to occur than in academic plagiarism. Readers often find themselves feeling that
they have already read the same thing elsewhere, and initiate a whistleblowing
process. The case of Clara Barata discussed above illustrates this point.
Elsewhere, I demonstrated that lifting text from an original in the same language can be easily detected, using simpler to more complex text-matching tools
and techniques; a straightforward comparison suffices in this case to identify the
unoriginal instances (Sousa-Silva 2014). On the contrary, detecting text reuse
from an original in another language is comparatively more complex. Since the
plagiarised (i.e. the original) and the plagiarising (i.e. the derivative) texts are
in two different languages, translation thus works as an obfuscation technique
that prevents a direct textual comparison. Firstly, machine and machine-assisted
detection cannot be systematically used for text comparison. Secondly, manual
searches using particularly suspect strings of text, such as those commonly performed by teaching staff, are missed by search engines as the text is not absolutely
identical.
[3] p l a g i a r i s m d e t e c t i o n : t h e c a s e f o r f o r e n s i c l i n g u i s t i c s
In recent years, many people, from literary critics and copyright lawyers to teachers and forensic linguists, have shown a growing interest in the field of plagiarism and plagiarism detection, even if for different reasons (Coulthard & Johnson
2007). Whereas the literary critic may be interested in judging the literary quality of a literary work, the teacher is more interested in educating students and
hence concerned more with the moral values of plagiarism itself, than with the financial implications of the infringement (Howard 1995; Robillard & Howard 2008;
Scollon 1994, 1995). The copyright lawyer, on the contrary, is prone to be more
interested in the financial implications of plagiarism and seek for the corresponding compensation.
Plagiarism has been traditionally considered an immoral, more than an illegal
act (Garner 2009). Consequently, it should be more appropriately addressed as an
ethical, rather than a legal offense (Goldstein 2003). This is especially so because
the works entitled to protection are immaterial and ubiquitous. As a result, they
can be simultaneously used by different people, thus compromising the original
authors ability to control the use of his/her own work (Pereira 2003, pg. 20).
[306]
rui sousa-silva
However, it has been demonstrated that plagiarism is indeed both immoral
and illegal (Finnis 1991; Eiras & Fortes 2010), which makes it punishable by law
(Pereira 2003). Plagiarism is thus more appropriately addressed as both a moral
and an ethical issue. As I argued elsewhere, [o]n the moral side, plagiarism brings
social implications, with the power to ruin the reputation of the plagiarist; on the
legal side, it implies the infringement of moral rights, and often financial rights,
both of which are punishable by law (Sousa-Silva 2013, pg. 61). Indeed, as these
financial rights are more easily quantifiable than the respective moral rights, it
is not surprising that they are the ones more promptly addressed by the courts.
It is not uncommon that instances of plagiarism bring along serious legal implications. And neither are the cases brought before the courts of law restricted to
those having financial implications. Many high-profile cases brought to the fore
in recent years show that, not only is plagiarism seen as a violation of codes of
ethics, but also it is punished. News plagiarism is not an exception, as the cases
presented above demonstrate.
This makes plagiarism well suited for a Forensic Linguistics approach, as forensic linguists set as their research object the legal aspect of the act and the result
of such act. In legal cases, forensic linguistics can and do not only assist the investigative procedures, by assisting ethics committees, boards and decision makers
determining lifting; they also provide linguistic evidence to a Court as to whether
two or more texts have been produced independently, or whether they build upon
a previous original text.
Forensic linguistics is the field of linguistics that applies a linguistic analysis across all types of interaction in the legal context (Caldas-Coulthard 2014). In
other words, this field is above all focused on all aspects of the interaction between language and the law. However, linguists operating in forensic contexts
have contributed significantly to cases that span beyond the purely legal. In
the field of plagiarism in particular, linguistic analyses have made significant advances in recent years in the detection of same-language plagiarism and translingual plagiarism alike. It has been almost 20 years since Johnson (1997) compared a set of student texts to conclude that they were not original. By devising
a method that consisted of comparing only lexical items, rather than using string
matching techniques, she demonstrated that they were a result of collusion, i.e. a
sort of group plagiarism. Although the text strings were altered in order to produce slightly different versions, a comparison of the lexical items showed that the
texts had not been produced independently.
Johnsons linguistic analysis did not involve the courts, but was sufficient
to demonstrate lifting among students. And more importantly, her analytical
methods were later applied in court cases. Turell (2004) built upon Johnsons
(1997) work to investigate whether a linguistic analysis that had previously been
tried and tested with student plagiarism could also be used to successfully deter-
[307]
mine plagiarism in published translated texts. She compared four translations

of Shakespeares Julius Caesar into Spanish and demonstrated how a forensic linguistic analysis is sufficiently sound to prove that one translation derives from
another translation of the same original, rather than having been produced independently. Moreover, she illustrated very clearly how this forensic analysis can
be used to provide evidence of the lifting. Turells comparison of the four texts included overlapping vocabulary, shared once-only words, unique vocabulary and
shared once-only phrases. The excellent performance of this method is based on
the simple principle that, since all these elements are relatively independent of
word order, they tend to perform better than text matching techniques.
The case studied by Turell is a typical case of plagiarism that is often decided
by the courts of law: these translations are themselves literary, original works,
and hence are subject to copyright. Violation of copyright in these circumstances
therefore has financial, in addition to moral implications, owing to the fact that
the translator and the publishing company own intellectual property rights over
the translated work similar to the ones owned by the original author and the publisher of the original. From a forensic linguistic perspective, this task is particularly challenging because every translation is bound to reflect the form and content of the original, and the more literal the translation, the more difficult it is to
show its originality. Despite this obstacle, Turells analysis proved that the suspect translation plagiarised a pre-existing translated text.
Although these studies in the field of forensic linguistics, among others, have
been paramount in the study of plagiarism, research has mostly focused on intralingual plagiarism i.e. on the analysis of reuse of texts written in the same
language. Conversely, there has been relatively little research into translingual
plagiarism (Sousa-Silva 2013). This is a case of plagiarism by translation, where
a text lifts, verbatim or otherwise, from another text written in another language
without a clear, proper and unambiguous attribution. Two reasons in particular may account for this fact. Firstly, research into plagiarism has been mainly
English-centred. Not only has most research into academic integrity, education
and policies been conducted in the Anglo-American context, but also the depth
and breadth of the research object does not leave much room for concern with
source texts written in other languages. Consequently, on the detection side, too,
software has been designed to address the needs of this particular context. Moreover, if we take the Internet in general as an example, most texts are nowadays
written in English4 , and the demand for texts written in other languages is comparatively much smaller. Secondly, despite the urgent need to detect textual lifting from other languages, not the least as a result of the high volume of scientific
production in English, a very strong effort is required to detect this type of pla[4]
The Internet World Stats website reports that in 2013 English was by far the most widely used language
in the Internet see http://www.internetworldstats.com/stats7.htm
[308]
rui sousa-silva
giarism. Owing to these constraints, there is currently no means of systematically
screening texts for translingual plagiarism in the same way as there is to detect
same-language plagiarism. As a result, such cases can almost only be grasped by
intuition, without any computer assistance.
In most cases, translingual plagiarism consists of texts that are translated
freely and informally from another language, without acknowledging the original author. This is hardly the case of literary texts, a professional and acknowledged translation of which is usually commissioned. But translation of other text
genres (e.g. news and blog comments, besides academic plagiarism) without attribution can easily pass unnoticed. This is mainly because, contrary to Turells
study above, they do not plagiarise another translation in the same language, but
rather the original, in another language. The text is thus not lifted word-for-word,
which makes the plagiarism more difficult to monitor.
In this respect, a forensic linguistic analysis is crucial, not only to assist the
detection procedure, but also to demonstrate the extent of the borrowing, and
whether a text is an instance of plagiarism, or on the contrary whether the textual
reuse is acceptable. More importantly, this analysis is able to provide evidence
that a text or more than one was not produced independently. This will be
addressed in the next section.
[4] r a i s i n g s u s p i c i o n a n d d e t e c t i n g p l a g i a r i s m
This paper first studies the detection of verbatim reuse of news articles. Subsequently, a method is proposed to raise suspicion that a text may have been plagiarised. Thirdly, it illustrates how to find evidence that a text has plagiarised
another text in another language. This research is based on a corpus of news
pieces that are publicly available, and which are supposed to have been produced
independently, although on similar topics.
[4.1] Verbatim Plagiarism

Detecting verbatim plagiarism, i.e. where the derivative text lifts (almost) literally from an original in the same language, without alterations, is straightforward
and easy. As long as the original is known, a simple comparison of the original
and the suspect texts manually or using common computer tools suffices to
identify the amount of overlap, as well as the extent of the lifting. In order to
showcase this, I randomly selected a text made available by the Portuguese news
agency Lusa, from a corpus of 28 news pieces that were authored and signed by inhouse journalists. An Internet search of a few strings of text found two individual
instances of textual reuse without acknowledgement, which consequently consist
of plagiarism. The first one was published by the Portuguese quality newspaper,
Jornal de Notcias (JN). The second one was published online by the TV broadcasting corporation, TVI. This text is reproduced in the following two extracts. The
[309]
verbatim plagiarised text is in italic typepace in both instances, and the underlined text in these two annexes shows minor changes introduced to the text (and
which, however, do not alter the text meaning).
Extract 1: Jornal de Notcias
Os microscpicos gros de plen das plantas podero vir a derrubar a ideia de que
ainda h crimes perfeitos, ao dar pistas seguras para deslindar casos que desafiam
os limites da investigao criminal. A PJ j recorreu a este tipo de anlise para resoluo de pelo menos trs crimes. O que parece fazer parte dos domnios da fbula ou
da fico cientfica uma realidade j em prtica por meia dezena de investigadores
forenses no mundo [, e]. Portugal faz parte dessa vanguarda atravs de Mafalda
Faria, que [desenvolve o seu trabalho] trabalha na Universidade de Coimbra e
no Instituto Nacional de Medicina Legal (INML). [A metodologia, fruto tambm
do engenho e arte de quem a vem desbravando, no mais do que a] A anlise
do plen e de esporos de plantas que ficam agarrados ao corpo de pessoas e de objectos [vo ajudar] vai ajudar a reconstituir o percurso e locais de aco de criminosos e vtimas. Em homicdios, violaes, roubos, contrafaco de medicamentos,
trfico, contrabando e at no combate ao terrorismo a Palinologia, cincia oriunda
da Botnica, tem vindo a ajudar as cincias forenses a investigar e a explicar crimes.
A Inglaterra e a Nova Zelndia fazem da Palinologia uma prtica corrente para casos mais complexos, e aceite como prova pericial em tribunal. Nos EUA, Austrlia
e Portugal tem dado uma ajuda investigao criminal.
PJ j recorreu a anlises do poln
O contributo dos estudos de Mafalda Faria, nos dois ltimos anos, foi solicitado pela
Polcia Judiciria para ajudar a reconstituir crimes como os do jovem universitrio
que em Coimbra assassinou a ex-namorada, no homicdio de um homem numa quinta
de Viseu ou em casos de trfico de droga. Para certas situaes, a Palinologia a
nica que pode resolver. Se, por exemplo, se encontra a arma do crime sem impresses digitais poder ter plen, no daquele local, mas da sua provenincia, explica a investigadora agncia Lusa, preconizando o seu alargamento a vrias reas
da investigao criminal. Depende do tipo de crime. Se for trfico, contrafaco ou
contrabando, so os prprios produtos analisados. No homicdio tem de se ir ao local recolher amostras das plantas e solo para analisar. Na vtima so amostras no
cabelo, nas cavidades nasais e no vesturio, se tiver, explica a investigadora.
Potencial singular para investigao criminal
Os gros de plen apresentam caractersticas que lhe conferem um potencial singular para a investigao criminal. Pode ser encontrado agarrado em praticamente
qualquer objecto ou pessoa, e altamente resistente degradao mecnica, biolgica e qumica. Os agressores podem lavar o sangue, mas no os gros de plen,
porque no os vem, por serem microscpicos, afirma Mafalda Faria, frisando que
mesmo aps lavagens das roupas ser possvel encontr-los nelas. Por outro lado,
[310]
rui sousa-silva
esses microscpicos gros tm uma grande capacidade de transferncia, das plantas para as pessoas e entre pessoas e, ao mesmo tempo, so bastante aderentes.
A Palinologia Forense uma investigao ps-doutoramento que Mafalda Faria, da
Faculdade de Cincias e Tecnologia da Universidade de Coimbra (FCTUC), ir concluir no final do corrente ano, sob orientao do neozelands Dallas Mildenhall e do
portugus Duarte Nuno Vieira, presidente do Instituto Nacional de Medicina Legal
(INML). financiada pela Fundao para a Cincia e Tecnologia. Ela o resultado do
bichinho pelas cincias forenses que a levou a concorrer, sem sucesso, a lugares na
Polcia Judiciria e no INML. Queria trabalhar em investigao forense em vestgios
no biolgicos, para dar sequncia sua formao em ecologia.
Extract 2: TVI
O fim dos crimes perfeitos?
A palinologia, que analisa gros de plen, desafia dogmas e quer ajudar a
investigao criminal
Por: Redaco /PP
Os microscpicos gros de plen das plantas podero vir a derrubar a ideia de que
ainda h crimes perfeitos, ao dar pistas seguras para deslindar casos que desafiam
os limites da investigao criminal, escreve a Lusa. O que parece fazer parte dos
domnios da fbula ou da fico cientfica uma realidade j em prtica por meia
dezena de investigadores forenses no mundo, e Portugal faz parte dessa vanguarda
atravs de Mafalda Faria, que desenvolve o seu trabalho na Universidade de Coimbra
e no Instituto Nacional de Medicina Legal (INML).
A metodologia, fruto tambm do engenho e arte de quem a vem desbravando, no
mais do que a anlise do plen e de esporos de plantas que ficam agarrados ao corpo
de pessoas e de objectos e vo ajudar a reconstituir o percurso e locais de aco de
criminosos e vtimas. Em homicdios, violaes, roubos, contrafaco de medicamentos, trfico, contrabando e at no combate ao terrorismo a Palinologia, esta cincia
oriunda da Botnica, tem vindo a ajudar as cincias forenses a investigar e a explicar
crimes. A Inglaterra e a Nova Zelndia fazem da Palinologia uma prtica corrente
para casos mais complexos, e aceite como prova pericial em tribunal. Nos EUA,
Austrlia e Portugal tem dado uma ajuda investigao criminal. O contributo dos
estudos de Mafalda Faria, nos dois ltimos anos, foi solicitado pela Polcia Judiciria
para ajudar a reconstituir crimes como os do jovem universitrio que em Coimbra
assassinou a ex-namorada, no homicdio de um homem numa quinta de Viseu ou em
casos de trfico de droga.
A nica resposta
Para certas situaes, a Palinologia a nica que pode resolver. Se, por exemplo, se
encontra a arma do crime sem impresses digitais poder ter plen, no daquele local, mas da sua provenincia, explica a investigadora agncia Lusa, preconizando
o seu alargamento a vrias reas da investigao criminal.
[311]
Depende do tipo de crime. Se for trfico, contrafaco ou contrabando, so os

prprios produtos analisados. No homicdio tem de se ir ao local recolher amostras
das plantas e solo para analisar. Na vtima so amostras no cabelo, nas cavidades nasais e no vesturio, se tiver, explica a investigadora. Os gros de plen apresentam
caractersticas que lhe conferem um potencial singular para a investigao criminal. Pode ser encontrado agarrado em praticamente qualquer objecto ou pessoa, e
altamente resistente degradao mecnica, biolgica e qumica.
Podem lavar o sangue, mas no os gros de plen
Os agressores podem lavar o sangue, mas no os gros de plen, porque no os vem,
por serem microscpicos, afirma Mafalda Faria, frisando que mesmo aps lavagens
das roupas ser possvel encontr-los nelas. Por outro lado, esses microscpicos
gros tm uma grande capacidade de transferncia, das plantas para as pessoas
e entre pessoas e, ao mesmo tempo, so bastante aderentes.
A Palinologia Forense uma investigao ps-doutoramento que Mafalda Faria, da
Faculdade de Cincias e Tecnologia da Universidade de Coimbra (FCTUC), ir concluir no final do corrente ano, sob orientao do neozelands Dallas Mildenhall e do
portugus Duarte Nuno Vieira, presidente do Instituto Nacional de Medicina Legal
(INML). financiada pela Fundao para a Cincia e Tecnologia. Ela o resultado do
bichinho pelas cincias forenses que a levou a concorrer, sem sucesso, a lugares na
Polcia Judiciria e no INML. Queria trabalhar em investigao forense em vestgios
no biolgicos, para dar sequncia sua formao em ecologia.
The news piece published by JN (Extract 1) has a textual overlap of 96%, i.e.
527 out of a total of 554 words (the original piece published by Lusa was 550 words
long). The text published by TVI (Extract 2) has a textual overlap of 100%. This
online news piece reused all the 550 words of the text published by Lusa, although
a few additional words were added (the text published by TVI is 566 words long).
This is the result of the slight alterations made to the original news article published in the newspaper. It should be noted that Lusa is referenced in passing, as
quotes used in the text are attributed to the news agency. However, nowhere in
the article is authorship attributed to the original news piece.
The piece broadcast by TVI also references Lusa in passing, by attributing the
quotes to the agency, but goes further then JN in that it attributes the authorship to their own reporter and the TV station newsroom (Redaco/PP). The
changes introduced to the TVI text are only minor, even if compared to the ones
introduced by JN. Interestingly, there is one sentence in the original article that
lacks a word, and hence the reproduction of that error raises some issues of ungrammaticality: Se, por exemplo, se encontra a arma do crime sem impresses
digitais poder ter plen, no daquele local, mas da sua provenincia. In order
for the sentence to be grammatical, at least a pronoun is needed after digitais
and before poder, such as ela or esta. However, neither JN, nor TVI seemed
to have noticed it, and reproduced the grammatical error. This provides a clear
[312]
rui sousa-silva
evidence that the text is not original. Furthermore, chronological aspects show
the directionality of the lifting, i.e. that JN and TVI lifted the text from Lusa (or
from each other), but not the other way around.
[4.2] Investigating Suspected Plagiarism by Translation

As shown in the previous section, detecting news plagiarism is straightforward
and easy, especially as the media go increasingly online. However, more sophisticated techniques are required when news pieces are plagiarised from other languages by journalists, who tend to translate the text freely into another language
(usually, their mother tongue) often using machine translation services, such
as Google Translate. In these cases, the output of the machine translation is frequently grammatically flawed. To a lesser or greater extent, adjustments are
therefore required, not only to make the text readable, but also publishable. In
order to raise the suspicion that a text derives from an original in another language, and consequently detect instances of plagiarism of this type (as is the case
of Pblico discussed above), it is necessary to either rely on intuition (the feeling
of dj-vu), or else build upon linguistic analysis. The latter is also required to
provide evidence of the lifting, as the former is insufficient in this respect.
As part of the linguistic approach, a syntactic analysis has the potential to
trigger suspicion that a text may be an instance of plagiarism, as long as the two
languages involved have a different syntax. This builds on the very simple principle that a text written from sources in another language tends to retain syntactic
elements of that language, whereas texts written originally in one language tend
to adhere to that language standards. The following extracts illustrate this point:
Extract 3:
The renewal of the Toural square in the center of Guimares, will move to
the end of the year, but the design is totally different from the planned study
presented two years ago. The project challenged by vimaranenses resolve
the tunnel road and underground parking. The car traffic will be maintained
throughout the area, but there will be news. It is planned to create a street
in the far east of Alameda de S. Damasus, within what is now the garden,
and to distribute the traffic from the city center. The remaining garden is
enhanced with more plant species, and have a new design, giving an idea of
urban forest.
The project, coordinated by Maria Manuel Oliveira, the department of architecture at the University of Minho, provides the return of the fountain
of Toural, public source of the sixteenth century passed, about one hundred
years, the garden of Caramel. One of the central ideas expressed by the architects is the reuse of existing elements, such as furniture. The assistance
is extended to the Republic of Brazil and off street of Santo Antnio, changing the configuration of public transport. The taxi stand will be reduced and
[313]
parking of buses transferred to the field of Kitchen. In the tower of the old
wall with the inscription Here Born Portugal plans to establish a viewpoint
that is an ideal place to observe the new floor of the square, designed by the
plastic artist Ana Jotta, based on the same rocks of quartz and basalt now
available .
The assistance will be financed by EU funds after being approved an application to the program of urban regeneration of the NSRF in the value of 9.9
million.
Authority takes possession of convent
Well near the Toural, the former Convent of Dominica, in the seventeenth
century, will be incorporated in the project of Capital of Culture. The municipality approved yesterday by the declaration of ownership of the property
where usucapio are installed several cultural associations. In the building, now dilapidated, will be installed in the residence artists. The camera
will have to find an alternative site for the installation of the seats of Tertulia Nicolina and Child Center of Popular Culture, although not yet officially
have contacted the associations. The building for the House of Memory is
also flagged. This is an old industrial plastics, the Count of Margaride avenue, into the city. This partially empty factory has an area free in the back
so that the building is created from scratch.
Extract 4:
Iran rallies planned amid clampdown
Anti-government protesters in Iran have announced they are to hold another rally in the capital to dispute the veracity of a presidential election.
Supporters of candidate Mir Hossein Mousavi called on Wednesday for a
rally to go ahead at 5pm local time (13:30 GMT), despite the authorities imposing a ban on the opposition gatherings. Mahmoud Ahmadinejad, the incumbent president, was officially declared winner of Fridays election by a
margin of two-to-one over Mir Hossein Mousavi. Hossein, a reformist candidate who was the nearest rival to Ahmadinejad, a conservative, has accused
the authorities of rigging the vote. But Ahmadinejad has said that the result
proved he has popular support. The election result confirmed the work of
the ninth government which was based on honesty and service to the people, he said on Wednesday in a statement to Irans ISNA news agency.
Violence on tape
Despite the restrictions placed by the government on the media, violent
scenes of police beating Mousavi supporters taken on mobile phones have
been broadcast on news bulletins across the world. The Revolutionary Guard
has warned the countrys online media it will face legal action if it creates
tension. Within the country, mobile phone text services have been down
[314]
rui sousa-silva
since the election. There is no access to Facebook, Twitter, or YouTube.
The interior ministry has ordered an investigation into an attack on university students in which it is claimed four people were killed. Anoushaka
Maraslian, a Middle East analyst in London, told Al Jazeera: University
cities in Iran have always been very active in political dissent. Thats the
concern of the elders; thats the concern of the Guardian Council, and thats
why theyre making conessions, because they realise that young Iranians are
leading the protests with parallels to [the revolution in] 1979. At least
seven people have been killed in recent clashes between the authorities and
the opposition movement, according to state media reports, while hundreds
more are thought to have been injured. For its part, the foreign ministry
summoned the Swiss ambassador, who represents US interests in Tehran, on
Wednesday to protest at interventionist US statements on Irans election.
Obama told CNBC there appeared to be little difference in policy between
Ahmadinejad and Mousavi. Either way we are going to be dealing with an
Iranian regime that has historically been hostile to the United States, he
said. Mousavi has called on his supporters to hold peaceful demonstrations
or gather in mosques on Thursday in solidarity with people killed or hurt
in the post-election unrest. In the course of the past days and as a consequence of illegal and violent encounters with [people protesting] against
the outcome of the presidential election, a number of our countrymen were
wounded or martyred, Mousavi said on his website. I ask the people to
express their solidarity with the families by coming together in mosques
or taking part in peaceful demonstrations.
Although it is clear that neither of the texts reproduced in Extracts 3 and 4

were originally written in English, their quality varies; Extract 3 is of very poor
quality, and sometimes even imperceptible, whereas Extract 4, despite not being entirely correct, is rather clear and intelligible. A reader of English without any knowledge of Portuguese will understand the translation of the article
in Extract 4 better than they will understand the translation of the article in Extract 3. Surprisingly, they were both published in the same newspaper, the Portuguese quality newspaper Pblico. In order to avoid any bias arising from editorial policies, a random, yet intentional decision was made to select the articles
from two different sections of the same newspaper. Extract 3 was published in
the Local news section, whereas Extract 4 was published in the World section of
the newspaper. They were then translated into English using Google Translate
(http://translate.google.com), which produced the English version of the
texts transcribed above.
The oddness often found in translated texts is a good trigger of suspected plagiarism, which can be complemented with machine translation so as to enable the
search and subsequent side-by-side comparison of the suspect text against the
potential original. Indeed, as I explained elsewhere (Sousa-Silva 2014), machinetranslating suspect texts (in this case, written in Portuguese) into English should
[315]
give the forensic linguist a clue as to whether the text might have originated
somewhere else in which case it would be considered plagiarism. Extracts 5
and 6 illustrate this method.
Extract 5 reproduces the article that was originally published in Portuguese.
The news piece does not attribute the text to any news agency in particular; on
the contrary, only a general reference to Agencies is initially made. After translating this text into English, a few sentences were selected to perform an Internet search using lexical items as keywords, while discarding functional words.
These lexical items were therefore used as filtered n-grams (Maia et al. 2008). The
search based on these search parameters returned two relevant articles: one was
published by The Australian newspaper5 , and the other one was broadcast in the
Channel News Asia website6 . With the exception of minor differences in details
related to dates (e.g. Sunday or weekend, and a paragraph used by Channel
News Asia that was left out by the The Australian), the two articles were entirely
identical. In both cases, authorship was attributed to the same source, Agence
France Presse (AFP) and, in the case of Channel News Asia, to ls/yb.
Extract 6 transcribes the text published originally by The Australian. Since the
two texts are reproduced in Extracts 5 and 6 in their original language, the comparison focused on identifying the strings with overlapping ideas, rather than the
strings of identical text. The underlined text shows the overlapping strings. The
numbers at the beginning of the underlined strings show the matching strings in
the other text.
Extract 5: The Pblico news article
Encontro com Abbas em Washington
Obama defende um Estado palestiniano e o fim da expanso dos colonatos
2009-05-28 23:25:00 PBLICO, Agncias
O Presidente Barack Obama defendeu hoje a criao de um Estado palestiniano. [01]No fim do seu primeiro encontro com o presidente da Autoridade
Palestiniana, o lder norte-americano repetiu uma vez mais o seu [02]apelo a
Israel [02]para que ponha fim construo nos colonatos erguidos dos Territrios Palestinianos e honre os compromissos que assumiu. As duas partes,
afirmou Obama na Casa Branca, tm [05]obrigaes face ao roteiro o
plano internacional de 2003 para a resoluo do conflito israelo-palestiniano.
Nestas inclui-se parar com a colonizao. [04]Durante a discusso com o
novo primeiro-ministro israelita, Benjamin Netanyahu, a semana passada,
fui muito claro quanto necessidade de travar a colonizao, esclareceu
ainda Obama. Os palestinianos devem por seu turno fazer progressos na
[5]
[6]
http://www.theaustralian.news.com.au/story/0,25197,25555182-5018557,00.html
http://www.channelnewsasia.com/stories/afp_world/view/432503/1/.html
[316]
rui sousa-silva
melhoria das suas foras de segurana e na reduo do incitamento antiIsrael, defendeu. Sou um grande crente da soluo de dois estados, disse
ainda Obama, afirmando-se confiante na possibilidade de progressos em
direco paz entre israelitas e palestinianos. Nas curtas declaraes imprensa que tiveram lugar depois do encontro de Washington, Mahmoud Abbas sublinhou, por seu turno, a urgncia de tais progressos, declarando que
[03]o tempo [] um factor essencial no processo. O apelo ao fim da colonizao na Cisjordnia e em Jerusalm Oriental j tinha sido feito na vspera
pela secretria de Estado, Hillary Clinton: [06]Nenhuns colonatos, nenhumas excepes de crescimento natural. E j hoje, antes do encontro entre
Abbas e Obama, Israel reagira pela voz do porta-voz do Governo, que explicou que o futuro dos colonatos s ser decidido atravs das negociaes com
os palestinianos. [07]Entretanto, temos de permitir que a vida continue
normalmente nestas comunidades, disse Mark Regev. O que isso significa
que mesmo que no sejam construdos novos colonatos, a expanso dos j
existentes poder prosseguir.
Extract 6: The Australian news article

Obama presses Israel on settlements but rules out peace timetable
May 29, 2009
US President Barack Obama has renewed pressure on Israel over settlements
but rejected a timetable for his peace drive, noting domestic pressures heaped
on Israeli Prime Minister Benjamin Netanyahu. [01]As Mr Obama met Palestinian leader Mahmud Abbas for the first time as president, he [02]called for
a halt to settlement building on the occupied West Bank, as his administration sparred with Israel over the sensitive issue. Mr Obama vowed an aggressive mediation effort, ahead of his visit to Saudi Arabia and Egypt next
week, while Mr Abbas pledged to live up to all previous peace agreements
and warned [03]time is of the essence for a two-state solution. [04]The
US president recalled that last week he had been very clear with Mr Netanyahu about the need to stop settlements and again stated his desire
to see a two-state solution to the Israeli-Palestinian conflict. Asked if he
would strong-arm Israel if it did not back down in its refusal to support a
Palestinian state, Mr Obama said: I think its important not to assume the
worst, but to assume the best. He rejected an opportunity to set a date
for the establishment of a viable, potential Palestinian state. I want to
see progress made, and we will work very aggressively to achieve it. I dont
want to put an artificial timetable, he said. I am confident that we can
move this forward if all parties are ready to meet their obligations. On
Wednesday, Secretary of State Hillary Clinton had significantly hardened
the US position on settlements, prompting a blunt dismissal from Israel. But
Mr Obama appeared to give Netanyahu some leeway, noting the fierce pressures imposed on the Israeli leader by his hawkish right-wing coalition. I
think that we dont have a moment to lose, but I also dont make decisions
[317]
based on just a conversation that we had last week, Mr Obama said. Because obviously Prime Minister Netanyahu has to work through these issues
in his own government, in his own coalition. The US president also called
on Mr Abbas to offer security improvements to Israel and to quell anti-Israel
incitement in Palestinian mosques and schools. Mr Abbas warned that all
parties should work to alleviate the plight of the Palestinians and move towards statehood. I would like to take this opportunity to affirm to you that
we are fully committed to all of our [05]obligations under the roadmap, from
the A to the Z, he said. Mr Abbas added that he had shared ideas with Mr
Obama based on the roadmap and the 2002 Saudi peace plan backed by the
Arab league. The US-backed roadmap calls for a halt to Jewish settlement
activity in Palestinian territories and an end to Palestinian attacks against
Israel but has made little progress since it was drafted in 2003. Ms Clinton
said Mr Obama wants to see a stop to settlements. [06]Not some settlements, not outposts, not natural growth exceptions. But Israel dismissed
the blunt US call. [07]Normal life will be allowed in settlements in the
occupied West Bank, government spokesman Mark Regev said, using a euphemism for continuing construction to accommodate population growth.
He added the fate of settlements will be determined in final status negotiations between Israel and the Palestinians and in the interim, normal life
must be allowed to continue in those communities. The Palestinian Authority has ruled out restarting peace talks with Israel unless it removes all
roadblocks and freezes settlement activity. Mr Netanyahu told Mr Obama
last week at their first White House meeting that he was willing to immediately relaunch the peace talks but failed to publicly back the creation of a
Palestinian state or to freeze settlement activity. The Israeli prime minister
told his cabinet at the weekend he did not intend to build new settlements
but that it makes no sense to ask us not to answer to the needs of natural
growth and to stop all construction, aides said. The Abbas meeting represented Mr Obamas latest attempt to revive the stalled Middle East peace
process, which have included talks with Jordans King Abdullah II, Mr Netanyahu and in London with Saudi King Abdullah. Next week, Mr Obama
will meet the Saudi King in Riyadh and deliver a long-awaited address to the
Muslim world in Cairo. But he said he would not lay out his long-awaited
peace plan in the speech, which he said was designed to lay out a path for a
better US relationship with the Islamic world.
AFP
The shallow linguistic analysis above shows that some sentences containing
overlapping ideas consist of quotations, and hence tend to be appropriately used
in the text. As they quote someone elses direct speech, they are the type of facts
that cannot be subject to plagiarism. The analysis also reveals that the order of
the ideas differs in the two texts, so overlapping strings are used in different sections of the article. This might suggest that the text was produced independently.
Additionally, the Portuguese article was published on 28 May, whereas the articles
[318]
rui sousa-silva
published in The Australian and broadcast by Channel News Asia were both published on 29 May. Although prior authorship is a strong indicator of originality,
this does not mean that the Portuguese article does not derive from the original
AFP newswire, especially considering that the two World section news articles
(which attribute authorship to an international news agency (AFP)) greatly overlap. Although access to the original AFP news wire is restricted, comparison with
the two articles published on 29th May suggests that the Portuguese article also
derives, at least partly, from the same source. The comparison shows, as well,
that many strings in the article that are supposed to have been produced independently overlap with strings in the text whose authorship is attributed to AFP.
Strikingly, the sentence Ms Clinton said Mr Obama wants to see a stop to settlements. Not some settlements, not outposts, not natural growth exceptions is
attributed to Hilary Clinton in the Portuguese text, but AFP describes it as Obamas
reported speech.
[5] w h y o d d n e s s m at t e r s
The results of the analysis provide evidence that news plagiarism exists and can
be detected, even in instances of text reporting facts. It is also forbidden and
seriously punished by those news corporations. The cases discussed demonstrate that, although quality newspapers are more careful in citing their sources
(usually well-known international agencies), attribution is often incomplete, inadequate, or vague. In the cases presented in this paper, for instance, JN made
no attribution at all, Pblico attributed authorship to Agencies without naming
any agencies in particular, and TVI lifted the original text entirely and passed it off
as their own. These commonly represent a violation of the established standards
and ethics policies, when regularly enforced. For instance, although Pblico has
a clear ethics policy and instructions on when and how to cite, it published an
article vaguely attributing authorship to Agencies. In this respect, news plagiarism is not much different from academic plagiarism, with the exception that
the latter is done by people training as writers, whereas the former is done by
professional writers.
The analysis of the texts also shows that (free) machine translation tools are
a good resource to test suspect cases of translingual plagiarism. In the case discussed, the result of a machine-translated non-suspect article enabled the selection of some sentences that were used to conduct an Internet search. After discarding the functional words and focusing on the lexical items, two articles published in different news companies were found that were likely to derive from
the same source. Although it could be argued that the contrastive analysis of
the Portuguese (suspect) text against the text whose authorship is attributed to
AFP is not enough to sustain the claims of plagiarism, it clearly shows that the
Portuguese version has not been produced independently, despite the inexistent
[319]
one-to-one match between the Portuguese and the English versions. What this
suggests is that there is a high likelihood that the same piece of news includes
different releases from the foreign press and international websites.
[6] c o n c l u s i o n
The research presented in this article, despite being built upon a shallow linguistic analysis, supported the design of a new approach to translingual plagiarism
detection, whose potential was previously demonstrated (Sousa-Silva 2014). It
adds to an extensive body of research conducted over the last decades, which
demonstrates that forensic linguistics has the investigative and evidential potential in cases of plagiarism, as well as in cases of copyright infringement. On the
investigative side, a forensic linguistic analysis has assisted in the development
of methods, tools and procedures to reveal and detect instances of plagiarism.
On the evidential side, this approach has long demonstrated and proved why a
certain instance of reused text is plagiarism, or conversely why a certain text is
falsely accused. The latter, in particular, is an area that requires a more in-depth
linguistic analysis, which is beyond the scope of this article.
The forensic nature of plagiarism has often been challenged, on the grounds
that most cases of plagiarism (such as academic) do not involve legal instances.
Indeed, academic plagiarism cases tend to be managed by the academy, as much
as news plagiarism cases tend to be addressed by the media corporations involved.
Therefore, they are usually but not always judged as a moral, more than a
legal issue, and settled outside the courts of law. The involvement of the courts of
law in plagiarism cases (including academic) is not new, especially as a means of
rescinding degrees. Nevertheless, given that accusations of plagiarism can and do
have serious implications on the suspect plagiarists life, proving or disproving an
instance as plagiarism can be unquestionably relevant, both within and outside
the courts of law.
The future for research into plagiarism is anything but dull, and clearly shows
a great opportunity for collaborative research involving forensic as well as computational linguists and engineers. Although strong methods of linguistic research into plagiarism have been developed, there is always room for improvement, not only by designing new analytic methods, but also by adapting existing ones (whose relevance has been demonstrated) to new challenges. Computational forensic linguistics is definitely an area from which plagiarism detection
can greatly benefit. Although those systems that use linguistic information are
good performers, simple string matching software often return disappointing results. In this respect, Maia et al.s (2008, pg. 83) argument for the collaboration
between linguists and engineers remains valid today as it was by then: [w]hat is
needed is good will and serious attempts by both sides to understand each others
point of view. If this can be made to happen, everyone will benefit and the results
[320]
rui sousa-silva
for research will be far greater than if they continue to work separately. Like
Alice, one cannot but become curiouser and curiouser
[7] a c k n o w l e d g m e n t s
This article is based on the research conducted as part of my PhD (Sousa-Silva

2013), and different aspects were presented at the 9th International Conference of
the IAFL, in Amsterdam, in 2009, and at the IAMCR Conference, which took place
in Braga in 2010. I would like to thank Belinda Maia, with whom I thoroughly
discussed the research presented in this article. Her comments, her opinion, and
her feedback were invaluable to the outcome of this study, and her permanent
support of my research into forensic linguistics is truly appreciated. This work
was partially supported by grant SFRH/BD/47890/2008 FCT-Portugal, co-financed
by POPH/FSE.
references
Anderson, Judy. 1998. Plagiarism, Copyright Violation and Other Thefts of Intellectual Property: An Annotated Bibliography with a Lengthy Introduction. McFarland
& Company, Inc.
Anglil-Carter, Shelley. 2000. Stolen language? : plagiarism in writing Real Language
Series. Longman.
Caldas-Coulthard, Carmen Rosa. 2014. ReVEL na Escola: o que a Lingustica
Forense? ReVEL 12(23). 16.
Carroll, Jude. 2001. What kinds of solutions can we find for plagiarism? http:
//www.gla.ac.uk/media/media_13513_en.pdf.
Carroll, Jude & John Appleton. 2001. Plagiarism: A Good Practice Guide. Oxford
Brookes University.
Coulthard, Malcolm & Alison Johnson. 2007. An Introduction to Forensic Linguistics:
Language in Evidence. Routledge.
Eiras, Henrique & Guilhermina Fortes. 2010. Dicionrio de Direito Penal e Processo
Penal. Quid Juris.
Finnis, John. 1991. Intention and side-effects. In Raymond G. Frey & Christopher W. Morris (eds.), Liability and responsibility: Essays in law and morals, chap. 2,
3264. Cambridge University Press.
Garner, Bryan A. 2009. Blacks Law Dictionary. West 9th edn.
[321]
Goldstein, Paul. 2003. Copyrights highway: from Gutenberg to the celestial jukebox.
Stanford University Press.
Howard, Rebecca. 1995. Plagiarisms, Authorships, and the Academic Death
Penalty. College English 57(7). 788806.
Howard, Rebecca Moore & Amy E. Robillard. 2008. Pluralizing Plagiarism: Identities,
Contexts, Pedagogies. Boynton/Cook.
Jameson, Daphne A. 1993. The Ethics of Plagiarism: How Genre Affects Writers
Use of Source Materials. Bulletin of the Association for Business Communication
56(2). 18.
Johnson, Alison. 1997. Textual kidnapping a case of plagiarism among three
student texts? The International Journal of Speech, Language and the Law 4(2). 210
225.
Lindey, Alexander. 1952. Plagiarism and originality. Harper & Brothers.
Maia, Belinda, Rui Sousa Silva, Anabela Barreiro & Ceclia Fris. 2008. N-grams in
search of theories. In Barbara Lewandowska-Tomaszczyk (ed.), Corpus Linguistics, Computer Tools, and Applications - State of the Art (PALC 2007), vol. 17, Peter
Lang.
Pecorari, Diane. 2008. Academic Writing and Plagiarism: A Linguistic Analysis. Continuum.
Pereira, Alexandre Librio Dias. 2003. Problemas actuais da gesto do direito
de autor: gesto individual e gesto colectiva do direito de autor e dos direitos conexos na sociedade da informao. In Estudos em Homenagem ao Professor Doutor Jorge Ribeiro de Faria, 1737. Faculdade de Direito da Universidade do
Porto.
Reuters. 2008. Reuters Handbook of Journalism. http://handbook.reuters.
com/index.php/Main_Page.
Robillard, Amy E. & Rebecca Moore Howard. 2008. Plagiarisms. In Rebecca Moore
Howard & Amy E. Robillard (eds.), Pluralizing plagiarism: Identities, contexts, pedagogies, 17. Boynton/Cook.
Roig, Miguel. 2001. Plagiarism and Paraphrasing Criteria of College and University
Professors. Ethics and Behavior 11(3). 307323.
Scollon, Ron. 1994. As a matter of fact: The changing ideology of authorship and
responsibility in discourse. World Englishes 13(1). 3346.
[322]
rui sousa-silva
Scollon, Ron. 1995. Plagiarism and ideology: Identity in intercultural discourse.
Language in Society 24. 128.
Sousa-Silva, R. 2014. Detecting translingual plagiarism and the backlash against
translation plagiarists. Language and Law / Linguagem e Direito 1(1). 7094.
Sousa-Silva, Rui. 2013. Detecting Plagiarism in the Forensic Linguistics Turn: School
of Languages and Social Sciences, Aston University PhD dissertation.
Turell, M Teresa. 2004. Textual kidnapping revisited: the case of plagarism in literary translation. The International Journal of Speech, Language and the Law 11(1).
126.
c o n ta c t s
Rui Sousa-Silva
Centro de Lingustica da Universidade do Porto
r.sousa-silva@lflab.pt
que se Cruzam, Oslo Studies in Language 7(1), 2015. 323336.
ISSN 1890-9639 / ISBN 978-82-91398-12-9
the english r coming!

the never ending story
of portuguese rhotics
JOO VELOSO
resumo
Os rticos so provavelmente a classe consonntica do portugus que conheceu o maior nmero de mudanas no ltimo sculo. A literatura costuma referir as observaes de Viana (1883, 1903) a propsito do incio do processo
de substituio gradual da vibrante mltipla alveolar pela vibrante mltipla
uvular. Neste artigo, tentamos identificar e datar outras mudanas, verificadas posteriormente, que vieram alterar a configurao e a organizao geral
das vibrantes do portugus: (i) na subclasse das vibrantes mltiplas, referiremos a introduo de consoantes fricativas (e, nas variedades brasileiras
da lngua, das consoantes glotais tambm) para o lugar do rtico uvular que
iniciou o processo de entrada no portugus no final do sculo XIX; (ii) na
subclasse das vibrantes simples, referiremos a emergncia das variantes retroflexas, admitidas para o portugus do Brasil h j algumas dcadas (principalmente, em resultado da variao sociolingustica) e que, no portugus
europeu, parece comear a instalar-se a partir da fala de jovens escolarizados de alguns centros urbanos. Estes dados encontram suporte em alguns
estudos recentes e, como ser posto em destaque no presente texto, no corpus do Arquivo Dialetal do Centro de Lingustica da Universidade do Porto.
I am glad to contribute a few notes on a phonetic/phonological subject to a

volume offered to Belinda Maia, who is definitely not fond of this area. May it be
read as a sign of my esteem and admiration for Belinda and her work. The chapter
is focused on Belindas affective (not second, definitely not foreign) language,
Portuguese, and suggests that Portuguese phonology might be undergoing a relatively subtle influence from English (the introduction of retroflex flaps). This
could be viewed as a meaningful simile of the good vibes (good vibrations and
inspiring vibrantes) many Portuguese academics have received from Belinda during the last decades, even if not working directly with her or within her main
topics of study. My English is not so gracious and fluent as Belindas Portuguese,
and I apologise to readers for that. I am sure some computer programmer working with Belinda will one day, sooner or later, create a special software to correct
Academic English as obscure and vicious as mine. Linguistics and its applications
are a never ending story, too, as anyone who knows Belinda is very much aware of.
[324]
joo veloso
The main aim of this study is to analyse the main changes that have been taking
place in the organization of the rhotics system of Portuguese in the last century,
broadly speaking.
The first of such changes was the introduction of a uvular trill ([ ]), replacing
the traditional Romance trill (alveolar [ r ]), which started towards the end of the
19th century, perhaps as a phonemic borrowing from French.
That is not the end of the story, as we shall see, and many subsequent changes
have taken place since then. I will propose that the most recent of such changes
is the emergence of a retroflex flap ([ ]) in short, Belindas R , which is becoming more and more frequent in certain phonological contexts and under given
sociolinguistic conditions, maybe as the result of another phonemic borrowing,
now from English. Different varieties of Portuguese with special emphasis on
European and Brazilian Portuguese will be taken into consideration.
I will divide my text into three parts: in section [2], I shall concentrate on the
(supposedly) first steps of the changes that will be considered here and try to formulate the main questions to be analysed; in section [3], a brief description of the
rhotics systems of European and Brazilian Portuguese will be given; section [4]
will focus on some ongoing changes that can be observed in Contemporary Portuguese. A section with some final remarks will end the chapter.
[2] t h e f i r s t m a j o r c h a n g e : t h e e m e r g e n c e o f vicious [r]
[2.1] R U [ r ] or [ ]?
In 1883 and 1903, Gonalves Viana, the father of Portuguese modern phonetics, wrote about the (then) recent introduction of a new rhotic in European Portuguese: the uvular trill [ ], which, according to him, was gradually replacing the
original Romance [ r ], described by the author as the most original, most genuine,
still most expanded in his centurys language (Viana 1883, pg. 20; 1903, pg. 19).
In his colourful, suggestive language, Gonalves Viana depicts what nowadays
should be described, in sociolinguistic terms, as an ongoing change, obeying the
main features of most sound changes in the worlds languages: it had had a sudden start among urban (supposedly educated) speakers, it had a sociolinguistic
motivation (it is reasonable to assume that its introducers wanted to sound more
cosmopolitan and more sophisticated1 ), and, little by little, it spread to new
speakers communities:
[1]
Contrastingly, Barbosa (1983, pg. 193) denies that [ ] was a direct borrowing from French and that it
corresponded to a prestigious articulation, on the basis of the following main arguments: (i) there is
no evidence that the change had originated in the Royal circles, in spite of frequent marriages between
Portuguese princes and French princesses, (ii) the French adjective vicieux, used by Viana (1903), has a
very negative meaning, and (iii) similar changes took place in other languages, suggesting that phonetic
rather than sociolinguistic variables were the real triggers of the phenomenon.
the english r coming! the never ending story of portuguese rhotics
[325]
La prononciation uvulaire de rr, mais non pas de -r-, comme R, se

rpand de plus en plus dans les villes. Cependant, on la regarde encore
comme vicieuse, le rr apical tant toujours prfrable au grasseyement
du R, qui individuellement est plus profond quen franais ou en allemand.
(Viana 1903, pg. 19; my italics)
Indeed, in the space of a few decades, uvular [ ] became the standard trill
of European Portuguese. It is confirmed by observations found in the most authoritative grammatical and phonological descriptions of the language (Barbosa
19832 ; 1994; Barroso 1999; Mateus & DAndrade 2000; Mateus et al. 2003; Emiliano
2009), which give it as the Portuguese unmarked vibrante mltipla3 , confining the
alveolar trill [ r ] (i.e., the original trill of Portuguese, common to most Romance
languages) to a minority of speakers (see, e.g., Mateus et al. 2003, pg. 1000).
So, it seems quite reasonably safe to assume that, from a purely phonological,
descriptive point of view, // might be considered as the most recent the youngest phonemic segment of European Portuguese4 . Its admission to the phonological system of the language was relatively fast and, to some extent at least,
socially motivated, as suggested above.
[2.2]
Further questions regarding the diachronic changes of Portuguese rhotics
As hinted at above, the birth of // in European Portuguese, as witnessed by Viana (1883, 1903), is not the last step of the recent historical changes involving
Portuguese rhotics. In this section, it is my aim to highlight some further devel-
[2]
[3]
[4]
Barbosa (1983) is a reprint of his 1965 publication.

Vibrante mltipla (approximately, multiple rhotic) is perhaps the most common term to designate
(alveolar and uvular) trills in Portuguese, whereas vibrante simples (
= simple rhotic) is preferably
used to label taps/flaps (also regardless of their places of articulation).
Whether the contrast surface [ ] (or [ r ]) vs. [ R ] corresponds or not to a phonemic, underlying contrast opposing two different phonemes of the language has been debated by several authors. According
to Barbosa (1994, pg. 146) and Mateus & DAndrade (2000, pgs. 1516), for example, the phonemic inventory of Portuguese contains one single rhotic, /R/: trills are always the surface, strictly phonetic result
of a gemination process ([ ]=/R.R]). Cmara (1977, pgs. 7879) (contradicting some of his previous aso (1997), on the contrary, defend the existence of a lexical, underlying
sumptions) and Bonet & Mascar
opposition between a phonological flap and a phonological trill thus, the existence of two distinct (and
distinctive) phonemes, in Portuguese, such as /R/=//. Although this is a very important question for
the phonological description of Portuguese, I will not deal with it in this study.
[326]
joo veloso
opments that have taken place within the subsystem of Portuguese rhotics5 since
such early observations. In part, these developments could even lead us to question the appropriateness of insisting to look upon rhotics as a true natural class
in Portuguese, although such a discussion will not be developed in this paper.
In the following sections of this chapter, I will focus on two different, though
inter-related, issues concerning the rhotics of Portuguese. I will try to show that
the changes that are referred to by Viana (1883, 1903) or by Barbosa (1983) are just
a part of a story involving important changes that have altered not only the phonetic nature of European Portuguese trills, but that have also affected the other
subclass of Portuguese rhotics flaps , both in the European varieties of Portuguese and in other, non-European dialects of the language. That is to say, the
changes that Viana (1883, 1903) identified with respect to the emergence of an
uvular trill [ ] gradually replacing the alveolar [ r ] should most likely be seen
just as the first step of a major historical change altering the whole system of
rhotics in this language. Some of its effects are still taking place in Contemporary
Portuguese. In the development of these observations, I shall concentrate on two
main specific questions:
what has happened to Portuguese trills since Vianas (1903) vicious [ ]?
what is happening, in the current stage of the language, within the specific
subset of Portuguese flaps?
In this analysis, data from both European and Brazilian Portuguese (EP and BP,
respectively) will be taken into consideration; a brief mention will also be made
of another variety of Portuguese, spoken in the Atlantic island of So Tom.
[3] t h e o r ga n i s at i o n o f r h o t i c s i n m o d e r n p o r t u g u e s e
In this section, I shall start by giving a general overview of how rhotics are organized within the consonant system of Portuguese, not paying special attention to
[5]
For the sake of simplicity and terminological ease, rhotics is used throughout this chapter as a phonetically/phonologically motivated class of sounds and as an appropriate label to name them. Nevertheless,
it is borne in mind that it is extremely difficult to identify a set of stable characteristics that keep such
sounds objectively apart as a specific phonetic/phonological class. The following words by Ladefoged
& Maddieson (1996) illustrate this issue very clearly; note that the authors point out, as the singularity
which most probably is the main privative feature shared by all members of this class, the (extralinguistic,
accidental) fact that rhotic sounds are written with Roman r or Greek , and practically nothing
else: This chapter describes the class of sounds that are sometimes labeled rhotics, or more informally,
r-sounds. Most of the traditional classes referred to in phonetic theory are defined by an articulatory or
auditory property of the sounds, but the terms rhotic and r-sound are largely based on the fact that these
sounds tend to be written with a particular character in orthographic systems derived from the GrecoRoman tradition, namely the letter r or its Greek counterpart rho. The International Phonetic Alphabet
provides a wide selection of symbols based on plain, rotated, turned or otherwise modified lower-case
and capital versions of the letter r, including r , R , , , , , K , [. . . ] (Ladefoged & Maddieson
1996, pg. 215). For additional information regarding the discussion about the motivation of rhotics as a
natural class, see the arguments by Ladefoged & Maddieson (1996) referred to in footnote 6.
[327]
the historical and variationist data that form the core of this study.
Supposedly, rhotics form a special class of consonants, belonging to the subset of sonorants in Portuguese. From a phonetic point of view, they are usually
voiced and formed by a brief contact (or a short series of brief contacts) between
two articulators within the oral cavity6 . This brief contact is not enough to cause
real obstruction of the airflow, though, and as such it does not give rise to any
inharmonic noise component.In fact, from a phonetic point of view, these consonants show high levels of harmonic energy and spectrographic patterns which
make them very similar to vowels and glides (Lindau 1985, pg. 160 ff.; Ladefoged
& Maddieson 1996, pg. 215 ff.). In close relation to this, they have high degrees
of inherent sonority, which, in turn, makes them prone, in most languages, to
occur in syllable codas and, in a significant number of languages, too, as syllabic
nuclei. In a rather simplified SPE fashion, they are [+cons], [+son] (being distinguished from other sonorants, in the standard model of generative phonology, by
the negative marks [-nas], [-lat]). In languages like Portuguese, they correspond
to [-syll], whereas, in languages like Czech, Sanskrit and others (perhaps English),
they can receive the mark [+syll].
A common distinction that is found in many languages at least, in the description of many languages keeps rhotics formed by one single contact of two
oral articulators (=flaps or taps) apart from those where a series of rapid contacts
of this kind takes place within a very short time window (=trills).
In Modern European Portuguese (henceforth: MEP), it is traditionally assumed
that rhotics contrast at the surface level7 : one flap, allegedly invariant and common to all speakers, phonetically realized as coronal [ R ], vs. one trill. This contrast occurs word-medially, in pairs such as the ones found in example (1); the
main question which is most often mentioned has to do with the trills phonetic
realization. As said before, according to the literature, in MEP the standard trill
is the voiced uvular [ ] (that is to say, Gonalves Vianas prophecy has been fulfilled!), whilst alveolar [ r ] still survives in a minority of speakers (Barbosa 1983,
1994; Barroso 1999; Mateus & DAndrade 2000; Mateus et al. 2003; Emiliano 2009).
This is the main reason why I chose [ ], instead of [ r ], to transcribe all the trills
in example (1).
[6]
[7]
The most prototypical members of the class of rhotics are trills made with the tip or blade of the tongue
(IPA r). These central members of the class show phonological relationships to the heterogeneous set
of taps, fricatives and approximants which form the remainder of the class. In addition to tongue tip and
blade articulations, trills and other continuants made at the uvular place are also classed as rhotics. [. . . ]
It is not therefore the manner of articulation that defines this group of sounds. Neither is there a particular place involved, as both Coronal and Dorsal articulations are included. Consequently an issue for
phoneticians is whether the class membership is based only on synchronic and diachronic relationships
between the members of the class, or whether there is indeed a phonetic similarity between all rhotics
that has hitherto been missed. [. . . ] (Ladefoged & Maddieson 1996, pgs. 215216; my italics).
As for the arguable phononological status of these surface contrasts, see again footnote 4.
[328]
joo veloso
(1)
Surface contrasts opposing flaps and trills in Modern European Portuguese

aranha spider [ 5"R55 ] arranha [he/she] scratches [ 5"55 ]
fora outside [ "fOR5 ] forra [he/she] lines [ "fO5 ]
era [it] was [ "ER5 ] erra [he/she] commits a fault [ "E5 ]
fera ferocious animal [ "fER5 ] ferra [it] bites [ "fE5 ]
[4] o n g o i n g c h a n g e s a n d va r i at i o n i n p o r t u g u e s e r h o t i c s
After the general survey given in the previous section with the essentials about
rhotics as a specific class of sounds, in Portuguese and other languages, I will return to the specific topic of this paper and on the data that were mentioned in the
introduction: the ongoing changes that have been affecting Portuguese rhotics
for several decades.
In this section, as previously announced, my observations will be split into
two main directions: trills (again. . . ) and taps.
An even more vicious trill: in Portuguese, sonorant rhotics are becoming (phonetically) non-sonorants (fricatives and glottals)!
I began this chapter by recalling how Viana (1883, 1903) sounded so critical about
the changing of [ r ] into [ ], which seemed to be completely accomplished within
a few decades, as outlined above.
In this section, I shall draw our attention to a further development of this
phonetic change. In fact, what is particularly interesting to notice, nowadays,
is that the innovative [ ] seems to be undergoing a subsequent, more drastic
change in Portuguese. In fact, a growing number of speakers are replacing [ ] by
a fricative that is to say, by an obstruent, typically behaving not as a sonorant,
but more similarly to, say, a stop or an affricate, acoustically speaking , within
a range of choice which includes, in EP, velars (unvoiced [ x ] or voiced [ G ]) and
uvulars (unvoiced [ X ] and voiced [ K ]).
Even though these realisations are not yet fully recognized as phonemes,
or at least as the most common or standard allophones of the Portuguese vibrante
mltipla, several phonological descriptions of EP admit explicitly its occurrence
and its frequency. Barbosa (1994, pg. 107) identifies Barbosas (1983) work as the
first to have ever noticed the emergence of a phonetic fricative in the place of a
phonological vibrante. Barbosas (1983) exact words are as follows:8
[4.1]
[8]
Following a non-IPA convention which used to be very common among Portuguese linguists just a few
decades ago, Barbosa (1983) transcribes the uvular trill as // (after the Greek letter , rho), instead
of //.
[329]
En ce qui concerne la constrictive [ x ] [. . . ] comme tant lune des

ralisations possibles de //, on ne dispose pas dlments qui permettent den dater les origines. Gonalves Viana a crit que quelquefois il prononait le r initial comme une fricative sonore, une espce de rz (non pas r comme le rz polonais), en ajoutant quil avait
rarement trouv cette particularit dans la prononciation dautres
individus portugais.
(Barbosa 1983, pg. 192)
Therefore, we cannot exclude the possibility that the emergence of a sort of
fricative in this phonological context had already begun in the transition between
the 19th and 20th centuries, but it surely became more apparent and more widespread in the mid-20th century. Turning our attention to European Portuguese
only, we can note that authors other than Barbosa (1983, 1994) also have observed
the frequent realization of // as a fricative (either voiced or unvoiced, either
velar or uvular): see, e.g. Barroso (1999) and Mateus & DAndrade (2000)
As for Brazilian authors describing the Brazilian varieties of Portuguese, it is
commonplace to assume that the fricative and, even more shocking perhaps
for Gonalves Vianas ears if he could listen to them, glottal realizations of BP
vibrantes mltiplas have almost entirely replaced the sonorant trills. Such an interpretation of the linguistic data may be found, for instance, in Silva (2002), who
includes the fricatives [ X ] (unvoiced) and [ G ] (voiced) and the glottals [ h ] (unvoiced) and [ H ] (voiced) in the set of the possible phonetic realizations of the intervocalic rr of arranha [he/she] scratches (MEP, standard: [ 5"55 ] see (1)).
In the data collection of dialectal variation of MEP belonging to the Centre
of Linguistics of the University of Porto9 all the fricative, tap and trill forms are
attested in European Portuguese10 (see also Rennicke & Martins (2013)).
According to Rennicke & Martins (2013) careful analysis of the data held in
the Arquivo, the scale of frequency of the //-realizations in the Arquivos corpus
are as follows:
(2)
Frequency scale of the phonetic realizations of phonological trills of Modern European Portuguese in the corpus of the Arquivo Dialetal do Centro de
Lingustica da Universidade do Porto (ap. Rennicke & Martins 2013):
[K]
(76%)
[9]
[10]
>
[X]
(24%)
>
[x]
(16%)
>
[r]
(11%)
>
[]
(11%)
Arquivo Dialetal do Centro de Lingustica da Universidade do Porto (henceforth: Arquivo). It covers

a considerable amount of sound samples, recorded since 1994 and duly described, analyzed and transcribed, mostly produced by young, educated speakers from the main Northern cities of Portugal (Veloso
& Martins 2013; Rennicke & Martins 2013).
The complete list of annotated phenomena is available at the corpus webpage: http://cl.up.pt/
arquivo/como/tabela_fenomenos.pdf.
[330]
joo veloso
Very interestingly, all these data show:
(i) That the vicious [ ] that Viana (1903) identified as the most spreading
in 19th century Portuguese is, in the current stage of the language, the least
represented allophone of the phonological multiple trill, with the same
percentage of occurrence that is found for its direct competitor in Vianas
(1883; 1903) writings (the original Romance alveolar trill [ r ], which has not
completely disappeared from spoken Portuguese);
(ii) That fricatives seem to be, at the current stage of EP, the most representative realizations of Portuguese rhotics: according to these data, [ K ] is by
far the most frequent of the trill allophones. This corroborates the previously mentioned impressionistic observations of Barbosa (1983, 1994), Barroso (1999) and Mateus & DAndrade (2000);
(iii) That BP has gone one step further in this change, replacing rather unanimously all phonetic trills by fricatives (like in EP) and by glottals as well, as it
is the case for BP (Silva 2002).
So far, on the basis of all the data that were taken into consideration here, we
could trace a rough chronology and genealogy of Portuguese trills (3).
(3)
Portuguese trills (EP and BP) since the early observations by Gonalves
Viana (Viana 1883, 1903):
{
Alveolar Trill
Pre and early 19th century
/r/
{
Uvular Trill
19th 20th century
//
EP: Fricatives
[K]>[X]>[x]
(Rennicke & Martins (2013)

frequency scale)
20th century to current stage
BP: Fricatives and glotals
[X,G,h,H]
(Silva 2002)
NB: /r/ and // have not disappeared completely from Modern EP or Modern BP (see information in the text itself). In the table, only the innovative
allophones are considered on the timeline according to the supposed date
of their emergence in the language.
[331]
The main conclusion to be drawn from these data and arguments is that the
story and the history of Portuguese trills does not end with Vianas (1903) observations; from that moment onwards, other changes have altered the inventory
and the relations between phonemic segments and their allophonic realizations
within this class. The most drastic of the recent changes affecting this phonetic
subclass has been the emergence of fricatives (and, in BP, of glottals, too) as phonetic counterparts of phonemic segments generally assumed as sonorant rhotics,
in a way that can be found, quite strikingly, in other languages as well (as it seems
to be the case of Italian, according to Ladefoged & Maddieson (1996, pg. 219)).
[4.2] Trills Are Not The End Of The Story, Yet. Retroflex Flaps, Or Belindas
I shall now focus on another side of the story of rhotics change in Portuguese:
the emergence of a retroflex flap ([ ]), occurring in the place of the alveolar flap
(supposedly invariant across all the speakers of EP (=[ R ]), according to the literature).
To my knowledge, only a few previous studies refer to the existence of this
new flap in EP, in addition to the phonetic transcriptions of the Arquivos materials (under the responsibility of Pedro Tiago Martins)11 , which identify and
transcribe a large number of realizations of /R/ as an approximant retroflex ([ ]). Rennicke & Martins (2013, pg. 520), based on their analysis of the same
corpus, are certainly among the first studies to acknowledge such phonetic realization in EP. None of the aforementioned authoritative phonological descriptions
of EP phonology see, for instance, Barbosa (1983, 1994), Barroso (1999), Mateus
& DAndrade (2000), Mateus et al. (2003) even acknowledge the existence of this
consonant in EP.
The lack of reference to a retroflex flap in such phonological descriptions of
EP contrasts with the work of Rennicke & Martins (2013) and with a careful analysis of the materials made available by the Arquivo; it also contrasts with my
own strong linguistic intuitions. As a native speaker of Portuguese in daily contact with the Northern varieties of the language, mainly with the varieties spoken
in Oporto by young, educated speakers, and as an attentive linguist particularly
keen on variation phenomena, my impression is that a retroflex [ ] (maybe [ ])
is becoming more and more common among these groups of speakers in the city
of Oporto. It seems to be more frequent among young, educated female speakers than among males. Its rough distributional pattern seems to be the following:
retroflex flap occurs mainly in syllabic codas (very seldom in onsets), most often
in stressed word-final position (examples: professor professor [ pRuf"so ]; fazer
to do [ f5"ze ]; amor love [5"mo]).
[11]
The phonetic transcriptions found in the Arquivos website (http://cl.up.pt/arquivo) were subject
to a double-checking verification and validation, according to the Inter-Judge Agreement methodology
as described by Martins & Veloso (2012).
[332]
joo veloso
If this intuition proves correct as the Arquivos materials and the study by
Rennicke & Martins (2013) suggest we could be witnessing a phenomenon quite
similar to the one Viana (1883, 1903) described regarding the emergence of [ ]
about one hundred years ago. Some parallelisms between the two changes should
be highlighted here:
both may have started as urban innovations;
most likely, both result from a phonemic borrowing phenomenon: [ ]
could have been borrowed from French, the dominant foreign language
among educated Portuguese in the 19th century (even though Barbosa (1983,
pg. 193), as seen above, disagrees with this interpretation); [ ] could probably be the result of a borrowing from English, the main foreign language
among Portuguese educated youngsters.
Actually, [ ] and [ ] are also the most frequent realizations of /R/ by foreign
learners and speakers of Portuguese who have English as their mother tongue.
As for retroflex flaps in BP, they behave differently from EP retroflex flaps.
First of all, and contrary to what happens among Portuguese authors, many phonological descriptions of BP explicitly refer to a retroflex variant of flaps (see, for
instance, and among many others: Netto 2001, pg. 99100; Silva 2002, pg. 34, 49;
Rennicke 2011). The main reason for this probably resides in a series of interrelated facts:
retroflex realizations of flaps in BP are much more widespread than in EP,
and occur in a larger number of prosodic contexts (stressed and unstressed,
final and non-final syllables; filling either syllable onsets or codas). This
contributes to making this realization more salient from a perceptual point
of view;
in addition to the spread of retroflexion, retroflex flaps have for a long time
been socially identified, often stigmatized, with a specific speech style generally associated with non-urban, low-educated speakers; it even has a current specific designation: R caipira (=caipira R, caipira meaning, in
a slightly judgmental way, an inhabitant from the most remote rural areas
of the country, typically characterized by low degrees of education12 ).
As for this particular topic, we can conclude that, whereas retroflex [ ] is
emerging in EP, even if completely ignored by the most prominent phonologists
of this variant of the language, it has been a common phonetic realization in BP
[12]
Nevertheless, the current geographic and social distribution of retroflex flaps in BP is much more widespread; it is very often heard in urban contexts and produced by highly educated speakers of the language
(see, e.g., Rennicke 2011).
[333]
for some time as recognized by the phonological descriptions regarding this variant13 .
[5] f i n a l r e m a r k s
To conclude, we could say that Portuguese rhotics are perhaps the consonants
which have been undergoing the most stunning phonetic and phonological changes
for the last decades. Vianas (1883; 1903) and Barbosas (1983) remarks about the
emergence and stabilization of an uvular trill [ ] following the historical [ r ] have
to be viewed as the first steps in a process which is not yet completely accomplished.
Linguistic, social and geographical factors seem to interact in the sound changes
and substitutions that have been taking place for more than one century. At the
present moment, no one can be entirely sure how the story of Portuguese R
will really end and phonologists should pay special attention to a theoretical issue
that will arise from the following steps of the process: given the desonorantization
of trills (mostly realized as [-son] fricatives, in EP and BP, and also as glottals, in
BP), and bearing in mind that they are acquired differently from flaps in some
prosodic contexts (Almeida 2011; Amorim 2014), will it make sense to insist on
postulating a class of rhotics in Portuguese? This is a question that is left for future research.
To sum up, I include a final table putting together all the attested changes
affecting all rhotics of Portuguese trills and flaps in the two main varieties of
Portuguese (EP and BP). In a way, this table completes the one given in (3), which
included trills only.
acknowledgments
I thank Diana Santos for the invitation and encouragement to publish in this
volume. Thanks are also due to Pedro Tiago Martins, who read and commented an early draft of this text and corrected some parts of it. Part of this research was funded by Portugals Fundao para a Cincia e a Tecnologia, through
CLUP, the Centre of Linguistics of the University of Porto (Strategic Project PEstOE/LIN/UI0022/2014).
[13]
Quite interestingly, some varieties of Portuguese show opposite tendencies, towards a fortition of flaps,
which become (uvular) trills. This is the case of some varieties spoken around the Portuguese city of
Setbal (Southern dialects) and of So Tom Portuguese (STP), where flaps do not exist at all. In the segmental positions where in other varieties a flap is expected, speakers articulate an uvular [ ] (examples:
laranja orange EP Standard [ l5"R
5Z5 ], STP [ l5"
5Z5 ]; prato dish EP Standard [ "pRatu ]; STP [ "patu ]).
[334]
joo veloso
(4)
Change of Portuguese rhotics (EP and BP) since the early observations by
(Viana 1883, 1903).
T rills
F laps
{
Pre and early 19th century
{
19th 20th century
Alveolar Trill
/r/
Uvular Trill
//
EP: Fricatives
[K]>[X]>[x]
(Rennicke & Martins (2013)

th
frequency scale)
20 century to current stage
BP: Fricatives and glotals
[X,G,h,H]
(Silva 2002)
{
Alveolar flap
19th and early 20th century
[R]
EP: [ R ]
Emergence of [ ] in certain
dialects and prosodic contexts
BP: [ R ]
From mid 20th century
very common realization of [ ]
in a growing number of prosodic
positions and social/regional
contexts
NB:
(i) [ R ], [ r ] and [ ] have not disappeared completely from Modern EP
or Modern BP (see information in the text itself). In the table, only
the innovative allophones are considered on the timeline according
to the supposed date of their emergence in the language.
(ii) No specific assumption is made about the exact date of emergence of
[ ] in EP or BP. It is hypothesized that it emerged, in EP, sometime
in the 20th century, given the lack of explicit references to this realization, especially in studies regarding this variant of the language.
(iii) In BP, according to many sources, both trills and flaps can be completely deleted (//R// > ) in some speech styles and under some
prosodic conditions. Such deletion is also possible, less frequently
and affecting only /R/, in EP (e.g., in a final stressed syllable before a
word with an initial consonant: falar baixo to keep his/her own voice
down [ f5"la(R)bajSu ]).
[335]
references
Almeida, Letcia. 2011. Acquisition de la structure syllabique en contexte de bilinguisme
simultan
e portugais-francais: University of Lisbon Phd dissertation.
Amorim, Clara. 2014. Padr
ao de aquisicao de contrastes do PE: a interacao entre tracos,
segmentos e slabas: University of Porto Phd dissertation.
vora
Barbosa, Jorge Morais. 1983. Etudes de Phonologie Portugaise. Universidade de E
2nd edn.
Barbosa, Jorge Morais. 1994. Introducao ao Estudo da Fonologia e Morfologia do Portugu
es. Almedina.
Barroso, Henrique. 1999. Forma e Subst
ancia da Express
ao da Lngua Portuguesa.
Almedina.
Bonet, E. & J. Mascar
o. 1997. On the representation of contrasting rhotics. In
F. Martnez-Gil & A. Morales-Front (eds.), Issues in the Phonology and Morphology
of the Major Iberian Languages, 103126. Georgetown University Press.
Cmara, Joaquim Mattoso. 1977. Para o Estudo da Fon
emica Portuguesa. Padrao.
Emiliano, Ant
onio. 2009. Fon
etica do Portugu
es Europeu. Descricao e Transcricao.
Guimaraes.
Ladefoged, Peter & Ian Maddieson. 1996. The Sounds of the Worlds Languages. Oxford.
Lindau, Mona. 1985. The story of /r/. In Victoria A. Fromkin (ed.), Phonetic Linguistics: Essays in honor of Peter Ladefoged, Academic Press.
Martins, Pedro Tiago & Joao Veloso. 2012. Inter-Judge Agreement in Transcribing
Dialectal Data: A Study of a Corpus of Dialectal Portuguese.
Mateus, Maria Helena & Ernesto DAndrade. 2000. The Phonology of Portuguese.
Oxford University Press.
Mateus, Maria Helena Mira, Ana Maria Brito, Ines Duarte, Isabel Hub Faria, S
onia
Frota, Gabriela Matos, Fatima Oliveira, Marina Vigario & Alina Villalva. 2003.
Gram
atica da Lngua Portuguesa. Caminho 5th edn.
Netto, Waldemar Ferreira. 2001. Introducao a` Fonologia da Lngua Portuguesa. Hedra.
Rennicke, Iiris. 2011. The retroflex r of Brazilian Portuguese: theories of origin
and a case study of language attitudes in Minas Gerais. Lingustica. Revista de
Estudos Lingusticos da Universidade do Porto 6(1). 149170.
[336]
joo veloso
es foneticas de /R/ em
Rennicke, Iiris & Pedro Tiago Martins. 2013. As realizaco
es no sistema
portugues europeu: analise de um corpus dialetal e implicaco
fonol
ogico. In F. Silva, I. Fale & I. Pereira (eds.), Textos Selecionados do XXVIII
Encontro Nacional da Associacao Portuguesa de Lingustica. Coimbra: Associacao Portuguesa de Lingustica, 509523. Associacao Portuguesa de Lingustica.
Silva, Thas Crist
ofaro. 2002. Fon
etica e Fonologia do Portugu
es. Roteiro de Estudos e
Guia de Exerccios. Contexto 6th edn.
Veloso, Joao & Pedro Tiago Martins. 2013.
O Arquivo Dialetal do CLUP:
disponibilizacao on-line de um corpus dialetal do portugues. In F. Silva, I. Fale
& I. Pereira (eds.), Textos Selecionados do XXVIII Encontro Nacional da Associacao
Portuguesa de Lingustica, 673692. Associacao Portuguesa de Lingustica.
Viana, Aniceto dos Reis Goncalves. 1883. Essai de phonetique et de phonologie de
la langue portugaise daprès le dialecte actuel de Lisbonne. Romania 12. 2998.
Viana, Aniceto dos Reis Goncalves. 1903. Portugais. Phon
etique et phonologie. Morphologie. Textes. Teubner.
c o n ta c t s
Joo Veloso
Faculdade de Letras, Univerisdade do Porto
jveloso@letras.up.pt
two base generated structures for

ditransitives in european portuguese1
ANA MARIA BRITO
resumo
O artigo retoma um tema muito discutido na bibliografia sinttica, a questo
de saber se o Portugus Europeu tem alternncia dativa. Ser proposto que
nesta lngua h duas estruturas sintticas basicamente engendradas para as
construes ditransitivas e, deste modo, o Portugus Europeu ter alternncia dativa, mas num sentido muito diferente do que tem o Ingls e outras lnguas germnicas. Ser proposto que no se justifica o n aplicativo nesta lngua e que a preposio , nas duas construes, o mesmo tipo de preposio,
essencialmente um marcador de caso dativo. As razes para a proposta so
certos factos de ordem de palavras, anteposio, ligao e escopo.
Several Germanic languages have dative alternation, because they exhibit two
synonymous constructions: a prepositional construction with to (1-a) in the order
Direct Object (DO) + Indirect Object (IO) and the Double Object Construction (DOC)
(1-b), characterized by the existence of two NPs with certain order restrictions:
only the pattern V + goal / beneficiary + theme is accepted:
(1)
a.
b.
John gave a book to Mary.

John gave Mary a book.
As Romance languages have special prepositions for the expression of the dative
(a, ), it is classically assumed (see, among others, Kayne (1984)) that these languages have no DOC. Of course there are many languages without prepositions.
Among them Bantu languages deserve a special attention, because they have applicative constructions, where verbs may add or apply a new argument to the
verb root with the help of a special infix, an applicative morpheme. Connected
to this view is the idea, shared by several linguists, that there are no true ditransitive verbs, but only verbs that select an internal argument and that may add a
new participant, the so called IO. These reasons justified the proposal, made in
different ways by Baker (1988), Marantz (1993) and Pylkknen (2002), of a related
analysis of the DOC and of applicative constructions.
[1]
This paper is a short and English version of Brito (2014).
[338]
ana maria brito

It is in this direction that the analysis by Torres Morais (2006) and Torres
Morais & Lima-Salles (2010) about EP is situated: the idea is that in EP the so called
IO is found in two configurations: one where the IO is projected in the specifier
position of a low applicative head, as a dative NP, and another one involving a lexical / true preposition, where the IO is the complement of the preposition. This
proposal is mainly based on two reasons: (i) the two available IO constructions
would not be synonymous; (ii) the preposition a would have two values in EP: as
dative marker and as true preposition.
The main goal of this text is to analyse some syntactic issues of ditransitive
constructions in European Portuguese.2 I will argue in favour of two different
base-generated syntactic constructions; this proposal is not based neither on the
existence of two distinct values of a nor on semantic differences, but on word
order, binding, scope, fronting and ellipsis phenomena, some of them already
studied by Costa (2009) and Brito (2010, 2014). Therefore, the proposal approaches
other previous analyses, but discusses the existence in EP of the dative alternation
in the English sense, the existence of two a different dative prepositions and the
necessity of an applicative head.
The text is organised in the following way: in section [2], I present some data
about the IO / datives in EP; in section [3], I refer some classical approaches about
IO / datives in Generative Syntax; in section [4], I comment Torres Morais & Lima
Salles analysis of EP ditransitive constructions; in section [5], I will defend that in
EP there are two base-generated ditransitive constructions; and in section [6], I
will present the main conclusions of this study.
[2] e p : s o m e data o n d i t r a n s i t i v e c o n s t r u c t i o n s
European Portuguese (EP) expresses the IO either by the preposition a followed

by a NP or by dative case expressed by the personal pronouns me, te, lhe, nos, vos,
lhes; the examples in (2)(4) illustrate these possibilities:3
(2)
V NP a NP (V DO IO)
A Maria deu um livro ao Joo.
the Mary gave a book to.the John
Mary gave a book to John
[2]
[3]
About argument and non-argument datives in European Portuguese see, among others, Vilela (1992),
Brito (2009), Miguel et al. (2011), Gonalves & Raposo (2013), specially pp. 1173-1181.
I will use the following category symbols: NP (Noun Phrase), VP (Verb Phrase), PP (Prepositional Phrase),
ApplP (Applicative Phrase).
two base generated structures for ditransitives in european portuguese

(3)
[339]
V a NP NP (V IO DO)
A Maria deu ao Joo um livro.
the Mary gave to.the John a book
Mary gave John a book
(4)
V dative clitic NP (V IOcl DO)

A Maria deu-lhe um livro.
the Mary gave cl3sgdative a book
Mary gave him a book
In EP clitic doubling is possible with a personal pronoun, mainly in an oral register; see (6) and (7) versus (5):
dative clitic doubling
(5)
* Maria deu-lhe um livro ao Joo.

the Mary gave cl3sgdative a book to the John
(6)
A Maria deu-lhe um livro a ele.

the Mary gave cl3sgdative a book to him
Mary gave him a book
(7)
A Maria deu-lhe a ele um livro (e no a ela).

the Mary gave cl3sgdative to him a book (and not to her)
Mary gave him a book (and not to her)
Many authors that have analysed the IO in EP and other Romance languages have
noticed the special status of the IO: it behaves as a NP (marked by dative case) for
effects of binding theory4 and it behaves as a PP for effects of predication5 , where
the presence of the preposition a is mandatory (see, for Portuguese, Duarte (1987),
Duarte (2003), Gonalves (1990, 2002, 2004), Torres Morais (2006), Torres Morais
& Lima-Salles (2010)).
Another important aspect of ditransitive constructions is word order.
In the two sentences (2) and (3), what differs is the word order and the informational structure, being V DO IO the unmarked order and V IO DO the marked
order. The proposal that the unmarked order in EP is V DO IO may be justified by
several facts (cf. Costa (2009)): only (2), not (3), would be an adequate (redundant)
answer to a wh question like (8):
[4]
[5]
As Gonalves (2002, pg. 336) writes, the preposition a is a case marker of the only one argument IO with
verbs like telefonar (to phone), and a case assigner of an extra NP with pedir, dar (to ask, to give) as the
main Vs.
Cf. Masullo (1992) for Spanish.
[340]
ana maria brito

(8)
A quem que a Maria deu o livro?

to whom que Mary gave the book
To whom did Mary give the book?
(3), with the order V IO DO, has a contrastive focus reading, being an adequate
word order in a context like the one described in (9); therefore, a scrambling6 of
the IO over the DO seems justified (see, for Spanish, Demonte (1995)).7
(9)
A Maria deu ao Joo um livro, Maria um CD.

the Mary gave to.the John a book, to.the Mary a CD
Mary gave John a book and she gave Mary a CD.
Another fact in favor of the unmarked order V DO IO is the O que aconteceu?

/ What happened questions? (Costa 2009, pg. 956): if we have a question as
in (10), the adequate answer is (2) and not (3):
(10)
O que aconteceu?
What happened?
It has been noticed (see, for instance, Duarte (2003, pg. 287, 290)) that, when the
DO is a clause or a complex NP, as in (11-a), the order is typically V IO DO and not
V DO IO, as in (11-b), which is marginal:
(11)
a.
b.
O Joo disse Maria que vai sair.

the John said todative Mary that will leave
John said to Mary that he will leave
?? O Joo disse que vai sair Maria.
the John said that will leave todative Mary
Even if we have a question with focus on the IO, as in (12), it is the order V IO DO
that we expect, as in (11-a), and not the order V DO IO, as in (11-b), despite the
fact that the IO is the information focus:
(12)
A quem disse a Maria que ia sair?

to whom said the Mary that was leave?
To whom did Mary said that she was leaving?
We may conclude that the order V IO DO is possible when one of the following
factors is present: the IO is a contrastive focus; the DO is a complex, heavy constituent.
[6]
[7]
The notion of scrambling is due to Ross (1967) and means the movement operation that is responsible
for the change of the basic word order in a certain language by pragmatic and discursive reasons.
An alternative to scrambling could be the proposal, inspired in Belletti (2004), according to which at the
left periphery of the verbal domain (vP) there is place for discursive functional categories, like TopP,
FocP.
[341]
In order to verify if the order V IO DO is common in real texts, I have made

a search on the corpus of CetemPblico: it was possible to find many occurrences
with this word order (see (13) and the Annex I at the end of this text):
(13)
par=ext1395495-pol-94a-2: O monarca jordano insistiu para que Israel no

cedesse aos palestinianos o controlo da ponte Allenby sobre o rio Jordo,
o que daria a Arafat a capacidade para controlar a migrao de palestinianos
e de militantes islmicos de Jeric para a Jordnia.
which would give to Arafat the capacity for the control of the Palestinian migration and of Islamic militants from Jericho to Jordan.
It is visible that the V IO DO order is motivated by the complex nature of the DO

(a capacidade para controlar a migrao de palestinianos e de militantes islmicos
de Jeric para a Jordnia).
In favor of V DO IO as the unmarked order, Costa (2009, pg. 956) says that
idioms in EP are, in general, V DO IO, as in dar prolas a porcos (give pearls to pigs)
/ *dar a porcos prolas (give to pigs pearls to cast pearls before swine). However,
in proverbs and idioms the word order is also constrained by the clause nature
or the complexity nature of both constituents; in fact, the two word orders can
be found, as illustrated in the following examples with dar, to give8 and many
others that we can find in Portuguese books of proverbs (see Annex II):
(14)
D Deus as nozes a quem no tem dentes. (V DO IO order)

God gives nuts to those who dont have teeth
What a waste!
(15)
Dar a Deus o que o Diabo no quis. (V IO DO order)

to give to God what the Devil not wanted
What all these examples show is that two word order patterns are possible in Portuguese ditransitive constructions. It is true that in idioms and in some constructions with dar to give as a light verb it is impossible to separate the V and the
DO, as in dar uma lio a algum to teach a lesson to someone ((16-a) and (16-b)),
showing that the link between the V and the DO cannot be broken; if this word
order is changed, the literal meaning of to teach a lesson is expressed (16-b):9
(16)
[8]
[9]
a.
O Antnio deu uma lio ao Pedro.

the Antony taught to.the Peter a lesson
Antony taught a lesson to Peter
Proverbs in Machado (1996, pgs. 161165).

I thank Paula Carvalho for this observation; it is also important to remember that, in English, idioms are
generally associated to the prepositional construction (with the order V NP PP) and not to the DOC (cf.
Rapapport Hovav & Levin (2008, pg. 131) and Ormazabal & Romero (2010, pg. 209)).
[342]
ana maria brito

b.
c.
?? O Antnio deu ao Pedro uma lio.

the Antony taught a lesson to.the Peter
O Antnio deu ao Pedro uma lio de portugus e Maria uma de
matemtica.
the Antony taught to.the Peter a lesson of Portuguese and to.the
Mary one of Math
Antony taught Peter a lesson of Portuguese and taught Mary one of
Math
Summarising until now: in EP ditransitive constructions, a, as an IO introducer, is

a dative marker and a preposition; the unmarked word order is V DO IO, although
the order V IO DO is also possible as a marked order, with a contrastive focus
on the IO and always that the complexity of the DO justifies its final position; in
idioms, proverbs and in constructions with some ditransitive verbs as light verbs
the order is preferentially V DO IO but the two orders are possible depending on
the complex nature of the two constituents.
[3] s o m e a p p r oa c h e s o f d i t r a n s i t i v e c o n s t r u c t i o n s i n g e n e r at i v e
s y n ta x
[3.1]
The main structures
The structure of ditransitive constructions has been the subject of many discussions. In the beginning of Generative Syntax the structure (17) was proposed as
a way to describe the selection of two internal arguments by ditransitive verbs:
but (17) does not respect either binary branching or X-bar theory.10
(17)
VP
V DO IO
Also (17), where the DO and the IO occupy parallel positions, do not describe some
data related to fronting, binding and scope; (18)11 and (19)12 were then proposed:
[10]
[11]
[12]
The structures proposed in this paper will be very simplified; we will use syntactic functions in the representations as a way to describe the theme NP (the Direct Object, DO) and the beneficiary / goal / origin
NP / PP (the Indirect Object, IO).
(18) was used by Xavier (1989) for Portuguese. For English, (18) was proposed because of fronting and
ellipsis, where the V forms a constituent with the DO, as in (i), although other fronting data are possible
(see (ii), (iii) and (iv)): (i) and [give candy] he did to children on his birthday; (ii) John intended to give
candy to children on his birthday; (iii) and [give candy to children on his birthday] he did; (iv) and
[give candy to children] he did on his birthday (cf. Phillips (2003), Costa (2009, pg. 8788)).
(19) was proposed for English because of the superiority of the DO over the IO in sentences like (i) John
gave nothing to any of the children on his birthday; in contrast with (ii) *John gave anything to none of
the children on his birthday (cf. Phillips (2003), Costa (2009, pgs. 8788)).

(19)
(18)
VP
VP
V
IO
[343]
V DO
VP
DO
V IO
However, (18) and (19) are not sufficient, because the existence of the DOC in
many languages and because of phenomena related to binding of pronouns and
scope in certain occurrences favour a structure where the IO should be higher
than the DO, as in (20):13
(20)
VP
V
V
VP
IO
V
V DO
Supposing then that (19) and (20) are adequate, the immediate question is if (19)
and (20) are base-generated structures or if they are derivationally related.
[3.2] Different approaches of dative alternation

In languages where there is alternation between the DOC and a prepositional construction, many solutions have been proposed in order to answer the above question, solutions that are connected to different approaches on the relation between
lexical semantics and syntax.14
One approach is lexicalist / projectionist, based on the idea that lexical semantics encodes argument structure and determines the morphosyntactic realization
of verb arguments (see Baker (1988), Rapapport Hovav & Levin (2008));
[13]
[14]
Cf. Barss & Lasnik (1986) and Larson (1988, pg. 3368), for English; see paragraph 5 for Portuguese.
For an overview of different approaches see, among others, Ormazabal & Romero (2010) and Oyharabal
(2010).
[344]
ana maria brito

The lexicalist approach is often but not always based on the idea of a
single meaning for the two variants and proposes a derivational analysis in order
to explain the alternation (Baker 1988; Larson 1988).
Oehrle (1976), Jackendoff (1990) and others noticed that, in English, the two
constructions are not synonymous: the DOC would mean a change of possession,
while the prepositional construction would the meaning of transfer of possession.
Also, there would be an animacy requirement in the DOC that doesnt exist in the
prepositional construction, which explains the ungrammaticality of (21-a):
(21)
a.
b.
*The editor sent Philadelphia the article.

The editor sent the article to Philadelphia.
Conversely, some occurrences of the DOC have no correspondent prepositional

alternant, as in (22), where to give has an inanimate external argument and the
sentence does not mean transfer of possession:
(22)
a. The war years gave Mailer a book.

b. *The war years gave a book to Mailer.
More recently,Rapapport Hovav & Levin (2008) and Ormazabal & Romero (2010)
have shown that the dative alternation in English is not necessarily associated
to differences in the meaning of the two variants; in particular, the differences
found above are mainly due to differences in the lexical meaning of verbs: verbs
like to give only have a caused possession meaning, while verbs like to send have
both a caused motion and a caused possession meaning, what means that to send
has a path dimension that is absent in to give.
Meanwhile, other proposals have been suggested.
One the most important is the neo-constructionist approach, where Syntax
determines what is considered the argument structure of a lexical predicate. The
neo-constructionist approach generally proposes two different structures for the
DOC and for the prepositional construction, based on the idea of different meanings of the two variants, as referred above (Marantz 1993; Pesetsky 1995; Harley
2002; Anagnostopoulou 2003; Pylkknen 2002; Cuervo 2003, 2010, among others).
(iii) There are also hybrid treatments like the one proposed by Ormazabal
& Romero (2010), where the framework based on event structure by Ramchand
(2008) is combined with a derivational analysis.
[3.3] Is the IO an applied argument?

Crucial for the discussion of ditransitive construction is the status of the IO. Some
approaches consider that there are argument and non argument IOs (Brito 2009,
Gonalves & Raposo 2013, pgs. 11731181 for Portuguese; Pujalte (2008, 2009) for
Spanish, among others). Therefore these approaches consider that there are some
[345]
verbs that select a true second argument, the indirect object, the so called ditransitive verbs, like dar to give, prometer to promise and that there are some
non-argument datives. Other approaches assume that the IO is always an applied,
extra or incorporated argument and that there are no ditransitive verbs (Marantz
1993, Cuervo 2003, 2010, among others).
Developing the idea that datives are not internal arguments of the verb, Marantz
(1993, pg. 116) explicitly calls the DOC in English an applicative construction,
which means that the dative is some sort of extra argument that is applied / incorporated to a verbal predicate. He proposes a structure where the applicative
head is the light v, which takes an event as its argument, licensing the IO as its
specifier and taking it as a participant in the event (23):
VP
NP
(23)
affected object
(e.o., benefactive)
V
V
VP
Appl
predicate describing the event

affecting the affected object
Developing Marantzs reflection, Pylkknen (2002) proposes that English and Bantu languages are similar in the sense that the DOC is a type of applicative construction; but they are different in the sense that they project an Appl head in
different positions. Bantu languages allow ergative verbs (like to run) or transitive verbs (like to give) to appear in an applicative construction, with a beneficiary
/ maleficiary argument and for this reason have high applicatives; in English, on
the contrary, in order to have a DOC, it is necessary that the applied argument
has some semantic relation with the verb (to give, to bake), so the applicative node
is a low projection.15
At first sight, this sort of analysis would be rejected for Romance languages
because they have no DOC, they have a special preposition to express the dative
case and they have dative personal pronouns. However, Romance languages have
been described by several authors as languages with dative alternation, with a
construction similar to the DOC and with an applicative head. It is the case of
Cuervo (2003, 2010) for Spanish, Torres Morais (2006) and Torres Morais & LimaSalles (2010) for EP and Diaconescu & Rivero (2005) for Romanian.
[15]
For details see Pylkknen (2002).

[346]
ana maria brito

[4] dat i v e a l t e r n at i o n i n e p ?
Clearly influenced by Demonte (1995) and Cuervo (2003) for Spanish and interested on the differences between Brazilian Portuguese (BP)16 and EP, Torres Morais
(2006) and Torres Morais & Lima-Salles (2010) proposed an analysis according to
which EP has dative alternation and justifies two base-generated constructions:
it has a construction where a dative NP argument is projected in the specifier position of a low applicative head, as in (24) and another configuration, where there
is a true preposition a, similar to para, that selects the IO as a complement, as
in (25):17
(24)
O Joo enviou uma carta Maria.

the John sent a letter to.the Mary
John sent Mary a letter.
(25)
O Joo enviou uma carta Maria / para a Maria / Lisboa / o Banco de

Portugal.
the John sent a letter to.the Mary / Lisbon / the Bank of Portugal
John sent a letter to Mary / Lisbon / the Bank of Portugal
In (24) a is a dative case marker and the NP receives inherent case in the specifier
of ApplP; as a low applicative, the head Appl receives the meaning of possession,
which corresponds to the beneficiary interpretation, licensing the dative argument and relating it with the theme.18
This possibility differs from a true prepositional construction, possible in (25),
where a could be replaced by para as a way to mean the final goal of the event of
sending the letter. In this second possibility, the possessive relation may also be
built, but it is subordinated to the goal / transfer meaning of the preposition; a
clitic is impossible here because directional locatives are never realized as clitics (Torres Morais & Lima-Salles 2010, pg. 198).
The main questions that this analysis justifies are the following: are there any
semantic differences that justify the two structures? Are there two prepositions
a in dative constructions? And is there a justification for an applicative head in
this sort of dative construction?
[16]
[17]
[18]
In Brazilian Portuguese the dominant preposition is para (to, for); and in certain geographical and social
varieties even the DOC may be used (see Torres Morais & Lima-Salles (2010). In Mozambique Portuguese
the DOC is very common (see Gonalves 1990, 2002, 2004); for a general presentation of the variation of
the IO in non-European varieties of Portuguese see Brito (2008).
For details see Torres Morais & Lima-Salles (2010).
The treatment is similar with lhe (O Joo enviou-lhe uma carta, John sent him a letter) with subsequent
movements that explain the final word order.
[347]
Notice that the notion of possession transfer is always stronger with Vs like
dar, to give, emprestar, to loan, alugar, to rent, vender, to sell (cf. Ormazabal &
Romero 2010, pg. 2089, from whom we adapt some of the examples); in fact, (26)
is odd, because the constrastive clause denies the implication of the main clause:
(26)
# A minha tia deu / emprestou algum dinheiro ao irmo, mas ele nunca o
recebeu.
the my aunt gave / lent some money to the brother, but he never it got
My aunt gave / lent some money to her brother, but he never got it.
On the contrary, with verbs like prometer, to promise, oferecer, to offer, enviar,
to send, ensinar, to teach, lanar, to throw, the situation is different and there
is the possibility of failure of successful transfer (Ormazabal & Romero 2010,
pg. 209):
(27)
A Cmara ofereceu ajuda s vtimas, mas elas recusaram a oferta.

the municipality offered help to.the victims, but they refused the offer
The municipality offered help to the victims, but they refused its offer
As Portuguese allows different variants of the ditransitive construction, mainly

due to the presence of clitics, clitic doubling and also word order, it is important
to verify if the meaning of transfer of possession is similar in all the variants of the
construction with this second class of predicates. Let us look for all the possible
variants with enviar (28)(32):
(28)
O Jos enviou uma carta Maria (mas ela no a recebeu).

the Joseph sent a letter to.the Mary (but she not it received)
Joseph sent a letter to Mary (but she didnt receive it)
(29)
O Jos enviou Maria uma carta (mas ela no a recebeu).

the Joseph sent to.the Mary a letter (but she not it received)
Joseph sent Mary a letter but she didnt receive it
(30)
O Jos enviou-lhe uma carta (mas ela no a recebeu).

the Joseph sent her a letter (but she not it received)
Joseph sent her a letter but she didnt receive it
(31)
O Jos enviou-lhe uma carta a ela (mas ela no a recebeu).

the Joseph sent herdative a letter to her (but she not it received)
(32)
O Jos enviou-lhe a ela uma carta (mas ela no a recebeu).

the Joseph sent herdative to her a letter (but she not it received)
[348]
ana maria brito

We see from (28)(32) that the notion of transfer of possession expressed by enviar,
to send, may always be (pragmatically) cancelled in all the versions of the ditransitive construction. All these sentences are therefore semantically equivalent, the
clitic lhe and the sequence a NP in both positions being similar in the expression of
the beneficiary / goal. We may then conclude that a in all the examples is the same
dative case marker preposition, the same type of preposition. So, two different
structures for ditransitive verbs on the basis of a possible non-synonymy between
the two different variants of the ditransitive construction seem not justified, contrary to which is suggested by Torres Morais & Lima-Salles (2010). Moreover, a e
para may co-occur with different meanings, a meaning the goal / origin and para
meaning the beneficiary (Brito 2009; Gonalves & Raposo 2013, 1177):
(33)
A Maria comprou um livro vendedora para a filha.

The Mary bought a book to the seller (origin) for the daughter (beneficiary)
Mary bought the seller a book for her daughter.
Also, if the classical notion of ditransitive verbs is still in use, an applicative head
as a low verbal category seem also unjustified for EP: the idea is that some verbs
like dar to give, select two true internal arguments.19
We have seen before that ditransitive constructions justify two syntactic structures; but these two syntactic structures should not be based either on different
meanings or on the different nature of the preposition. In the next section we will
investigate some fronting, ellipsis, binding and scope phenomena and we will see
that two base-generated ditransitive constructions may be justified in EP, a proposal already made for Portuguese by Costa (2009).
[5] a r g u m e n t d i t r a n s i t i v e s i n e u r o p e a n p o r t u g u e s e : t wo b a s e -
g e n e r at e d s t r u c t u r e s
Fronting and ellipsis illustrated in (34-a) (examples from Costa (2009)), provide
evidence in favor of an analysis where the V and the DO form a constituent and
therefore this example may justify a structure like (20):20
(34)
[19]
[20]
O Pedro queria dar os livros ao Rui ontem.

the Pedro wanted give the books to.the Rui yesterday
Miguel et al. (2011), analysing benefactive non-argument datives (a me preparou uma refeio filha / a
me preparou-lhe uma refeio, mother prepared a meal to her daughter / mother prepared her a meal) and
possessives datives (doem as costas ao Joo / doem-lhe as costas, Johns back hurt / his back hurt) propose that
they are merged, along with DP-Themes, under the internal argument, broadly interpreted as Possessive
DP and exhibiting a predicative structure; according to this analysis, no applicative head is justified.
Costa uses these data in favor of the structure (18).

a.
b.
[349]
e [dar os livros] ele deu ao Rui ontem.

and give the books he gave to.the Rui yesterday
e [dar os livros ao Rui] ele deu ontem.
and give the books to.the Rui he gave yesterday
Pedro wanted to give the books to Rui yesterday and give the books
to Rui he did.21
Barss & Lasnik (1986) and Larson (1988) noticed, for English, that there are some
asymmetries on binding that question not only a tripartite configuration of ditransitive constructions (as in (11)) but also a bipartite configuration where the
IO is lower than the DO. It is why Larson proposes a derivational analysis of the
DOC in English, where the raised IO (the beneficiary/goal) would c-command the
DO (the theme) after movement.
Let us see the distribution of anaphors in ditransitive constructions in EP;
the examples are inspired by Demonte 1995 study for Spanish (Costa 2009; Brito
2010):
(35)
a.
b.
?? O tratamento psicoanaltico devolveu [a estima de si mesma]

Maria.
The psychoanalytic therapy gave back her self-esteem to Mary
O tratamento psicoanaltico devolveu Maria [a estima de si mesma].
The psychoanalytic therapy gave back to Mary her self-esteem
The two variants are possible, similarly to what has been proposed for other Romance Languages (Giorgi & Longobardi 1991, pg. 42 for Italian), but the sentence
with the low reflexive expression (35-b) is slightly better than the sentence where
the reflexive expression is higher than its antecedent (35-a).
Let us see now the same phenomenon with clitic doubling:
(36)
[21]
a.
?? O tratamento psicoanaltico devolveu-lhe [a estima de si mesma]

a ela.
the therapy psychoanalytic gave backher dative the self-esteem to her
The psychoanalytic therapy gave back her self-esteem
According to Adger (2003, pgs. 124125) in English it is not possible to make VP preposing with the V
and the DO (i) *Benjamin said he would give the cloak to Lee and [give the cloak] he did to Lee. For him,
ellipsis seems to give the same results: (ii) Who gave the cloak to Lee? * Benjamin (did) to Lee. As for
coordination, although we can have (iii) Benjamin [gave the cloak] and [sent the book] to Lee, this is possible only with a substantial pause after cloak as well as odd intonation on the PP to Lee, suggesting that
we have a case of deletion: (iv) Benjamin [gave the cloak 0] and [sent the book to Lee]. Adger considers
that the behaviour of reflexives favors a binary branching analysis for ditransitive constructions in the
prepositional construction under a shell structure with vP, although he considers that there is weak
evidence from constituency in favour of this treatment. Notice that Adger judgements for English are
different from the ones by Phillips (2003), who admits VP preposing (see footnote 11).
[350]
ana maria brito

b.
O tratamento psicoanaltico devolveu-lhe a ela [a estima de si mesma].

the therapy psychoanalytic gave backher dative to her the self-esteem
The psychoanalytic therapy gave back her self-esteem
Due to the presence of clitic doubling, there is here a contrastive focus and a
marked interpretation; nevertheless, the sentence (36-b) with the low reflexive
expression is slightly better than the sentence where the reflexive expression is
higher than its antecedent (36-a).
Let us see how EP behaves as regards other phenomena of binding of pronouns.
In EP null possessives with a bound reading are always better than the ones
with the possessive seu, sua; moreover seu, sua is frequently interpreted as the
second person, related to voc, two reasons that interfere with these phenomena (Brito 2001). Nevertheless, the data favour a higher position of the antecedent
over the expression that contains the possessive, no matter the antecedent is the
DO or the IO:
(37)
a.
b.
c.
d.
?? A professora entregou [o (seu)i desenho] a cada crianai

the teacher gave the his drawing to each child
The teacher gave its drawing to each child
A professora entregou [cada desenhoi ] ao (seu)i autor.
the teacher gave each drawing to.the its author
The teacher gave each drawing to its author
?? A professora entregou ao (seu)i autor [cada desenhoi ].
the teacher gave to.the its author each drawing
The teacher gave to its author each drawing.
A professora entregou a cada crianai [o (seu)i desenho].
the teacher gave to each child to.the his drawing
The teacher gave to each child its drawing
These phenomena suggest a shell structure and the idea that the highest argument is base-generated; the same proposal is reinforced by other examples where
binding and scope of quantifiers are involved (cf. again Costa 2009):22
(38)
a.
b.
[22]
* Apresentei a Mariai filha da Mariai .

introduced the Mary to.the daughter of the Mary
Apresentei filha da Mariai a Mariai .
introduced to.the daughter of.the Mary the Mary
I introduced Mary to Marys daughter
Bruening (2001), for English, also proposes that there two available structures for ditransitives and that
there is no scrambling in order to explain the V IO OD order.

c.
d.
[351]
Apresentei uma mulher a todos os homens

introduced a woman to all the men
I introduced a woman to all the men.
(preferred interpretation > )
Apresentei a todos os homens uma mulher.
introduced to all the men a woman
I introduced to all the men a woman
(preferred interpretation > )
Costa (2009)[pgs. 9596] defends that these phenomena support a structure where
the antecedent / the highest argument is base-generated, no matter it is the DO
or the IO.
What all these data suggest is that EP has two base-generated ditransitive
constructions, like (19) and (20), justified by word order data already presented
above, fronting, binding and scope phenomena, and not on different meanings of
each variant or the existence of two different values of a23 . Through both structures, the ditransitive verb builds its argument structure, in one discharging first
the theme, in another discharging first the goal / beneficiary.
[6] s u m m a r y a n d c o n c l u s i o n s
In this paper EP ditransitive constructions with dar to give and enviar to send,
were studied in some of their syntactic dimensions: EP has dative pronouns, a
special preposition a and exhibits two word patterns, V DO IO and V IO DO. We
have seen that the order V IO DO is due to two reasons: contrastive focus on the
IO or the complexity of the DO. This conclusion was reinforced by the analysis of
many utterances in the corpus of CetemPblico. Nevertheless there is a strong link
between the V and the DO in certain constructions with dar as a light verb that
cannot be broken.
I revised some of the literature on IO / datives and on the DOC. Specifically,
I commented Torres Morais & Lima-Salles (2010) analysis, according to which EP
has dative alternation, in the sense that in one of the structures a is a dative case
marker and in another structure is a low true preposition, similar to para. According to these authors the two constructions are not absolutely synonymous.
On the contrary, I proposed that a is the same dative marker in both positions;
[23]
As we saw above, there have been different proposals in the literature to describe the two variants. Costa
(2009) adopts Phillips (2003) framework, according to which there is an incremental structure building,
from left-to-right but preserving c-command and allowing to build two base-generated structures. Brito
(2014) adopts a treatment inspired in Alexiadou et al. (2011) framework, according to which a (verb)
root is dominated by different functional categories which build syntactic structure; but, contrary to
Marantz, Pylknnen, Cuervo, Torres Morais & Lima Salles, which use the Appl head in order to explain
the incorporation of the IO, the author still makes a distinction between argument datives and nonargument datives and therefore no Appl head is proposed. For the details of the analysis see Brito (2014).
[352]
ana maria brito

in EP the sentences with lhe and a NP are synonymous and no semantic difference
is found. So, neither the nature of a or semantic differences justify the proposal
that EP has dative alternation. An applicative head seems then unnecessary, unless, perhaps, for extra / applied / non-argument datives, that were not analysed
in this text. The crucial fact that may distinguish ditransitive constructions is the
lexical nature of the verb: some of them have a path dimension, others not. But
a detailed analysis of the so called ditransitive verbs was beyond the goal of this
paper.
Fronting, ellipsis, binding and scope justify the proposal of two base-generated
structures, as already shown by Costa (2009) for EP. In one syntactic structure the
DO is projected as the complement of the V and the IO occupies the position of
specifier of VP; in another structure the DO occupies the position of specifier of
VP and the IO is the complement of a low V projection.
This is possible because we used a dynamic notion of lexicon, in the sense
that there is more than one syntactic structure, more than one construction that
is consistent with the encyclopedic meaning of ditransitive verbs like dar, to give,
and enviar, to send, etc. The proposal was that there are two possible ways of
building the argument structure of ditransitive verbs in syntax; these verbs discharge either first the theme or first the beneficiary.
In conclusion, EP has dative alternation but not in the same sense that English
has dative alternation.
acknowledgments
I thank Paula Carvalho for helping me to pick up the examples in the corpus of
CetemPblico. As a member of Centro de Lingustica da Universidade do Porto
(CLUP), this research was supported by FEDER / POCTI U0022/2003.
annex i
From CetemPblico, relevant occurrences in bold.
par=ext989232-pol-96a-2: Temos de dar a Samper uma sada, disse o senador conservador Eduardo Pizano,
citado pela Reuter, como quem antev o caos depois da tempestade.
par=ext127620-nd-91a-1: No por acaso que agora, no seu primeiro projecto pessoal, deu a Price o papel de
Inventor.
par=ext578006-des-95a-1: Duas vitrias sucessivas do a um jogador muita confiana, confessou Muster aps
a final, em que, mais uma vez, demonstrou as suas qualidades fsicas.
par=ext472583-soc-95b-2: possvel sustentar a tese de que essa uma maneira oblqua e astuta de o ferir, inclusive porque torna mais difcil o divrcio e d a Diana melhores condies se, apesar de tudo, este vier a
acontecer.
par=ext694500-pol-91b-3: Os raptores deram a Bona um prazo de 48 horas para fornecer informaes sobre o
estado de sade dos irmos Hamadi, dois xiitas libaneses detidos na Alemanha sob acusaes de terrorismo.
par=ext711722-soc-91b-2: Como a verso tinta, mas sem gralhas, como ironiza Augusto Deodato, a agenda apresenta uma seleco que visa dar a quem resida ou venha a Lisboa a oportunidade de gerir melhor os
interesses nesta cidade.
[353]
par=ext796563-soc-96b-1: por estas e por outras, concluiu Lobo Fernandes, que o prestigiado Guia Verde da
Michelin d a Braga a nota mais baixa (uma estrela) na classificao das cidades que apresenta no seu
roteiro turstico. par=ext1344780-nd-91a-1: Para Setembro, dever ter obtido sinais de reactivao que dem a
Carlos Menem uma vitria nas eleies legislativas, o que para muitos peronistas uma misso impossvel.
par=ext856353-clt-96b-2: O objectivo dar a professores, alunos e outros funcionrios a possibilidade de consultarem um rbitro para resolverem os seus diferendos pessoais ou institucionais.
par=ext660500-nd-98b-2: A evoluo do escndalo Monica Lewinsky deu a Hyde uma enorme notoriedade nacional e enquanto o caso no for fechado de vez o senador de pensamento conservador (que h 30 anos teve
um caso extraconjugal) vai continuar a estar sob os holofotes.
par=ext121571-soc-94b-1: O Governo portugus s deu a Bruxelas a informao que lhes convinha, no enviando sequer os pareceres produzidos no mbito da consulta pblica feita sobre o Estudo de Impacte Ambiental
().
par=ext755655-clt-96b-3: Na sequncia final, a suprema crueldade de Wilder dava a Cecil B. de Mille a oportunidade de domar, pela ltima vez, a beleza da sua ave do paraso enlouquecida.
par=ext320712-pol-94a-1: Onde que ia arranjar dinheiro para dar a esses homens a comida, as roupas e o
sabo de que necessitariam?, perguntou indignado o general Niha, primeiro secretrio da Frelimo na provncia de Nampula.
par=ext582831-des-92a-2: Uma sondagem Pblico-Norma realizada no domingo no Estdio da Luz, por ocasio do
jogo Benfica-FC Porto, deu a Jorge de Brito a maioria absoluta para as eleies de 24 de Abril.
par=ext585073-pol-98a-4: Mas uma sondagem divulgada no fim-de-semana d a Cardoso uma confortvel margem:
40 por cento, contra 35 por cento para todos os seus rivais somados.
par=ext677371-pol-92b-2: O Congresso ter que assumir a responsabilidade de dar a Itamar a possibilidade de
organizar o Estado, que foi desorganizado nos ltimos seis anos. par=ext1371639-pol-93a-1: Dia importante,
este 27 de Abril de 1993 ainda mais que aquele, no Vero de h trs anos, em que Gorbatchov deu a Bush luz
verde para a coligao anti-Iraque.
par=ext221520-clt-94b-2: Lestat, quando viu o que Louis tinha feito, deu a Claudia um pouco do seu sangue a
beber, transformando-a tambm em vampiro, para a oferecer a Louis .
par=ext1405400-nd-94b-1: Muoz Molina manifesta uma categrica afinidade com aqueles que do a Lisboa e a
Portugal a forma e o contedo da nossa peculiar identidade.
par=ext1180148-pol-97b-2: A Assembleia da Repblica recusou dar a Pacheco Pereira a prerrogativa de depor
apenas por escrito num processo por abuso de liberdade de imprensa que lhe foi movido pela actual directora
do vespertino A Capital, Helena Sanches Osrio.
par=ext269933-soc-91a-1: Joo Paulo II no deixou de dar a este debate o seu contributo.
par=ext403476-nd-93b-1: O Estado Novo, dentro dos limites consentidos pelas suas opes estratgicas, deu a
Pacheco meios quase ilimitados de concretizar o seu voluntarismo modernizador.
par=ext732008-pol-93a-1: A campanha eleitoral comeou a dar os primeiros passos logo no sbado, aps a dissoluo oficial do Parlamento, que apanhou os desprevenidos os deputados que no esperavam que a moo de
censura contra o Governo de Hanna Suchocka fosse aprovada, dando a Walesa o pretexto que ele esperava
para dissolver o Parlamento.
par=ext670069-pol-93b-2: Dar a cada cubano a possibilidade de possuir, legalmente, a moeda do inimigo, o
dlar, ser assim quebrar um dogma.
annex ii
Some proverbs with dar to give, from Machado (1996, pgs. 161165) and Parente
(2005, pg. 184).
(i) V DO IO order:
D Deus as nozes a quem no tem dentes.
D Deus toucinho a quem no tem espeto.
D honra a quem no a tem.
D Nosso Senhor campos a quem no aproveita os toucinhos.
[354]
ana maria brito

D ofcio ao vilo, conhec-lo-o.
Dar o seu a seu dono.
Dar po a quem no tem po esmola de carvo.
(ii) V IO DO order:
Dar a teu filho bom nome e bom ofcio.
D ao gato o que o rato tem de levar / dar ao gato o que h levar o rato.
Dai a cada um o que seu.
Dar a Deus o que de Deus e a Csar o que de Csar.
Dar a Deus o que o Diabo no quis.
references
Adger, David. 2003. Core syntax: A minimalist approach Core linguistics. Oxford
University Press.
Alexiadou, Artemis, Gianina Iordchioaia & Florian Schfer. 2011. Scaling the
variation in romance and germanic nominalizations. In Petra Sleeman & Harry
Perridon (eds.), The noun phrase in Romance and Germanic: Structure, variation, and
change Linguistik Aktuell, 2540. John Benjamins Publishing Company.
Anagnostopoulou, Elena. 2003. The syntax of ditransitives: Evidence from clitics Studies in generative grammar. Mouton de Gruyter.
Baker, Mark Cleland. 1988. Incorporation. a theory of grammatical function changing.
The University of Chicago Press.
Barss, Andrew & Howard Lasnik. 1986. A Note on Anaphora and Double Objects.
Linguistic Inquiry 17. 347354.
Belletti, Adriana. 2004. Aspects of the low IP area. In Luigi Rizzi (ed.), The Structure of CP and IP: The Cartography of Syntactic Structures, vol. 2 Oxford Studies in
Comparative Syntax, Oxford University Press.
Brito, Ana Maria. 2001. Presena/ausncia de artigo antes de possessivo no Portugus do Brasil. In Actas do xvi encontro da associao portuguesa de lingustica,
551575. APL/Colibri.
Brito, Ana Maria. 2008. Grammar variation in the expression of verb arguments:
the case of the Portuguese Indirect Object. Phrasis 2008. 3158.
Brito, Ana Maria. 2009. Construes de objecto indirecto preposicionais e no
preposicionais: uma abordagem generativo-constructivista. In A. Fiis &
A. Coutinho (eds.), Textos Seleccionados do XXIV Encontro da Associao Portuguesa
de Lingustica, 141159. Colibri.
[355]
Brito, Ana Maria. 2010. Do European Portuguese and Spanish have the double
object construction? In Encuentrogg. v encuentro de gramtica generativa (2009),
81114.
Brito, Ana Maria. 2014. As construes ditransitivas revisitadas. alternncia dativa em Portugus Europeu? In Antnio Moreno, Ftima Silva, Isabel Fal, Isabel Pereira & Joo Veloso (eds.), Textos selecionados: Xxix encontro nacional da
associao portuguesa de lingustica, 103119.
Bruening, Benjamin. 2001. QR obeys superiority: frozen scope and ACD. Linguistic
Inquiry 32(2). 233273.
Costa, Joo. 2009. A focus-binding conspiracy. Left-to-right merge, scrambling
and binary structure in European Portuguese. In Jeroen van Craenenbroeck
(ed.), Alternatives to cartography, 87108. De Gruyter Mouton.
Cuervo, Maria Cristina. 2003. Datives at Large: Massachusetts Institute of Technology PhD dissertation.
Cuervo, Maria Cristina. 2010. Against ditransitivity. Probus 22. 151180.
Demonte, Violeta. 1995. Dative alternation in Spanish. Probus 7. 530.
Diaconescu, Constanta Rodica & Maria Luisa Rivero. 2005. An applicative analysis
of double constructions in Romanian. In Actes du Congrs annuel de lAssociation
Canadienne de Linguistique, 111.
Duarte, Ins. 1987. A construo de topicalizao na gramtica do portugus: regncia,
ligao e condies sobre movimento: Universidade de Lisboa PhD dissertation.
Duarte, Ins. 2003. Relaes gramaticais, esquemas relacionais e ordem de
palavras. In M. Helena Mira Mateus, Ins Duarte & Isabel Hub Faria (eds.),
Gramtica da lngua portuguesa, 275321. Caminho 5th edn.
Giorgi, Alessandra & Giuseppe Longobardi. 1991. The Syntax of Noun Phrases: Configuration, Parameters and Empty Categories. Cambridge University Press.
Gonalves, Anabela & Eduardo Paiva Raposo. 2013. Verbo e sintagma verbal. In
Eduardo Paiva Raposo, Maria Fernanda Bacelar do Nascimento, Antnia Coelho
da Mota, Lusa Segura & Amlia Mendes (eds.), Gramtica do portugus, vol. 2,
11551218. Fundao Calouste Gulbenkian.
Gonalves, Perptua. 1990. A Construo de uma Gramtica do Portugus em Moambique: Aspectos da Estrutura Argumental dos Verbos: Universidade de Lisboa PhD
dissertation.
[356]
ana maria brito

Gonalves, Perptua. 2002. The role of ambiguity in second language change: the
case of Mozambique African Portuguese. Second Language Research 18(4). 325
347.
Gonalves, Perptua. 2004. Towards a unified vision of classes of language acquisition and change: Arguments from the genesis of Mozambique African Portuguese. Journal of Pidgins and Creole Languages 19(2). 225259.
Harley, Heidi. 2002. Possession and the double object construction. Yearbook of
Linguistic Variation 2. 2968.
Jackendoff, Ray. 1990. On Larsons treatment of the double object construction.
Linguistic Inquiry 21. 427456.
Kayne, Richard S. 1984. Connectedness and binary branching Studies in generative
grammar. Foris Publications.
Larson, Richard. 1988. On the double object construction. Linguistic Inquiry 19.
335392.
Machado, Joo Pedro. 1996. O grande livro dos provrbios. Notcias Editorial.
Marantz, Alex. 1993. Implications of Asymmetries in Double Object Constructions.
In Sam A. Mchombo (ed.), Theoretical aspects of Bantu Grammar, vol. 1, 113150.
CSLI Publications.
Masullo, Pascual Jos. 1992. Incorporation and case theory in Spanish: a cross-linguistic
perspective: University of Washington dissertation.
Miguel, Matilde, Anabela Gonalves & Ins Duarte. 2011. Dativos no argumentais
em portugus. In Textos seleccionados, xxvi encontro da associao portuguesa de
lingustica, 388400. APL.
Oehrle, Richard. 1976. The grammatical status of the English dative alternation: Massachusetts Institute of Technology PhD dissertation.
Ormazabal, Javier & Juan Romero. 2010. The derivation of Dative Alternation. In
Maia Duguine, Susana Huidobro & Nerea Madariaga (eds.), Argument Structure
and Syntactic Relations, 203232. John Benjamins.
Oyharabal, Beat. 2010. Basque ditransitives. In Maia Duguine, Susana Huidobro
& Nerea Madariaga (eds.), Argument Structure and Syntactic Relations, 233260.
John Benjamins.
Parente, Salvador. 2005. O livro dos provrbios. ncora Editora.
[357]
Pesetsky, David. 1995. Zero Syntax: Experiencers and Cascades. The MIT Press.
Phillips, Colin. 2003. Linear order and constituency. Linguistic Inquiry 34(1). 3790.
Pujalte, Mercedes. 2008. Sobre frases aplicativas y complementos dativos en el
espaol del Rio de Plata. Cuadernos de Lingistica 15. 139156.
Pujalte, Mercedes. 2009. Condiciones sobre la Introduccin de argumentos. El caso de la
alternancia dativa en Espaol. Universidad Nacional del Comahue, Escola Superior de Idiomas MSc thesis.
Pylkknen, Liina. 2002. Introducing Arguments: Massachusetts Institute of Technology PhD dissertation.
Ramchand, Gillian. 2008. Verb Meaning and the Lexicon: a first phase syntax. Cambridge University Press.
Rapapport Hovav, Malka & Beth Levin. 2008. The English dative alternation: the
case for verb sensitivity. Journal of Linguistics 44. 129167.
Ross, John Robert. 1967. Constraints on variables in Syntax: Massachusetts Institute
of Technology dissertation.
Torres Morais, Maria Aparecida. 2006. Um cenrio para o ncleo aplicativo no
portugus europeu. ABRALIN 5. 239266.
Torres Morais, Maria Aparecida & Helosa Lima-Salles. 2010. Parametric change
in the grammatical encoding of indirect objects in Brazilian Portuguese. Probus
22. 181209.
Vilela, Mrio. 1992. Gramtica de Valncias. Teoria e aplicao. Almedina.
Xavier, Maria Francisca. 1989. Argumentos Preposicionados em Construes Verbais.
Um estudo contrastivo das preposies a, de e to, from: Universidade Nova de Lisboa
PhD dissertation.
c o n ta c t s
Ana Maria Brito
ambarrosbrito@gmail.com
corpus-driven glossaries
in translator training courses
STELLA ESTHER ORTWEILER TAGNIN
resumo
A Lingustica de Corpus tem-se mostrado um recurso valioso para a extrao
de candidatos a termos e unidades fraseolgicas a partir de corpora especializados (Bowker & Pearson 2002). Na realidade, trata-se de uma abordagem
relativamente nova j que a maioria dos glossrios baseia-se, em geral, em
material similar anteriormente existente. Embora haja muitos glossrios
no mercado, poucos foram compilados para atender s necessidades dos
tradutores, cuja principal tarefa na traduo tcnica produzir um texto
natural e fluente, seja na sua lngua nativa, ou em uma lngua estrangeira.
Por essa razo, um glossrio que consiste simplesmente de uma lista de termos e seus equivalentes no ser satisfatrio para o tradutor. Como produtores de texto, os tradutores precisam saber como a palavra usada, ou seja,
com quais palavras combina (Firth 1957; Sinclair 1991). Alm disso, a linguagem tcnica abriga termos que consistem de vrias palavras assim como
unidades fraseolgicas ainda mais longas. A compilao de glossrios era
abordada no Curso de Especializao em Traduo na Universidade de So
Paulo como metodologia para melhorar o conhecimento especializado dos
alunos. Aps algumas experincias, verificou-se que a abordagem condizia
com o que Shreve (2006) chamou de prtica deliberada, metodologia que
contribui para o desenvolvimento das habilidades de pesquisa e de traduo
dos alunos, levando aquisio de conhecimento e de tcnicas especializados (Maia 1997, 2002; Tagnin 2002), de que os aprendizes podero se valer em
qualquer rea na qual venham a trabalhar. Este artigo descrever como isso
foi realizado em vrias ocasies, ou seja, com o recurso a uma abordagem
baseada em corpus, e ilustrar, com exemplos de vrios projetos, os passos
seguidos.
Corpus Linguistics, an empirical approach to language studies (McEnery & Hardie

2011; McEnery & Wilson 1997), has proved to be a valuable tool for the extraction of candidates for technical terms and phraseological units (Bowker & Pearson 2002). We understand terms as words or multiword units characteristic of
specialized contexts. So, for instance, cup is a word that belongs to the general
[360]
stella esther ortweiler tagnin

vocabulary of the English language. However, in a culinary context, cup is considered a term as it refers to a measurement, not to the utensil proper. In the same
vein, we consider longer phraseological units, even without a term, as terminological units when they are typical of a certain domain. For example, roll out the
pastry on a lightly floured working surface.
Even though a methodology that uses corpora has been used in various academic studies (Teixeira 2008; Perrotti-Garcia & Rebechi 2007; Tagnin & Bevilacqua
2013), many current glossaries, mostly commercial ones, are still based on existing ones, either editing previous editions or adding to them. In contrast, corpusdriven terminology derives all its data from a specialized corpus compiled for that
specific purpose.
Although there are many glossaries available on the market, few meet the
needs of technical translators (Teixeira 2008), who are expected to produce a natural and fluent text, either in their mother tongue, or in a foreign language, depending on the direction they are working in. For this reason, a simple list of
terms and their equivalents will not suffice. A text producer needs to know how
a word is used, that is, the words it combines with (Firth 1957; Sinclair 1991). In
addition, technical language may have multi-word terms and even longer phraseological units which may also enjoy the status of terms and as such should feature
as stand-alone entries in reference works. For instance, this would be the case of
freshly ground black pepper in a glossary of culinary terms.
A corpus-driven compilation of glossaries was one of the main foci of Technical Translation, one of the disciplines of the two-year Translation diploma courses1
at the University of So Paulo. Students were required to participate in projects
envisaging the construction of specialized corpora and the extraction of relevant
terminology. To that end they were introduced to the methodology and tools
used by Corpus Linguistics. Thus students mastered corpus-related skills, such
as defining criteria to build a reliable corpus, investigating a corpus with specific computational programs, designing criteria to select examples to include in
a glossary entry, developing techniques to identify equivalent terms in two different languages and, finally, building appropriate glossary entries. This methodology produced, in general, good works, some of which have already been published (Perrotti-Garcia & Rebechi 2007; Teixeira & Tagnin 2008; Tagnin 2013).
From the perspective of translator training, this deliberate practice (Shreve
2006) a well-defined motivating task with an adequate level of difficulty so as to
promote students improvement, and with appropriate feedback from the teacher
certainly contributed to the development of research and translation skills,
leading to specialized knowledge which students would be able to put to use in
any area they might come to work in.
[1]
These courses were discontinued in 2005, that is, the last group completed the course in 2007.
corpus-driven glossaries in translator training courses
[361]
This paper reports on the decisions made regarding what to teach in a translator training course and describes how Corpus Linguistics can be used for terminological works.
[2] c o r p o r a i n t h e t r a n s l at i o n c l a s s r o o m
The use of corpora in translator training courses has been a fact for over two
decades (Maia 1997, 2002; Tagnin 2002). In Brazil it was introduced as a methodology for the compilation of technical glossaries in the Specialization Course in
Translation at the University of So Paulo in 2001. During a course on Technical
Translation students were divided into thematic groups and instructed to build
an EnglishPortuguese comparable corpus in a specialized area, that is, a corpus with original texts in both languages. They should then extract the technical
terms, identify equivalents and collect examples in both languages. Glossaries
resulting from this activity were made available at the courses site2 under Trabalhos de alunos - Glossrio (Student works Glossary). In 2005, students were
asked to build a bilingual glossary along the lines of a series of technical glossaries
brought out by a local publisher. Each group could choose one field of study, and
the best works would be submitted to the publisher for possible publication. In
2008, as part of a similar course3 , it was suggested that the whole class engage in
one collective project for the construction of a Photography glossary. This project
is discussed in detail in Section [4].
[2.1]
What to teach: translators needs
Before deciding on the format of the glossaries to be produced, it was deemed necessary to determine the translators terminological needs (Teixeira 2008; Fromm
2008). When one reflects about this, what immediately comes to mind is that a
translator needs equivalents, which is actually only partially true. As GonzlezJover & Sierra (2004) have already pointed out, terminology materials should help
translators make decisions that are part of their daily practice. And their daily
practice involves much more than just finding an equivalent.
A survey carried out by Fromm (2008) with professional translators on the
features of the bilingual dictionaries they mostly use showed (see Table 1) that
the dictionaries translators find more valuable, apart from the ones that present
all of the above, are the ones the results that provide a translation as well as
examples. And it is this preference that has been the basis on which the template
for our entries was built.
[2]
[3]
http://citrat.fflch.usp.br/node/18
This was a single extracurricular discipline, also called Technical Translation, but not part of a fullfledged course anymore.
[362]

Features
only translation of word
translation and examples in L2
translation and definition in L2
translation, definition in L2, examples in L1
translation, definition, examples and cross-references
definition in L1 and equivalent and examples in L2
all of the above
Respondents
14
34
19
23
22
22
41
Percentage
8%
19%
11%
13%
12%
12%
23%
table 1: Preferences of professional translators as to bilingual dictionaries

(adapted from Fromm (2008, pg. 65)).
[2.2]
What kind of glossary?
Given that translators are, above all, text producers and that their goal in technical translation is to produce a natural text, they need, in addition to equivalents,
examples that contextualize a certain term found in the source text as well as information about its textual and linguistic patterns. In other words, they need to
know the terms collocations and phraseologies (Tagnin 2002). For terms which
do not have equivalents in the target language, translators would need other
translation possibilities or even suggestions for adaptation. On such occasions,
cultural information may help them to choose adequate substitutions.
Let us illustrate this with an example taken from the area of Cooking. If a
translator needs to translate 1 large onion, finely chopped into Portuguese, he/she
would find it useful to have a glossary which would specify that the Portuguese
cognate for finely (finamente) does not usually occur in this context. Rather,
the most natural translation for finely into Portuguese would be the adverb bem
(= well), which renders bem picada (*well chopped). Another option would be the
diminutive picadinha, with or without the adverb bem. Thus, the glossary would
specify that the best translation options are 1 cebola grande, bem picada or 1 cebola
grande (bem) picadinha. In the case of finely grated Parmesan cheese, the glossary
should provide the information that the usual translation is simply queijo parmeso
(= parmesan cheese), since in Brazil this kind of cheese is customarily finely grated.
Thus, the texture is only specified when the cheese should be coarsely grated,
which would be ralado grosso in Portuguese. The cultural gap becomes even more
evident when the translator encounters the term buttermilk. Although the Portuguese language has a corresponding term, leitelho, it is not used, mainly because this product does not exist in our country. Thus, the glossary could add an
explanatory note or even suggest that buttermilk can be replaced by a mixture of
equal parts of milk and plain yogurt (Teixeira & Tagnin 2008).
However, much of the material available on the market does not meet these
needs and is often limited to a mere list of monolexical terms and their equivalents
[363]
in the target language, without providing examples or other linguistic information that can help the translator to make adequate decisions and create a text in
which naturalness (Sinclair 1984) prevails. Thus, as mentioned before, it is necessary to create a model for a glossary that meets the needs of the translator. In this
sense, as Krieger & Finatto (2004) have suggested, translators can be instrumental in creating new methodologies for the production of reliable terminological
sources of information.
In this paper we claim that a methodology relying on the premises of Corpus
Linguistics can provide this so much needed reliable terminological source of
information for translators.
[3] c o r p u s l i n g u i s t i c s
As we know, Corpus Linguistics is an empirical approach based on the observation of a large number of texts. These texts, always authentic, constitute a corpus, which can be investigated by means of specific computational programs that
produce, among other data, concordance lines (see Figure 1). Concordance lines
show the search word with its surrounding co-text, and allow investigators to
identify recurrent patterns, terms and phraseological units. Concordance lines
can also be sorted alphabetically by the words to the right or to the left of the
search word, which makes identifying recurrent patterns even easier by grouping them together. The first example (Figure 1) is a selection of concordance lines
for the Portuguese word imagem (= image), taken from the Photography corpus.
1
2
3
4
5
6
7
8
9
10
11
12
13
14
15
est na posio centralizada.) exibida uma

e, em seguida, carregue em. 1 Para ver uma
ando os itens de regulao Corte: Girando uma
ne [ Sair] e depois pressione. QPara ver uma
est na posio centralizada.) exibida uma
a 22 do Manual da Cyber-shot.) 1 Para ver uma
ne [ Sair] e depois pressione. QPara ver uma
imagem vista atravs do visor e o tamanho da
visualizar, editar. modificar ou imprimir uma
de pixels). Quando se intenciona imprimir uma
ls, que so poucos, no afetam a qualidade da
antstica, porm nada se compara a tratar uma
sde h algum tempo trabalhamos digitalmente a
ls, que so poucos, no afetam a qualidade da
ilidade da cmera para uma nova foto porque a
imagem
imagem
imagem
imagem
imagem
imagem
imagem
imagem
imagem
imagem
imagem
imagem
imagem
imagem
imagem
ampliada. 7Pressione
ampliada (zoom de
ampliada Utilizando a
ampliada (zoom de
ampliada. 7Pressione
ampliada (zoom de
ampliada (zoom de
captada pelas lentes
captada no modo Adobe
captada por uma
capturada. Alm disso
capturada com
capturada em pelcula
capturada. Alm disso
capturada primeiro
figure 1: A selection of concordance lines for imagem, sorted by 1st word to the
right.
The above concordance lines show the recurrence of three collocations: imagem ampliada, imagem captada and imagem capturada, which might indicate that
[364]

they are candidate terms. Besides, one notices that imagem capturada occurs five
times while imagem captada, which has the same meaning, only occurs three times.
This seems to indicate that the first one is probably more common and thus a more
natural choice. It is important to point out that Corpus Linguistics looks at language as a probabilistic system, that is, it observes which patterns have a higher
probability of occurring to the detriment of those that just feature a grammatical possibility of occurrence (Kennedy 1998). Therefore, if a technical translator
seeks to produce a natural-sounding text he/she should use the terms that are
more likely to occur in the specialized area he/she is working in.
Recurring patterns in the English counterpart of the Photography corpus can
be seen in Figure 2. These concordance lines show mainly verbal collocations such
as capture an image, copy an image, delete an image, display an image and edit an image.
1
2
3
4
5
6
7
8
9
10
11
12
13
14
15
16
17
18
19
20
21
22
video monitor. When you capture

imum depth of field. 2. Capture
hoices are: OffIf you capture
n list box. continued Capturing
to save the image. 44 capturing
e to another album You can copy
l file data is deleted. To copy
ge and the otherimages. Copying
pening image as another Copying
position in the album. Copying
mages Your camera cannot delete
monitor. When you should delete
language. Accidentally deleted
istake. Once you have deleted
ORED AS DIGITAL DATA To display
is displayed Tool Bar Displays
t at a time. Opens and displays
Open File . Opens and displays
Camera (page 113) You can edit
image file tobe opened. 4 Edit
ed. m to 3 to (D Editing
kyOOl SkyOO2 SkyOO3... Editing
an
an
an
an
an
an
an
an
an
an
an
an
an
an
an
an
an
an
an
an
an
an
image, it automatically appears on the

image of a plain white object, such as
image using long exposure while this f
image 43 Saving the camera images as a
image Saving the selected camera image
image of an album to another album.
image file to the computer without ove
image to another album You cancopyan i
image 115 an album of the hard file fo
image to another album You can copy an
image. Cancel the protection (page R
image, select IDeletel in the Edit men
image. Use the Recover function to rec
image. you cannot restore it. We recom
image that is digitally stored on your
Image Information dialog box of the im
image file from the hard disk or MO di
image file from the hard diskorMO disk
image: changing image comments, moving
image / Print an image/Transfer an ima
image 113 Sorting the images 114 H
image The images in album of the hard
figure 2: Selection of concordance lines for image, sorted by 1st and 2nd word on
the left.
Another method to extract terminological units is by using a list of n-grams
(Guinovart & Simes 2009; Maia et al. 2008). These lists show all combinations
of two words (bigrams), three words (trigrams) or even longer combinations, depending on how the researcher adjusts the settings of the program being used.
Again, however, these lists need to be examined by the researcher in order to
decide which combinations are, in fact, terminological units.
[365]
Corpus Linguistics can be used in two ways to compile glossaries: as a methodology or as an approach. In the first case, we refer to it as corpus-based Terminology; in the second, as corpus-driven Terminology. It is the latter that was used in
our courses.
[3.1] Corpus-based Terminology

A terminological reference source is said to be corpus-based when texts are selected because they offer a variety of defining contexts, which will be used to build
the definitions for its entries. Besides, work is usually based on a pre-selected list
of nouns and only more recently of verbs derived from an ontology, which
shows the structure of the area being addressed and all of its subareas. This allows the terminologist to decide which areas to address in the glossary to be built.
Once the list has been compiled, definitions and examples are extracted from the
corpus built for that purpose. Basically, only pre-established terms and phraseological units which contain these terms will make up the entries of such a reference work. In short, the corpus is seen as a repository of definitions and examples (Teixeira 2008).
[3.2] Corpus-driven Terminology
In contrast, Corpus Linguistics is used as an approach when all entries that will
make up the glossary are extracted directly from the corpus. In other words, only
terms present in the texts that make up the corpus will be included in the glossary. Also, corpora are composed of the texts most commonly written or referred
to by specialists, such as articles published in journals, textbooks, manuals, articles in newspapers, etc. The type of texts to be collected will depend on the area
being addressed but they are expected to feature the actual and updated terminology used in that area. Whether these texts have defining contexts or not is not
relevant.
N
1
2
3
4
5
6
7
8
9
10
Word
THE
#
TO
AND
IN
A
CAMERA
IS
OR
OF
Freq.
13,665
13,197
4,173
2,705
2,621
2,560
2,216
2,168
2,164
2,111
%
7.91
7.64
2.42
1.57
1.52
1.48
1.28
1.26
1.25
1.22
Texts %
10 100
10 100
10 100
10 100
10 100
10 100
10 100
10 100
10 100
10 100
N
11
12
13
14
15
16
17
18
19
20
Word
IMAGE
ON
YOU
WITH
FOR
BUTTON
IMAGES
MODE
YOUR
WHEN
Freq.
1,697
1,643
1,576
1,309
1,284
1,187
1,156
1,043
973
946
%
0.98
0.95
0.91
0.76
0.74
0.69
0.67
0.60
0.56
0.55
Texts %
10 100
10 100
10 100
10 100
10 100
10 100
10 100
10 100
10 100
10 100
table 2: WordList 20 most frequent words in the Camera subcorpus of the Photography project.
[366]

In corpus-driven terminology, the first step is to extract a list of all the words
in the corpus with their frequencies (Table 2).
It is interesting to notice that most highly frequent words are grammatical
words; the first content word camera only appears in position seven, which
gives an indication of the field the corpus covers.
In order to establish which of these words are typical of the area being addressed, a wordlist is usually compared to another wordlist extracted from a corpus of general language, usually three to five times larger than the study corpus,
which is known as a reference corpus or comparison corpus. This comparison
yields a list of keywords (see Table 3), which are the words that show a statistically relevant frequency in the specialized corpus in relation to the reference
corpus. In other words, these lexical items are relatively more frequent in the
study corpus than in the reference corpus. For this reason, they are regarded as
potential candidate terms.
N
1
2
3
4
5
6
7
8
9
10
11
12
13
14
15
16
17
18
19
20
Key word
CAMERA
IMAGE
BUTTON
IMAGES
MODE
SELECT
FLASH
PHOTOGRAPHS
OR
MENU
EXPOSURE
BATTERY
SHUTTER
PRESS
CARD
KODAK
FILM
PHOTOGRAPHIC
DIGITAL
LIGHT
Freq.
2,216
1,697
1,187
1,156
1,043
828
703
478
2,164
703
636
587
554
835
655
485
446
333
508
370
%
3.71
2.84
1.98
1.93
1.74
1.38
1.18
0.80
3.62
1.18
1.06
0.98
0.93
1.40
1.10
0.81
0.75
0.56
0.85
0.62
RC. Freq.
46
220
37
49
11
94
17
29
4,022
61
39
12
2
415
144
1
433
2
49
238
RC. %
0.01
0.25
0.03
0.03
0.01
Keyness
9,941.70
6,623.78
5,230.30
5,009.45
4,759.94
3,284.80
3,130.42
2,968.63
2,937.68
2,874.92
2,684.16
2,629.87
2,564.53
2,400.90
2,338.61
2,253.63
2,201.97
2,196.38
2,053.56
2,017.40
table 3: KeyWord List First 20 keywords in the Photography corpus.

This list, entirely extracted from the corpus, will be used as the starting point
for the selection of candidate terms. Each of these candidates is examined in its
context in order to identify possible collocations and longer phraseological units.
This is done by running concordance lines for the search word and then looking
for recurrent patterns, which can be seen in Figure 3 for the word camera.

1
2
3
4
5
6
7
8
9
10
11
12
13
14
15
16
17
18
19
20
21
22
23
24
25
built the CCD into the worlds first CCD

state video camera. During 1975 the CCD
if: The card was formatted using a DCS
computer as they are captured. Once DCS
rting the Capture KODAK PROFESSIONAL DCS
images using the KODAK PROFESSIONAL DCS
s your ``digital negative.'') Refer to DCS
Camera Manager software. If you use DCS
racketing was added. Even with a digital
you won't get as wide angle on a digital
fe with Kodak Ni-MH rechargeable digital
le); 2 Kodak Ni-MH rechargeable digital
eries 600-800 Ni-MH rechargeable digital
only a Kodak Li-Ion rechargeable digital
WEP Appendix EasyShare-One zoom digital
visory Kodak EasyShare C433 zoom digital
Kodak EasyShare C433 zoom digital
col), via USB cable model U-8, EasyShare
col), via model U-8 USB cable, EasyShare
r pictures and videos. Kodak EasyShare
dapter included with the Kodak EasyShare
hich gives a medium wide angle on a film
a digital camera as you would on a film
l Zoom capability. If you've used a film
ver 1500 photos -- 40 rolls -- on a film
[367]
camera. This
camera with its
camera. The
Camera Manager
Camera Manager is
Camera Manager
Camera Manager
Camera Manager's
camera, bracketin
camera as you
camera batteries.
camera batteries
camera battery
camera battery
camera
camera This
camera User's guid
camera dock or
camera dock, or
camera dock, Koda
camera dock or
camera acts as a
camera using the
camera, you'll be
camera that cost
figure 3: A selection of concordance lines for camera.

The lines from Figure 3 show various collocations and phraseological units
such as CCD camera, DCS camera, DCS Camera Manager, digital camera, (Kodak) Ni-MH
rechargeable digital camera battery, Kodak Li-Ion rechargeable digital camera battery,
(Kodak) EasyShare camera dock and film camera. In a corpus-driven terminological
reference source each one of these recurrent combinations will be listed along
with relevant examples extracted from the concordance lines.
[4] t h e p h o t o g r a p h y g l o s s a r y p r o j e c t
The above sequence of activities was followed on various occasions during Technical Translation courses at the University of So Paulo. The most recent ones
took place in 2005 and 2008, as mentioned before. For the sake of illustration,
we will concentrate on the 2008 project on Photography, but will resort to other
areas from the 2005 project when they provide better examples to illustrate the
procedures being discussed.
[4.1] Class procedures

The first step was to establish the subareas that would be addressed in the project.
Examining instructional material on Photography, we determined the following
[368]

six topics to be covered: history of photography4 , light, cameras, studio, storage
and digital photography. The class was accordingly divided into six groups, each
of which should build a comparable bilingual English-Portuguese corpus in the
area assigned to them. They also had to select a one-page text from their English
corpus to be translated into Portuguese by the whole class. Each group would be
responsible for discussing their translation with the whole class. Besides, preliminary results for the glossary were also to be presented so that procedures and
doubts could be discussed. The stages of the project are described below.
Instruction in Corpus Linguistics

As most of the class had no previous knowledge in Corpus Linguistics, they were
introduced to its basic notions in a series of three lectures, with special emphasis on the stages of building a specialized corpus and using linguistic software to
investigate it, in that case, WordSmith Tools version 5 (Scott 1996), with its suite of
tools: WordLists, Keywords and Concord.
Building a corpus
Students were required to build a bilingual comparable corpus with approximately
100,000 words in each language according to the following steps:
(i) search for texts on the Internet so as to avoid having to scan them. Although
most texts were indeed retrieved from the Internet, some groups had to
resort to written material and hence scan it;
(ii) clean the texts, eliminating figures, tables, charts, illustrations and any
other non-linguistic material which the researcher believes will not contribute relevant material5 ;
(iii) save texts in .txt format;
(iv) include a header with metatextual information such as: title of the text,
place of publication, date of publication, subarea etc.
The final composition of the five subcorpora compiled by each group is presented
in Table 4.
Extracting terms (Wordlist and Keywords)

Once the corpora were built, students generated WordLists for each of their corpora and then compared these lists with similar lists for general language corpora.
[4]
[5]
This group was discontinued during the course.

It is true that some tables exhibit terminological material, though not in context. It is up to the researcher, in those cases, to include the tables or not in the corpus.

Subcorpus
Camera
Digital photography
Light
Storage
Studio
Total
[369]
Number of words
72,665
72,864
36,668
59,803
72,716
314,716
table 4: Final composition of the Photography corpus.

This comparison yielded words keywords that occurred at a statistically significant higher frequency in the study corpus (see Table 3).
These words were considered candidate terms as they were peculiar to the
study corpus. In order to confirm whether they were actually terms or not, students ran concordance lines for each of the words to examine their context of
occurrence (see Figure 3).
Extracting patterns
Let us remember that recurrent patterns in concordance lines may be candidate
terms. Figure 4 shows some of these patterns for the word photographs.
The Figure 4 concordance lines allow us to identify nominal collocations such
as albumen photographs, colo[u]r photographs, digital photographs and family photographs, as well as verbal collocations like clean photographs, display photographs and
even longer phraseological units like water-damaged photographs.
Extracting relevant context (examples)
Once all relevant terms and phraseologies had been identified, examples were
retrieved from the concordance lines to be inserted in the entries. If the concordance line did not show the full context, a double click on it led to the full source
text. Part of it is shown below for concordance line 25 in Figure 5.
Identifying equivalents
One way to identify possible equivalents is to compare the lists of keywords in
both languages. Figure 6 illustrates this procedure for an EnglishPortuguese
Cooking glossary (Teixeira & Tagnin 2008).
Once a pair is identified, concordance lines should be generated to check whether the selected equivalents occur in similar contexts. When there is no such
prima facie (literal) equivalent, search can be pursued by the words collocates or
context (Tagnin 2007). For example, if we wish to find the equivalent for finely
the most frequent adverb in a Cooking corpus we will realize that it is not
finamente, the Portuguese cognate for finely, because this adverb displays a very
[370]

1
2
3
4
5
6
7
8
9
10
11
12
13
14
15
16
17
18
19
20
21
22
23
24
25
26
27
28
29
30
, current research at RIT on albumen

iron salts and acids. Unlike albumen
jectionable fading in tinted albumen
ures are not recommended for albumen
nging adhesive for unmounted albumen
otographs or negatives: Do not clean
d the edges. Do not attempt to clean
but not least, your freshly-cleaned
certain "learning curve" to cleaning
uality copies of all important color
ore permanent storage. Special color
accuracy for optimum results. Color
tween 25% and 30%. Except for colour
yes and pigments are found in colour
t sunlightresults in fading (colour
photo albums can permanently damage
gency Instructions for Water Damaged
afely cleaning and restoring damaged
neglected or even some badly-damaged
gency Instructions For Water-Damaged
. Most professionals produce digital
Years or Longer" and "Could Digital
ways in which people obtain digital
upplies locally to store and display
a good framing store. Do not display
ile photographs. * Keep and display
e are safe, some are not. 4. Display
fortunate are those who have family
t to sabotage a collection of family
pes, albumen and salt prints. Family
photographs indicates that at high r

photographs, platinum prints will be
photographs. The finely divided coll
photographs. The gelatin paper print
photographs. The hinging process for
photographs with erasers. Brush soil
photographs with water- or solvent-b
photographs deserve new storage slee
photographs. The first step is to th
photographs. Also copy some color me
photographs are also often copied to
photographs are closer to human visi
photographs and film, a stable tempe
photographs and in digital prints. P
photographs are more sensitive than
photographs after only a few years.
Photographs In case of flood or othe
photographs. Not all conservators of
photographs, remember it is almost n
Photographs." This concludes the sec
photographs designed to fill a speci
Photographs Last For a Thousand Year
photographs - using a digital camera
photographs can be difficult. Most c
photographs in direct sunlight or un
photographs in good quality storage
photographs in the lowest light leve
photographs. For historic value or f
photographs! Frequently a photograph
photographs have unknown or underter
figure 4: Selection of concordance lines for photographs sorted by 1st word to the
left.
Important photographs should be matted to museum standards,
using archival matting and backboard. Check with a professional
in a good framing store.
Do not display photographs in direct sunlight or under bright
lights, and keep them away from heat vents and damp locations.
Store prints in a cool and dry spot; basements, attics, and garages
are not suitable locations for storage because their temperature
and humidity levels vary too much.
figure 5: Expanded context in source text. Relevant concordance line highlighted
by author.
[371]
figure 6: Matching candidate terms in bilingual keyword lists.
low frequency in the Portuguese Cooking corpus. So, we can look at the collocates
of finely and see with which words they occur in the target language corpus. One
of these collocates is chopped, picado in Portuguese. The concordance lines will
show that picado co-occurs with bem, yielding the collocation bem picado, but they
also show a typical Portuguese term picadinho, which may also occur with bem:
bem picadinho (Figure 7).
2 cebolas mdias bem picadas
dente de alho bem picado
junte os tomates pelados bem picados.
Calabresa picadinha
100 g de bacon picadinho
2 dentes de alho picadinhos
Polvilhar salsa bem picadinha
figure 7: Selection of some concordance lines for picad*, sorted by 1st word to the
left.
If even this procedure does not reveal an equivalent, it may be because there
is no equivalent in the target language. Thus, in such instances, it would be useful to suggest an adaptation or insert an explanatory note, as was the case for
buttermilk, mentioned earlier in this paper. Because we are dealing with a comparable corpus, with original texts in both languages, this kind of information may
be retrieved from the corpus itself.
[372]
Building entries
To meet translators needs, as discussed above, entries portrayed the following
information:
(1) head word (part-of-speech)
(2) Example in English
(3) equivalent
(4) example in Portuguese
(5) Comments (if necessary)
(6) cross-reference
Here are a few sample entries from the Photography glossary:
(1) acid-free (adj.)
(2) For added protection, acid-free envelopes and boxes are availabe
from conservation suppliers.
(3) de pH neutro
(4) S so aceitveis para embalagens de arquivo de fotografias
papis de pH neutro ou prximo de neutro, isentos de lignina
e sem corantes.
(5) Termo usado quando um produto contm nvel de pH acima
de 7.0. Indica que em sua composio no foi utilizado nenhum
componente com reao cida ou que, com o passar do tempo
se decomponha produzindo resduos cidos que causam srios
danos s fotografias.
(1) adapter card (n.)
(2) The adapter card may have multiple ports.
(3) carto adaptador
(4) Conecte a extremidade de 6 pinos do cabo em qualquer
port disponvel ao carto adaptador IEEE 1394 do
computador.
(1) additional development (n.)
(6) development, additional
At the end of this process, students had built their bilingual glossaries, which
were examined by the instructor and returned with comments and suggestions.
This way, students had the opportunity to revise their work and make any necessary changes, adjustments or additions. Only the final version was evaluated.
[373]
[5] r e s u l t i n g p r o d u c t s
As mentioned above, this procedure was carried out on two occasions, 2005 and
2008. From the glossaries produced by the 2005 class, one on Chemistry was published in 2007 (Perrotti-Garcia & Rebechi 2007).
A Cooking glossary built along the same lines was produced by a former translation student and co-authored by me (Teixeira & Tagnin 2008). Although not part
of either the 2005 or the 2008 project, it is an offspring of a glossary on Cooking
spices and condiments compiled in the 2001 course. After finishing the Translation course, Teixeira pursued her masters degree with a thesis on the translation of cooking recipes (Teixeira 2004) and her PhD with a dissertation on a proposal for a Cooking dictionary aimed at a translators textual production (Teixeira
2008)6 .
The results of the Photography project, unsurprisingly, were a bit uneven.
One group excelled and one presented very poor material. The work of the other
groups was good but needed some improvement. As the aim was to submit high
quality material to a publisher and only one glossary met this requirement, after
grades had been assigned, the instructor called a meeting of those who would be
interested in pursuing the project on their own time and making all necessary
adjustments for the work to be suitable for submission to the publisher. A group
of five students7 decided to embrace the project and the final material was submitted in early 2009. As it is the publishers policy to have all technical glossaries
revised by a professional in the area, the material was examined by a professional
photographer who returned it with a few comments and suggestions. These were
worked on by the group and the Vocabulrio para fotografia was eventually published in 2013 (Tagnin 2013).
[6] a n i n t e r e s t i n g o u t c o m e
A couple of years ago I participated in a round table on the teaching of translation. One of my colleagues, Fabio Alves, from the Federal University of Minas
Gerais, presented the concept of deliberate practice. It goes something like this:
for students to acquire translation competence, their training should aim at developing specific skills that will contribute to their optimal learning and expert
performance in a certain field (Ericsson & Charness 1997). This requires certain
conditions to be met, among which the most mentioned one is subjects motivation to attend to the task and exert effort to improve their performance (Ericsson
et al. 1993, pg. 367) .This is developed by Shreve (2006, pg. 29) who states that for
deliberate practice to occur, the following requirements must be met:
[6]
[7]
Both works were done under the authors supervision.

Angelica Royo, Eliana C. R. Antonopoulos, Helena Akemi Misumi, Moira Martins de Andrade and Veridiana Rocha Schwenck.
[374]

(i) tasks should be well-defined;
(ii) they should involve appropriate difficulty for the student;
(iii) there should be possibility for informative feedback;
(iv) there should be opportunities for repetition and correction.
Although the methodology described did not follow at least consciously
any learning theory, it has been pointed out (Alves & Tagnin 2010) that it met
the conditions for Shreves deliberate practice. First of all, the task was highly
motivating because, quality permitting, the final outcome would be submitted to
a publisher who brings out a collection of technical glossaries. Besides,
(i) the task was well-defined: students knew what was expected of them and
they were instructed in the stages to be followed to complete the project;
(ii) it involved an adequate degree of difficulty as most of the class had no
previous training in Corpus Linguistics;
(iii) students received informative feedback by means of comments and suggestions provided by the instructor, both throughout the course and on the
pre-final glossary;
(iv) students had the chance to repeat any of the stages, if needed, and make
necessary corrections and only then turn in their final version.
Further evidence was obtained in a questionnaire aimed at checking whether
the above conditions had actually been met. The questionnaire was answered by
both authors of the Chemistry glossary (Perrotti-Garcia & Rebechi 2007) independently two years later. They remarked that a) they learned a lot in their work
with corpora; b) they realized that, in retrospective, they could have produced a
more complete glossary, which attests to the fact that they had incorporated the
methodology into their professional practice; c) the feedback they received from
the technical reviser (as part of the publishers preparation of the final version
of the material for publication) helped them to improve the glossary. One of the
authors underscored that the methodology really worked and that the use of a
corpus can help overcome difficulties which are inherent to working in an area in
which one is not an expert (Alves & Tagnin 2010). It must be remembered that
they were both students and not experts in chemistry, although one of them had
studied a bit of Biochemistry as part of her training as a dentist. They also mentioned that the reviser, a translator and chemical engineer, commented that she
would never have been able to collect the terms as [the authors] did.
[375]
This article was intended to demonstrate how a corpus-driven methodology can

produce glossaries that meet the translators needs and how this practice can enhance students translation competence.
The methodology described showed that building corpus-driven glossaries
can be an adequate practice to enhance students performance towards achieving translation competence. First, because Corpus Linguistics has shown to be an
effective approach to build technical glossaries that meet the translators needs.
Second, because, as it was later discovered, the methodology was considered an
adequate practice in helping students to achieve specialized knowledge and master translation techniques which they will be able to put to use in any technical
area they may come to work in (Alves & Tagnin 2010).
references
Alves, Fbio & Stella Esther Ortweiler Tagnin. 2010. Corpora e ensino de traduo:
o papel do auto-monitoramento e da conscientizao cognitivo-discursiva no
processo de aprendizagem de tradutores novatos. In Vander Viana, Stella
Esther Ortweiler Tagnin & Fbio Alves (eds.), Corpora no ensino de lnguas estrangeiras, 189203. HUB Editorial.
Bowker, Lynne & Jennifer Pearson. 2002. Working with Specialized Language: A Practical Guide to Using Corpora. Routledge.
Ericsson, Anders, Ralf Th. Krampe & Clemens Tesch-Romer. 1993. The Role of Deliberate Practice in the Acquisition of Expert Performance. Psychological Review
100. 363406.
Ericsson, K. Anders & Neil Charness. 1997. Cognitive and developmental factors
in expert performance. In P. J. Feltovich, K. M. Ford & R. R. Hoffman (eds.),
Expertise in context: Human and machine, 341. MIT Press.
Firth, John Rupert. 1957. Papers in linguistics 1934-1951. Oxford University Press.
Fromm, Guilherme. 2008. Votec: A construo de vocabulrios eletrnicos para aprendizes de traduo. So Paulo: Universidade de So Paulo PhD dissertation.
Gonzlez-Jover, Adelina Gmez & Chelo Vargas Sierra. 2004. Aspectos metodolgicos para la elaboracin de diccionarios especializados bilinges destinados al
traductor. In L. Gonzlez & P. Hernuez (eds.), Las palabras del traductor: Actas
del II Congreso El espaol, lengua de traduccin, 365398.
Guinovart, Xavier Gomez & Alberto Simes. 2009. Parallel corpus-based bilingual
terminology extraction. In Marie-Claude LHomme & Sylvie Szulman (eds.), 8th
international conference on terminology and artificial intelligence, .
[376]

Kennedy, Graeme. 1998. An Introduction to Corpus Linguistics. Longman.
Krieger, Maria da Graa & Maria Jos Bocorny Finatto. 2004. Introduo Terminologia: Teoria e prtica. Contexto.
Maia, Belinda. 1997. Do it yourself corpora... with a little bit of help from your
friends! In B. Lewandowska-Tomaszczyk & P. J. Melia (eds.), Practical applications in language corpora, 403410. Lodz University Press.
Maia, Belinda. 2002. Do-it-yourself, disposable, specialised mini corpora - where
next? Reflections on teaching translation and terminology through corpora.
Cadernos de Traduo 1(9). 221235.
Maia, Belinda, Rui Silva, Anabela Barreiro & Ceclia Fris. 2008. N-grams in search
of theories. In Barbaba Lewandowska-Tomaszczyk (ed.), Corpus linguistics, computer tools, and applications: State of the art, vol. 17 Lodz Studies in Language,
7184.
McEnery, Tony & Andrew Hardie. 2011. Corpus Linguistics: Method, Theory and Practice. Cambridge University Press.
McEnery, Tony & Andrew Wilson. 1997. Corpus Linguistics. Edinburgh University
Press.
Perrotti-Garcia, Ana Jlia & Rozane Rodrigues Rebechi. 2007. Vocabulrio para
qumica - Portugus-Ingls / Ingls-Portugus Srie Mil & Um Termos. SBS.
Scott, Mike. 1996. Wordsmith tools. Oxford University Press.
Shreve, Gregory. 2006. The deliberate practice: translation and expertise. Journal
of Translation Studies 9(1). 2742.
Sinclair, John McHardy. 1984. Naturalness in language. In Jan Aarts & W. Weijs
(eds.), Corpus Linguistics, Rodopi.
Sinclair, John McHardy. 1991. Corpus, concordance, collocation. Oxford University
Press.
Tagnin, Stella Esther Ortweiler. 2002. Os corpora: instrumentos de auto-ajuda
para o tradutor. Cadernos de Traduo 1(9). 191219.
Tagnin, Stella Esther Ortweiler. 2007. A identificao de equivalentes tradutrios
em corpora comparveis. In I Congresso Internacional da ABRAPUI, s/pp.
Tagnin, Stella Esther Ortweiler. 2013. Vocabulrio para fotografia. SBS.
[377]
Tagnin, Stella Esther Ortweiler & Cleci Regina Bevilacqua. 2013. Corpora na terminologia. HUB Editorial.
Teixeira, Elisa Duarte. 2004. Receitas qualquer um traduz. Ser? - a Culinria como
rea tcnica de traduo. Universidade de So Paulo MSc thesis.
Teixeira, Elisa Duarte. 2008. A Lingustica de Corpus a servio do tradutor: Proposta
de um dicionrio de Culinria voltado para a produo textual: Universidade de So
Paulo PhD dissertation.
Teixeira, Elisa Duarte & Stella Esther Ortweiler Tagnin. 2008. Vocabulrio para
Culinria ingls-portugus Srie Mil & Um Termos. SBS.
c o n ta c t s
Stella Esther Ortweiler Tagnin
seotagni@usp.br
the identification of indicators of

sentiment using a multi-view
self-training algorithm
BRETT DRURY AND ALNEU DE ANDRADE LOPES
resumo
Este artigo apresenta um algoritmo de multi-view self-training , que identifica os indicadores de sentimento por: 1. extrao relaes causais, 2. As
relaes causais classificao em uma categoria sentimento, 3. agrupamento
causas comuns e 4. atribuindo categorias sentimento a causas comuns para
criar um distribuio sentimento para cada causa comum. Uma avaliao
manual global da estratgia descobriu que ele tinha uma preciso de 70,00%.
Sentiment analysis has become an increasingly popular area of research. Sentiment analysis typically relies upon the detection of words that have a sentiment
orientation. Sentiment analysis is used in time dependent tasks such as reputation management and stock trading. Reputation management identifies positive
or negative in documents published on the Internet to gauge a value of a brand.
Sentiment analysis in stock trading identifies positive, negative or neutral statements in news or blog posts to identify buy or sell signals for specific stocks or
financial indexes. These tasks are time dependent because they rely upon sentiment to make inferences about future events. For example, profit warnings or
sales figures. Once the event has happened, information related to the event is
worthless. In time dependent sentiment analysis the further ahead in time sentiment about a future can be identified the more valuable the information.
This paper presents an algorithm for identifying indicators of sentiment. Indicators of sentiment for the purposes of this paper are noun phrases that indicate
the existence of sentiment at sometime in the future.
The algorithm relies upon the detection of causal relations and the sentiment
classification of the effect part of the causal relation. The algorithm groups together common causes and the associated sentiment classifications. The sentiment classifications are aggregated into a probability distribution. This sentiment probability distribution is an indicator of future sentiment implied by a
mention of a cause in a text.
[380]
drury & lopes

[2] r e l at e d wo r k
The related work will discuss the following: causation in text, causal relation extraction, sentiment classification and prediction of future texts from information
in past documents.
[2.1]
Causation in text
Causal relations in text can be seen as relation that exists between two events if
one event is the cause of the other (Altenberg 1984). Altenberg (1984) stated that
three conditions must exist before a causative relation can exist in written or spoken language. The three conditions are: 1. encapsulate the two members of the
relationship, 2. express the type of relationship between the relations members
and 3. identify the members in a coherent sequence. An alternate definition of
causative relation was provided by Baron (1974) who stated: Causation is a relationship between two states of affairs, X at time T1 and X at time T2 , and a
cause Z that provides the necessary conditions for causing the change from X to
X . Baron (1974) provided four areas that should be considered when analyzing
causative grammar: 1. what it is represented by the causative relation, 2. what
mechanisms does the language have to represent causation, 3. what level in the
grammar is the causation represented and 4. what syntactic/semantic parameters define the relationship between elements in causative constructions (Baron
1974). Baron (1974) further states that causation can be seen as a relation between
entire propositions and/or sentences.
Two types of causation in text can be considered: explicit and implicit. Explicit causation is when the causative link is explicitly stated, for example in the
generalization for causative verbs, N P V N P 1 , that was provided by Levin (1993).
An example of explicit causation that fits the N P V N P pattern is Smoking
causes cancer.. Implicit causation is when the causal link is implied, for example, The sun was bright and I was sweating. The implied cause the action of
sweating is the warmth of the sun.
[2.2]
Causal relation extraction
The causal relation extraction can be grouped into general methods: manual and
automatic. Manual methods rely upon manually identified characteristics of language, typically patterns, to detect a causative relation. The automatic approaches
tend to be supervised machine learning strategies. Supervised learning strategies
are methods where labelled data is used to induce a classification model that is
used to identify causal relations in unlabelled text.
[1]
N P = Noun Phrase, V = Verb
the identification of indicators of sentiment
[381]
Manual Approaches
A simple approach for manual strategies is to use hand crafted patterns. These
patterns are typically created by human experts and can be domain specific, that
cant be generalized to other domains. In addition the rule construction process
can be a time consuming process. There were a number of approaches that relied
upon domain knowledge and hand-crafted rules. One of the earliest examples
found in the literature was by Kaplan (1991). His system had a pipeline that had
several stages that were: 1. hand coded propositional representational parser,
2. semantic analysis component, 3. causal analysis and 4. knowledge base acquisition. Each stage is dependent upon the previous stage. The causal analysis
component creates a causal chain of events based upon the output of the semantic
analysis component (SAC). The output of the SAC are a series of concept frames
that are represented as structured inheritance network. The root node of the network is known as thing, and the sub-nodes can be members of one of the following classes: objects, actions, or relationships. The causal chain is constructed
by using an event seed pair, for example, air rising and air cooling. The effect
part of the pair is used as a part of the next causal pair. This process continues
until no more causal pairs can be made. The detection of causal pairs is achieved
with propositional clues. Joskowicz et al. (1989) identified causal links between
messages generated by equipment installed in navy ships. This approach also relied upon a manual and domain specific approach.
Machine Learning
A popular supervised approach to extract causative relations is to use a sequence
classification strategy. There are a number of machine learning methods that can
be used in sequence classification strategies, for example Hidden Markov Models
(HMM) and Maximum Entropy Markov Models (MEMM). The research literature
indicates that one of the most common methods for causal relation extraction
are Conditional Random Fields (CRF). Mehrabi et al. (2013) used CRFs in a supervised strategy to extract causative relations from texts about the Geriatric Care
domain. The authors used the following features: tokens, token categories, prefix and suffixes, and Part Of Speech (POS) tag. The CRF had three possible labels:
cause, effect and out.
Riaz & Girju (2014) used verbs and nouns as features for a classifier2 . The features were grouped as: lexical, semantic and structural. Lexical features were described as verb, lemma of verb, noun phrase, lemma of all words of noun phrase,
head noun of noun phrase, lemmas of all words between verb and head noun of
noun phrase.. The semantic features used were the nine noun hierarchies of
WordNet. The structural features were the subject and object of a verb.
[2]
The authors describe the classifier as a basic supervised classifier.

[382]
drury & lopes
[2.3] Sentiment Analysis

There are different types of sentiment analysis, for example: extraction of sentiment lexicons (fine grained) and classification (document level). This related
work will concentrate on sentiment classification because it is directly related
to the work described in this paper. Sentiment classification treats sentiment as
a classification task that assigns a document to a category, typically: negative,
neutral or positive. A common approach is to use machine learning (Pang et al.
2002). Machine learning uses training data to induce a classification model. The
model is then used to classify unlabelled instances into the aforementioned categories. Labelled data for sentiment classification can be imbalanced with one
category comprising the majority of the data-set (Drury & Lopes 2014). There
are a number of strategies to reduce the effect of imbalanced data for sentiment
classification, and balancing by oversampling seems to be the most effective for
imbalanced Portuguese sentiment data (Drury & Lopes 2014).
Manually labelling data can be a time consuming task, consequently there has
been a number of approaches that use semi-supervised learning.3 Semi-supervised
learning uses labelled and unlabelled data to produce a model from a classifier.
One semi-supervised strategy for sentiment classification is self-training (He &
Zhou 2011). Self-training induces a model from labelled instances and unlabelled
data in an iterative way. In each iteration, high confidence classifications are
added to the labelled data. At the end of an iteration a new model is induced from
the new training data, and the process is continued. The process stops when there
are no new instances added to the training data. Self-training can often produce
worse results than supervised learning (Drury et al. 2011). This is due to a weak
classifier being induced from the training data and propagating errors through
each iteration. There are strategies, such as, guided self-training that attempts to
eliminate these high-confidence errors (Drury et al. 2011).
[2.4] Prediction of Future Information from Texts
This area of related work concentrates upon work that uses past information in
text to predict the likelihood of a future event. Radinsky & Horvitz (2013) used
causal chains and probabilistic models to infer the likelihood of a specific event
occurring in the future based upon current information. Hashimoto et al. (2014)
used a supervised approach to learn causal chains and predict future events. They
assumed that causality can be based on three assumptions: 1. two nouns that
are joined by a binary semantic relation form causality between two events when
combined with two predicates, 2. there are specific grammatical scenarios where
causality will occur and 3. cause and events are strongly associated. Radinsky &
Horvitz (2013) produced an algorithm called Pundit that generated event sce[3]
A common alternative strategy is to propagate label from labelled to unlabelled instances in a transductive strategy (Rossi et al. 2014).
[383]
narios from a causal event. Kunneman & Van den Bosch (2012) used Tweets about
Dutch football to predict future transfers of players.
[3] c o r p u s
The corpus that we used for the experiments was news stories about agricultural
in Brazil. These stories were gathered from various sources from the Internet
from 1995 until 2014. The data was not contiguous, and consequently there were
temporal gaps in the data. The stories were split into sentences and POS tagged
with the De Alencar (2010). The corpus contained 295,307 sentences.
[3.1]
Manually Labelled Data
Labelled data was required for the causal relation extraction and the sentiment
classification tasks. A random set of 394 sentences were selected from the corpus.
The data was categorized by a single annotator into two categories: causative and
non-causative. The non-causative category had 84 sentences and the causative
category had 310 sentences. The sentences in the causative category had one of
the following categories added to their words: cause, effect, causative link or noncausative. The density of causative relations was high when compared to other
causative relations annotation exercises we have undertaken (Drury et al. 2014a).
This may be due to the type of text annoatated or the selection of sentences may
have been atypical.
The labelled causative data was sub-divided into three categories (neutral,
negative or positive) for the sentiment classification evaluation. The negative
category had 228 sentences, the neutral 37 and the positive 45 sentences. The
negative category was the majority class. This was unsurprising as most of the
agricultural news stories were negative. Examples of the labelled data can be
found in Table 1. The training data is available from http://goo.gl/IYP1t1.4
Category
Negative
Negative
Positive
Sentence
Recentemente, foram as geadas que afetaram os canaviais.
Fmc lana portal de informaes sobre nematides, praga que
ameaa a cana de acar
o mercado internacional provocaram uma ligeira alta em o pregao
de ontem
table 1: Example of causative labelled data.
[4]
The annotation schema for the data is: N C = non-causitive, CN = Cause Noun, EN = Effect Noun
and CV = Causal Verb.
[384]
drury & lopes

[4] a l g o r i t h m d e s c r i p t i o n
The algorithm was designed to: 1. extract causal relations from text, 2. label
cause, effect and casual link of the relation and 3. classify the causal relation into
negative, neutral or positive categories.
[4.1] Causal Relation Extraction

The causal relation extraction (CRE) part of the algorithm is a multi-view selftraining algorithm (Ando & Zhang 2007), that uses global and local classifiers to
mitigate error propagation through the training iterations. This subsection will
discuss in detail the CRE part of the algorithm and the motivation behind the
choices made.
The global classifier is a relative link density (RLD) classifier (Drury et al. 2014c)
that labels causative verbs in a sentence.5 It is based upon a graph based approach
that propagates causative and non-causative labels from labelled verbs to unlabelled verbs depending upon the link density between the verbs in the graph. The
technique is described in full by (Drury et al. 2014c). RLD is complemented by a
rule tagger that annotates noun phrases in sentences. The rule classifier is based
upon a number of manually created decision rules. This combination of RLD and
rule labeller attempts to identify the N P V N P pattern described in the related
work.
The local classifier is a combination stacked of CRFs. Stacking is a meta-learning technique where the training data is divided randomly between the CRFs.
Each CRF produces a model, the models are used in combination to label casual
relations in text. Each CRF has a separate view of the data, and consequently the
number of errors produced by the models is reduced (Vilalta & Drissi 2002). The
CRFs classify each word in a sentence as either: 1. Non-causative, 2. Causative
Link, 3. Cause or 4. Effect. Classification sequences that match the aforementioned N P V N P are assumed to be causal relations. There were two steps
to train the CRFs. The steps were: feature selection and selection of the metalearning technique.
Feature selection was achieved using a genetic algorithm (GA) (Nongmeikapam & Bandyopadhyay 2011) because: 1. it was not clear what the best features
were and 2. the feature space was large, and it was not possible to test every feature combination. The GA used a pool of a 499 random solutions and 1 seed solution that contained all 54 categories of possible features. The GA used an accuracy
figure from a hold-out evaluation as a fitness function. The hold-out evaluation
used the manually labelled data described on section [3.1]. The hold-out evaluation ignored correct classifications for non-causative words because this class
[5]
A list of causative verbs generated by a previous version of this algorithm is freely available from the
resources described by (Drury et al. 2014b).
[385]
was the majority class and simply guessing this class for all words would have
produced an accuracy of approximately 90.00% without correctly identifying any
causal relations. The accuracy figure was calculated by the number of: 1. effect
words, 2. causative link and 3. cause words classified correctly minus the number
incorrect classification of non-causative and causative elements. The equation for
Ccr
the hold-out function is T cr+Enc
, where Ccr is the number of correct causal relation elements classified (cause, effect, causal link), T cr is the total number of
causal relation elements and Enc is the number of erroneous classifications of
non-causal words as a causal relation element.
The solutions were ranked by accuracy and the bottom 50% of the solutions
were removed. The breeding strategy selected one surviving solution and chose
randomly another surviving solution to breed with. The order of the features of
the breeding solutions was randomized, and 50% of each solution was selected for
the new solution. Duplicate features were removed. The mutation rate was 0.1,
meaning that 25 of the new solutions were mutated. The mutation strategy took
one feature of the solution and either: changed its value or swapped it for a new
feature. The GA ran for 35 generations. The GA was limited to 35 generations because the GA was a time intensive process. The results are displayed in Figure 1.
The diagram shows a steady increase over increasing generations with a number
of plateaus. We hypothesize that the plateaus were caused by delay in the best
solutions influencing the populations. The results represent a 14.28% relative increase over the initial best solution selected on the first generation. The results
were unimpressive because 1. we excluded correct non-causative classifications
from the fitness measure and 2. the limited amount of labelled data produced
weak models.
figure 1: Evolution of accuracy with a GA feature selection

[386]
drury & lopes
O
momento
fumo causa no Sistema Nervoso Central , num primeiro

, a elevao leve no humor e diminuio do apetite
figure 2: Examples of Word Dependencies in a Causal Relation for the Cause Candidate fumo.
The categories of features selected by the GA strategy where: words ahead
(number of words ahead) 16, 4, 8, word behind (number of words behind) 1, word
features: number, punctuation, start of sentence, sentiment value, stopword and
current word. An example of the features is provided in Figure 2, where the
word features are demonstrated for the cause candidate fumo. The look behind word is O and the look ahead words are: do, momento, Nervoso. Each
of these words had a number of word specific features. For example, the cause
candidate, fumo, would have the following word features: IsStartOfSentence:
false, Ispunctuation: false, HasSentimentValue: false, IsStopword:false and CurrentWord: fumo. Each of the look-ahead and look-behind word-features would
be included in the features for the cause-candidate, fumo.
In addition to using feature selection to improve the performance of the CRF
we evaluated the effectiveness of meta-learning. The meta-learning technique we
evaluated was stacking (Klugl et al. 2012) because the research literature suggests
that stacking CRFs outperform a single CRF. The stacking strategy we attempted
was to provide a separate random part of the training data to each individual CRF.
The CRFs then vote on each classification with the majority vote being accepted
as the classification of the stacked CRF.
We performed a basic evaluation of stacked 3 and 5 CRFs against a baseline of
1 CRF. The evaluation was a hold-out evaluation using he manually labelled data
described on section [3.1]. The hold-out evaluation was 80:20 1 X 10 , where the
data was randomly separated into two partitions: 80% for training and 20% for
evaluation. The process was repeated 10 times. An average accuracy was calculated. We found that a stacked 3 CRFs performed gained the highest accuracy on
the hold-out evaluation. A more in-depth evaluation was made that we describe
later on in the paper.
[4.2] Self-training
The labelled data described on section [3.1] was limited, and consequently any
model produced from this data would likely to be weak and produce errors. This
Name of Strategy
Relative Link Classifier + Rule Labeller + Stacked CRF
Relative Link Classifier + Rule Labeller
Relative Link Classifier + Rule Labeller + Single CRF
Single CRF
[387]
Accuracy
Classification
0.81 0.09
0.61 0.09
0.76 0.09
0.13 0.09
Accuracy
Annotation
0.67 0.09
0.64 0.09
0.72 0.09
0.00 0.00
table 2: Analysis of Causal Relation Strategies.

characteristic of a weak classifier was shown in the feature selection experiments
where the single classifier gained relatively low accuracy measures. A semi-supervised learning strategy is a method that combines labelled and unlabelled data to
improve the performance of a classifier.
We choose self-training, that is an iterative technique that adds high confidence classifications of unlabelled data as training data in the next cycle. A weakness of self-training is error propagation where the classifier makes an error in
classification that is then added to the training data that influences the next cycle. It is possible that classifier could have less accuracy after self-training than
the model induced from the training data (Drury et al. 2011).
As stated earlier this algorithm used local and global classifiers to mitigate
error propagation. We performed a number of experiments with various configurations of classifiers to supplement the limited hold-out evaluation we performed earlier. The experiments with self-training were designed to justify the
selections made for the algorithm. The experiments allowed each configuration
of classifiers to classify the whole corpus, and a random selection of 100 classifications were analyzed manually to produce an accuracy figure for: annotations
and sentence classification. There was only one iteration for each classifier due
to time constraints. The combinations analyzed were: 1. single Conditional Random Field, 2. Relative Link Classifier and Rule Labeller, 3. Relative Link Classifier
and Rule Labeller with single Conditional Random Field, and 4. Relative Link Classifier and Rule Labeller with single Conditional Random Field. We calculated an
error bar for that was based upon a confidence interval of 95%. The results are
displayed in Table 2.
The results show that the combinations of the rule classifier with various combinations of CRFs out-performed: Relative Link Classifier and a Single Conditional
Random Field . The stacked CRF was the only combination that outperformed the
Relative Link Classifier by more than the margin of error, consequently it was
chosen for the causative relation extraction of our algorithm. The relative poor
performance of the CRF reflected our experience in the feature selection phase.
The causal relation extraction self-training algorithm is fully described in Algorithm 1.
[388]
drury & lopes

Input: UL,LD, DR
Output: LD
/* UL = unlabelled data, LD = labelled data, DR = decision
rules
*/
while True do
gc train(LD);
crf train(LD) ;
/* gc = RLC, crf = Conditional Random Fields (stacked) */
count 0;
for sentence U L do
/* test if sentence is in labelled data
*/
if sentence in LD then
continue;
end
/* test agreement for verbs v, cause c and effect e */
e, c, v = classif y(DR, gc, sentence);
e1 , c1 , v 1 = classif y(crf, sentence);
if e == e1 and c == c1 and v == v 1 then
count count + 1;
/* Add training candidate to labelled data
*/
LD appendData(LD, e, c, v);
end
end
/* Termination Condition
*/
if count == 0 then
return LD;
end
end
Algorithm 1: Self-training algorithm
[4.3] Sentiment Classification

The second part of the algorithm classifies causal relations extracted by the first
part of the algorithm into one of three sentiment categories (positive, negative or
neutral). The algorithm achieves this by: removing the cause part of the causative
relation, and classifying the remaining part of the relation into one of aforementioned categories.
The sentiment classification part of the algorithm is the Guided Self Training
algorithm described by Drury et al. (2011) who used a combination of rules and
self-training to produce a strong classifier. This strategy has two parts: dictionary construction and self-training.

Positive
avana, atraente, boas, elevar, belo
benvolo, favorvel, timo, benigno
[389]
Negative
prejuzos, baixa, danos, perdas
geadas, quebra, diminuio, falta
table 3: Examples of sentiment words from the dictionary construction process.

Dictionary construction was achieved by extracting: adjectives, adverbs and
nouns from the training data. These words are expanded with synonyms from
Onto.pt (Gonalo Oliveira 2014). Onto.pt is a taxonomy of Portuguese words that
are organized by synsets of related words. The synonyms were extracted by: 1.
loading the taxonomy into the rdflib python library6 and 2. returning words (synonyms) from the same synset as a target word.
The training data was constructed by dividing the training data described on
section [3] into three sentiment categories: neutral, negative and positive. This
data was used for dictionary construction and as training data for a classifier. The
positive dictionary had 312 entities, where as the negative dictionary had 4767
entries. This indicates that the training data was overwhelmingly negative. An
example of the entries are described in Table 3.
The linguistic rules are the rules described by Drury et al. (2011) where a causal
relation is classified in one of the sentiment classes with the following criteria: 1.
a sentence is classified as positive if it has two or more entries from the positive
class and none from the negative dictionary, 2. a sentence is classified as negative if it has two or more entries from the negative dictionary and none from
the positive dictionary, 3. a sentence is classified neutral if it contains no entries
from either the positive or negative dictionaries, and 4. if a sentence contains
one entry from the positive or the negative dictionaries then no classification is
made.
The guided self-training strategy was adjusted to use balancing strategies to
improve the performance of the induced model. We used random over balancing
that has been shown to gain good results in sentiment classification of Portuguese
(Drury & Lopes 2014). The guided self-training algorithm for sentiment classification is described in Algorithm 2.
Guided Self-training evaluation:

The suitability of the sentiment classification strategy was evaluated with 80:20 1
X 10 hold-out evaluation. The hold-out evaluation relied upon labelled data, that
in this case was the labelled sentiment data described on section [3.1]. The holdout evaluation reversed 80% of the data for training and 20% for testing. The test
was repeated 10 times with different splits of the data. The competing strategies
[6]
http://code.google.com/p/rdflib/.
[390]
drury & lopes

Input: UL,LD, DR, MC
Output: SC
/* UL = unlabelled data, LD = labelled data, DR = decision
rules, Minimum Confidence, SC = Sentiment Classifier
*/
while True do
/* Balance Training Data
*/
LD1 = Balance(LD);
sc train(LD1);
/* sc = sentiment classifier
*/
count 0;
for sentence U L do
/* test if sentence is in labelled data
*/
if sentence in LD then
continue;
end
DRc = classif y(DR, sentence);
scc = classif y(sc, sentence, M C);
if scc == N one then
continue;
end
/* Add training candidate to labelled data
*/
count = count + 1;
if Drc == N one or scc == DRc then
LD appendData(LD, scc, sentence);
else
LD appendData(LD, DRc, sentence);
end
end
/* Termination Condition
*/
if count == 0 then
return sc;
end
end
Algorithm 2: Guided Self-training.
were tested on the same splits. The evaluation measure was accuracy. The results
are displayed in Table 4. The results clearly show that the guided self-training
strategy produced the superior results.

Strategy
Supervised
Guided Self-Training
[391]
Accuracy
0.73 0.04
0.84 0.06
table 4: Results for Hold-Out Evaluation.
[5] s e n t i m e n t p r e d i c t i o n
The last step in the strategy is to assign a sentiment probability to a cause. This is
achieved by grouping common causes and aggregating their sentiment categories
to produce a sentiment distribution for a specific cause. This grouping process
is illustrated in the following example. We have three causative sentences and
their sentiment categories: 1. chuva causa cheias no Porto, neutral, 2. chuva
causa danos em Minas Gerais, negative and 3. Chuva causa inundaes e destri
casa em Itapetininga, negative. When the cause is chuva, and its sentiment
distribution would be P = {N eu = 0.33, N eg = 0.66, P os = 0.0}.
[5.1]
Experiments
The experiments for sentiment prediction manually evaluated the sentiment classifications for specific common causes. In the experiments we ran the aforementioned causal relation extractor and sentiment classifier. The relations were
grouped by cause and their sentiment distributions calculated. There were 4988
common causes. The most frequent sentiment causal events and their sentiment
distributions are displayed in Table 5.
No. Causal Rel.
116
95
76
73
70
59
41
38
35
30
Cause Event
seca
estiagem
chuvas
cana acar
chuva
clima
governo
brasil
crise
cana
Sent Dist.
neg 0.66 pos 0.05 neu 0.28
neg 0.58 pos 0.13 neu 0.29
neg 0.41 pos 0.04 neu 0.55
neg 0.16 pos 0.1 neu 0.74
neg 0.36 pos 0.01 neu 0.63
neg 0.56 pos 0.12 neu 0.32
neg 0.07 pos 0.17 neu 0.76
neg 0.13 pos 0.18 neu 0.68
neg 0.63 pos 0.06 neu 0.31
neg 0.13 pos 0.27 neu 0.6
table 5: Frequent Causal Events and their Sentiment Distribution.
[392]
drury & lopes

Cause Event
Expanso
Pessoas
Petrobras
Baixas Temperaturas
Praga
Homen
Canais
Conab
Praticidade
Aquecimento Global
Acc. Sentiment Category

0.83
0.29
1.0
0.67
1.0
0.54
1.0
0.69
1.0
0.67
Acc. Causal Relation

1.0
1.0
1.0
1.0
1.0
1.0
1.0
0.31
1.0
1.0
table 6: Accuracy for Causal Events.
[5.2] Evaluation
We performed a manual evaluation where we randomly selected 10 cause event
groups and evaluated the causal relations that constitute the sentiment distribution. The evaluation tested if: the sentiment category was correct and it was a
causal relation.
The causal events chosen were: expanso, pessoas, petrobras, baixas temperaturas geadas, praga, homem, canais, conab, praticidade and aquecimento global.
The results are shown in Table 6.
The accuracy of the whole sample for: 1. causative relation detection was 0.91
and 2. sentiment classification was 0.77. We can therefore calculate the overall
accuracy as 0.70 for extracting and classifying causal sentimental relations.
The causal relation extraction strategy performed poorly when the common
cause event was Conab.7 This was a special case because it is an organization that
made: 1. predictions about future events or 2. showed possible effects from a
cause. These statements had causal characteristics, but were not causal relations,
for example, Estudo da Conab mostra impacto do clima nas lavouras.
The errors made by the sentiment classification were between: 1. negative
and neutral categories and 2. positive and neutral categories. This type of error
is less serious than classifying a negative relation as positive or vice-versa because
any inference based from this sentiment mistake will be ignored.
[6] c o n c l u s i o n a n d f u t u r e wo r k
This work introduces a new type of sentiment analysis where we predict a sentiment distribution from a cause event. The initial results are encouraging as they
[7]
http://www.conab.gov.br.
[393]
seem to make intuitive sense. For example, seca8 will be mainly negative for
agriculture because of future lower crop yields, however it seems reasonable that
there may be some positive future news (for farmers) in the form of crop price
rises due to lower supply and constant demand, although this news could be seen
as negative for consumers.
The future work is to evaluate the predictive ability of sentiment distributions
of causes. This work is centred around agriculture, and causes such as falta de
chuva or seca are likely to have similar effects on crops in the future as they
have had in the past. It is reasonable to assume at least in this domain that we
can estimate the sentiment distribution of future news stories. This may allow the
improvement of time dependent sentiment tasks such as reputation management
and stock trading.
acknowledgements
This work was supported by FAPESP grant number: 11/20451-1.
references
Altenberg, Bengt. 1984. Causal linking in spoken and written english. Studia Linguistica 38(1). 2069.
Ando, Rie Kubota & Tong Zhang. 2007. Two-view feature generation model for
semi-supervised learning. In Proceedings of the 24th international conference on
machine learning, 2532. ACM.
Baron, Naomi S. 1974. The structure of english causatives. Lingua 33(4). 299342.
De Alencar, Leonel Figueiredo. 2010. Uma ferramenta para anotao automtica
de corpora usando o NLTK. In The 9th brazilian corpus linguistics meeting, s/pp.
Drury, Brett, Paula C. F. Cardoso, Jorge Carlos Valverde-Rebaza, Alan Valejo, Fabio
Pereira & Alneu de Andrade Lopes. 2014a. An open source tool for crowdsourcing the manual annotation of texts. In Computational processing of the portuguese language - 11th international conference, PROPOR, 268273.
Drury, Brett, Paula C.F. Cardoso, Janie M. Thomas & Alneu de Andrade Lopes.
2014b. Lexical resources for the identification of causative relations in Portuguese texts. In Proceedings of workshop on tools and resources for automatically
processing Portuguese and Spanish, s/pp.
Drury, Brett & Alneu Lopes. 2014. A comparison of the effect of feature selection
and balancing strategies upon the sentiment classification of Portuguese news
stories. In Proceedings of ENIAC, s/pp.
[8]
Table 5.
[394]
drury & lopes

Drury, Brett, Rafael Geraldeli Rossi & Alneu de Andrade Lopes. 2014c. Identification of Brazilian Portuguese causative verbs through a weighted graph classification strategy. In Computational Processing of the Portuguese Language, 274279.
Springer.
Drury, Brett, Lus Torgo & J. J Almeida. 2011. Guided self training for sentiment
classification. In Proceedings of robust unsupervised and semi-supervised methods in
natural language processing workshop, RANLP conference, 916. ACL.
Gonalo Oliveira, Hugo. 2014. The creation of Onto.PT: A wordnet-like lexical ontology for Portuguese. In Proceedings of computational processing of the portuguese
language - 11th international conference (propor 2014), vol. 8775, 161169. Springer.
Hashimoto, Chikara, Kentaro Torisawa, Julien Kloetzer, Motoki Sano, Istvn
Varga, Jong-Hoon Oh & Yutaka Kidawara. 2014. Toward Future Scenario Generation: Extracting Event Causality Exploiting Semantic Relation, Context, and
Association Features. In Proceedings of the 52nd annual meeting of the association
for computational linguistics, vol. 1, 987997.
He, Yulan & Deyu Zhou. 2011. Self-training from labelled features for sentiment
analysis. Information Processing & Management 47(4). 606616.
Joskowicz, L., T. Ksiezyck & R. Grishman. 1989. Deep domain models for discourse
analysis. In Proceedings of the Annual AI Systems in Government Conference, 195
200.
Kaplan, Randy. 1991. Knowledge-based acquisition of causal relationships in text.
Knowledge Acquisition 3(3). 317337.
Klugl, Peter, Martin Toepfer, Florian Lemmerich, Andreas Hotho & Frank Puppe.
2012. Stacked conditional random fields exploiting structural consistencies. In
Pedro Latorre Carmona, J. Salvador Snchez & Ana Fred (eds.), Proceedings of
1st international conference on pattern recognition applications and methods ICPRAM,
240248. SciTePress.
Kunneman, F. & A. Van den Bosch. 2012. Leveraging unscheduled event prediction
through mining scheduled event tweets. In N. Roos, M. Winands & J. Uiterwijk
(eds.), Proceedings of the 24th Benelux Conference on Artficial Intelligence, 147.
Levin, Beth. 1993. English verb classes and alternations. University of Chicago Press.
Mehrabi, S., A. Krishnan, E. Tinsley, J. Sligh, N. Crohn, H. Bush, J. Depasquale,
J. Bandos & M. Palakal. 2013. Event causality identification using conditional
random field in the geriatric care domain. In Proceedings of the 12th International
Conference on Machine Learning and Applications, vol. 1, 339343.
[395]
Nongmeikapam, Kishorjit & Sivaji Bandyopadhyay. 2011. Genetic algorithm (GA)

in feature selection for CRF based manipuri multiword expression (MWE) identification. International Journal of Computer Science & Information Technology 3(5).
5366.
Pang, Bo, Lillian Lee & Shivakumar Vaithyanathan. 2002. Thumbs Up?: Sentiment
Classification Using Machine Learning Techniques. In Proceedings of the ACL-02
Conference on Empirical Methods in Natural Language Processing, vol. 10, 7986.
Radinsky, Kira & Eric Horvitz. 2013. Mining the web to predict future events. In
Proceedings of the Sixth ACM International Conference on Web Search and Data Mining,
255264.
Riaz, Mehwish & Roxana Girju. 2014. Recognizing causality in verb-noun pairs
via noun and verb semantics. In Proceedings of the Workshop on Computational
Approaches to Causality in Language (EACL), 4857. The Association for Computer
Linguistics.
Rossi, Rafael G., Alneu A. Lopes & Solange O. Rezende. 2014. A parameter-free label
propagation algorithm using bipartite heterogeneous networks for text classification. In Proceedings of the 29th Annual ACM Symposium on Applied Computing,
7984. ACM.
Vilalta, Ricardo & Youssef Drissi. 2002. A perspective view and survey of metalearning. Artificial Intelligence Review 18. 7795.
c o n ta c t s
Brett Drury
Brett.Drury@gmail.com
Alneu de Andrade Lopes
alneu@icmc.usp.br
as wordnets do portugus
HUGO GONALO OLIVEIRA, VALERIA DE PAIVA,
CLUDIA FREITAS, ALEXANDRE RADEMAKER,
LIVY REAL E ALBERTO SIMES
abstract
Not many years ago it was usual to comment on the lack of an open lexicalsemantic knowledge base, following the lines of Princeton WordNet, but
for Portuguese. Today, the landscape has changed significantly, and researchers that need access to this specific kind of resource have not one,
but several alternatives to choose from. The present article describes the
wordnet-like resources currently available for Portuguese. It provides some
context on their origin, creation approach, size and license for utilization.
Apart from being an obvious starting point for those looking for a computational resource with information on the meaning of Portuguese words,
this article describes the resources available, compares them and lists some
plans for future work, sketching ideas for potential collaboration between
the projects described.
[1] i n t r o d u o
Relaes semnticas so um aspecto fundamental a ser levado em conta quando

se pretende construir programas de computador capazes de lidar com o contedo
de textos - elas estabelecem associaes de sentido entre palavras e podem ser
integradas em bases de conhecimento lxico-semntico, como a WordNet de Princeton (Miller 1995; Fellbaum 1998, 2010). Disponvel desde o incio da dcada de
1990, a WordNet de Princeton (doravante, WN.Pr) um recurso paradigmtico:
embora criada apenas para o ingls, seu modelo quase um standard, o que se
comprova pela sua ampla utilizao e adaptao a diferentes lnguas (Bond & Paik
2012).
Quanto lngua portuguesa, s na dcada de 2000 foi anunciada a WordNet.PT.
No entanto, e diferentemente da WN.Pr, esta nunca foi de livre utilizao, o que,
na prtica, significou a continuao de uma lacuna para o portugus. Por outro
lado, e paralelamente, surgiram algumas alternativas ao modelo de wordnet, algumas delas alvo de uma comparao feita por Santos et al. (2010), que tambm
aponta questes relacionadas prpria construo de wordnets.
Mas, se as alternativas existentes se mostraram proveitosas em algumas tarefas do processamento computacional da lngua portuguesa veja-se, por exemplo, a utilidade da redes de palavras para o portugus (Gonalo Oliveira 2014)
[398]
gonalo oliveira, paiva, freitas, rademaker, real & simes

continuava a faltar uma wordnet propriamente dita para esta lngua, que tornasse
possvel a utilizao de abordagens usuais no processamento de linguagem natural (PLN), tais como o clculo de similaridade (Resnik 1995) ou a desambiguao
do sentido das palavras (Banerjee & Pedersen 2002), dependentes precisamente
da existncia de uma wordnet para a lngua alvo.
Foi neste contexto que, no incio da dcada de 2010, surgiram no um, mas
vrios projetos que disponibilizaram gratuitamente wordnets para esta lngua,
criados em diferentes contextos e seguindo diferentes abordagens.
Este artigo, escrito pelos responsveis por trs desses projetos, descreve as
vrias wordnets que existem atualmente para a lngua portuguesa, indicando o
contexto em que foram criadas, o processo de construo, a sua disponibilizao
e, dentro do possvel, a sua dimenso. O artigo pode ser visto como uma continuao de Santos et al. (2010), ainda que focado essencialmente em recursos que
adotaram o modelo original da WN.Pr.
Na seco [2] feita precisamente uma breve apresentao da WN.Pr, com
uma referncia ao seu modelo, sua adaptao a outras lnguas e sua expanso
atravs do alinhamento de contedos. Seguem-se vrias descries das wordnets
do portugus, comeando por aquelas que no esto disponveis gratuitamente
(seco [3]), passando depois para outros recursos lxico-semnticos, todos eles
relacionados com as wordnets e a certa altura utilizados como alternativa WN.Pr
(seco [4]), e finalizando com as wordnets livres do portugus (seco [5]). A seco [6] traz uma viso comparativa, onde as vrias wordnets e um conjunto de
algumas das suas propriedades qualitativas e quantitativas so colocadas lado a
lado. Para concluir, apresentamos na seco [7] algum trabalho futuro planeado
para as wordnets de que os autores deste artigo so responsveis, seguido imediatamente de algumas ideias de colaborao que, acreditamos, sero importantes
para estabelecimento destes recursos como alternativas de qualidade para o processamento computacional da lngua portuguesa.
[2] o m o d e l o wo r d n e t
Bases de conhecimento lexical so repositrios organizados de itens lexicais. Entre outras informaes, estes recursos incluem normalmente informao sobre
os possveis sentidos das palavras, relaes entre sentidos, definies e frases que
exemplificam a sua utilizao. O modelo da wordnet, criado para a WN.Pr tendo
o ingls como lngua alvo, provavelmente o modelo mais popular para representar este tipo de recurso. Sua flexibilidade levou no s crescente aceitao
por parte da comunidade PLN, mas tambm sua adaptao para outras lnguas,
tornando-se quase um standard.
[399]
[2.1] WordNet de Princeton: a me de todas as wordnets

A WN.Pr foi criada manualmente no incio da dcada de 1990, e vem sendo atualizada desde ento. Inicialmente baseada em princpios psicolingusticos, combina
informao lexicogrfica tradicional, semelhante encontrada num dicionrio,
com uma organizao adequada para a utilizao computacional, o que facilita a
sua utilizao como base de conhecimento lxico-semntico.
Tal como num tesauro, a WN.Pr organizada em grupos de itens lexicais sinnimos, chamados de synsets, que podem ser vistos como as possveis lexicalizaes
para um conceito de uma lngua. Alm da relao de sinonmia, inerente aos synsets, a WN.Pr abrange outros tipos de relao semntica, estabelecidos entre os
synsets, para alm de algumas relaes entre itens lexicais. Entre as relaes semnticas abrangidas, temos, por exemplo, a hiperonmia o conceito representado por um synset uma generalizao de outro e a meronmia o conceito
representado por um synset uma parte de outro.
Para alm desta informao semntica, cada synset pertence a uma determinada categoria gramatical (substantivo, verbo, adjetivo ou advrbio); tem uma
glosa, semelhante a uma definio num dicionrio; e pode ter ainda frases que
ilustram o emprego de algumas das suas palavras. A incluso de um item lexical num synset indica um sentido desse item. A figura 1 mostra, para a palavra
bird, os synsets na WN.Pr 3.0. Para esta palavra, esto definidos cinco sentidos
nominais e um verbal. Para cada synset, apresenta-se a sua glosa (entre parnteses) e expandiu-se a lista de hipnimos diretos do primeiro synset. Sobre a ordem
de apresentao dos synsets e dos itens que incluem, h a dizer que, sempre que
possvel, so consideradas as respectivas frequncias no corpo SemCor (George A.
Miller and Martin Chodorow and Shari Landes and Claudia Leacock and Robert G.
Thomas 1994), onde esta informao se encontra manualmente anotada.
Apesar de algumas crticas ao modelo da WN.Pr (Sampson 2000), este sem dvida um recurso muito completo, especialmente se considerarmos que foi criado
manualmente. Outros pontos importantes para o seu sucesso e ampla utilizao
foram, por um lado, a flexibilidade do seu modelo e, por outro, a sua disponibilizao gratuita. O primeiro tornou possvel a integrao da WN.Pr numa grande
quantidade de projetos de PLN ou de gesto de conhecimento, tornando o modelo
WN.Pr praticamente standard com relao a vrias lnguas; o segundo fez com que
isso fosse possvel sem quaisquer custos monetrios.
A crescente popularidade deste modelo de base de conhecimento levou criao da Global WordNet Association (GWA), uma organizao no comercial que
oferece uma plataforma para a discusso, partilha e ligao das wordnets no mundo.
Para um levantamento de wordnets e suas licenas, ver (Bond & Paik 2012), ou a
lista, mais atualizada, disponvel a partir da pgina da GWA.1
[1]
Ver http://globalwordnet.org/wordnets-in-the-world/
[400]
Noun
bird (warm-blooded egg-laying vertebrates characterized by feathers
and forelimbs modified as wings)
[direct hyponym]
dickeybird, dickey-bird, dickybird, dicky-bird (small bird; adults
talking to children sometimes use these words to refer to small
birds)
cock (adult male bird)
hen (adult female bird)
nester (a bird that has built (or is building) a nest)
night bird (any bird associated with night: owl; nightingale;
nighthawk; etc)
parrot (usually brightly colored zygodactyl tropical birds with
short hooked beaks and the ability to mimic sounds)

bird, fowl (the flesh of a bird or fowl (wild or domestic) used as food)
dame, doll, wench, skirt, chick, bird (informal terms for a (young) woman)
boo, hoot, Bronx cheer, hiss, raspberry, razzing, razz, snort, bird (a cry
or noise made to express displeasure or contempt)
shuttlecock, bird, birdie, shuttle (badminton equipment consisting of a
ball of cork or rubber with a crown of feathers)
Verb
bird, birdwatch (watch and study birds in their natural habitat)
figura 1: Synsets com a palavra bird na WordNet de Princeton 3.0 e os primeiros

hipnimos a partir de seu primeiro significado.
[2.2]
[401]
WordNets multilngues e outros alinhamentos
No contexto da GWA, foi tambm estudada a possibilidade de alinhar, dentro do

possvel, wordnets de diferentes lnguas, dadas as suas semelhanas. Assim, comearam a surgir algumas wordnets multilngues, como a EuroWordNet (Vossen
1997) ou a MultiWordNet (Pianta et al. 2002), ainda que seguindo abordagens diferentes de desenvolvimento. Na EuroWordNet, wordnets so criadas de forma
independente para cada lngua, procurando-se depois alinhar semelhanas entre
elas ou, indiretamente, atravs da WN.Pr, com recurso ao chamado Inter-language
Index. Na MultiWordNet, o primeiro passo traduzir, dentro do possvel, uma
wordnet pivot, normalmente a WN.Pr, o que garante algum alinhamento.
Entre outras wordnets multilngues, tambm alinhadas WN.Pr, destacam-se
a BalkaNet (Stamou et al. 2002), dedicada s lnguas dos Balcs, e o Multilingual
Central Repository (Gonzalez-Agirre & Rigau 2013) (doravante, MCR), dedicado s
lnguas faladas em Espanha.
A Open Multilingual WordNet (Bond & Foster 2013) (doravante, OMWN) uma
iniciativa que visa facilitar o acesso a diferentes wordnets, para diferentes lnguas.
Para tal, wordnets criadas de forma independente, foram normalizadas, ligadas
WN.Pr e tornadas acessveis atravs de uma interface comum.2
Outra iniciativa que deve ser mencionada a Universal WordNet (de Melo &
Weikum 2009) (doravante, UWN), uma base de conhecimento lexical multilngue
construda automaticamente com base na WN.Pr e no alinhamento de verses
multilngues da Wikipdia, desenvolvida no Instituto de Informtica Max Planck,
na Alemanha. A UWN estende a WN.Pr com cerca de 1,5 milhes de ligaes de
significado (meaning links) para 800 mil palavras em mais de 200 lnguas, apresentando evidncia extrada a partir de uma variedade de meios incluindo wordnets
(monolngues) pr-existentes, dicionrios bilngues e corpos paralelos alinhados.
H tambm vrios alinhamentos entre WN.Pr e outros recursos, incluindo as
ontologias SUMO (Pease & Fellbaum 2010) e DOLCE (Gangemi et al. 2010), e bases de conhecimento que integram a WN.Pr com outros recursos como a Wikipdia, onde se destaca o YAGO (Suchanek et al. 2007); a Wikipdia e outros recursos lxico-semnticos, onde se destacam a UBY (Gurevych et al. 2012), ou a
BabelNet (Navigli & Ponzetto 2012). Por exemplo, a BabelNet, atualmente na verso 3.0, abrange 271 lnguas, incluindo o portugus, o que possvel atravs do
alinhamento da WN.Pr com as verses da Wikipdia para vrias lnguas, a que se
junta ainda informao do Wikcionrio,3 OmegaWiki,4 Wikidata5 , e das wordnets
que fazem parte da OMWN (Bond & Foster 2013).
[2]
[3]
[4]
[5]
Ver http://compling.hss.ntu.edu.sg/omw/
Ver https://www.wiktionary.org/
Ver http://www.omegawiki.org/
Ver http://www.wikidata.org/
[402]

[3] wo r d n e t s f e c h a da s d o p o r t u g u s
No h dvidas que, para alm da flexibilidade do seu modelo, o carter de domnio pblico da WN.Pr foi um fator chave na sua aceitao. Apesar disso, nem
todos os recursos que seguem este modelo optaram por tornar o seu resultado
livre. Neste leque encontra-se a WordNet.PT, aquela que foi a primeira wordnet
do portugus, mas que se encontra disponvel apenas para explorao atravs da
sua pgina web, no sendo possvel ser descarregada para utilizao local ou integrao em diferentes projetos. Para alm da WordNet.PT, esta seco descreve
outros dois projetos que resultaram na criao de uma wordnet para o portugus e
que, por alguma razo, no se encontram disponveis ou, pelo menos, disponveis
gratuitamente. So eles a WordNet.BR, um projeto, aparentemente, inacabado,
e para o qual apenas esto disponveis os synsets, sob a forma do thesaurus eletrnico TeP; e a MWN.PT que pode ser explorada tanto atravs da sua pgina web
como da pgina do projeto MultiWordNet, mas s pode ser descarregada mediante
o pagamento de uma licena acadmica ou comercial.
[3.1] WordNet.PT
A WordNet.PT (Marrafa 2001, 2002) (doravante, WN.PT) ter sido a primeira wordnet para o portugus. Desenvolvida desde 1998, um projeto coordenado por
Palmira Marrafa, no Centro de Lingustica da Universidade de Lisboa, mais propriamente no CLG Grupo de Computao do Conhecimento Lxico-Gramatical,
em colaborao com o Instituto Cames.
A sua construo essencialmente manual e segue o modelo da EuroWordNet
(Vossen 1997), ou seja, a WN.PT criada de raz para a lngua portuguesa. A sua
verso mais recente, WN.PT 1.6, data de 2006 e abrange vrias relaes semnticas, nomeadamente: geral/especfico (incluindo hiperonmia), todo/parte, equivalncia, oposio, categorizao, e ainda relaes entre os participantes num
evento (incluindo instrumento-para ou lugar-para) e definidoras da estrutura de
um evento (incluindo estar-envolvido-em ou lugar-para). A mesma verso cobre os
seguintes domnios semnticos: atividades artsticas e profissionais, comida, regies geogrficas e polticas, instituies, instrumentos, meios de transporte, vias
de comunicao, obras de arte, sade e atos mdicos, seres vivos e vesturio.
Mais recentemente, este recurso foi expandido para WordNet.PT Global
Rede Lxico-Conceptual das variedades do Portugus (Marrafa et al. 2011), que pretende incluir variantes de outros pases de lngua oficial portuguesa. De acordo
com a informao na sua pgina web,6 a WN.PT Global contm uma rede de 10 mil
conceitos, incluindo substantivos, verbos e adjetivos, as suas lexicalizaes nas diferentes variantes do portugus e as suas glosas. Os conceitos esto integrados em
uma rede com mais de 40 mil instncias de relao. Em 2014, foi apresentada uma
[6]
Ver http://cvc.instituto-camoes.pt/traduzir/wordnet.html
[403]
primeira abordagem para expandir a WN.PT de forma semi-automtica (Amaro

2014), atravs da extrao de relaes a partir de um corpo, o que mostra que,
ainda que fechado, este projeto continua ativo.
[3.2] WordNet.Br
A WordNet.BR (Dias-da-Silva et al. 2002; Dias-da-Silva 2006) (doravante, WN.BR)
foi desenvolvida sob a coordenao de Bento Dias da Silva, na Faculdade de Cincias e Letras da Universidade Estadual Paulista, com vista a criar uma wordnet
para a variante brasileira do portugus. Numa primeira fase de desenvolvimento
(Dias-da-Silva et al. 2002), uma equipa de trs linguistas analisou cinco dicionrios
de portugus do Brasil e dois corpos, de forma a obter informao sobre sinonmia e antonmia. Esta fase resultou na criao manual de synsets e relaes de
antonmia entre eles, bem como na escrita de algumas glosas e seleo de frases
exemplo.
Numa segunda fase, os synsets da WN.BR foram alinhados manualmente com
a WN.Pr (Dias-da-Silva 2006), num processo semelhante ao seguido no projeto
EuroWordNet, onde se recorreu a dicionrios bilngues. Aps o alinhamento com
a WN.Pr, as relaes semnticas estabelecidas entre synsets com equivalncias em
portugus e ingls foram herdadas.
Com base no processo relatado, supe-se que a verso completa da WN.BR cobrir as relaes de hiperonmia, parte-de, causa e implicao (entailment). No
entanto, esta verso no se encontra disponvel na rede, provavelmente por a segunda fase de desenvolvimento no ter sido concluda. Por outro lado, possvel
consultar e descarregar os resultados da primeira fase, disponveis sob o nome de
TeP (Maziero et al. 2008) Thesaurus Eletrnico do Portugus. O TeP mantido pelo
Ncleo Interinstitucional de Lingustica Computacional (NILC) da Universidade
de So Paulo, em So Carlos, Brasil. Inclui mais de 44 mil itens lexicais, organizados em 19.888 synsets, que por sua vez esto ligados atravs de 4.276 relaes de
antonmia.
[3.3] MultiWordNet.PT
A MultiWordNet.PT, normalmente referida como MWN.PT,7 a parte portuguesa
do projeto MultiWordNet (Pianta et al. 2002). Foi desenvolvida pelo NLX - Natural Language and Speech Group, na Universidade de Lisboa, e pode ser comprada
atravs do catlogo da European Language Resources Association.8
De acordo com a sua documentao,9 a MWN.PT inclui 17,2 mil synsets validados manualmente, o que corresponde aproximadamente a 21 mil sentidos e 16
mil lemas, que abrangem tanto a variante europeia como a variante brasileira
[7]
[8]
[9]
Ver http://mwnpt.di.fc.ul.pt/
Ver http://catalog.elra.info/
Ver http://mwnpt.di.fc.ul.pt/features.html
[404]

do portugus. Sendo um recurso criado no mbito do projeto MultiWordNet, os
synsets da MWN.PT derivam da traduo dos seus equivalentes na WN.Pr, recurso
com que a MWN.PT est alinhada. Transitivamente, este recurso acaba por estar
tambm alinhado com as MultiWordNets do italiano, espanhol, hebreu, romeno e
latim.
Os synsets da MWN.PT esto ligados atravs das relaes de hiperonmia/hiponmia e meronmia (parte, membro e substncia), e este recurso inclui as subontologias sob os conceitos de pessoa, organizao, evento, localizao, e obras
de arte. Alegadamente, este recurso cobre os 98 conceitos base sugeridos pela
GWA e os 164 conceitos nucleares (core base concepts) indicados pela EuroWordNet
como aqueles que esto presentes em todas as wordnets do projeto.10
Em Santos et al. (2010) verificou-se que a MWN.PT no tinha informao sobre
a categoria gramatical dos synsets. Aps realizarmos vrias buscas a este recurso
no encontramos nenhum resultado para palavras de outras classes que no fossem substantivos, nem mesmo para verbos frequentes como faltar ou ter. Por
isso, admitimos que todas as palavras so substantivos. No entanto, os conceitos
nucleares incluem no s 129 substantivos (66 concretos e 63 abstratos), mas tambm 35 verbos abstratos, que no estaro abrangidos. Para alm disso, no foi possvel encontrar correspondncias equivalentes em portugus para alguns dos synsets abrangidos pela MWN.PT. Por exemplo, os conceitos nucleares human_action
e magnitude_relation da WN.Pr esto alinhados com um GAP! na MWN.PT. A presena de GAP! ou PSEUDOGAP!, interpretados como falhas lexicais, reala precisamente uma limitao da traduo direta de uma wordnet pivot para uma outra
lngua.11 No entanto, devido escassa documentao deste recurso (Santos et al.
2010), no temos como garantir que as gaps sejam fruto realmente de lacunas lexicais, uma vez que no sabemos quais critrios nortearam a traduo da WN.Pr
neste projeto.
[4] a n t e s da s wo r d n e t s l i v r e s
A criao manual de uma wordnet uma tarefa complexa e que requer muito
tempo. Assim, durante a dcada de 2000, investigadores da rea do PLN em portugus que necessitavam e no tinham acesso WordNet.PT tiveram de encontrar
alternativas livres, que, na maior parte das vezes, eram tambm mais simples.
Neste mbito, para alm do TeP (Maziero et al. 2008), j mencionado na seco [3.2], destacam-se:
[10]
[11]
Mais sobre estas listas de conceitos pode ser consultado em http://www.globalwordnet.org/gwa/

ewn_to_bc/topont.htm
Por outro lado, a estratgia da traduo sempre vlida quando a alternativa a ausncia de recurso ou
de recurso alinhado, considerando-se que o interesse est na traduo.
[405]
O OpenThesaurus.PT,12 verso portuguesa correspondente ao projeto homnimo, OpenThesaurus (Naber 2004), normalmente utilizado para sugerir
sinnimos em processadores de texto;
O PAPEL (Gonalo Oliveira et al. 2008), uma rede extrada automaticamente
a partir de um dicionrio da lngua portuguesa, e que liga palavras relacionadas por um vasto leque de relaes. Mais recentemente, o PAPEL foi
expandido para CARTO (Gonalo Oliveira et al. 2011), com base na explorao de mais dicionrios;
Alguns dos recursos desenvolvidos no mbito do Port4Nooj (Barreiro 2010),
construdos no ambiente de desenvolvimento lingustico do NooJ (Silberztein 2005), inicialmente extrados do sistema de traduo automtica OpenLogos (Barreiro et al. 2014). Estes recursos incluem, por exemplo, um conjunto de definies e relaes semnticas entre palavras;
O Dicionrio Aberto (Simes et al. 2012), no qual, juntamente com um dicionrio, so disponibilizadas relaes entre as suas palavras.
Uma descrio mais pormenorizada destes recursos, alguns dos quais comparados em Santos et al. (2010), est contudo fora do mbito deste artigo.
[5] wo r d n e t s l i v r e s d o p o r t u g u s
No incio da dcada de 2010 surgiram vrias wordnets para portugus. Todas

elas tm a particularidade de terem sido criadas de forma automtica ou semiautomtica, ainda que seguindo metodologias diferentes, e de partirem do princpio que recursos lxico-semnticos precisam ser abertos para serem realmente
teis comunidade. Esta seco apresenta, por ordem cronolgica do seu primeiro anncio, as quatro wordnets que se enquadram nesta descrio e que, por
isso, esto disponveis gratuitamente na rede.
[5.1] Onto.PT
A Onto.PT (apresentada inicialmente em (Gonalo Oliveira & Gomes 2010), descrita de forma resumida em (Gonalo Oliveira & Gomes 2014a), e detalhada em
(Gonalo Oliveira 2013)) uma wordnet desenvolvida no mbito do doutoramento
de Hugo Gonalo Oliveira, sob a orientao de Paulo Gomes, no Centro de Informtica e Sistemas da Universidade de Coimbra. O projeto teve incio nos finais de
2008, num contexto em que no existia uma wordnet livre para o portugus, nem
recursos humanos para criar uma nova wordnet para esta lngua. O objetivo foi
sempre criar uma wordnet de forma completamente automtica, aproveitando
[12]
At recentemente disponvel a partir de http://openthesaurus.caixamagica.pt/

[406]

ao mximo os recursos desenvolvidos no mbito do projeto PAPEL (Gonalo Oliveira et al. 2008), nomeadamente gramticas para extrao de relaes a partir
de dicionrios e a definio das relaes extradas. Ao mesmo tempo, tentou-se
aproveitar outros recursos lexicais livres para o portugus, nomeadamente o Wikcionrio.PT,13 o Dicionrio Aberto (Simes et al. 2012), o TeP (Maziero et al. 2008),
o OpenThesaurus.PT e, mais recentemente, a OpenWN-PT (de Paiva et al. 2012;
Rademaker et al. 2014).
A abordagem de construo da Onto.PT, apelidada de ECO (Gonalo Oliveira
& Gomes 2014a), , no entanto, suficientemente flexvel para integrar palavras e
relaes obtidas de outros recursos, o que poder vir a ser feito no futuro. Ela
distingue-se de abordagens baseadas em traduo: em alternativa a encontrar
correspondncia, em portugus, de palavras e synsets em wordnets de outras lnguas, ECO tenta aprender automaticamente toda a estrutura de uma wordnet, incluindo os contedos e prprios limites dos synsets, ou os synsets envolvidos em
cada instncia de relao. Da, e apesar de explorar, de forma automtica, alguns
recursos criados manualmente, os autores se referirem a ela como uma abordagem completamente automtica. A abordagem ECO composta por trs fases
principais:
(i) Extrao de relaes entre palavras, o que at data tem sido feito a partir
de definies de dicionrios.
(ii) Descoberta de aglomerados de palavras (clusters), atravs da explorao do
grafo de relaes de sinonmia. Esta fase pode ou no ter como ponto de
partida um conjunto inicial de synsets j definido, como o do TeP.
(iii) Mapeamento de relaes entre palavras em relaes entre os synsets descobertos.
A figura 2 exemplifica estes trs passos. Na sua verso mais recente, Onto.PT 0.6
(Gonalo Oliveira & Gomes 2014b), h ainda uma fase em que definies de dicionrio so associadas automaticamente a synsets.
A Onto.PT pode ser vista como uma wordnet um pouco diferente do normal.
Isto verifica-se no s na abordagem de construo seguida, mas tambm por ser
um recurso que inclui um vasto conjunto de relaes semnticas, precisamente
o mesmo do projeto PAPEL. Inclui assim no s as relaes mais comuns, como
a hiperonmia e vrios tipos de meronmia, mas tambm outras relaes como
causa, finalidade, local ou maneira.
[13]
Ver https://pt.wiktionary.org/
gado
s.m.
triplo_1
triplo_2
Extrao
conjunto de animais criados para diversos fins;
rebanho
=
rebanho SINONIMO_DE gado
=
animal MEMBRO_DE gado
synset1
=
synset1 +tb triple1 =
synset2
triplos yn1
[407]
=
=
Clustering
{manada, rebanho, mancheia, boiada}
{manada, rebanho, mancheia, boiada, gado}
Mapeamento
{bicho, animal, alimal, bstia, minante}
synset2 MEMBRO_DE synset1
figura 2: Exemplo das trs primeiras fases da abordagem ECO.
Por um lado, a abordagem ECO permite obter uma wordnet de grandes dimenses com pouco esforo a verso 0.6 inclui cerca de 169 mil itens lexicais nicos,
organizados em cerca de 117 mil synsets, que por sua vez se relacionam atravs de
cerca de 174 mil instncias de relao. Por outro, h consequncias a nvel da
qualidade dos contedos. Por exemplo, na verso 0.35 do recurso, estimou-se que
cerca de 74% dos synsets estavam corretos, em 18% no havia concordncia entre avaliadores e os restantes tinham pelo menos uma palavra que no lhes devia
pertencer (avaliao descrita de forma detalhada em (Gonalo Oliveira 2013)). A
qualidade das relaes tambm varia drasticamente consoante o seu tipo. Considerando que relaes entre synsets errados esto tambm erradas, as relaes de
hiperonmia estavam cerca de 65% corretas, nmero que aumentava para 78% a
82% num conjunto que inclua os restantes tipos de relao. Ainda assim, entre outras tarefas, a Onto.PT foi j usada na expanso de sinnimos para recuperao de
informao (Rodrigues et al. 2012) ou de criao de listas de verbos causais (Drury
et al. 2014).
Devido sua abordagem de construo, a Onto.PT no um recurso esttico
e pode, de verso para verso, ter mudanas significativas ao nvel do nmero e
tamanho dos synsets. Assim, no entender dos seus autores, no far sentido tentar alinh-lo com a WN.Pr. H a acrescentar que a Onto.PT se encontra disponvel gratuitamente14 sob a forma de um modelo RDF/OWL, inspirado num modelo
existente para representar a WN.Pr (van Assem et al. 2006), mas expandido para
abranger outros tipos de relao.
[14]
Ver http://ontopt.dei.uc.pt/
[408]
[5.2] OpenWordNet-PT
A OpenWordNet-PT (de Paiva et al. 2012; Rademaker et al. 2014), abreviada como
OpenWN-PT, uma wordnet desenvolvida originalmente por Valeria de Paiva,
Alexandre Rademaker e Gerard de Melo como uma projeo sinttica da Universal
WordNet15 (UNW).
A OpenWN-PT est sendo desenvolvida desde 2010 com o objetivo principal de
servir como subsdio lxico para um sistema voltado para raciocnio lgico, seja
este desenvolvido usando lgicas descritivas (em processo de adaptao) ou lgicas de primeira-ordem, baseadas em representao do conhecimento, por exemplo usando a ontologia SUMO (Pease & Fellbaum 2010).
O processo de construo da OpenWN-PT, decorrente do processo de criao da UWN, usa aprendizagem de mquina para construir relaes entre grafos
que representam informao vinda de verses em mltiplas lnguas da Wikipdia, bem como de dicionrios eletrnicos abertos. Apesar de ter comeado como
uma projeo apenas ao nvel dos lemas em portugus e suas relaes, a OpenWNPT tem sido constantemente melhorada por meio de acrscimos linguisticamente
motivados, quer manualmente, quer fazendo uso de grandes corpos, como o
caso do lxico de nominalizaes que integra a OpenWN-PT (de Paiva et al. 2014b;
Freitas et al. 2014a). Uma das caractersticas da construo deste ltimo recurso
tentar incorporar os diferentes materiais (de qualidade) j produzidos e disponibilizados para a lngua portuguesa, independente de variante.
A OpenWN-PT integra trs estratgias lingusticas no seu processo de enriquecimento lexical: (i) traduo; (ii) corpo; (iii) dicionrios. Com relao traduo,
so usados lxicos e listas produzidas para outras lnguas, como ingls, francs e
espanhol, automaticamente traduzidos e posteriormente revistos. A incorporao de dados de corpos contribui com palavras ou expresses de uso corrente que
podem ser especficas da lngua portuguesa ou que, por outros motivos, podem
no constar nas outras wordnets.
Como a Onto.PT, a OpenWN-PT tambm est disponvel em RDF/OWL, seguindo
e expandindo, quando necessrio, o mapeamento proposto por van Assem et al.
(2006). Tanto os dados da OpenWN-PT quanto as definies do modelo RDF (classes e propriedades) esto livremente disponveis para download.16 A filosofia da
OpenWN-PT consiste em manter a ligao estreita com a WN.Pr, mas tentar remover os erros maiores criados pelos mtodos automticos, usando conhecimentos
lingusticos. Uma consequncia desta ligao estreita com a WN-Pr a possibilidade de minimizar os impactos decorrentes de decises lexicogrficas quanto
[15]
[16]
Por projeo sinttica, entenda-se uma projeo usando simplesmente a informao sintctica de que
registros correspondem a entradas em portugus, sem levar em conta o significado semntico do registro. Como esses registros so construdos automaticamente, pode haver casos em que a configurao foi
equivocada, onde o processo automtico de unificao decidiu que uma palavra em catalo era portugus,
por exemplo.
Ver https://github.com/arademaker/openWordnet-PT
[409]
separao ou agrupamento de sentidos em um synset. Como, em ltima anlise,

tais decises sero sempre arbitrrias (Kilgarriff 1997), o critrio prtico do alinhamento multilngue atua como uma soluo bem vinda.
A OpenWN-PT foi escolhida pelos organizadores dos projetos FreeLing (Padr
& Stanilovsky 2012), OMWN (Bond & Foster 2013) e ainda Google Translate17 como
a representante das wordnets abertas em portugus utilizada por esses projetos,
respectivamente. Presumivelmente essa escolha se deve cobertura abrangente
da OpenWN-PT e tambm sua qualidade. Embora os autores do recurso no
tenham feito medies dessa qualidade, a UWN original produziu estatsticas impressionantes em termos de sua abrangncia e preciso de seus dados mais de
200 lnguas, 1.595.763 ligaes entre termos e significados, 822.212 termos, com
preciso avaliada de mais de 89% em francs, mais de 85% em alemo e mais de
90% em chins (mandarino) como descrito em (de Melo & Weikum 2012). A rede
OpenWordNet-PT tem sido, depois de sua verso inicial baseada na UWN, constantemente revisada e aprimorada manualmente.
A OpenWN-PT tem no momento 43.925 synsets, dos quais 32.696 correspondem a substantivos, 4.675 a verbos, 5.575 a adjetivos e 979 a advrbios. Para alm
de descarregados, os dados podem ser consultados via SPARQL no respetivo endpoint18 e a base pode ser consultada e comparada com outras wordnets,19 usando
o menu para trocar a lngua de ingls para portugus.
[5.3] Ufes WordNet

A Ufes20 WordNet21 (doravante, UfesWN.BR) um projeto que visa a construo
de um banco de dados lxico em Portugus do Brasil com estrutura similar da
WN.Pr (Gomes et al. 2013), baseando-se na traduo automtica da WN.Pr. Para a
traduo, foi construda uma ferramenta baseada na API do Google Translate especificamente com este propsito, e recorrendo ainda biblioteca de acesso WN.Pr,
JWI (Finlayson 2014).
De acordo com os prprios autores, o projeto bastante preliminar, pois foi o
projeto de final de curso de graduao de Marcelo Gomes. Comparaes de abrangncia em termos de nmeros de synsets foram feitas com os recursos TeP 2.0 /
WN.BR, PAPEL, WN.PT, MWN.PT, e Port4Nooj. Note-se que a UfesWN.BR tem o
maior nmero de synsets e a segunda maior coleo de relaes entre os bancos lxicos comparados. Mas somente 31.6% dos elementos dos synsets da WN.Pr foram
traduzidos e essas tradues no so completamente confiveis. Por exemplo, um
dos principais problemas, a desambiguao de termos, relegado ao algoritmo do
[17]
[18]
[19]
[20]
[21]
Ver http://translate.google.com/about/intl/en_ALL/license.html
Ver http://logics.emap.fgv.br:10035/repositories/wn30
Ver http://compling.hss.ntu.edu.sg/omw/cgi-bin/wn-gridx.cgi?gridmode=grid
Universidade Federal do Esprito Santo
Ver https://sites.google.com/site/ufeswordnet/
[410]

Google Translate, aqui usado como caixa preta. Dados sobre a corretude dos synsets propostos no existem, ainda, e um sistema de verificao manual est sendo
considerado. As glosas do WN.Pr tambm foram traduzidas e essas podem ser
teis para outros projetos, dependendo da qualidade e da facilidade de alinh-las
com esses outros projetos.
[5.4] Portuguese Unified Lexical Ontology

O PULO (Simes & Guinovart 2014), abreviatura de Portuguese Unified Lexical Ontology, no deve ser visto como mais uma wordnet. Pretende, sim, ser o incio de
um projeto conjunto de disponibilizao de uma wordnet livre para a lngua portuguesa, perfeitamente alinhada e disponibilizada no projeto MCR: Multilingual
Central Repository (Gonzalez-Agirre & Rigau 2013).
O incio deste projeto, em finais de 2014, consistiu na realizao de algumas
experincias de traduo e alinhamento entre as verses inglesa, espanhola e galega da WordNet. Para alm dessas mesmas wordnets, obtidas do MCR, so usados
dicionrios probabilsticos de traduo (Simes & Almeida 2003), um dicionrio
de traduo dinmico entre as lnguas portuguesa e galega (Guinovart & Simes
2013), e o vocabulrio ortogrfico da lngua portuguesa.
Este processo foi capaz de obter cerca de 50 mil sentidos de palavras, mas
apenas cerca de 17 mil foram realmente adicionadas ao PULO. Isto deveu-se ao
cariz estatstico da abordagem e linha de corte definida. O valor de pontuao
obtido para cada sentido foi devidamente armazenado na base de dados de modo
a que se possa ter informao da qualidade ou relevncia de cada um.
A estrutura ontolgica , neste momento, a mesma que a WN.Pr, que partilhada pelas restantes wordnets disponveis no projeto MCR: ingls, basco, galego,
castelhano e catalo. Embora o facto de se usar uma estrutura ontolgica semelhante, a estrutura interna da base de dados permite que seja facilmente extensvel a novos conceitos.
Neste momento, o PULO est disponvel em linha22 com 17.631 sentidos, referentes a 13.709 synsets diferentes. Posteriormente realizou-se uma traduo automtica das glosas, usando-se para isso a API do MyMemory.23 Atravs da mesma
interface, possvel consultar tambm as restantes lnguas da MCR, bem como a
navegar atravs da ontologia base.
[6] v i s o c o m p a r at i va
Aps a descrio das vrias wordnets para o portugus, esta seco apresenta uma
comparao das suas verses mais recentes, dentro do possvel, atravs de um
conjunto de tabelas onde estas wordnets so colocadas lado a lado e ainda seguidas das mesmas propriedades para a WN.Pr. Chamamos a ateno para o fato
[22]
[23]
Ver http://wordnet.pt
Ver http://mymemory.translated.net/
[411]
desta comparao ser superficial e no dever ser vista como mais que isso. Muitos dos indicadores so meramente quantitativos e no consideram a coerncia
ou a utilidade dos contedos.
A tabela 1 apresenta a abordagem seguida na criao e atualizao de cada
wordnet e a forma de disponibilizao. notrio que a alternativa mais comum
criao manual de uma wordnet para o portugus passa pela traduo, manual (MWN.PT), automtica (UfesWN.BR), numa projeo sinttica (OpenWN-PT),
ou ainda em triangulao (PULO). Dentro destas quatro abordagens, o PULO destaca-se por utilizar no s a WN.Pr como wordnet pivot, mas tambm as wordnets
do espanhol e do galego, includas no MCR. Ao contrrio de todas as outras, a estrutura da Onto.PT aprendida de forma completamente automtica, com base na
extrao de relaes a partir de outros recursos textuais ou de outras wordnets, e
da descoberta de aglomerados (clusters) de sinnimos, que do origem aos synsets.
Entre as vantagens de uma abordagem completamente manual, encontra-se a criao de um recurso com uma correo virtual de 100%. Por outro lado, em uma
abordagem automtica evita-se uma grande quantidade de trabalho cansativo,
alm de ser possvel obter um recurso de maiores dimenses em menos tempo.
Sobre a disponibilizao do recurso, recorda-se que o carter de domnio pblico da WN.Pr foi um dos fatores que levou ao seu sucesso. No entanto, nem
todas as wordnets para o portugus tomaram essa opo e apenas as quatro mais
recentes so de utilizao completamente livre.
Wordnet
WN.PT
WN.BR
MWN.PT
Onto.PT
OpenWN-PT
UfesWN.BR
PULO
WN.Pr
Criao
Synsets
manual
manual
traduo manual?
ER+clustering
projeo UWN
traduo automtica
triangulao
manual
Relaes
manual
transitividade
transitividade
ER+clustering
transitividade
transitividade
transitividade
manual
Atualizao
Utilizao
manual
fechada
manual?
synsets livres
?
licena paga
automtica
livre
semi-automtica
livre
?
livre
semi-automtica
livre
manual
livre
tabela 1: Wordnets do portugus e WN.Pr, a sua abordagem de criao e disponibilizao. Apresenta-se um ? nos casos em que desconhecemos a
forma de atualizao da wordnet em questo.
A tabela 2 compara a dimenso das wordnets do portugus relativamente ao
nmero de itens lexicais abrangidos, separados por categoria gramatical. Neste
campo a Onto.PT destaca-se por incluir um nmero mais de trs vezes superior
segunda wordnet com mais itens lexicais, a OpenWN-PT. Isto confirma que uma
abordagem de construo completamente automtica ser aquela com maiores
possibilidades de construir um recurso de grandes dimenses num curto prazo.
[412]

Igualmente importantes para a dimenso da Onto.PT, a quantidade (atualmente
seis) e o tipo de recursos explorados, que incluram: recursos que cobrem diferentes variantes do portugus, e podem levar a pequenas variaes ortogrficas; e
dicionrios, que tm j uma ampla cobertura da lngua. O uso de dicionrios, quer
de forma manual, quer automtica, comum no processo de construo de uma
wordnet. A sua explorao automtica ser, por um lado, uma forma da wordnet
ter realmente muitas palavras e diferentes sentidos, que existem e so vlidos,
mas em que a utilizao de uma grande fatia pouco comum e de utilidade reduzida.
Wordnet
WN.PT 1.0
MWN.PT v1
WN.BR
Onto.PT 0.6
OpenWN-PT
UfesWN.BR 1.0
PULO
WN.Pr 3.0
Substantivo
9.813
16.000
17.000
97.531
43.996
20.646
10.260
119.034
Verbo
633
0
10.910
32.958
3.914
3.769
4.032
11.531
Itens lexicais
Adjetivo Advrbio
485
0
0
0
15.000
1.000
34.392
3.995
5.422
1.388
9.066
1.498
3.166
173
21.538
4.481
Total
10.931
16.000
43.910
168.876
54.720
34.979
17.631
156.584
tabela 2: Nmero de itens lexicais abrangidos pelas wordnets do portugus.

A tabela 3 apresenta outros indicadores da dimenso e cobertura, nomeadamente o nmero de sentidos de palavras, o nmero de synsets e ainda o nmero de
instncias de relaes, sempre que foi possvel apurar. Mais uma vez, a Onto.PT
destaca-se dos demais. Olhando apenas ao nmero de relaes, a UfesWN.BR tem
um nmero intermdio.
importante notar que existe um balano intrnseco entre o nmero de synsets
e a correo e utilidade da wordnet em questo. Uma das dificuldades em desenvolver uma wordnet precisamente decidir, por um lado, se duas palavras devem
ser consideradas como sinnimos, e por isso colocadas dentro do mesmo synset
e, por outro, que palavras tm de estar em synsets diferentes desafio que desde
sempre acompanha lexicgrafos e para o qual, acreditamos, no h uma resposta
exata. Mas parece haver um consenso de que um nmero muito grande de synsets
pode ser um sinal de rudo no processo de agrupar palavras e/ou no processo
de discriminao. Mas correo sem dvida um dos gargalos da construo de
wordnets. Se, por um lado, dimenso e cobertura so aspectos quantitativos cuja
comparao relativamente simples (ainda que tais nmeros, por si s, no digam muito), o mesmo no pode ser afirmado quanto avaliao da qualidade.
A WN.Pr, construda manualmente, pode at refletir decises questionveis, mas
no contm erros claros, pois estamos usando-a como base de comparao. J
para as wordnets construdas de maneira automtica ou semi-automtica (e para
[413]
lnguas que no o ingls), a avaliao da qualidade ser sempre uma questo complexa, j que no h uma wordnet dourada de referncia e justamente isso o
que se quer construir. Por essa perspectiva, recursos que fazem uso do trabalho
humano apresentam uma vantagem, ainda que no saibamos exatamente como
esta possa ser medida.
Para as wordnets alinhadas com uma wordnet para outra lngua, as relaes
entre synsets podem ser obtidas indiretamente da wordnet pivot, por via de
transitividade. Isso acontece com a MWN.PT, a OpenWN-PT, a UfesWN.BR e com
o PULO. Para a WN.BR, o nmero de relaes apresentado apenas relativo s relaes disponibilizadas juntamente com o TeP, todas elas de antonmia. Para se
compreender melhor a origem destas relaes, foi adicionada tabela 3 a indicao acerca da existncia de algum tipo de alinhamento com outra wordnet. Devido sua abordagem de criao, s a Onto.PT no estar alinhada com a WN.Pr.
Relativamente WN.PT e WN.BR sabemos que, pelo menos, houve intenes de
definir um alinhamento com a WN.Pr, ainda que estes no se encontrem disponveis por vrias vezes os autores da WN.PT mencionam o seu desenvolvimento
dentro da plataforma da EuroWordNet, e os autores da WN.BR indicam como planos futuros o alinhamento da sua wordnet na mesma plataforma (Dias-da-Silva
2006).
Um alinhamento deste tipo pode ser importante para a obteno de conhecimento adicional, a partir no s da WN.Pr, mas tambm de outras a ela alinhadas, o que pode ser relevante em processamento multilngue. Para alm da
herana de relaes, um alinhamento permite aceder a conhecimento de outras
extenses da WN.Pr, tais como a WordNet-domains (Magnini & Cavagli 2000),
a SentiWordNet (Baccianella et al. 2010) ou a TempoWordNet (Dias et al. 2014),
bem como alinhamentos com outros recursos, alguns dos quais referidos na seco [2.2]. Por outro lado, um alinhamento cego pode apresentar limitaes relativas cobertura na lngua alvo, alm de no considerar que lnguas diferentes
representam diferentes realidades socio-culturais, no cobrem a mesma parte do
lxico e, mesmo onde parecem ser comuns, h vrios conceitos lexicalizados de
forma diferente (Hirst 2004). Veja-se, por exemplo, os problemas referidos na
descrio do MWN.PT.
Por fim, na tabela 4 procuramos listar um conjunto de relaes semnticas e
indicar quais esto presentes em cada wordnet. Apesar de algumas wordnets distinguirem entre vrios subtipos destas relaes, optmos por utilizar uma comparao meramente booleana, em que no foi contabilizado nem o nmero de subtipos de cada relao, nem o nmero de instncias de cada tipo. Verifica-se que
apenas WN.PT e Onto.PT cobrem todas as relaes listadas. No caso da Onto.PT,
o conjunto de relaes foi baseado no PAPEL que, por sua vez, se baseou em regularidades presentes em definies de dicionrio. Alguns nomes de relao foram mesmo criados especificamente para um tipo de regularidades, o que torna
[414]

Wordnet
WN.PT 1.5
MWN.PT v1
WN.BR
Onto.PT 0.6
OpenWN-PT
UfesWN.BR 1.0
PULO
WN.Pr
Sentidos
(de palavra)
?
21.000
75,720
248.773
73.802
63.096
17.631
206.978
Synsets
12.630
17.200
19.888
117.450
43.925
48.981
13.709
117.659
Relaes
(instncias)
40.000+
68.735
4.276+?
341.506
74.102
238.413
48.658
285.000
Alinhamento
WN.Pr?
WN.Pr
WN.Pr?
nenhum
WN.Pr
WN.Pr
MCR
tabela 3: Synsets e relaes nas wordnets do portugus. Indicamos com ? casos

em que no conseguirmos confirmar a informao.
o conjunto bastante rico. Igualmente rico o conjunto da WN.PT, que no s cobre todas as relaes listadas como, de acordo com diferentes especificidades de
cada relao, tem vrios subtipos de fundamentao lingustica. A diferena do
conjunto de relaes da WN.PT com a WN.Pr levanta dvidas acerca do tipo de
alinhamento entre estes dois recursos. Para as demais wordnets, dado o seu alinhamento, o conjunto de relaes coberto o mesmo que o da WN.Pr.
Wordnets
WN.PT
MWN.PT
WN.BR
Onto.PT
OpenWN-PT
UfesWN.BR
PULO
WN.Pr
Sinon
Anton
Hiperon
Relaes
Meron
Causa
Finalid
Local
Maneira
tabela 4: Relaes semnticas nas wordnets do portugus.
[7] d i s c u s s o f i n a l
Foram apresentadas e, dentro do possvel, comparadas as vrias wordnets que

existem atualmente para a lngua portuguesa. Entre elas, h quatro wordnets
e uma base de synsets (TeP/WN.BR) livremente disponveis, para alm de uma
wordnet que pode ser comprada (MWN.PT) e de outra que pode ser explorada em
linha (WN.PT). A construo destas wordnets seguiu abordagens diferentes, desde
trabalho completamente manual, passando por abordagens baseadas em traduo, com mais ou menos trabalho manual, ou ainda uma abordagem em que toda
a estrutura da wordnet aprendida de forma automtica. Esperamos ter mostrado que, atualmente, j no faz sentido lamentar que no existe uma wordnet
[415]
para o portugus. Alis, a utilizao de uma wordnet num projeto que vise a lngua portuguesa cada vez menos um problema com uma soluo de remedeio, e
cada vez mais um problema de escolha dentro das alternativas disponveis. Esta
escolha dever considerar, entre outros, a necessidade de alinhamento com outras wordnets, a tolerncia a erros, a necessidade de abrangncia tanto no que
diz respeito s relaes presentes quanto aos itens lexicais cobertos ou mesmo
o oramento disponvel. Uma vez que cada wordnet tem caratersticas diferentes
das demais, tambm no ser de descartar a utilizao de mais de uma no mesmo
projeto.
Ser tambm pertinente perguntar se esta quantidade de alternativas faz sentido ou se seria prefervel os autores interessados focarem-se na construo de
uma nica wordnet para o portugus, tentando aproveitar as foras de cada um
dos projetos descritos.
Os autores deste artigo, responsveis pela Onto.PT, OpenWN-PT e PULO, acreditam que haver vantagens nas duas opes e, por isso, nos prximos tempos,
ser seguida uma abordagem intermdia. Ou seja, o desenvolvimento de cada
wordnet continuar a ser feito pelas mesmas equipas que o tm feito at aqui, mas
haver um maior acompanhamento do trabalho desenvolvido por cada equipa.
Desta forma, entre outras vantagens, cada projeto poder tirar partido do que
feito nos outros, minimizando a quantidade de trabalho duplicado, mas sem perder de vista objetivos especficos de cada projeto.
Como seria de esperar, comum aos trs projetos a vontade de continuar a
melhorar a coerncia, qualidade e abrangncia do seu recurso. Para alm de tarefas j planeadas, a mdio e a longo prazo, especficas para cada um dos projeto,
os autores deste artigo vem com bom olhos futuras colaboraes que possam
tirar partido do que j foi feito e que, a longo prazo, possam at levar a uma integrao ou alinhamento dos seus projetos. Assim, aps enumerar os objetivos
individuais, sero indicadas linhas gerais de potenciais colaboraes que surgem
no seguimento de algumas discusses entre os autores.
[7.1] Trabalho futuro independente

A Onto.PT dever continuar a ser construda com base na extrao automtica de
informao a partir de recursos lexicais disponveis para o portugus. Juntamente
com os recursos atualmente explorados, ser considerada a utilizao de outros,
tais como as definies ou os triplos semnticos do Port4Nooj, a Wikipdia ou os
contedos das restantes wordnets. Continuaro a ser feitas avaliaes dos vrios
mtodos automticos, de forma a conseguir melhorar a qualidade do recurso, e
podero ser feitas avaliaes manuais pontuais, que possam indicar o progresso
dessa mesma qualidade. Uma evoluo estrutural da Onto.PT ser a associao de
um valor numrico, indicador da confiana nos seus contedos e, eventualmente,
outro valor indicador da frequncia de utilizao das palavras em corpos. Esta
[416]

adio daria uma nova dimenso ao recurso e permitiria um tipo de utilizao diferente. Ou seja, a Onto.PT poder continuar a crescer, mas os seus utilizadores
podero definir um limite na confiana dos contedos a usar. Deve ainda dizer-se
que, dada a sua abordagem de construo, a Onto.PT no esttica, nem no tocante a palavras, nem a synsets ou relaes. Assim, ainda que seja possvel esboar
algo intermdio, no est nos planos um futuro alinhamento com a WN.Pr.
As prioridades da OpenWN-PT incluem a uniformizao de contedos, bem
como uma verificao da abrangncia dos synsets nucleares da GWA. A uniformizao passar, entre outros, por verificar se as classes morfolgicas dos termos
esto corretas, por lematizar termos no lematizados, e por garantir que exista
uma coleo compreensiva de verbos, agrupados e classificados de acordo com
suas frames de subcategorizao. A discusso de alguns problemas encontrados
e possveis solues foi j comeada (de Paiva et al. 2014a). Outro objetivo da
OpenWN-PT aprimorar a interface de busca,24 validao e atualizao, para que
isso facilite o trabalho colaborativo de melhoria contnua do recurso. Paralelamente, existe a inteno de expandir o recurso baseando-se em corpos ou em outros recursos, como o PAPEL. Pretende-se faz-lo no s ao nvel da introduo de
novas palavras/sentidos, mas tambm ao nvel de novas relaes e glosas para os
synsets, possivelmente traduzidas da WN.Pr e complementadas com definies de
dicionrios abertos. A OpenWN-PT pretende manter o desenvolvimento em conjunto com o NomLex-PT, e manter a ligao com a GWA e com a OMWN. A longo
prazo, os seus autores pretendem tambm aprimorar o mapeamento da OpenWNPT para a ontologia SUMO (obtido atravs do mapeamento de WN.Pr), o que vai
permitir o estabelecimento de um sistema de raciocnio lgico sobre conhecimentos obtidos atravs de PLN, semelhana do sistema Bridge, desenvolvido pelo
grupo da Xerox PARC (Bobrow et al. 2007).
O PULO, como o projeto mais jovem dos trs, pretende, para j, consolidar
a sua integrao no MCR. Alm disso, est a ser desenvolvida uma interface de
validao dos contedos atravs da inteligncia das massas (vulgo crowdsourcing).
A longo prazo, h tambm a inteno de alinhar o PULO com outros projetos dos
seus autores, nomeadamente o Dicionrio Aberto.
[7.2] Linhas para trabalho conjunto

H vrias ideias para futuras colaboraes entre os projetos, muitas delas j discutidas pelos autores, e que passamos a enumerar:
(i) A wordnet Onto.PT apenas um das contribuies do projeto Onto.PT. Talvez a mais importante tenha at sido a abordagem ECO, adotada na sua construo, e que visa no s criar wordnets de raiz, mas que pode tambm ser
usada para enriquecer wordnets existentes. Assim, far todo o sentido apli[24]
Ver http://logics.emap.fgv.br/wn/
[417]
car alguns dos seus procedimentos automticos para sugerir novos contedos quer OpenWN-PT, quer ao PULO, nomeadamente: (i) novas palavras
a synsets; (ii) novas instncias de relaes abrangidas; (iii) novos tipos de
relao; (iv) glosas.
(ii) H j interfaces de busca para as trs wordnets dos autores, criadas pelos
prprios autores ou por terceiros. No entanto, OpenWN-PT e PULO querem
ir mais longe e ter uma interface de sugesto e validao dos contedos.
Tanto OpenWN-PT como PULO tm j prottipos para essa interface, e o
seu desenvolvimento poderia ser feito em parceria.
(iii) Seria interessante fazer uma ponte entre outros recursos desenvolvidos pelos mesmos autores. Isto incluiria, por exemplo, um alinhamento do NomLexPT com o PULO e o Dicionrio Aberto no s com PULO, mas tambm o
OpenWN-PT. O Dicionrio Aberto poderia mesmo ser utilizado como uma
fonte adicional de glosas em portugus para os synsets de qualquer uma das
wordnets.
(iv) Os contedos de OpenWN-PT e PULO podero ser explorados pela Onto.PT
e ser uma fonte adicional para calcular o tal valor numrico de confiana.
Alis, medida que estes recursos forem atingindo um nvel maior de coerncia, podero tambm vir a ser usados como referncia na avaliao da
Onto.PT.
De modo a perceber at que ponto estas wordnets se complementam ou no,
e at que ponto faria sentido e seria possvel algum tipo de integrao ou alinhamento, o ponto de partida para uma colaborao mais estreita deveria passar por
uma comparao mais exaustiva das trs, incluindo, dentro do possvel, as restantes wordnets livres. No que diz respeito s wordnets que esto alinhadas com
a WN.Pr, a comparao ser provavelmente mais fcil e direta.
Por sua vez, a comparao poderia comear de uma forma muito simples, com
a criao de uma ligao na interface de cada wordnet que permitisse obter os resultados da mesma pesquisa nas demais wordnets. Poderia depois passar por selecionar aleatoriamente um conjunto de palavras e analisar no s a sua presena
nas vrias wordnets, como os seus sentidos. Mas dada a dificuldade em avaliar
diretamente uma wordnet, um possvel atalho envolveria a seleo de frases padro teste, em linguagem natural, que transmitam determinada relao semntica de forma objetiva (por exemplo, <x> um tipo de <y>, para hiperonmia, ou <x>
tem um <y>, para meronmia). A partir dessas frases, podem ser geradas variantes
atravs da substituio das duas palavras relacionadas pelos argumentos de qualquer relao do mesmo tipo. Um avaliador dever depois indicar se cada frase
resultado mantm a coerncia semntica. Isto foi j proposto por (Cruse 1986) e
[418]

seguido, entre outros, na avaliao da WN.PT (Marrafa 2002) e numa avaliao inicial da OpenWN-PT (Rademaker et al. 2014). Poderia ainda recorrer-se ao sistema
VARRA (Freitas et al. 2014b) para, por exemplo, procurar por frases de corpos em
que pares de palavras relacionadas co-ocorram.
Por ltimo, a utilidade das wordnets poderia ser tambm medida, por exemplo, atravs do seu desempenho num conjunto de tarefas de PLN bem definidas,
onde fosse necessrio recorrer precisamente a uma wordnet. Entre outras tarefas, destacam-se a recuperao de informao, tarefa para a qual a Onto.PT j
foi usada (Rodrigues et al. 2012), ou a resposta automtica a questes de escolha
mltipla, onde uma comparao entre diferentes recursos lxico-semnticos foi
recentemente ensaiada (Gonalo Oliveira et al. 2014).
agradecimentos
Um agradecimento Belinda Maia, co-organizadora do Workshop on Language Resources for Teaching and Research e da Escola de Vero da Linguateca, ambos realizados na Faculdade de Letras da Universidade do Porto, onde o primeiro autor
deste artigo (Hugo) teve o prazer de ser convidado a apresentar o seu trabalho
desenvolvido no mbito do PAPEL, que viria a dar origem sua investigao em
torno da construo de wordnets.
referncias
Amaro, Raquel. 2014. Extracting semantic relations from portuguese corpora
using lexical-syntactic patterns. Em Proceedings of the 9th international conference
on language resources and evaluation LREC14, ELRA.
van Assem, Mark, Aldo Gangemi & Guus Schreiber. 2006. RDF/OWL representation
of WordNet. W3C working draft World Wide Web Consortium. http://www.
w3.org/TR/2006/WD-wordnet-rdf-20060619/.
Baccianella, Stefano, Andrea Esuli & Fabrizio Sebastiani. 2010. SentiWordNet 3.0:
An enhanced lexical resource for sentiment analysis and opinion mining. Em
Proceedings of 7th International Conference on Language Resources and Evaluation,
22002204. ELRA.
Banerjee, Satanjeev & Ted Pedersen. 2002. An adapted Lesk algorithm for word
sense disambiguation using WordNet. Em Proceedings of the 3rd international conference on computational linguistics and intelligent text processing (CICLing 2002), vol.
2276 LNCS, 136145. Springer.
Barreiro, Anabela. 2010. Port4NooJ: an open source, ontology-driven portuguese
linguistic system with applications in machine translation. Em Proceedings of
the 2008 international nooj conference (nooj08), Cambridge Scholars Publishing.
[419]
Barreiro, Anabela, Fernando Batista, Ricardo Ribeiro, Helena Moniz & Isabel Trancoso. 2014. OpenLogos Semantico-Syntactic Knowledge-Rich Bilingual Dictionaries. Em Nicoletta Calzolari, Khalid Choukri, Thierry Declerck, Hrafn Loftsson, Bente Maegaard, Joseph Mariani, Asuncion Moreno, Jan Odijk & Stelios
Piperidis (eds.), Proceedings of the Ninth International Conference on Language Resources and Evaluation, 37743781. ELRA.
Bobrow, Daniel G, Bob Cheslow, Cleo Condoravdi, Lauri Karttunen, Tracy Holloway King, Rowan Nairn, Valeria de Paiva, Charlotte Price & Annie Zaenen.
2007. Parcs bridge and question answering system. Em Tracy Holloway King
& Emily M. Bender (eds.), Proceedings of the geaf 2007 workshop., 4666. CSLI.
Bond, Francis & Ryan Foster. 2013. Linking and extending an open multilingual
wordnet. Em Proceedings of the 51st annual meeting of the association for computational linguistics, vol. 1, 13521362. ACL.
Bond, Francis & Kyonghee Paik. 2012. A survey of wordnets and their licenses.
Em Proceedings of the 6th global wordnet conference, 6471.
Cruse, Alan D. 1986. Lexical semantics. Cambridge University Press.
Dias, Gal Harry, Mohammed Hasanuzzaman, Stphane Ferrari & Yann Mathet.
2014. TempoWordNet for Sentence Time Tagging. Em Proceedings of the Companion Publication of the 23rd International Conference on World Wide Web Companion,
833838.
Dias-da-Silva, Bento C. 2006. Wordnet.Br: An exercise of human language technology research. Em Proceedings of 3rd international wordnet conference (gwc), 301
303.
Dias-da-Silva, Bento C., Mirna F. de Oliveira & Helio R. de Moraes. 2002.
Groundwork for the Development of the Brazilian Portuguese Wordnet. Em
Advances in Natural Language Processing (PorTAL 2002), 189196. Springer.
Drury, Brett, Paula C.F. Cardoso, Janie M. Thomas & Alneu de Andrade Lopes.
2014. Lexical resources for the identification of causative relations in portuguese texts. Em Proceedings of the 1st Workshop on Tools and Resources for Automatically Processing Portuguese and Spanish, 5663.
Fellbaum, Christiane (ed.). 1998. WordNet: An Electronic Lexical Database (language,
speech, and communication). The MIT Press.
Fellbaum, Christiane. 2010. WordNet. Em Theory and applications of ontology: Computer applications, chap. 10, 231243. Springer.
[420]

Finlayson, Mark. 2014. Java libraries for accessing the princeton wordnet: Comparison and evaluation. Em Proceedings of the Seventh Global Wordnet Conference
(GWC), 7885.
Freitas, Cludia, Valeria de Paiva, Alexandre Rademaker, Gerard de Melo, Livy
Real & Anne de Araujo Correia da Silva. 2014a. Extending a lexicon of portuguese nominalizations with data from corpora. Em Jorge Baptista, Nuno Mamede, Sara Candeias, Ivandr Paraboni, Thiago A. S. Pardo & Maria das Graas
Volpe Nunes (eds.), Computational Processing of the Portuguese Language, 11th International Conference (PROPOR), Springer.
Freitas, Cludia, Diana Santos, Hugo Gonalo Oliveira & Violeta Quental. 2014b.
VARRA: Validao, Avaliao e Reviso de Relaes semnticas no AC/DC. Em
Pesquisas e perspetivas em linguistica de corpus, Mercado de Letras.
Gangemi, Aldo, Nicola Guarino, Claudio Masolo & Alessandro Oltramari. 2010. Interfacing WordNet with DOLCE: towards OntoWordNet. Em Ontology and the lexicon: A natural language processing perspective Studies in Natural Language Processing, chap. 3, 3652. Cambridge University Press.
George A. Miller and Martin Chodorow and Shari Landes and Claudia Leacock and
Robert G. Thomas. 1994. Using a semantic concordance for sense identification.
Em Proceedings of ARPA Human Language Technology Workshop, 240243.
Gomes, Marcelo Machado, Walber Beltrame & Davidson Cury. 2013. Automatic
Construction of Brazilian Portuguese WordNet. Em Proceedings of X National Meeting on Artificial and Computational Intelligence, s/pp.
Gonalo Oliveira, Hugo. 2013. Onto.PT: Towards the Automatic Construction of a Lexical
Ontology for Portuguese: University of Coimbra. Tese de Doutoramento.
Gonalo Oliveira, Hugo. 2014. On the utility of Portuguese term-based lexicalsemantic networks. Em Proceedings of Computational Processing of the Portuguese
Language - 11th International Conference (PROPOR), vol. 8775, 176182. Springer.
Gonalo Oliveira, Hugo, Ins Coelho & Paulo Gomes. 2014. Exploiting Portuguese
lexical knowledge bases for answering open domain cloze questions automatically. Em Proceedings of the 9th Language Resources and Evaluation Conference
(LREC), ELRA.
Gonalo Oliveira, Hugo & Paulo Gomes. 2010. Onto.PT: Automatic Construction
of a Lexical Ontology for Portuguese. Em Proceedings of 5th European Starting AI
Researcher Symposium (STAIRS 2010), vol. 222, 199211. IOS Press.
[421]
Gonalo Oliveira, Hugo & Paulo Gomes. 2014a. ECO and Onto.PT: A flexible approach for creating a Portuguese wordnet automatically. Language Resources and
Evaluation 48(2). 373393.
Gonalo Oliveira, Hugo & Paulo Gomes. 2014b. Onto.PT: recent developments
of a large public domain portuguese wordnet. Em Proceedings of the 7th Global
WordNet Conference, 1622.
Gonalo Oliveira, Hugo, Leticia Antn Prez, Hernani Costa & Paulo Gomes. 2011.
Uma rede lxico-semntica de grandes dimenses para o portugus, extrada a
partir de dicionrios electrnicos. Linguamtica 3(2). 2338.
Gonalo Oliveira, Hugo, Diana Santos, Paulo Gomes & Nuno Seco. 2008. PAPEL: A
dictionary-based lexical ontology for Portuguese. Em Proceedings of Computational Processing of the Portuguese Language - 8th International Conference (PROPOR),
vol. 5190, 3140. Springer.
Gonzalez-Agirre, Aitor & German Rigau. 2013. Construccin de una base de conocimiento lxico multilinge de amplia cobertura: Multilingual Central Repository. Linguamtica 5(1). 1328.
Guinovart, Xavier Gmez & Alberto Simes. 2013. Retreading Dictionaries for the
21st Century. Em Jos Paulo Leal, Ricardo Rocha & Alberto Simes (eds.), 2nd
Symposium on Languages, Applications and Technologies, vol. 29, 115126. Schloss
DagstuhlLeibniz-Zentrum fuer Informatik.
Gurevych, Iryna, Judith Eckle-Kohler, Silvana Hartmann, Michael Matuschek, Christian M. Meyer & Christian Wirth. 2012. UBY - a large-scale unified lexicalsemantic resource. Em Proceedings of the 13th conference of the european chapter
of the association for computational linguistics, 580590. ACL Press.
Hirst, Graeme. 2004. Ontology and the lexicon. Em Steffen Staab & Rudi Studer
(eds.), Handbook on ontologies International Handbooks on Information Systems,
209230. Springer.
Kilgarriff, Adam. 1997. I dont believe in word senses. Computers and the Humanities
31. 91113.
Magnini, Bernardo & Gabriela Cavagli. 2000. Integrating subject field codes into
WordNet. Em Proceedings of 2nd International Conference on Language Resources
and Evaluation (LREC), 14131418. ELRA.
Marrafa, Palmira. 2001. Wordnet do portugus: uma base de dados de conhecimento
lingustico. Instituto Cames.
[422]

Marrafa, Palmira. 2002. Portuguese WordNet: general architecture and internal
semantic relations. DELTA 18. 131146.
Marrafa, Palmira, Raquel Amaro & Sara Mendes. 2011. WordNet.PT Global extending WordNet.PT to Portuguese varieties. Em Proceedings of 1st workshop on
algorithms and resources for modelling of dialects and language varieties, 7074. ACL
Press.
Maziero, Erick G., Thiago A. S. Pardo, Ariani Di Felippo & Bento C. Dias-da-Silva.
2008. A Base de Dados Lexical e a Interface Web do TeP 2.0: Thesaurus Eletrnico
para o Portugus do Brasil. Em VI Workshop em Tecnologia da Informao e da
Linguagem Humana, 390392.
de Melo, Gerard & Gerhard Weikum. 2009. Towards a universal wordnet by learning from combined evidence. Em Proceedings of the 18th ACM Conference on
Information and Knowledge Management (CIKM), 513522. ACM.
de Melo, Gerard & Gerhard Weikum. 2012. UWN: A large multilingual lexical knowledge base. Em Proceedings of the 50th annual meeting of the association for computational linguistics, 151156. Stroudsburg, PA, USA: Association for Computational Linguistics.
Miller, George A. 1995. Wordnet: a lexical database for english. Communications of
the ACM 38(11). 3941.
Naber, Daniel. 2004. Openthesaurus: Building a thesaurus with a Web community.
(retrieved on August 2012). http://www.openthesaurus.de/download/
openthesaurus.pdf.
Navigli, Roberto & Simone Paolo Ponzetto. 2012. BabelNet: The automatic construction, evaluation and application of a wide-coverage multilingual semantic
network. Artificial Intelligence 193. 217250.
Padr, Llus & Evgeny Stanilovsky. 2012. Freeling 3.0: Towards wider multilinguality. Em Proceedings of the Language Resources and Evaluation Conference (LREC),
24732479.
de Paiva, Valeria, Cludia Freitas, Livy Real & Alexandre Rademaker. 2014a. Improving the Verb Lexicon of OpenWordnet-PT. Em Laura Alonso Alemany,
Muntsa Padr, Alexandre Rademaker & Aline Villavicencio (eds.), Proceedings
of Workshop on Tools and Resources for Automatically Processing Portuguese and Spanish, 110115.
de Paiva, Valeria, Alexandre Rademaker & Gerard de Melo. 2012. OpenWordNetPT: An open brazilian wordnet for reasoning. Em Proceedings of 24th International
Conference on Computational Linguistics, 353360.
[423]
de Paiva, Valeria, Livy Real, Alexandre Rademaker & Gerard de Melo. 2014b.
NomLex-PT: A Lexicon of Portuguese Nominalizations. Em Proceedings of the
Ninth International Conference on Language Resources and Evaluation (LREC), 114
124. ELRA.
Pease, Adam & Christiane Fellbaum. 2010. Formal ontology as interlingua: the
SUMO and WordNet linking project and global WordNet linking project. Em
Ontology and the Lexicon: A Natural Language Processing Perspective, chap. 2, 2535.
Pianta, Emanuele, Luisa Bentivogli & Christian Girardi. 2002. MultiWordNet: developing an aligned multilingual database. Em Proceedings of 1st International
Conference on Global WordNet, 293302.
Rademaker, Alexandre, Valeria De Paiva, Gerard de Melo, Livy Maria Real Coelho
& Maira Gatti. 2014. OpenWordNet-PT: A Project Report. Em Proceedings of the
7th Global WordNet Conference, 383390.
Resnik, Philip. 1995. Using information content to evaluate semantic similarity in
a taxonomy. Em Proceedings of the 14th International Joint Conference on Artificial
Intelligence, 448453. Morgan Kaufmann.
Rodrigues, Ricardo, Hugo Gonalo Oliveira & Paulo Gomes. 2012. Uma abordagem ao Pgico baseada no processamento e anlise de sintagmas dos tpicos.
Sampson, Geoffrey. 2000. Review of Fellbaum (1998). International Journal of Lexicography 13(1). 5459.
Santos, Diana, Anabela Barreiro, Cludia Freitas, Hugo Gonalo Oliveira, Jos Carlos Medeiros, Lus Costa, Paulo Gomes & Rosrio Silva. 2010. Relaes semnticas em portugus: comparando o TeP, o MWN.PT, o Port4NooJ e o PAPEL. Em
Textos seleccionados. XXV Encontro Nacional da Associao Portuguesa de Lingustica,
681700.
Silberztein, Max. 2005. NooJ: A Linguistic Annotation System for Corpus Processing. Em Proceedings of HLT/EMNLP on Interactive Demonstrations, 1011. ACL
Press.
Simes, Alberto & Xavier Gmez Guinovart. 2014. Bootstrapping a Portuguese
wordnet from Galician, Spanish and English wordnets. Em Advances in Speech
and Language Technologies for Iberian Languages, vol. 8854, 239248. Springer.
[424]

Simes, Alberto, lvaro Iriarte Sanromn & Jos Joo Almeida. 2012. DicionrioAberto: A source of resources for the Portuguese language processing. Em Proceedings of Computational Processing of the Portuguese Language, 10th International
Conference (PROPOR), vol. 7243, 121127. Springer.
Simes, Alberto M. & J. Joo Almeida. 2003. NATools a statistical word aligner
workbench. Procesamiento del Lenguaje Natural 31. 217224.
Stamou, Sofia, Kemal Oflazer, Karel Pala, Dimitris Christoudoulakis, Dan Cristea,
Dan Tufis, Svetla Koeva, George Totkov, Dominique Dutoit & Maria Grigoriadou.
2002. BalkaNet: A multilingual semantic network for the balkan languages. Em
Proceedings of 1st Global WordNet Conference, 34.
Suchanek, Fabian M., Gjergji Kasneci & Gerhard Weikum. 2007. YAGO: a core of
semantic knowledge. Em Proceedings of the 16th international conference on world
wide web, 697706. ACM.
Vossen, Piek. 1997. EuroWordNet: a multilingual database for information retrieval. Em Proceedings of DELOS workshop on cross-language information retrieval,
57.
c o n ta c t o s
Hugo Gonalo Oliveira
CISUC, Universidade de Coimbra, Portugal
hroliv@dei.uc.pt
Valeria de Paiva
Nuance Communications, USA
valeria.depaiva@nuance.com
Cludia Freitas
PUC-Rio, Brasil
claudiafreitas@puc-rio.br
Alexandre Rademaker
IBM Research e FGV/EMAp, Brasil
alexrad@br.ibm.com
Livy Real
IBM Research, Brasil
livyreal@gmail.com
Alberto Simes
CEH, Universidade do Minho e Linguateca
ambs@ilch.uminho.pt
sentilex-pt: principais caractersticas

e potencialidades
PAULA CARVALHO E MRIO J. SILVA
abstract
This paper describes the main characteristics of SentiLex-PT, a sentiment lexicon designed for the extraction of sentiment and opinion about human
entities in Portuguese texts. The potential of this resource is illustrated on
its application to two types of corpora, the SentiCorpus-PT, a social media
corpus, consisting of user comments to news articles, and a literary piece of
the early twentieth century, The Poor (Os Pobres), by Raul Brando. The data
were processed by UNITEX, a natural language processing system based on
dictionaries and grammars.
[1] i n t r o d u o
A anlise automtica de sentimento (tambm designada na literatura como prospeo de opinio) dedica-se ao tratamento computacional de opinies, sentimentos e atitudes, expressos em textos provenientes de origens diversas, em particular dos media sociais (Liu 2015). As aplicaes que tiram partido desta anlise
baseiam-se, geralmente, em lxicos de sentimento, isto , lxicos cujas entradas
podem ser utilizadas para veicular um determinado sentimento ou emoo. Em
geral, a informao de sentimento descrita nestes recursos corresponde orientao semntica ou polaridade das palavras ou expresses. Neste mbito, os traos mais comummente utilizados so os de negativo, positivo e neutro. A ltima
categoria tem vindo a ser adotada para descrever os casos em que o sentimento
associado a uma determinada expresso no claramente positivo ou negativo,
dependendo fundamentalmente do contexto (sinttico, semntico e discursivo)
em que utilizado (e.g. uma subida surpreendente vs. uma queda surpreendente).
Uma das propriedades das lnguas naturais a ambiguidade ou, numa perspetiva mais abrangente, a vagueza (Santos 1998). Ao nvel do sentimento, uma
mesma palavra pode apresentar polaridades distintas em funo do domnio em
que ocorre, o que tem motivado a apresentao de abordagens para a construo de lxicos de domnios especficos (e.g. Zhang & Singh 2014). , por exemplo, o caso de quente, que, na qualidade de modificador de um nome comestvel
como sopa, pode ser analisado como um predicador positivo (e.g. A sopa ainda est
quente); porm, quando aplicado a um nome bebvel como champanhe, veicula uma
polaridade contrria (e.g. O champanhe est quente).
[426]
carvalho & silva

O SentiLex-PT um lxico de sentimento especificamente concebido para a
anlise de sentimento e opinio sobre entidades humanas em textos redigidos
em portugus. Trata-se de um recurso pioneiro para esta lngua, sendo atualmente constitudo por 7.014 lemas e 82.347 formas flexionadas.1 As entradas adjetivais deste dicionrio foram semiautomaticamente coligidas e classificadas, combinando uma abordagem lingustica, para extrair candidatos a adjetivos humanos
a partir de corpora, e uma abordagem de aprendizagem automtica, para filtrar os
adjetivos humanos a partir da lista de candidatos. A polaridade desses adjetivos
foi atribuda com base num clculo sobre as distncias das palavras, com polaridade conhecida a priori, ligadas aos adjetivos por uma relao de sinonmia num
grafo, inferido a partir de dicionrios de sinnimos disponveis para o portugus
(Silva et al. 2012).
Embora existam atualmente alguns lxicos de sentimento para o processamento de texto em portugus (e.g. Balage et al. 2013; Freitas 2013; Souza et al.
2011), na altura em que o SentiLex foi concebido, no existiam ou no estavam
disponveis dicionrios com estas caractersticas para esta lngua, embora existissem para outras, em particular, o ingls (Hu et al. 2004; Wilson et al. 2005).
De ressalvar, no entanto, que a anlise lingustica das emoes em portugus
uma temtica que tem vindo a ser aprofundadamente investigada na literatura,
destacando-se, entre outros, os trabalhos de Maia (1994/1996), Mendes (2004) e,
mais recentemente, de Santos & Mota (2015).
Passados alguns anos desde a sua disponibilizao, o SentiLex continua a ser
um recurso inovador, distinguindo-se dos restantes lxicos por no ter a ambio
de ser um dicionrio geral, nem to pouco um dicionrio referente a um domnio especfico. Trata-se, antes, de um lxico sinttico-semntico, orientado no
pelo domnio semntico em que as entradas podem ocorrer, mas pelas restries
sintticas que os seus predicadores impem.
As principais potencialidades de utilizao deste lxico esto, pois, intimamente relacionadas com o nmero e a natureza dos atributos que descreve. Cada
uma das suas entradas (adjetivos, verbos, nomes e expresses idiomticas de natureza verbal) tem a propriedade de poder ser utilizada como predicador humano,
isto , exercer modificao sobre um nome de natureza humana, e (apenas) esse
o uso que est contemplado no dicionrio. Em particular, cada entrada contm
informao sobre:
A natureza sinttica do predicador (transitivo ou intransitivo);
A natureza semntica dos argumentos, sobre os quais recai o sentimento
(para j, apenas est contemplada a categoria de humano, mas, a qualquer
momento, possvel incluir outras categorias semnticas);
[1]
A primeira verso do lxico foi disponibilizada ainda em 2010 (SentiLex-PT01). A verso atualmente
disponvel pode ser obtida em: http://dmir.inesc-id.pt/project/SentiLex-PT_02.
sentilex-pt: principais caractersticas e potencialidades
[427]
A polaridade do predicador, tendo em considerao o alvo que este modifica;

O mtodo de atribuio de polaridade (manual ou automtico);
A informao de lema e respetivas formas flexionadas.
A informao de polaridade associada s entradas foi, na maioria dos casos,
manualmente atribuda. Certas entradas adjetivais foram, contudo, automaticamente classificadas por uma ferramenta (denominada JALC) desenvolvida para
este fim, como anteriormente referido. As formas flexionadas dos verbos e das
expresses idiomticas, bem como os respetivos atributos morfolgicos, foram
extrados semiautomaticamente do LABEL-LEX, um lxico de palavras simples desenvolvido pela equipa do LabEL para o portugus (Ranchhod et al. 1999).
[2] p r o p r i e da d e s d o s e n t i l e x - p t
As entradas do lxico correspondem a predicadores humanos, i.e. adjetivos, nomes, verbos e expresses idiomticas de base verbal com a particularidade de
se construir com nomes humanos, elementos nucleares de grupos nominais que,
numa frase, podem desempenhar a funo de sujeito ou de complemento. , por
exemplo, o caso de frgil, que, alm de poder exercer modificao sobre um nome
concreto (e.g. cobertura frgil) ou abstrato (e.g. posio frgil), tambm pode selecionar um nome de natureza humana, sobre o qual exerce modificao (e.g. indivduo frgil). O adjetivo em anlise veicula uma polaridade negativa, qualquer que
seja a natureza do nome com que se combina.
Contudo, h outros casos em que a polaridade do predicador poder diferir
em funo da especificao sinttico-semntica dos argumentos com que este se
constri. Por exemplo, o adjetivo gordo veicula tipicamente um valor negativo,
enquanto modificador de um nome de natureza humana (e.g. indivduo gordo),
mas pode assumir uma polaridade contrria, quando combinado com um nome
como, por exemplo, salrio (e.g. salrio gordo).
H ainda outros casos em que uma mesma forma poder, em funo da construo em que surge, ser, ou no, interpretado como um predicador de sentimento. Por exemplo, o adjetivo distinto dever ser classificado como um predicador de sentimento, com polaridade positiva, quando combinado com sujeitos
de natureza humana (e.g. mdico distinto); contudo, em construes no humanas, a mesma forma poder no veicular qualquer sentimento e/ou polaridade
(e.g. estratgias distintas).
Assim, no desenvolvimento de qualquer lxico, em particular os de sentimento,
deve ter-se em considerao os diferentes contextos sinttico-semnticos em que
as palavras podem ocorrer, para que a descrio das entradas seja o mais fiel possvel, potenciando, desse modo, a sua aplicabilidade em tarefas de processamento.
[428]
carvalho & silva

Foi com base neste princpio que o SentiLex foi construdo. Apenas as construes
que selecionam como argumentos um nome de natureza humana foram consideradas no lxico. H, portanto, termos de sentimento comuns na lngua que,
por serem meros modificadores de nomes no humanos, no esto contemplados
neste lxico (e.g. ntido); pelo contrrio, outros predicadores, como os ilustrados
anteriormente, encontram-se atestados, apesar da sua ambiguidade inerente. De
referir, contudo, que nesses casos, apenas a construo humana, objeto da nossa
anlise, se encontra atestada no SentiLex-PT.
Mesmo restringindo as entradas do SentiLex a predicadores humanos, , ainda
assim, possvel registar entradas estruturalmente ambguas. De facto, uma mesma
forma pode ser encontrada em estruturas sintticas distintas; isto , predicadores homgrafos podem apresentar redes argumentais diferentes, distinguindo-se
pelo nmero e tipo de argumentos que selecionam. , por exemplo, o caso do
adjetivo responsvel, que pode ser simultaneamente encontrado em construes
intransitivas e transitivas. No primeiro caso, o adjetivo, que se constri com um
sujeito de natureza humana, tem polaridade positiva (e.g. Ele uma pessoa responsvel). Na construo transitiva, o adjetivo seleciona, alm do sujeito, um outro
argumento, que ocupa a funo de complemento, introduzido pela preposio por
(e.g. Ele responsvel por esse incidente). Neste ltimo caso, o adjetivo pode ser
substitudo por culpado, que detm um valor negativo.
[2.1] O formato das entradas no SentiLex-lem-PT02

O SentiLex-PT tem dois dicionrios associados: um que descreve os lemas (ilustrado
na Figura 1) e o correspondente de formas flexionadas (ilustrado na Figura 2). No
dicionrio de lemas, cada linha inclui informao sobre:
Lema (convencionalmente a forma masculina do singular para os adjetivos,
a forma singular para os nomes que flexionam em nmero e a forma infinitiva para os verbos e expresses idiomticas);
Categoria gramatical (ADJetivo, Nome, Verbo and IDIOMa);
Atributos de sentimento:
Polaridade (POL), a qual pode ser positiva (1), negativa (-1) ou neutra
(0);
Alvo da polaridade (TG), o qual corresponde a um nome de tipo humano (HUM), com funo de sujeito (N0) e/ou complemento (N1);
Classificao de polaridade (ANOT), a qual pode ter sido manualmente
(MAN) ou automaticamente atribuda, pela ferramenta JALC.
[429]
aberrao.PoS=N;TG=HUM:N0;POL:N0=-1;ANOT=MAN
bonito.PoS=Adj;TG=HUM:N0;POL:N0=1;ANOT=MAN
castigado;PoS=Adj;TG=HUM:N0;POL:N0=-1;ANOT=JALC
estimado.PoS=Adj;TG=HUM:N0;POL:N0=1;ANOT=JALC;REV=AMB
enganar.PoS=V;TG=HUM:N0:N1;POL:N0=-1;POL:N1=0;ANOT=MAN
engolir em seco.PoS=IDIOM;TG=HUM:N0;POL:N0=-1;ANOT=MAN
figura 1: Exemplos de entradas do SentiLex-lem-PT02 (lemas).
aberrao,aberrao.PoS=N;FLEX=fs;TG=HUM:N0;POL:N0=-1;ANOT=MAN
bonita,bonito.PoS=Adj;FLEX=fs;TG=HUM:N0;POL:N0=1;ANOT=MAN
bonitas,bonito.PoS=Adj;FLEX=fp;TG=HUM:N0;POL:N0=1;ANOT=MAN
bonito,bonito.PoS=Adj;FLEX=ms;TG=HUM:N0;POL:N0=1;ANOT=MAN
bonitos,bonito.PoS=Adj;FLEX=mp;TG=HUM:N0;POL:N0=1;ANOT=MAN
engoliste em seco,engolir em seco.PoS=IDIOM;Flex=J2p|J2s;TG=HUM:N0;POL:N0=-1;ANOT=MAN
engolistes em seco,engolir em seco.PoS=IDIOM;Flex=J2p;TG=HUM:N0;POL:N0=-1;ANOT=MAN
engoliu em seco,engolir em seco.PoS=IDIOM;Flex=J4s|P3s;TG=HUM:N0;POL:N0=-1;ANOT=MAN
engulamos em seco,engolir em seco.PoS=IDIOM;Flex=Y1p|S1p;TG=HUM:N0;POL:N0=-1;ANOT=MAN
figura 2: Exemplos de entradas do SentiLex-lem-PT02 (formas flexionadas).

No dicionrio de formas flexionadas, as entradas esto associadas ao respetivo lema. Neste formato, alm das informaes descritas no dicionrio de lemas,
as entradas adjetivais e nominais contm informao sobre a flexo (FLEX) em
gnero (masculino (m) ou feminino (f)) e nmero (singular (s) ou plural (p)). Os
atributos morfolgicos associados aos verbos e expresses idiomticas incluem
informao de tempo, pessoa e nmero, os quais foram automaticamente extrados do dicionrio LABEL-LEX.
[3] a l g u m a s e s tat s t i c a s s o b r e o s e n t i l e x
A maioria das entradas do SentiLex-PT corresponde a predicadores intransitivos,

contando atualmente com 6.627 construes intransitivas e 456 construes transitivas.
No que respeita categoria gramatical das entradas, o lxico descreve maioritariamente adjetivos, mas tambm contempla nomes e verbos predicativos, assim
como expresses idiomticas de base verbal (cf. Figura 3).
Relativamente distribuio de polaridade, observa-se que a maioria dos predicadores contemplados no lxico (67%) apresenta polaridade negativa (cf. Tabela 1). No caso dos predicadores transitivos, a classe mais representativa envolve
a construo com um sujeito positivo e um complemento negativo (162 entradas),
seguida da construo com um sujeito neutro e um complemento negativo (cf. Tabela 2).
[430]
carvalho & silva
figura 3: Distribuio dos lemas no SentiLex por categoria gramatical.
Polaridade
Negativo
Positivo
Neutro
N de
Predicadores
Intransitivos
4.453
1.396
1.396
Exemplos
arrogante; terror; morrer; no ter onde cair morto
misericordioso; beleza; brilhar; levantar a cabea
misterioso; simples; humilde; ingnuo
tabela 1: Distribuio da polaridade associada aos predicadores intransitivos no

SentiLex
[4] e x p l o r a o da s i n f o r m a e s d o s e n t i l e x e m c o r p o r a
Com o objetivo de ilustrar a utilidade das informaes representadas no SentiLex,

comparamos dois corpora distintos, tanto no que se refere ao gnero textual como
inteno comunicativa: o SentiCorpus-PT, um corpus proveniente dos media sociais, constitudo por comentrios de utilizadores a artigos noticiosos no mbito
da poltica2 , e Os Pobres, uma obra literria da autoria de Raul Brando, datada do
incio do sculo XX.3 Para criar o SentiCorpus, compilmos uma coleo de comentrios, escritos por leitores da edio online do jornal Pblico, aos dez artigos que
cobriram os debates polticos que antecederam as eleies legislativas portuguesas de 2009. A coleo composta por 2.795 comentrios (cerca de 8.000 frases),
os quais se encontram associados aos respetivos artigos de notcia (Carvalho et al.
2011).
Ambos os textos foram processados pelo Unitex, um sistema concebido para o
processamento de textos de grandes dimenses, em vrias lnguas (Paumier 2003).
Nesta aplicao, todos os recursos lingusticos so internamente representados
por transdutores de estados finitos, como o caso dos dicionrios e das gramticas
para anlise morfolgica ou sinttica. A tabela 3 apresenta algumas estatsticas
extradas a partir dos referidos textos.
[2]
[3]
O SentiCorpus est disponvel em: http://dmir.inesc-id.pt/project/SentiCorpus-PT.

Texto disponvel em: http://www3.universia.com.br/conteudo/literatura/Os_pobres_de_
raul_germano_brandao.pdf.
Polaridade
N0_Pos
N0_Pos
N0_Pos
N0_Neg
N0_Neg
N0_Neg
N0_Neu
N0_Neu
N1_Pos
N1_Neg
N1_Neu
N1_Neg
N1_Pos
N1_Neu
N1_Neg
N1_Pos
N de
Predicadores
Transitivos
1
162
29
22
9
149
55
29
[431]
Exemplos
estar altura
calar, vencer
impressionar, salvar
encobrir, insultar
ceder, curvar-se
espezinhar, faltar ao respeito
desconfiar, ignorar
admirar, acreditar
tabela 2: Distribuio da polaridade associada aos predicadores transitivos no

SentiLex
Os Pobres
N de tokens (tokens diferentes)
109.169 (7.451)
N palavras (palavras diferentes)
45.803 (7.423)
N palavras de sentimento (palavras diferentes) 4.575 (1.700)
N palavras positivas (palavras diferentes)
1.213
(426)
N palavras negativas (palavras diferentes)
3.140 (1.122)
N palavras neutras (palavras diferentes)
444
(159)
SentiCorpus-PT
112.374 (8.591)
49.304 (8.544)
4.548 (1.805)
2.131
(650)
2.338
(998)
446
(181)
tabela 3: Estatsticas extradas dos corpora

As estatsticas da Tabela 3 permitem concluir que, apesar de diferentes, o nmero de palavras de sentimento reconhecidas em ambos os corpora, aps a aplicao do SentiLex-PT, no chega a perfazer 10% do nmero total de palavras no
texto. De referir, no entanto, que este valor pouco informativo, uma vez que: (i)
o lxico aplicado apenas compreende predicadores de natureza humana, (ii) no
temos a garantia de que as palavras identificadas estejam a ser utilizadas como
verdadeiros predicadores de sentimento nos corpora em questo, e (iii) no temos um ponto de referncia sobre a distribuio das palavras de sentimento nos
corpora.
Em ambos os textos, as palavras ou expresses identificadas como podendo
veicular sentimento correspondem a cerca de 25% do nmero total de palavras
registadas no SentiLex-PT. Porm, no que respeita distribuio de polaridade,
observa-se que no corpus literrio, Os Pobres, predomina o sentimento negativo.
De facto, cerca de 70% das palavras identificadas esto classificadas como negativas e a variedade (ou riqueza) lexical tambm mais expressiva neste caso. Esta
evidncia vai ao encontro do carter marcadamente negativo da obra, classificada
como uma meditao sobre a metafsica da dor e sobre o absurdo da condio huOSLa volume 7(1), 2015
[432]
carvalho & silva

mana, dentro da qual as coordenadas de tempo, espao, intriga ou personagens,
apenas esboadas, servem de cenrio universal e abstrato para o drama secular
da luta do homem entre o sonho e a desgraa.4 Pelo contrrio, a distribuio da
polaridade no SentiCorpus-PT parece ser mais equilibrada. No entanto, seria necessrio analisar em profundidade a distribuio das palavras no texto, para aferir
a validade desta observao. Por um lado, no estamos a ter em considerao o
contexto sinttico onde as potenciais expresses de sentimento ocorrem. No estamos a prever, a ttulo de exemplo, a possibilidade de estas estarem sob o escopo
da negao. De facto, as concordncias abaixo ilustradas, obtidas a partir da pesquisa de termos potencialmente positivos modificados pelo advrbio de negao
no, confirmam esse uso.
ira , mesmo at exausto ,
( os outros no vi ) , onde
o foi 1 ministra mas tambm
o , h 5 anos a investigar ,
ra cima do Lou. O Scrates
cargo a que se candidata? Se
campanha eu vir que a Manela
agamento Especial por Conta?
fia tem uma fora brutal mas
asa gasta. Jerrimo de Sousa
de Estado e da Defesa , logo
O Portadas j demonstrou que
debate destes pois partidos
da GALP , questo a que o PM
pessoa que me fascina. A MFL
! ! ! ! Viva Scrates! Voc
no
no
no
no
no
no
no
No
no
no
no
no
no
no
no
no
a torna verdade. DULCE FORTES NOVO

apresenta nenhuma ideia concreta pa
d garantias de competncia para ti
diz que o homem inocente ou no a
capaz de falar do futuro. O Scra
capaz de aguentar com ritmo um de
capaz de vencer o Scrates , voto
crvel que BE ou PCP governassem
invencvel. A maioria dos Portugu
perfeito nem o seu partido , como
responsvel pelos erros de toda a
transparente , muto menos srio!
elucidaram o povo Portugus nas pol
esclareceu. Mas preciso para se j
est altura das exigncias do gov
est a ser honesta, s no sei se p
Pelo outro lado, os termos classificados como positivos podem estar a ser utilizados de forma no literal, por exemplo, para expressar ironia, um fenmeno extremamente produtivo em textos provenientes das redes sociais (Carvalho et al.
2009).
A Tabela 4 apresenta a lista das cinco palavras de sentimento do SentiLex, com
maior nmero de ocorrncias em cada um dos corpora.
interessante verificar que as palavras em questo, que remetem diretamente
para as temticas retratadas em cada um dos textos, so diferentes. No texto literrio, a palavra mais frequente, sonho, a nica descrita no SentiLex como positiva.
Pelo contrrio, nos comentrios aos debates polticos, o lugar de destaque ocupado por predicadores transitivos, cuja polaridade potencialmente positiva para
[4]
Excerto de texto extrado do Dicionrio de Lngua Portuguesa com Acordo Ortogrfico [em linha]. Porto:
Porto Editora, 20032015. [Data da consulta: 2015-02-13]. Disponvel em http://www.infopedia.pt/
\protect\char"0024\relaxraul-brandao.

Os Pobres
sonho
desgraa
pobres
s
triste
Polaridade
Pos
Neg
Neg
Neg
Neg
Ocorr.
109
89
61
56
50
SentiCorpus-PT
votar
voto
verdade
votos
ganhou
Polaridade
Neu Pos
Neu Pos
Pos
Neu Pos
Pos Neg
[433]
Ocorr.
91
76
50
37
35
tabela 4: Lista de palavras mais frequentes nos corpora

um dos grupos nominais que desempenham a funo sujeito ou de complemento,
como votar (em algum).
Uma anlise mais aprofundada dos corpora permite concluir que mesmo as palavras positivas so frequentemente utilizadas em contexto negativo. Por exemplo, as concordncias a seguir ilustradas mostram, por exemplo, que o modificador adjetival do nome sonho, no texto literrio, , na maioria dos casos, negativo,
alterando, pois, a polaridade da construo nominal.
cobre, a secura dos outros, o
co duro, impenetrvel.{S} o
de beleza. {S}O universo o
is visvel a sua aspirao, o
onlogos cheios de gritos, de
rio, no esquecem esse fio de
noite traga, como farrapos de
ta;{S} a desgraa gasta at o
}E no podia.{S} Porque at o
s enfermarias corre tambm um
onhecido ou descobrindo outro
raro se aqueciam ainda com um
o, da ambio, da vaidade, do
nele entram tambm, como nos
las-eis revolvidas, homens e
, ei-lo que enternecido conta
eles botavam realmente flor,
s os que so apenas restos de
sonho calcado e por terra, lgrimas e en

sonho cativo num ovo hermtico de bronze
sonho dolorido de Deus. {S}Nada se perde
sonho escondido e intil.{S} S o Gebo n
sonho espezinhado, todos lavados em lgr
sonho espezinhado, que ainda sentem corr
sonho espezinhado... {S}Todas as noites
sonho grotesco dos humildes.{S} E elas c
sonho mesquinho dos desgraados se estan
sonho parecido com luar.{S}.. Ser uma f
sonho to vivo, que, de v-lo, cara ful
sonho vo.{S} Fixavam o olhar, perdidos,
sonho vo, para qu?{S} Para ser desgra
sonhos grandiosos, como em todos os dram
sonhos misturados, um rio que tudo acarr
sonhos rotos e tristes, o sonho dos pobr
sonhos tristes, mealhas, almas que nem s
sonhos vivos e despedaados como eu, tm
De facto, para que possamos potenciar a utilizao da informao descrita nos

lxicos de sentimento, fundamental criar gramticas que permitam interpretar
e contextualizar essa informao.
Relativamente distribuio da polaridade nos textos por categoria gramatical, observa-se que as formas adjetivais e verbais so as categorias com maior
representatividade em ambos os corpora, seguidas das formas nominais e, finalmente, das expresses idiomticas.
[434]
carvalho & silva
figura 4: Distribuio da polaridade por categoria gramatical nos SentiCorpus-PT

e Os Pobres, respetivamente
As expresses de sentimento multipalavra, embora menos expressivas em termos de representatividade no lxico, so menos ambguas do ponto de vista lexical
e, por isso, mais informativas, motivando um investimento no seu recenseamento
e formalizao. Este comportamento est ilustrado no extrato da concordncia a
seguir apresentado, extrado do SentiCorpus-PT.
SCRATES! Jovens do meu pas
que a imprensa de referncia
concebido que a pobre senhora
undezas do inferno ) . Tentou
genharia como ele afirma ser.
governar. O BE vai sem dvida
l. Votem neles e dpois venham
u , questionou , barafustou e
o , ... votar PS-socrtico
a carreira como os outros que
o mais comentrios aparecem a
a sua primeira medida a tomar
.. E com razo , que Socrtaes
a sempre. O operrio jernimo
o acordo com o PP. O Socrates
ldades claro que o Scrates
lo , a Manuela Ferreira Leite
em meu entender. Paulo Portas
chegou para ela ! .. . . Quem
s ! ! ! Manuela com que ento
as muito verdadeiras e que s
a mentira. E quem anda aqui a
COERNCIA DE DOIS LDERES.
i muito melhor . . . Fica bem
istas a tomar a tomar ch e a
C EM PAPEL SOLOFAN. Scrates
abram os olhos e corram com esta cambada

andou a dormir ou foi habilmente anestes
andou aos bons e a ver o comboio ( TGV
aplicar golpes baixos ao lider do BE , c
Batem no ceguinho , mas no tm proposta
captar eleitorado ao PS , os resultados
chorar sobre o leite derramado. Votem no
complicou a vida e o discurso de uma sen
dar um tiro no p. O que eu no consigo
davam o litro ) que no gostam porque
denegrir a imagem de Manuela Ferreira Le
desviar dinheiro do SNS e segurana soci
deu cabo do partido E com razo. E como
deu um baile ao falso engenheiro socas.
deu um baile Manelita que est muito m
deu um baile na Manuela. Para ser eleito
deu um banho ao Lou que foi um espect
deu um banho de cultura e de intelignci
deu uma lio a essa senhora Manuela Mou
diz mal dos espanhois e quando eras deri
dizem a verdade , mas no passam de os m
dizer mal do Socrates , que vote noutro
dizer mal por dizer. E pattico o PM v
dizer mal ; alivia tenses , no ? Fico
dizerem mal do governo... uma pea de te
encostou parede Lou. Scrates est a

urrculo , e ele cabisbaixo ,
s sem segurana. Este governo
e humanidade. Francisco Lou
Pinocrates aldrabo Portugal
os ficar a saber que Portugal
ar at ao fim ( 6 , 7 % ? ) ,
la F. Leite complementam-se ,
eitos e virtudes , demonstrou
e a Scrates , acho que Lou
[435]
engoliu em SECO! Toda a gente viu que o

esbanjou dinheiro em reas que no produ
est a anos luz de Jos Scrates , com o
est bem e recomenda-se. Para o Pinocrat
est de tanga , que os desfalques foram
est nas mos do meu amigo Z do Vidoso.
esto bem um para o outro , podem-se cas
estar altura do cargo de Primeiro Mini
esteve bem ao ataque. Ao contrrio do qu
Algumas das construes apresentadas nas concordncias so transitivas, como o caso da construo encostar parede, apresentando dois valores de polaridade distintos: positivo para o argumento que desempenha a funo de sujeito
(no caso, Scrates) e negativo para o argumento que desempenha a funo de complemento direto (no caso, Lou). De salientar que esta informao pode ser corretamente processada por aplicao do SentiLex-PT aos textos, dado que a informao de polaridade tem em conta as propriedades distribucionais dos predicadores,
algo que normalmente ignorado nos lxicos que tm vindo a ser construdos,
tanto para o portugus como para outras lnguas. Esta informao permite, por
exemplo, tornar a extrao de sentimento mais fina e rigorosa. Por exemplo, a
concordncia abaixo resulta do refinamento da pesquisa anterior, requerendo a
presena de uma expresso idiomtica, cuja polaridade potencialmente positiva
para o sujeito e negativa para o complemento do predicador.
u , questionou , barafustou e
.. E com razo , que Socrtaes
a sempre. O operrio jernimo
o acordo com o PP. O Socrates
ldades claro que o Scrates
lo , a Manuela Ferreira Leite
em meu entender. Paulo Portas
chegou para ela ! .. . . Quem
carro usado a Scrates? Quem
C EM PAPEL SOLOFAN. Scrates
complicou a vida e o discurso de uma sen

deu cabo do partido E com razo. E como
deu um baile ao falso engenheiro socas.
deu um baile Manelita que est muito m
deu um baile na Manuela. Para ser eleito
deu um banho ao Lou que foi um espect
deu um banho de cultura e de intelignci
encostou parede Lou. Scrates est a
O SentiLex-PT um recurso de acesso livre, que tem vindo a ser amplamente utilizado por equipas de investigao nacionais e internacionais, em diversas tarefas
de expanso lexical (destacando-se, entre outros, o trabalho de Gonalo Oliveira
et al. 2014) e anlise sentimento, por exemplo, no contexto poltico (Tumitan &
Becker 2014).
[436]
carvalho & silva

No futuro, procuraremos disponibilizar uma nova verso, que incluir informao estatstica (extrada de corpora de grandes dimenses), que permita definir
a probabilidade de um dado termo poder ser potencialmente utilizado como predicador de sentimento e, em particular, como predicador humano. Alm disso,
procuraremos refinar este dicionrio, tirando partido de informaes semnticas disponveis noutros recursos, como o caso do Port4Nooj (Barreiro 2008), e
explorando redes de relaes semnticas em bases de conhecimento baseadas na
WordNet (cf. Rademaker et al. 2014).
agradecimentos
Um agradecimento muito especial Belinda Maia, corresponsvel pelas duas Escolas de Vero organizadas pela Linguateca, onde tivemos a oportunidade de nos
conhecer e de abraar um projeto na rea de anlise de sentimento, de onde, entre
outros recursos, nasceu o SentiLex-PT. Uma palavra de agradecimento tambm
Maria Jos Finnato e ao Hugo Gonalo Oliveira, pela leitura do artigo e pertinentes
sugestes.
O desenvolvimento deste trabalho foi parcialmente apoiado com financiamentos da Fundao para a Cincia e a Tecnologia (FCT), referncias UID/CEC/50021/
2013, EXCL/EEI- ESS/0257/2012 (DataStorm), PTDC/CPJ-CPO/116888/2010 (POPSTAR), UTA-Est/MAI/0006/2009 (REACTION) e SFRH/BPD/45416/2008.
referncias
Balage, Pedro, Thiago Pardo & Sandra Alusio. 2013. An Evaluation of the Brazilian
Portuguese LIWC Dictionary for Sentiment Analysis. Em Proceedings of the 9th
Brazilian Symposium in Information and Human Language Technology, 215219.
Barreiro, Anabela. 2008. ParaMT: A paraphraser for machine translation. Em
Computational Processing of the Portuguese Language, 8th International Conference,
PROPOR 2008, Aveiro, Portugal, September 8-10, 2008, Proceedings, 202211.
Carvalho, Paula, Lus Sarmento, Mrio J. Silva & Eugnio de Oliveira. 2009. Clues
for Detecting Irony in User-generated Contents: Oh...!! Its So Easy;-). Em
Proceedings of the 1st International CIKM Workshop on Topic-sentiment Analysis for
Mass Opinion, 5356. ACM.
Carvalho, Paula, Lus Sarmento, Jorge Teixeira & Mrio J. Silva. 2011. Liars and
Saviors in a Sentiment Annotated Corpus of Comments to Political Debates. Em
Proceedings of the 49th Annual Meeting of the Association for Computational Linguistics: Human Language Technologies, vol. 2, 564568.
Freitas, Cludia. 2013. Sobre a construo de um lxico da afetividade para o proOSLa volume 7(1), 2015
[437]
cessamento computacional do portugus. Revista Brasileira de Lingustica Aplicada 13. 10311059.

Gonalo Oliveira, Hugo, Antnio Paulo Santos & Paulo Gomes. 2014. Assigning
Polarity Automatically to the Synsets of a Wordnet-like Resource. Em Maria
Joo Varanda Pereira, Jos Paulo Leal & Alberto Simes (eds.), 3rd Symposium on
Languages, Applications and Technologies, vol. 38, 169184.
Hu, Minqing, & Bing Liu. 2004. Mining and summarizing customer reviews. Em
Proceedings of the Tenth ACM SIGKDD International Conference on Knowledge Discovery and Data Mining, 168177. ACM.
Liu, Bing. 2015. Sentiment analysis: mining opinions, sentiments, and emotions. Cambridge University Press.
English and Portuguese: FLUP. Tese de Doutoramento. Verso revista: 1996.
Mendes, Amlia. 2004. Predicados Verbais Psicolgicos do Portugus. Um contributo
para o estudo da polissemia verbal. FCT/Fundao Calouste Gulbenkian.
Paumier, Sbastian. 2003. Unitex 1.2. user manual. Relatrio tcnico. http:
//www-igm.univ-mlv.fr/~unitex/.
Rademaker, Alexandre, Valeria de Paiva, Gerard de Melo, Livy Maria Real Coelho &
Maira Gatti. 2014. OpenWordNet-PT: A Project Report. Em Heili Orav, Christiane
Fellbaum & Piek Vossen (eds.), Proceedings of the 7th Global WordNet Conference,
383390.
Ranchhod, Elisabete, Cristina Mota & Jorge Baptista. 1999. A Computational Lexicon of Portuguese for Automatic Text Parsing. Em SIGLEX99: Standardizing
Lexical Resources, s/pp. Association for Computational Linguistics.
Santos, Diana. 1998. A relevncia da vagueza para a traduo, ilustrada com exemplos de ingls para portugus / The relevance of vagueness for translation:
Examples from English to Portuguese. TradTerm 5. 4178.
Santos, Diana & Cristina Mota. 2015. A admirao luz dos corpos. OSLa: Oslo
Studies in Language, Este volume.
Silva, Mrio J., Paula Carvalho & Lus Sarmento. 2012. Building a sentiment lexicon
for social judgement mining. Em Helena Caseli, Aline Villavicencio, Antnio
Teixeira & Fernando Perdigo (eds.), Computational Processing of the Portuguese
Language, vol. 7243, 218228. Springer.
[438]
carvalho & silva

Souza, Marlo, Renata Vieira, Dbora Busetti, Rove Chishman & Isa Mara Alves.
2011. Construction of a Portuguese Opinion Lexicon from multiple resources.
Em In 8th Brazilian Symposium in Information and Human Language Technology, 59
66.
Tumitan, Diego & Krin Becker. 2014. Sentiment-based features for predicting election polls: a case study on the brazilian scenario. Em IEEE/WIC/ACM International Joint Conferences on Web Intelligence (WI) and Intelligent Agent Technologies (IAT),
vol. 2, 126133.
Wilson, Theresa, Janyce Wiebe & Paul Hoffmann. 2005. Recognizing Contextual
Polarity in Phrase-level Sentiment Analysis. Em Proceedings of the Conference on
Human Language Technology and Empirical Methods in Natural Language Processing,
347354.
Zhang, Zhe & Munindar Singh. 2014. ReNew: A semi-supervised framework for
generating domain-specific lexicons and sentiment analysis. Em Proceedings of
the 52nd annual meeting of the Association for Computational Linguistics, vol. 1, 542
551.
c o n ta c t o s
Paula Carvalho
Laureate International Universities & INESC-ID
pcc@inesc-id.pt
Mrio J. Silva
Universidade de Lisboa, Instituto Superior Tcnico & INESC-ID
mjs@inesc-id.pt
loving and hating in english and

portuguese: a corpus-based
contrastive study
SIGNE OKSEFJELL EBELING
resumo
Este trabalho, inspirado pelo artigo de Stig Johansson sobre Loving and hating em ingls e noruegus (Johansson 1998), aplica mtodos semelhantes ao
par portugusingls.
Usando tradues nos dois sentidos no ENPC, Johansson comparou os verbos love e hate em ingls com as suas contrapartidas norueguesas elske e hate,
concluindo que h diferenas entre o uso destes verbos, embora sejam altamente correlacionados. Os verbos noruegueses exprimem em geral um
sentimento forte, enquanto os verbos ingleses tambm so usados num sentido mais fraco, mais frequente em combinao com objetos no humanos
ou completivas.
Com base num subconjunto do COMPARA, o presente estudo investiga o que
se pode concluir da comparao entre love e hate ingleses e os verbos amar e
odiar em portugus. Os resultados so menos claros: se, por um lado, os verbos portugueses parecem alinhar com os noruegueses no sentido de terem
uma rea de aplicao mais restrita do que os ingleses, por outro lado o verbo
odiar muito mais usado com objetos no humanos do que o verbo noruegus
hate. Esta e outras observaes contrastivas sugerem que mais fcil em portugus do que em noruegus atribuir a objetos no humanos sentimentos
fortes, enquanto que em ingls os verbos so usados com um sentido mais
fraco.
The semantics and syntax of the lexicon of Emotion have provided

linguists with food for thought for some time.
(Maia 1994/1996, Preface)
This paper focuses on the English verbs love and hate and their Portuguese
counterparts amar and odiar. The choice of topic is inspired by previous crosslinguistic studies of the language of emotion (Maia 1994/1996; Johansson 1998;
[440]
signe oksefjell ebeling

Maia & Santos 2012), and most notably by Johanssons (1998) article entitled Loving and hating in English and Norwegian.1
Drawing on bidirectional translation data from the fiction part of the EnglishNorwegian Parallel Corpus2 (ENPC), Johansson compares the English verbs love
and hate and their Norwegian correspondences elske and hate. He concludes that
there are cross-linguistic differences in the use of these closely related verbs.
The Norwegian verbs typically express a strong feeling, and are therefore more
prone to appear with a personal object, while the English verbs are also used
in a weakened sense which is most likely to appear where the verbs combine
with non-personal objects, particularly complement clauses (Johansson 1998,
pg. 101). Examples (1) and (2) illustrate the use of English love in its strong sense
(with a personal object) and weakened sense (with a non-personal, clausal object),
respectively. Norwegian translations from the ENPC are also provided, where the
direct counterpart elsket is used as a translation of loved in (1), and veldig gjerne
very gladly of an arguably semantically weaker love in (2).
(1)
I loved Natalie.
Jeg elsket Natalie.
(ENPC/FW1)
(ENPC/FW1T)
(2)
Id love to try it.

Den vil jeg veldig gjerne prve.
Lit.: That will I very gladly try
(ENPC/RD1)
(ENPC/RD1T)
The current study seeks to establish to what extent conclusions similar to those
drawn for English vs. Norwegian also apply to the language-pair English-Portuguese. In other words, what is typically loved and hated in English and Portuguese? Are the Portuguese verbs closer to the English or the Norwegian verbs
in terms of meaning and use? Answers to these questions will primarily be sought
in material culled from a subset of the COMPARA corpus (see e.g. FrankenbergGarcia & Santos (2003)).
Providing essential background information, both in terms of object of study
and method, Section [2] outlines Johanssons study in more detail. The corpus
used in the present investigation is presented in Section [3], while Section [4]
contains the contrastive analysis proper. Some concluding remarks are offered
in Section [5].
[1]
[2]
A revised version of the article is published as Chapter 5 in (Johansson 2007).

Cf. Johansson & Hofland (1994), Oksefjell (1999).
loving and hating in english and portuguese
[441]
[2] b a c k g r o u n d
Johanssons interest in the verbs under study was sparked as he noticed some odd
uses of Norwegian hate appearing in the newspaper. The examples that triggered
the original study are repeated here as (3) and (4), and were found to be direct
translations from English.
(3)
Jeg hater bringe sladderen videre.

(Translation of I hate to pass gossip on)
(4)
Jeg hater bruke mine egne skader for skape troverdighet.

(Translation of I hate to use my own injuries to establish credibility)
Johanssons immediate reaction was that these were instances of anglicisms, inspired by the English source texts (1998, pg. 93), and therefore not considered
idiomatic Norwegian. These observations made him want to take a closer look
into the relationship between the English and Norwegian cognate verbs hate/hate.
He also included in his investigation their more loveable opposites: love and elske.
In the material from the ENPC, he noticed that, in the original texts, the English verbs were more than three times as frequent as the Norwegian verbs. In the
translated texts, however, the frequencies move in the direction of the frequencies found for the corresponding verbs in original texts in the source language
(ibid., pg. 94), as shown in Table 1.
N hate
N elske
E hate
E love
Original texts
23
36
67
100
Translations
34
90
25
62
table 1: Frequency figures for the four verbs in original and translated texts in
the ENPC.
The tendency for linguistic patterns to behave differently in original vs. translated texts may be caused by source language influence on the target language.
This phenomenon has been termed translationese (see e.g. Gellerstam (1986)),
and Johansson suggests that it is highly likely that the occurrences of Norwegian hate in examples (3) and (4) above are examples of translationese (Johansson 1998, pgs. 9494).
Johansson moves on to discuss the overall translation patterns in the ENPC
material, and finds that Norwegian hate and elske are almost invariably translated by their English counterparts hate and love, while the English verbs often
have other renditions in Norwegian than hate and elske. This suggests that the
Norwegian verbs have a more restricted area of use than their English cousins.
[442]

Moreover, the complementation patterns of the verbs, i.e. the type of object they
typically combine with, show further cross-linguistic differences, as illustrated in
Table 2.
N hate
N elske
E hate
E love
Original texts
Personal Obj. Non-personal Obj.
65%
35%
61%
39%
27%
73%
46%
54%
Translations
Personal Obj. Non-personal Obj.
35%
65%
35%
64%
56%
44%
65%
35%
table 2: Type of object following the verbs in original and translated texts (in percent) in the ENPC (ibid., pg. 95).
Focusing on the original texts in the two languages, we can note that the
Norwegian verbs prefer a personal object, while the English verbs prefer nonpersonal objects. Johansson comments on the translations and says that [t]he
translated texts again show a frequency pattern which reflects the source texts
(ibid.), thus a greater proportion of the Norwegian translations than expected
used elske/hate with the weakened sense and the complementation patterns typical of the English love/hate.
Johanssons study continues with an analysis and a discussion of the Norwegian translation correspondences and he concludes that the differences between
the English and Norwegian verbs come out very clearly both in the overall frequency of the verbs in original texts and in their translation patterns (ibid.,
pg. 101). He also notes that, the distribution differences between original and
translated texts notwithstanding, the translators generally seem to be aware of
these differences, as attested by the rich inventory of translation correspondences.
Nevertheless, the influence from English on the Norwegian language is pervasive and may lead to the use of Norwegian hate/elske in a weakened sense. In
fact, Johansson suggests that the Norwegian verbs may be undergoing a semantic
change. This new weakened use of the two Norwegian verbs has indeed been attested in two follow-up studies based on more recent corpus material (Hasselgrd
2011; Ebeling 2014).
The present study adds another language to the equation, and will follow Johanssons steps in the analysis with the aim of gaining insight which goes beyond the establishment of standard counterparts (Johansson 1998, pg. 103), viz.
love/amar and hate/odiar.3
[3]
In an article entitled Loving and hating the movies in English, German and Spanish, Taboada et al.
(2014) study evaluative language in the genre movie reviews. Their focus is not specifically on the verbs
love and hate, but they mention, referring Johansson (1998), that love and hate and their equivalents
in German and Spanish are actually quite infrequent in our corpus, because they express Affect, which
[] is not very frequent in our corpus, in contrast to Appreciation (Taboada et al. 2014, pg. 131).
[443]
At this point, reference should be made to Maias (1994/1996) extensive work

on emotions in English and Portuguese. Particularly relevant in the current context are her observations on the verb patterns found with verbs of emotion: Complementation by non-finite clauses is fairly common with certain SFoc [senser focusing] Emotion verbs in English, including love and hate. She also notes that this
structure is more common with English verbs of emotion than with Portuguese
verbs of emotion. Interestingly, as a Portuguese rendering of English I love playing
football, she opts for Gosto de jogar futebol rather than ?Amo jogar futebol. It should
be mentioned that Maias scope is broader and her focus slightly different from
the current one being more concerned with the cognitive aspects of emotion,
and how human beings conceptualise emotion through language. Thus, the current study will mainly refer to Johanssons (1998) analysis.
[3] m at e r i a l
As mentioned in the Introduction, the main source of data used in this investigation is a subset of the COMPARA corpus. COMPARA contains original texts in English and Portuguese with their translations into the other language, and is thus
similar to the ENPC in being a bidirectional translation corpus. Worth mentioning
in this context is that Portuguese was one of the languages that was added in the
multilingual extension of the ENPC, later known as the Oslo Multilingual Corpus
(OMC) (see Oksefjell (1999); Johansson (2007)). As the Portuguese part of the OMC
is unidirectional, i.e. it contains Portuguese translations of English texts but not
vice versa, COMPARA was a more natural choice of corpus for this study. However, some of the texts in the (English-Portuguese part of the) OMC and COMPARA
overlap.
In order to make this study as comparable as possible to Johanssons, a selection of texts available in COMPARA was made, according to the following criteria:
Original texts mainly from the 1980s and 1990s4
A maximum of two texts per author5
The version of COMPARA used here thus contains 20 original text extracts in
Portuguese, amounting to approx. 370,000 words and 14 original text extracts
in English, amounting to approx. 360,000 words, in addition to a similar amount
of text of their respective translations (see the Appendix for a full list of texts
included).6 The fact that different varieties of both Portuguese and English are
[4]
[5]
[6]
One Portuguese text (PPJS1) was published in the late 1970s (but so were some of the Norwegian texts in
the ENPC).
To ensure as balanced a corpus as possible in terms of size, three texts by one Brazilian author were
included (PBPC).
For comparison, the ENPC contains roughly 400,000 words of original text in each language.
[444]

included among the texts has not been given special attention in the current investigation. This is mainly due to the limited material at hand, both in terms of
authors represented and amount of text from each variety. Nevertheless, this is
certainly a topic worthy of future study, as regional variation is likely to occur
also in the use of love and hate expressions.
Before we move on to the actual material extracted from the corpus, a comment on the choice of Portuguese verbs to study is in order. Amar and odiar are
intuitively the closest counterparts of the English verbs, although there may be
other Portuguese verbs that come to mind. However, the close relationship between love/amar and hate/odiar is confirmed in a number of bilingual dictionaries,
where invariably these are the verbs that are given first as each others translations.7 And as we shall see below, the bidirectional data from COMPARA confirms
their strong intertranslatability. Other verbs that are mentioned in the dictionaries include adorar and gostar (de) for love and detestar for hate. Interesting in the
current context is a note on the use of odiar in The Routledge Portuguese Bilingual
Dictionary:
Odiar is not as casually used as is hate in English. Ex: I hate cabbage.
In Portuguese you would say detesto couves or no gosto de couves.
Searches for all forms of the verbs love, hate, amar and odiar were made in
both the original and translated texts of COMPARA,8 and the overall frequencies
are presented in Table 3. False hits, such as noun uses of love and ama nanny /
wetnurse, are excluded in this overview.
COMPARA
P odiar
P amar
E hate
E love
Original texts
(E: 359,281 / P: 369,203)
39 (10.6 per 100,000 words)
54 (14.6 per 100,000 words)
37 (10.3 per 100,000 words)
84 (23.4 per 100,000 words)
Translations
(E: 412,704 / P: 350,607)
16 (4.6 per 100,000 words)
30 (8.6 per 100,000 words)
49 (11.9 per 100,000 words)
96 (23.2 per 100,000 words)
table 3: Overall frequencies of the four verbs, including normalized frequencies

per 100,000 words
The Portuguese verbs show the opposite trend compared to their Norwegian
counterparts, i.e. they are less commonly attested in translations from English
than in original Portuguese texts. Another observation worth making is that the
English verbs are fairly stable across original and translated texts. In Johanssons
[7]
[8]
See e.g. Collins Portuguese Dictionary and The Routledge Portuguese Bilingual Dictionary.
Henceforth, COMPARA refers to the subset used here.
[445]
data, however, the English translations seemed to be drawn towards the Norwegian source texts in being less frequently used.
As English love is more frequent than amar overall (both in original texts and
translations), it seems fair to suggest that love has a wider area of use than amar.
Odiar and hate, on the other hand, occur with a similar frequency in original texts,
while the use of odiar drops in translations. In contrast to the English-Norwegian
data, the difference in distribution of odiar and amar in original vs. translated text
does not seem to be a case of translationese, as their distribution is not pulled towards the use in the source language English. In fact, the reason for this discrepancy is hard to pin down, but, with regard to the former verb, could the notion of
odiar not being used as casually as hate play a role in the minds of the translators?
[4] c o n t r a s t i v e a n a l y s i s
Following Johanssons steps in the analysis, we will first take a look at the overall
translation patterns before moving on to the actual translation correspondences.
[4.1] Overall Translation Patterns

The intertranslatability of the verb-pairs is shown in Table 4, where the number
of times the verbs-pairs are not translated into each other is recorded (Johansson
1998, pg. 95).
P odiar
P amar
NOT
NOT
E hate
E love
0 (out of 39)
7 (out of 54)
E hate
E love
NOT
NOT
P odiar
P amar
21 (out of 37) 57%

54 (out of 84) 64%
table 4: The intertranslatability between odiar:hate and amar:love.

Table 4 shows remarkably similar tendencies regarding the relationship between the verbs in English-Norwegian and EnglishPortuguese. As in the case of
the Norwegian verbs, Portuguese odiar and amar are almost invariably translated
into English hate and love, respectively. Of the seven instances that do not have a
form of the verb love in the translation, five have the noun love instead, as in:
(5)
No amava o prximo
He had no love for his fellow man
(PBRF1)
In one case being unloved has been used as a translation of no ser amado, while
the last example is a direct quotation from the Bible and has betrothed a wife as a
translation of ama uma mulher.
[446]

In the other direction of translation, however, the Portuguese verbs are only
used as translations of hate and love in roughly 60% of the cases, i.e. other Portuguese translations correspondences are used in approx. 40% of the occurrences.
There is thus a translation bias in the use of these verbs as correspondences of
each other (Altenberg 1999, pg. 255ff). Transferring Johanssons interpretation of
a similar translation bias in the English-Norwegian material, we can tentatively
conclude that the English verbs have a wider area of use than odiar and amar. (The
overall frequencies shown in Table 3 already suggested this in the case of love.)
As seen in Table 2, Johansson also found a clear difference between English
and Norwegian in the use of type of object following the verbs. A comparable
overview for the COMPARA data is given in Table 5.
P odiar
P amar
E hate
E love
Original texts
Personal Non-personal
objects
objects
51.0%
49.0%
76.0%
24.0%
37.8%
62.2%
57.1%
42.9%
Translations
Personal Non-personal
objects
objects
68.8%
31.2%
63.3%
36.7%
51.0%
49.0%
53.1%
46.9%
table 5: Type of object following the verbs in original and translated texts (in percent) in COMPARA
If we look at the distribution of the English verbs first, we can note that hate
clearly favours a non-personal object in the original texts, while love prefers a
personal object. While the former observation is in line with Johanssons original
study, the latter is not; i.e. love was found to be slightly more common with a nonpersonal object. However, as the distribution of love showed the least discrepancy
between personal vs. non-personal object in Johanssons study (see Table 2), the
choice seems to be arbitrary and most likely due to subject matter of the individual texts.
In the Portuguese original texts there is a clear preference for personal objects
with amar, while in the case of odiar there is a less clear-cut division of labour between complementation patterns. A typical example of amar with a personal object is shown in example (6), while examples (7) and (8) show odiar with a personal
and non-personal object, respectively.
(6)
Tenho duas coisas importantes para te dizer: a primeira que eu te amo.

[PBPM2]
I have two important things to tell you: the first is that I love you.
(7)
Mas no somos amigos, eu te odeio.

But were not friends. I hate you.
[PBRF1]

(8)
Eu passara a odiar aquela ausncia.

I had come to hate that absence.
[447]
[PMMC2]
As can be seen from Table 5, the verbs tend to favour personal objects also in the
translations; this is true even of English hate, albeit only marginally so. This is
related to the use of odiar in the source texts (also with a slight overweight of
personal objects) and the fact that hate is always used as a translation of odiar in
the material at hand (see Table 4 and examples (7) and (8)). It is harder to explain
why the percentage of odiar with a personal object increases to the extent that it
does in the translations, but again it seems to be related to the fact that the other
main translation option of hate (besides odiar) detestar detest takes care of
many of the instances where hate has a non-personal object in the original texts,
as exemplified in (9) where the object is realised by an infinitive clause.
(9)
I hate to see it falling on to the barber-shop floor

Detesto ver o cabelo a cair para o cho da barbearia
[EBDL1T1]
Whether this suggests that the translators view odiar as being semantically too
strong or unidiomatic in contexts such as (9) is hard to determine, though. It is
also hard to determine what happens to amar and love in the translations, as both
show a slight decrease in personal objects and a slight increase in non-personal
objects. The reason for this may become clearer when we turn to the next step in
the contrastive analysis, focusing on the actual translations correspondences of
the four verbs under study.
[4.2] Translation correspondences

As we have seen (in Table 4 in particular) there is a tendency for translators to
choose the standard counterpart of the verbs in the other language. The translation correspondences in the COMPARA material generally follow the same pattern
as in Johanssons study, i.e. the Portuguese verbs are almost invariably translated
into the English counterparts love and hate, while the English verbs show a greater
variety of Portuguese translations (see Table 4). In the following we will therefore
focus on translations of the English verbs only.
Translations of English hate
Complement clauses
English hate is followed by a complement clause in four out of the 37 occurrences two -ing clauses and two to-infinitive clauses. In none of these four cases
did the translators use odiar to translate hate; the most common translation is
detestar detest with three occurrences, cf. example (9) above. In one case, no
[448]

gostar (de) not like was used, e.g. (10). Detestar detest as a translation of hate
followed by an -ing clause is illustrated in (11). In all but one of the Portuguese
translations an infinitival complement clause was chosen; in (11) a finite clause
was added instead.
(10)
Id hate to have to worry about an anorexic bird.

[EURZ2]
No gostava nada de ter de andar preocupado com um pssaro anorxico.
(11)
Barbara had, long ago, hated being called Mum

H muito que Barbara detestava que lhe chamassem me
[EBJT2]
Thus, where Norwegian was shown not to readily accept a hate-verb with clause
complementation, Portuguese has detestar. However, odiar does not seem to be
completely ruled out, as there were two instances of odiar + infinitive clause in the
Portuguese originals. A brief comparison of instances per million words (pmw) of
amar, odiar, love and hate followed by an infinitive in monolingual corpora shows
the following: amar + inf.: 0.16 pmw, odiar + inf.: 0.28 pmw (based on corpo todos
juntos through the AC/DC project;9 love + to-inf.: 11.41 pmw, hate + to-inf.: 3.99
pmw (based on the British National Corpus BNCWeb cqp edition).
Other non-personal objects
The other non-personal objects attested form a very homogeneous group,
consisting of a noun phrase in all but one of the 19 instances. 14 of these have
detestar in the translation, e.g. (12), while only four have odiar, e.g. (13). The one
instance without a following noun phrase is a passive construction translated by
odiado.
(12)
Dyou hate spinach?

Detestas espinafres?
(13)
I especially hate banks and post offices

Odeio especialmente bancos e estaes de correios
[EBJT1]
[EBDL1T1]
A variety of non-personal nouns are represented in the material, including ties/

gravatas, the IRA/o IRA, spinach/espinafres as in (12) and banks/bancos, as in (13).
Such a variety was also noted by Johansson (1998) for English and Norwegian.
However, with regard to the wider area of use of English hate, Johansson recorded
a number of different recurrent verb correspondences in the Norwegian translations, while it in the EnglishPortuguese material restricts itself to odiar and detestar, of which the former seems to have a preference for personal objects and
the latter a preference for non-personal objects.
[9]
http://linguateca.pt
[449]
Personal objects
When hate is followed by a personal object, the translators have chosen odiar
in 12 of the 14 cases. The remaining two have detestar. This reconfirms the impression that hate covers the area of use of two verbs in particular in Portuguese,
namely odiar and detestar. The relationship between hate and odiar is dependent
on type of object, and can be summed up as follows, when hate is used in the original texts:
Complement clause: . . . . . . . . . . . . . . no instances of Portuguese odiar
Other non-personal object: . . . . . . . . . . approx. 21% Portuguese odiar
Personal object: . . . . . . . . . . . . . . . . . . . . . . approx. 85% Portuguese odiar
Translations of English love

Complement clauses
Love is followed by a complement clause in nine out of the 84 occurrences in
the COMPARA material, and most commonly so by a to-infinitive clause, exemplified in (14). The only occurrence with an -ing clause is shown in (15).
(14)
, Mmm, Id love to see her do Judith Bliss in Hay Fever.

hum, adorava v-la fazer de Judith Bliss no Hay Fever.
(15)
She loved working as an obstetrician

Dizia que gostava de trabalhar como obstetra
[EBDL1T1]
[EBJT2]
As hinted at in the translations of love in both (14) and (15), amar is not used as a
translation in any of the nine cases; instead adorar and gostar (de) are used, five
and four times, respectively. In other words, the tendency is similar to what was
noted for hateodiar; other Portuguese verbs than the closest counterpart amar
take over when love is followed by a complement clause. Although both examples
show love in its weakened sense, example (13) deserves special attention. I believe
the combination modal + love + to-infinitive clause in particular bears witness to
the weakened sense of love when compared to amar (and also Norwegian elske). In
fact, Maia (1994/1996, section 7.5.2) draws attention to this in her discussion of
the use of modals with verbs of emotion, quoting Quirk et al. (1985, 3.64n) who
say that would in such contexts is used to indicate a tentative desire in polite requests, offers or invitations. Moreover, amar + complement clause is not attested
in the original texts of the COMPARA corpus.
[450]

Other non-personal objects
The Portuguese translations of love with other non-personal objects show a
similar tendency to that of hate, in that the intuitively closest counterpart amar
is far from the most frequent translation. In fact, amar occurs six times, e.g. (16),
while adorar is used 11 times, e.g. (17) and gostar (de) eight times, e.g. (18). Estimar
is used once, e.g. (19), and in one case some restructuring has taken place in the
translation, and an adjective (adorada) can be said to express the content of the
verb loved, e.g. (20).
(16)
How to love, all kinds, all love.

Como amar, todas as maneiras, todos amam.10
[ESNG1]
(17)
He loved the stories told in pubs at lunchtimes of the editors of old

[EBIM2]
Adorava as histrias que se contavam nos pubs hora do almoo sobre os
directores de outros tempos
(18)
He loves me already, look at him, you can see it!

Ele j gosta de mim, olha para ele, no vs?
(19)
My shame at persecuting a man loved by my master mixes with a perverse

desire to continue my assault
[EURZ1]
A vergonha que sinto de assim atormentar um homem estimado de meu
tio mistura-se som o perverso desejo de prosseguir o meu assdio
(20)
And here he was, making himself sick because the pet he loved was stolen.
[EURZ2]
E aqui estava ele, doente porque a sua adorada ave de estimao tinha
sido roubada.
[EBJT2]
The most typical complementation pattern is a non-personal noun phrase, as

shown in example (17). Other non-personal nouns or noun phrases include that
title/o ttulo, fairs/feiras, the noise/o barulho. A passive construction is chosen in
one instance, as with estimar in example (19), and an intransitive pattern is found
once, as shown in (16) with amar.11 Interesting to note with regard to the intran[10]
[11]
The Portuguese translator has interpreted the second instance of love in this sentence as a verb, while I
have interpreted it as a noun; it is thus not part of the material studied here.
It is not quite clear how Johansson (1998) classified instances of passive and intransitive constructions.
However, he says that [i]n the few instances of intransitive use, the verbs are translated by their standard counterparts (ibid., pg. 96). Since the number of instances in Johanssons study is not reduced after
mentioning this, I take it to mean that Johansson counted them as instances of the non-personal object
category. This is not as straightforward for the passive use, as there is very often an implied personal
object involved. However, the four instances of passive and intransitive love do not skew the results unduly. In addition, Maia (1994/1996, section 6.7) notes that passives with SFoc verbs like love and like are
extremely rare.
[451]
sitive pattern is Maias (1994/1996, section 6.4) observation that amar differs from
love in this respect, i.e. intransitive amar is much more frequently attested than
intransitive love in her material.
In contrast to the translations of hate, we have seen that the translations of love
form a slightly less homogeneous group; instead of two main correspondences as
is the case for hate, there are three for love, in addition to a couple of marginal
ones. Moreover, the verb is not exclusively followed by a noun phrase. This suggests that love in English may have a wider area of use than amar.
Personal objects
Amar is used as a translation of love followed by a personal object in half of the
cases (24 out of 48), and is illustrated in example (21). The other frequent translation correspondence is gostar de, used in 17 cases, and illustrated in example (22).
Other, minor, correspondences include three instances of zero correspondence,
as in (23), three instances of adorar, e.g. (24), and one instance of estimar, e.g. (25).
(21)
Men of Athens, I honor and love you, but I shall obey God rather than
you.
[EUJH1]
Atenienses, honro-vos e amo-vos, mas devo obedecer a Deus antes de a
vs.
(22)
If you really loved her

Se gostavas mesmo dela
(23)
I was raised to be a poet of sorts my mother loved Rilke, I was told

and to recite epics, to tell stories.
[EURZ2]
Fui educado para ser assim uma espcie de poeta, [] para recitar epopeias.
E contar histrias.
(24)
Hughie loved her.

O Hughie adorou-a.
(25)
Simon loved your uncle.

Simo estimava muito teu tio.
[EBJT1]
[EBJT1]
[EURZ1]
As was the case in Johanssons material, there are two main translation correspondences of love with a personal object in the EnglishPortuguese material. Another
similarity is that there is no tendency as to what kind of personal relationship is
described, that between man-woman, parent-child, friend-friend etc. (i.e. the
senser and phenomenon in Maias (1994/1996) terms).
[452]

The relationship between hate and odiar was seen to be tied to type of object;
this is also the case for the translations of love into amar, where the distribution
is as follows:
Complement clause: . . . . . . . . . . . . . . no instances of Portuguese amar
Other non-personal object . . . . . . . . . . . approx. 19% Portuguese amar
Personal object: . . . . . . . . . . . . . . . . . . . . . approx. 50% Portuguese amar
While the tendency for odiar and amar as translations of hate and love with
non-personal objects (including complement clauses) is virtually the same, amar
is proportionally less used as a translation of love with a personal object (50%)
than odiar as a translation of hate with a personal object (85%). A more stable
relationship between hate and odiar with a personal object is thus noted. This may
indicate that love, even with a personal object, is understood as more bleached,
i.e. the strength of feeling that is expressed varies from strong to relatively weak.
Strong feeling is typically translated as amar, whereas gostar (de) is typically used
to express the weakened meaning of love.
[5] c o n c l u s i o n s
This study has followed in the footsteps of Johanssons article concerning the relationship between the typical verbs of love and hate in English and Norwegian.
The aim was to shed light on the relationship between similar verbs in English and
Portuguese. The COMPARA data seem to paint a more complex picture of the use
of these verbs across the two languages. In some respects, the Portuguese verbs
behave in ways similar to the Norwegian verbs, particularly in that they seem to
have a more restricted area of use than their English counterparts.
In other respects, the Portuguese verbs differ from the Norwegian verbs. In
original texts, odiar, for example, is shown to combine more easily with nonpersonal objects than Norwegian hate. These and other cross-linguistic observations suggest that the Portuguese verbs may more easily combine the strong
feeling meaning with non-personal objects than Norwegian, while the English
verbs are more often used in a weakened sense. Alternatively, it could point to
a middle position for Portuguese, where Norwegian hate expresses the strongest
feeling of hate, English hate the weakest, with Portuguese odiar somewhere in between.
The Portuguese translations of love and hate reveal some clear patterns: the
English verbs are tied to two or three Portuguese verbs each. Thus the inventory of correspondences is more restricted than the Norwegian correspondences
reported by Johansson (1998). The translators seem to be well aware of this division of labour between a small set of Portuguese verbs to cover the meanings
of love and hate. Again it is tempting to suggest that Portuguese amar and odiar
are in a middle position, in that the two English verbs have the widest area of use
[453]
and the Norwegian verbs the narrowest, with the Portuguese verbs somewhere
in between.
As was the case in the EnglishNorwegian data the Portuguese translation patterns for love and hate are broadly in agreement in terms of complement types.
Neither amar nor odiar was found with a complement clause, and only around 20%
of the translations with other non-personal objects had amar or odiar. Personal
objects were favoured by both Portuguese verbs. However, in the original data
odiar was found to occur with a complement clause, which supports the suggestion that at least one of the Portuguese verbs may have a slightly more weakened
sense than its Norwegian counterpart. In this context it should be pointed out
that studies of Norwegian elske and hate based on more recent data than the ENPC
found evidence of these constructions occurring naturally in (untranslated) Norwegian (Hasselgrd 2011; Ebeling 2014). In other words, Norwegian elske and hate
were attested with complement clauses. In the original study, Johanssons immediate reaction was that these were anglicisms (1998, pg. 93). While I believe that
his observation is right, it is also a fact that this construction is on the increase
in Norwegian, and what we are witnessing is a language change due to influence
from English (Ebeling 2014).
As pointed out by Johansson (1998, pg. 102), [c]hanges of this kind are natural
wherever there are languages in contact, but it is important to be aware of what
is going on. Whether similar changes, due to influence from English, are also
taking place in Portuguese is hard to determine on the basis of the COMPARA material. To gain insight into the development of the complement patterns of amar
and odiar, diachronic Portuguese material (including material of a more recent
date) has to be consulted, and will therefore have to await future research.
acknowledgements
I would like to thank Cristina Mota and Stella Tagnin for their valuable and constructive comments on a previous version of this paper.
appendix
Overview of the subset of COMPARA used.12
Corpus ID Author
Translator
EBDL1T1 Lodge, David
Figueira, Maria do Carmo
[12]
Title
Title (trans.)
Therapy
Terapia
Place of pub./Publisher
Place of pub./ Publisher (trans.)
London: Secker & Warburg
Lisbon: Gradiva
Year of pub.
Year of pub. (trans.)
1995
1995
EBIM1
McEwan, Ian
Black Dogs
Rodrigues, Fernanda Pinto Ces Pretos
London: Picador
Lisbon: Gradiva
1992
1993
EBIM2
McEwan, Ian
Bastos, Ana Falco
Amsterdam
Amesterdo
London: Vintage
Lisbon: Gradiva
1998
1999
EBJB1
Barnes, Julian
Amador, Ana Maria
Flauberts Parrot
O papagaio de Flaubert
London: Picador
Lisbon: Quetzal
1985
1988
EBJB2
Barnes, Julian
Lima, Jos Vieira de
A History of the World in 10 Chapters London: Picador

A Histria do Mundo em 10 Captulos e . Lisbon: Quetzal
1989
1990
COMPARA v13.1.22, http://www.linguateca.pt/COMPARA/[21-Nov-2014].

[454]
[a]
[b]
Corpus ID Author
Translator
EBJT1
Trollope, Joanna
Bastos, Ana Falco
Title
Title (trans.)
Next of Kin
Parentes prximos
London: Black Swan
Lisbon: Gradiva
Year of pub.
1996
1998
EBJT2
Trollope, Joanna
Bastos, Ana Falco
A Spanish Lover
Um Amante Espanhol
London: Bloomsbury
Lisbon: Gradiva
1993
1999
EBKI1
Ishiguro, Kazuo
The Unconsoled
Rodrigues, Fernanda Pinto Os Inconsolados
London: Faber & Faber

Lisbon: Gradiva
1995
1995
EBKI2
Ishiguro, Kazuo
The Remains of the Day
Rodrigues, Fernanda Pinto Os Despojos do Dia
London: Faber & Faber

Lisbon: Gradiva
1989
1991
ESNG1
Gordimer, Nadine
Ferraz, Geraldo Galvo
My Sons Story
A histria do meu filho
London: Penguin Books

So Paulo: Editora Siciliano
1990
1992
ESNG3
Gordimer, Nadine
Reis, Paula
Julys People
A Gente de July
South Yarmouth: Curley Publishing 1981

Lisbon: Teorema
1986
EUJH1
Heller, Joseph
Rodriguez, Cristina
Picture This
Imaginem que
New York: G. P. Putnams Sons

Lisbon: Difuso Cultural
EURZ1
Zimler, Richard
Lima, Jos
The Last Kabbalist of Lisbon London: Arcadia Books Ltd.

O ltimo Cabalista de Lisboa Lisbon: Quetzal
1998a
1996
EURZ2
Zimler, Richard
Lima, Jos
Angelic Darkness
Trevas da Luz
2000b
1998
London: Arcadia Books Ltd.

Lisbon: Quetzal
1990
1991
Originally published in 1996.

Originally published in 1998.
table 6: English original texts and their translations into Portuguese in the COMPARA subset (359,281 English words; 350,607 Portuguese words).
Corpus ID Author
Translator
PAJA1
Agualusa, Jos Eduardo
Zenith, Richard
PAJA2
Title
Title (trans.)
A Feira dos Assombrados
Shadow Town
Agualusa, Jos Eduardo A Inacreditvel mas Verdadeira Estria

de D. Nicolau gua Rosada
Levitin, Alexis
The Incredible but True Story of Prince
Nicolau gua-Rosada
Lisbon: Vega
Prague: Trafika
Year of pub.
1992
1994
Lisbon: Vega
1990
Madison: Farleigh Dickinson University 1995
PBCB1
Buarque, Chico
Landers, Clifford
Benjamim
Benjamin
So Paulo: Companhia das Letras

London: Bloomsbury
1995
1997
PBCB2
Buarque, Chico
Bush, Peter
Estorvo
Turbulence

London: Bloomsbury
1991
1992
PBJS1
Soares, J
Landers, Clifford
O Xang de Baker Street

A Samba for Sherlock

New York: Vintage
1995
1997
PBMR1
Rey, Marcos
Landers, Clifford
Memrias de um Gigol
Memoirs of a Gigolo
So Paulo: tica Editorial

New York: Avon
1986
1987
PBPC1
Coelho, Paulo
Clarke, Alan
O alquimista
The alquemist
Rio de Janeiro: Rocco

London: Thorsons
1988
1993
PBPC2
Coelho, Paulo
Clarke, Alan
O Dirio de um Mago
Rio de Janeiro: Rocco
The Pilgrimage: a contemporary quest for New York: HarperCollins
ancient wisdom
1987
1992
PBPC3
Coelho, Paulo
Landers, Clifford
O Monte Cinco
The Fifth Mountain
Rio de Janeiro: Objectiva

New York: HarperCollins
1996
1998
PBPM1
Melo, Patrcia
Landers, Clifford
O elogio da mentira
In praise of lies

London: Bloomsbury 1998
1998
1999
PBPM2
Melo, Patrcia
Landers, Clifford
O Matador
The Killer

London: Bloomsbury
1995
1998
PBRF1
Fonseca, Rubem
Landers, Clifford
Vastas emoes e pensamentos imperfeitos So Paulo: Companhia das Letras

The lost manuscript
London: Bloomsbury
1988
1997
PBRF2
Fonseca, Rubem
Watson, Ellen
A Grande Arte
High Art
Rio De Janeiro: Livraria Francisco Alves 1983

London: Collins
1987
PMMC1
Couto, Mia
Brookshaw, David
Vozes Anoitecidas
Voices Made Night
Lisbon: Editorial Caminho

Oxford: Heinneman
1987
1990
PMMC2
Couto, Mia
Brookshaw, David
Cada Homem uma Raa

Every Man is a Race
Lisbon: Editorial Caminho

Oxford: Heinneman
1990
1993

Corpus ID Author
Title
Translator
Title (trans.)
PPCP1
Cardoso Pires, Jos Balada da Praia dos Ces
[455]
Fitton, Mary
Ballad of Dogs Beach
Lisbon: Edies O Jornal,
Publicaes Projornal, Lda.
London: John M. Dent
Year of pub.
1983
PPJS1
Sena, Jorge de
Byrne, John
Sinais de Fogo
Signs of Fire
Lisbon: Edies 70, Lda.

Manchester: Carcanet Press
1978
1999
PPJSA1
Saramago, Jos
Ensaio Sobre a Cegueira
Pontiero, Giovanni Blindness
Lisbon: Caminho
London: Harvill Press
1995
1997
PPJSA2
Saramago, Jos
A Histria do Cerco de Lisboa
Pontiero, Giovanni The History of the Siege of Lisbon
Lisbon: Caminho
London: Harvill Press
1989
1996
PPLJ1
Jorge, Ldia
A Costa dos Murmrios
Costa, Natlia and The Murmuring Coast
Ronald W. Sousa
Lisbon: Publicaes Dom Quixote 1988

Minneapolis: The University of 1995
Minnesota Press
PPMC1
Carvalho, Mrio de Um deus passeando pela brisa da tarde Lisbon: Caminho

Rabassa, Gregory A god strolling in the cool of the evening London: Phoenix
1986
1994
1997
table 7: Portuguese original texts and their translations into English in the COMPARA subset (369,203 Portuguese words; 412,704 English words)
references
Altenberg, Bengt. 1999. Adverbial connectors in English and Swedish: Semantic
and lexical correspondences. In Hilde Hasselgrd & Signe Oksefjell (eds.), Out
of Corpora: Studies in Honour of Stig Johansson, 249268. Rodopi.
Ebeling, Signe Oksefjell. 2014. Does corpus size matter? Revisiting ENPC case
studies with an extended version of the corpus. Paper presented at Languages
in Contrast - A symposium in celebration of the 20th anniversary of the Nordic Parallel
Corpus project, Lund, 5 December.
Frankenberg-Garcia, Ana & Diana Santos. 2003. Introducing COMPARA: the
Portuguese-English Parallel Corpus. In Federico Zanettin, Silvia Bernardini &
Dominic Stewart (eds.), Corpora in Translator Education, 7187. St. Jerome.
Gellerstam, Martin. 1986. Translationese in Swedish novels translated from English. In Lars Wollin & Hans Linquist (eds.), Translation Studies in Scandinavia,
8895. CWK Gleerup.
Hasselgrd, Hilde. 2011. Loving and hating in English and Norwegian speech. Paper presented at the Jan Svartvik Birthday Symposium, Lund, 19 August.
Johansson, Stig. 1998. Loving and hating in English and Norwegian: A corpusbased contrastive study. In Dorte Albrechtsen, Birgit Henriksen, Inger M.
Meesand & Erik Poulsen (eds.), Perspectives on Foreign and Second Language Pedagogy, 93103. Odense University Press.
Johansson, Stig. 2007. Seeing through Multilingual Corpora: On the Use of Corpora in
Contrastive Studies, vol. 26 Studies in corpus linguistics. John Benjamins.
Johansson, Stig & Knut Hofland. 1994. Towards an English-Norwegian Parallel
Corpus. In Peter Schneider Udo Fries, Gunnel Tottie (ed.), Creating and Using
[456]

English Language Corpora: Papers from the Fourteenth International Conference on
English Language Research on Computerized Corpora, 1993, 2537. Rodopi.
English and Portuguese: FLUP PhD dissertation. Verso revista: 1996.
Maia, Belinda & Diana Santos. 2012. Who is afraid of ... what? - In English and in
Portuguese. In Signe Oksefjell Ebeling, Jarle Ebeling & Hilde Hasselgrd (eds.),
Aspects of corpus linguistics: compilation, annotation, analysis 12, s/pp.
Oksefjell, Signe. 1999. A description of the English-Norwegian Parallel Corpus:
Compilation and further developments. International Journal of Corpus Linguistics
4(2). 197219.
Quirk, Randolph, Geoffrey Leech Sidney Greenbaum & Jan Svartvik. 1985. A Comprehensive Grammar of the English Language. Longman.
Taboada, Maite, Marta Carretero & Jennifer Hinnell. 2014. Loving and hating the
movies in English, German and Spanish. Languages in Contrast 14(1). 127161.
c o n ta c t s
University of Oslo
s.o.ebeling@ilos.uio.no
activities with culmination

FTIMA OLIVEIRA E ANTNIO LEAL
resumo
Neste artigo, discutimos um problema debatido h muito sobre a natureza
aspetual de certas predicaes, classificadas como Activities e Accomplishments
(Vendler 1957, e outros). Este problema foi j colocado de maneira informal
por vrios autores, que assinalaram a complexidade dos Accomplishments,
mas s mais recentemente houve tentativas de formalizao que explicasse a
alternncia entre estes tipos aspetuais que desencadeada pelas propriedades
denotacionais de um dos argumentos de certos verbos.
Tendo em conta alguns dados do Portugus Europeu, propomos que os verbos podem ter informao lexical que relevante para a determinao da
presena ou ausncia de telicidade nas predicaes em que ocorrem. Assim,
certos traos verbais restringem a composio aspetual da predicao, mas
h casos em que o perfil aspetual definido em funo do processo composicional envolvido, uma vez que o verbo no marcado com esses traos.
Neste trabalho, apenas foi considerada a contribuio de certos argumentos internos tendo em conta a sua natureza denotacional (cumulativo / no
cumulativo).
Propomos ainda que, nos casos em que os verbos no so lexicalmente marcados com os traos anteriormente referidos, a predicao no pode ser classificada partida como Activity ou Accomplishment.
In many aspectual classification proposals, Accomplishments are considered a particularly problematic class (cf. Verkuyl 1972; Mourelatos 1978; Bach 1986; Tenny
1987, among many others), as this class raises several problems not only from a
theoretical point of view but also from a data analysis point of view. Although
there are, in the past, some proposals regarding how to formalize their semantics
(cf. Verkuyl 1993), a particular attention has been paid recently to Accomplishments (cf. Rothstein 2004, 2012; Pion 2006, among others).
From a theoretical point of view, it should be pointed out that, in the majority
of aspectual classes proposals, the class of Accomplishments1 presents the greater
[1]
The term accomplishment is used originally in Vendler (1957) in a proposal describing the different
types of situations based on Aristotle and Kenny (1963). There are, however, other proposals, like Mourelatos (1978), Bach (1986), Moens (1987), Smith (1991). These proposals are all based on Vendlers classification. For a different proposal built, according to the author, specifically for Portuguese, see Santos
(1996).
[458]
oliveira & leal

structural complexity, reflecting the combination of two properties: duration and
telicity. This can be observed, just to mention some examples, in Moens (1987)
and Rothsteins (2004) proposals. In the first case, Accomplishments (or, in Moens
terminology, Culminated Processes) are the only type of events that present, in their
aspectual nucleus, two eventive phases, the preparatory process and the culmination point. In this classification, Achievements (or Culminations) exhibit, in the
aspectual nucleus, only a culmination point and Activities (Processes) show only a
preparatory process. In the second case, Rothstein (2004), using an event semantics, proposes that the structure of Accomplishments comprises two sub-events.
One of these sub-events corresponds to an Activity and the other to an incremental durative change of state event and these two sub-events share an argument,
the incremental theme. As a consequence of this view, Accomplishments would be
a derived class, built on basic eventualities.
Taking into consideration data analysis problems in European Portuguese (EP
hereafter) and in other languages (cf. Krifka 1995; Filip 1999; Pion 2006, among
others), the predications classified as Accomplishments arise, in most cases, as a result of the combination of certain aspectually relevant properties of the verb with
some properties of another constituent of the predication. The latter is typically
an internal argument but could also be an external argument or an adjunct (cf.
Mourelatos 1978; Tenny 1987; Dowty 1991; Ramchand 1997, among others). So we
generally agree with Mourelatos (1978), when he says that, for the analysis of verb
predication, a total of six factors are involved: (a) the verbs inherent meaning;
(b) the nature of the verbs arguments, i.e., of the subject and of the object(s), if
any; (c) adverbials, if any; (d) aspect; (e) tense as phase, e.g., the perfect; (f) tense
as time reference to past, present, or future (Mourelatos 1978, pg. 421).
As the definition of the Accomplishments aspectual profile does not depend
solely on the verb itself but on the combination of the verb together with other
elements of the predication, this raises a number of problems regarding the aspectual classification of some predications. This can already be noticed in Vendler
(1957, pg. 145), who remarked that adding a direct object could change the aspectual nature of a predication with a verb like run. Dowty (1979) also points out
that an Activity verb describing movement behaves like an Accomplishment verb
when it co-occurs with a destination locative or an adverbial of extension, as in (1):
(1)
John walked a mile/ to the park (in an hour) (Dowty 1979, pg. 60)
Moreover, Dowty (1979) considers that any Activity verb can behave, in the right
contexts, as an Accomplishment and that some verbs classified as Accomplishments
can be classified as Activities when the direct object is an indefinite plural or a
mass noun, as it was already pointed out in Mourelatos (1978, pg. 427).
These considerations lead to the question of how to classify these verbs (see
also Verkuyl 1993, who elaborates his ideas put forward in Verkuyl 1972) and
[459]
moreover how to establish a relation between two predications like (2-a), classified as an Activity (an atelic event), and (2-b), classified as an Accomplishment (a
telic event). Putting it in another way, would it be the case that the verb beber
(to drink) projects an eventuality of the type Activity which is subsequently commuted to an Accomplishment via a quantized direct object (see Krifka 1992, 1998),
or would it be the case that the same verb projects an Accomplishment which is
commuted to an Activity via a cumulative direct object?
(2)
a.
b.
O Rui
bebeu gua
The-Rui drank water
Rui drank water
O Rui
bebeu um copo
The-Rui drank a
glass
Rui drank a glass of water
de
of
gua
water
A way to avoid this problem is to assume that the aspectual classes are defined
at verb phrase level and not at verb level, so that (2-a) would be a basic Activity
while (2-b) would be a basic Accomplishment (cf. de Swart 1998; Rothstein 2004
among others). Nevertheless, this does not explain the relation between the two
sentences and it does not explain either why we do not see a parallel behaviour
with other types of verbs where the contrast cumulative/quantized direct objects
does not trigger aspectual shift (cf. Rothstein 2012). This can be illustrated by
(3), where the contrast between quantized and cumulative direct object o carrinho/areia (the cart/ sand) does not produce any aspectual change:
(3)
a.
b.
O Rui
empurrou
carrinho
(*em 5 minutos/
durante 5 minutos)2
The-Rui pushed
the cart
(in 5 minutes/
for 5 minutes)
Rui pushed the cart (*in 5 minutes/ for 5 minutes)
O Rui
empurrou areia (*em 5 minutos/durante 5 minutos)
The-Rui pushed
sand (in 5 minutes/for 5 minutes)
Rui pushed sand (*in 5 minutes/for 5 minutes)
Moreover, the simple assumption that aspectual classes are defined at verb
phrase level does not explain why the quantized/cumulative direct object alternation does not give rise to aspectual shifts involving other aspectual classes. This
can be illustrated in (4), where (4-a) and (4-b) are states, irrespective of the direct
object being uma mulher (quantized direct object) or poesia moderna (cumulative
direct object), and (4-c) and (4-d) are degree achievements (cf. Dowty 1979; Hay
[2]
We use the standard written symbol * to mark the ungrammaticality of the examples, and # to point
out that the example is acceptable but it does not exhibit the relevant interpretation.
[460]
oliveira & leal

et al. 1999; Kennedy & Levin 2008, among others), irrespective of the direct object
being um prato de sopa (quantized direct object) or sopa (cumulative direct object).
(4)
a.
b.
c.
d.
O Joo
adorou uma mulher
The-Joo adored a
woman
Joo adored a woman.
O Joo
adorou poesia moderna
The-Joo adored modern poetry
Joo adored modern poetry.
O Joo
aqueceu
um prato de
The-Joo warmed up a
bowl
of
Joo warmed up a bowl of soup.
O Joo
aqueceu
sopa.
The-Joo warmed up soup
Joo warmed up some soup.
sopa.
soup
[2] f i l i p ( 1 9 9 9 ) a n d p i o n ( 2 0 0 6 ) p r o p o s a l s a n d e p data
Filip (1999) puts forward a proposal for solving this problem3 . According to her,
the verbs with an incremental theme argument belong to a particular type of
eventuality, incremental eventuality. This type of eventuality is of a lexical nature
in the sense that this classification is ascribed to a verb as a non saturated predicate, that is, a predicate only with variables in its argument positions. In Filips
proposal verbs can be classified as [- quantized] or [+ quantized], corresponding
the former to States and Activities and the latter ones to the other events. However,
the incremental eventualities have in their basis a verb specified as [ quantized],
that is, this kind of verbs is specified with an indeterminate value for quantization. So, these predicates would be telic or atelic according to the quantized or
cumulative nature of their incremental theme argument, or any other incremental argument satisfying a homomorphism to the argument event.
This proposal, based on the notion of quantization, faces some problems when
we look at some EP data. In Filips (1999) proposal the incremental eventualities
are related to the property of quantization, but a sentence like (5), for instance,
denotes a quantized predicate (as there is no proper part of vaguear at praia
(wonder up to the beach) that is vaguear at praia) but it is not telic, as we can see
by the application of the temporal adverbials test compatibility.
[3]
For different perspectives or proposals, see Mourelatos (1978); Declerck (1979); Carlson (1981); Tenny
(1987); Dowty (1991); Depraetere (1995); Ramchand (1997); Krifka (1998), among others.

(5)
O rapaz
vagueou
[461]
at
praia
(*em meia hora/

durante meia hora)
The boy wandered up to-the beach (* in half an hour/
for half an hour)
The boy wandered up to the beach (* in half an hour/ for half an hour)
Another problem is the existence of verbs that project eventualities of incremental type, but the alternation of the quantized/cumulative status of the incremental theme argument does not cause any change in the telicity of the predication,
as in (6).
(6)
a.
b.
O rapaz almoou um prato de sopa (# durante 10 minutos/

em dez minutos)
The boy lunched a
bowl of soup (# for 10 minutes/
in 10 minutes)
The boy had a bowl of soup for lunch (# for 10 minutes/in 10 minutes)
O rapaz almoou sopa (# durante 10 minutos/em dez minutos)
The boy lunched soup (# for 10 minutes/in 10 minutes)
The boy had soup for lunch (# for 10 minutes/in 10 minutes)
Examples like (6) show that, in incremental eventualities, it is not always possible
to associate the quantization of the incremental theme to telicity and its cumulativity to atelicity.
A similar idea, that is, there are not just two classes of durative events (Activities and Accomplishments), but possibly three classes is also developed in Pion
(2006). Based on data from Hungarian, Pion proposes a division of Accomplishments in Strong Accomplishments and Weak Accomplishments. The first ones are incompatible with bare plural direct objects and give rise to two readings (presuppositional and scalar) when they occur in the scope of operators like almost. The
second ones are compatible with bare plural direct objects and give rise only to
the presuppositional reading when they occur in the scope of operators like almost, being in this respect similar to Activities. However, the data from EP does
not confirm this kind of division, as there is no restriction to the type of direct
object, differently from Hungarian, as we can see by the contrast between (7-a)
and (8-a) where the first one admits two possible interpretations (as shown in (7a) and (7-a)) but the second one only admits one interpretation (see (8-a)). On
the other hand, when a verb combines with a bare plural (cf. (8-a)), the test with
almost shows only the presuppositional reading (similar to Hungarian), but the
predication is not telic, since it does not combine with in x time, but with for x time
only (cf. (8-b)).
[462]
oliveira & leal

(7)
a.
O rapaz quase comeu a

ma
The boy almost ate
the apple
The boy almost ate the apple
a O rapaz no comeou a comer a
ma
The boy not started
to eat
the apple
The boy didnt start eating the apple
a O rapaz no acabou de comer a
ma
The boy not finish
of eat
the apple
The boy didnt finish eating the apple
b.
O rapaz comeu a
ma em 5 minutos
The boy ate
the apple in 5 minutes
The boy ate the apple in 5 minutes
(8)
a.
O rapaz quase comeu mas

The boy almost ate
apples
The boy almost ate apples
a O rapaz no comeou a
comer mas
The boy not started
to eat
apples
The boy didnt started eating apples
a O rapaz no acabou de comer mas
The boy not finish
of eat
apples
The boy didnt finish eating apples
b.
O rapaz comeu mas (* em 5 minutos/durante 5 minutos)
The boy ate
apples (* in 5 minutes/for 5 minutes)
The boy ate apples (* in 5 minutes/for 5 minutes)
[3] a c c o m p l i s h a b l e a c t i v i t i e s
In order to find a way towards solving this puzzle, we propose4 that verbs do carry
some information concerning the telicity of the predications they project. And
we consider telicity as the property of the predications that denote eventualities
having a set terminal point and a consequent state (cf. Garey 1957; Moens 1987,
among others)5 associated to it.
In other words, there are eventualities whose final boundaries can only be set
in an arbitrary way, since these eventualities can extend in time indefinitely. But
there are also eventualities whose final boundaries are an intrinsic characteristic
of their aspectual profile. In this case, if that final boundary is not achieved, then
the predication is not appropriate for describing it.
[4]
[5]
Cf. Leal & Oliveira (2008) and Leal (2009).

The term telicity was first introduced by Garey (1957), but, since then, some different ways to understand it were used. See, for instance, Dowty (1991) and Krifka (1992), but also Krifka (1998) and Depraetere
(1995), among many others.
[463]
That information contemplates three possible values:

[- telic] the verb is lexically atelic and as such it does not permit the construction in which occurs to be telic by aspectual composition in what concerns
the inner aspect;
[+ telic] the verb is lexically telic and as such it does not permit the construction in which occurs to be atelic by aspectual composition in what concerns
the inner aspect;
[ telic] the verb is underspecified in what concerns the telicity of the predication, which will be determined by some other elements like, for instance,
an internal argument.
There are verbs lexically marked as [- telic], which means that these verbs
arise from the lexicon as atelic items and thus they do not allow the predication
in which they occur to acquire telicity in the course of the aspectual composition,
as seen in (9).
(9)
O rapaz vagueou (at praia)

(*em 15 m. / durante 15 m.)
The boy wandered (up to the beach) (*in 15 m. / for 15 m.)
The boy wandered (up to the beach) (*in 15 m. / for 15 m.)
We can see, in (9), that the predication is compatible only with the adverbial
for x time and it is not compatible with in x time, independently of the occurrence
of a prepositional phrase with the semantic role of Goal (at praia), which usually favours a telic reading of the predications with movement verbs (cf. Krifka
1998; Rothstein 2004; Zwarts 2005, among others). In other words, in the inner
aspect (verb and its arguments), as much as in the outer aspect (with certain nonargument expressions), the predication is atelic, that is, it is an Activity, and this
is related, according to our proposal, to the fact that the verb exhibits some lexical information that imposes atelicity to the predication. Thus a predication with
this kind of verbs will be classified as an Activity
On the other hand, there are verbs that are lexically marked as [+ telic],6 i.e.,
verbs that have an information of telicity in the lexicon, which implies that these
verbs do not allow that the predications in which they occur can be compositionally defined as atelic. For this reason, when these verbs occur with atelicity
triggers, such as argument cumulative nouns, it is not the case that predications
[6]
We are assuming a point of view similar to Engelberg (2002), who claims, grounded on German data, that
a certain type of verbs, such as promovieren (to do a Ph.D) or dinieren (to dine), arise from the lexicon as
quantized predicates, contrary to other authors, such as Krifka (1998), who claims that, from a strictly
lexical point of view, all verbs are cumulative predicates.
[464]
oliveira & leal

become atelic, as we can see in (10-a). The atelicity only arises, possibly as a pragmatic effect, when the whole predication is in the scope of an aspectual shifter,
such as the adverbial for x time in (10-b)7 .
(10)
a.
b.
O rapaz almoou sopa em 10 m.

The boy lunched
soup in 10 m.
The boy had soup for lunch in 10 m.
O rapaz almoou durante 10 m.
The boy lunched
for 10 m.
The boy lunched for 10 m. (he finished the lunch/
he didnt finish the lunch)
Almoar (to have lunch/to lunch) is a verb that is lexically marked as [+ telic].
So, the predication this verb projects must be also telic. In other words, a predication with almoar (to have lunch) is, in what concerns the inner aspect, an Accomplishment. Thus, in (10-a), the occurrence, as a direct object, of the cumulative
noun sopa (soup) does not interfere with the telicity of the predication (that remains telic), as we can verify by the occurrence of the adverbial in x time. The
occurrence of an adverbial as for x time, as in (10-b), does not shift the aspectual
profile of the predication and, as a consequence, predications in (10) correspond
to Accomplishments, irrespective of the adverbials.
Finally, there are verbs lexically specified as [ telic], which means that these
verbs are lexically underspecified in what concerns telicity. It is in these cases
that the internal arguments of the verbs partially determine the aspectual profile
of the predications. See (11).
(11)
[7]
a.
O rapaz bebeu leite (durante 10 segundos/* em 10 segundos)

The boy drunk milk (for 10 seconds/in 10 seconds)
The boy drank milk (for 10 seconds/in 10 seconds)
A referee considered examples (10) ungrammatical. However, the Web has several examples with this
kind of combination. See, for instance, the following ones.
(a)
a Dona Constana tambm acredita que uns dias antes o Scrates almoou durante 3h com Pinto
Monteiro para falar de livros
(http://www.tvi24.iol.pt/opiniao/constanca-cunha-e-sa/
entrevista-a-tvi-prenuncia-nova-estrategia-de-defesa-de-socrates)
(b)
O ru jantou, durante 45 minutos, compreendidos entre as 19 horas e 30 minutos e as 20 horas

e 45 minutos do dia 30/03/2003, sendo que durante o jantar bebeu, pelo menos, 0,75 litros de
vinho
(http://www.dgsi.pt/jtrc.nsf/8fe0e606d8f56b22802576c0005637dc/
a6f159ccc5a9c43d802572ec003aa944?OpenDocument)

b.
[465]
O rapaz bebeu um copo de leite (*/# durante dez segundos/

em dez segundos)
The boy drunk a
glass of milk (for 10 seconds/
in 10 seconds)
The boy drank a glass of milk (for 10 seconds/in 10 s seconds)
We can see in (11) that the occurrence of a non count bare noun in the direct
object position determines the atelicity of the predication, while the occurrence
of a measure function as um copo de (a glass of) determines the telicity of the predication, as it is confirmed by the different possibilities of combination with the
adverbial in x time and for x time.
The same happens with verbs of movement plus a Goal prepositional phrase,
as in (12).
(12)
a.
b.
O atleta
correu para a
meta
(em 10 minutos/
#durante 10 minutos)
The athlete ran
to
the finish line (in 10 minutes/
for 10 minutes)
The athlete ran to the finish line (in 10 minutes/for 10 minutes)
O atleta
transportou a tocha para o estdio (em 2 h./
# durante 2 h.)
The athlete carried
the torch to
the stadium (in 2 h./
for 2 h.)
The athlete carried the torch to the stadium (in 2 h./for 2 h.)
However, the class of [ telic] verbs does not seem to be uniform. Instead, it
seems that there is a scale of (a)telicity. For instance, verbs like beber (to drink)
or correr (to run) seem to be more telic than verbs like discutir (to discuss) ou
estudar (to study), since the latter, but not the former, allow not only telic readings, but also atelic ones when the direct object is a quantized predicate. In fact,
when the internal argument of these verbs is realized as a quantized predicate,
a reading of Activity and a reading of Accomplishment of the verbal predicate are
both possible8 , which is in contrast with the majority of the previous cases, where
a reading of Accomplishment is usually mandatory. In these circumstances, these
[8]
The difference between this two readings seem to rely on some notion of completeness, that is related
to telicity. For instance, Rothstein (2008) argues that the telic/atelic distinction bear on the denotation of the verbal predicates: telic predicates denote sets of atomic entities, whereas atelic predicates
denote sets of non-atomic entities. The difference between these sets depends on the existence of criteria for what counts as one entity. If we say that the deputies discussed the law in 2 hours, this means
that the discussion come to an end, i.e., the discussion had a predetermined procedure that was completed and this procedure defines what counts as one event of discussing the law. This interpretation
does not arise with the for x time adverbial. This is very different from what Dahl (1981) suggests for
the relation between the P property and the T property , that is the relation between telic/atelic and
bounded/unbounded. For a discussion of this latter proposal, see also Depraetere (1995).
[466]
oliveira & leal

constructions with verbs such as estudar or discutir can equally combine with in x
time and for x time, as (13) shows.
(13)
Os deputados discutiram a
lei (durante 2 horas/em 2 horas)
The deputies
discussed
the law (for 2 hours/in 2 hours)
The deputies discussed the law (for 2 hours/in 2 hours)
It is important to notice that, even in the cases in which a measure adverbial

occurs, the described situation is relatively homogeneous, being, in this respect,
similar to Activities. This notion of homogeneity can be described in a way very
similar to the notion of incremental homogeneity, proposed in Landman (2008),
and further developed in Landman & Rothstein (2012)9 . In fact, if it is true that
os deputados discutiram a lei em 2 horas (the deputies discussed the law in 2 hours),
it is also true that os deputados discutiram a lei in subintervals of those two hours.
On the contrary, if it is true that o rapaz bebeu um copo de leite em 10 segundos (the
boy drunk a glass of milk in 10 seconds), then o rapaz bebeu um copo de leite cannot
be true in any subinterval of those 10 seconds, which means that Accomplishments
are not homogeneous.
All in all, [- telic] verbs project eventualities that can be classified, concerning
the inner aspect, as Activities, while [+ telic] verbs project Accomplishments, independently of the properties of their arguments. On the other hand, [ telic] verbs
project eventualities whose telicity will depend, for instance, on the properties of
an argument (if any), the one that establishes a homomorphism with the run time
of the eventuality. If we consider, just like Filip (1999), non saturated predicates,
i.e., predicates whose argument positions are not filled yet, these predicates will
be Activities, if the verb is [- telic], or Accomplishments, if the verb is [+ telic], or
some sort of Accomplishable Activities (meaning Activities that can become Accomplishments) if the verb is [ telic]. In fact, and as it is usually recognized in the
literature, in the absence of the internal argument realization (in the cases where
this is possible), the predication is an Activity, as we can see in (14). When the argument slots are occupied, predications will be defined, in principle, as Activities
or as Accomplishments, depending on the denotational properties of the homomorphic argument10 , or, instead, as in Kennedy & Levin (2008), on the existence of a
measure of change function whose scale can have or have not a terminal point.
(14)
[9]
[10]
[11]
O rapaz bebeu (durante 10 segundos/* em 10 segundos11 )

The boy drunk (for 10 seconds / in 10 seconds)
The boy drunk (for 10 seconds / in 10 seconds)
The complex notion of homogeneity was first noticed in Vendler (1957).
Verbs like estudar and discutir are exceptions to this statement, as we have seen before.
Except if a delimited portion of beverage is considered.
[467]
To sum up, we propose that [+ telic], [- telic] and [ telic] are lexical verbal features. Furthermore, these features are different concerning the aspectual composition: [+ telic] and [- telic] features determine the telicity of the basic predication, irrespective of the nature of the arguments; but the [ telic] feature allows
the telicity of the predication to be determined during the derivation process.
In this case, the quantized/cumulative properties of the homomorphic argument
are aspectually relevant. According to this proposal, based on EP data, the telicity of the predication is not determined at V level in all cases (cf., for instance,
Tenny 1994), nor solely at VP level (cf., for instance, Rothstein 2012). It is possible
that languages diverge in the way they compute telicity (cf., for instance, Filip &
Rothstein 2006, for Slavic languages).
The problem we concentrated on was to clarify the aspectual status of some predications regarding in particular the problem of telicity. These predications can
have a different classification according to the quantized/cumulative nature of
one of their arguments. That is, they can be classified as Accomplishments or Activities in their inner aspect. This is a long debate as we pointed out mentioning
some of the most relevant bibliography. The two proposals that we briefly discussed (Filip 1999; Pion 2006) do not seem to solve some of the problems put
forward for the EP data presented.
We then proposed that the verbs carry some aspectual information concerning the telicity of the predication they project. So, based on EP data, we suggest
that there are three possible values: [+ telic], [- telic] verbs and [ telic] verbs.
The former determine the telicity or atelicity of the predication irrespective of
the nature of the arguments. The latter one does not do so. In this case, the telicity of the predication will rely on other elements. We only discussed cases where
an argument establishes a homomorphic relation to the event. When this relation
holds, the argument determines if the predication is telic or atelic, depending on
its denotational properties.
We also propose that, when the verbs are [ telic] and none of the relevant arguments is fulfilled, the predication will be atelic and consequently it is classified
as an Activity. So, when the predications projected by the [ telic] verbs are not
saturated, in fact they are not Accomplishments nor Activities, but Accomplishable
Activities, i.e., Activities that can have culmination.
acknowledgments
This paper is dedicated to Belinda Maia, whose activities and accomplishments are
of great importance.
CLUP is supported by FCT, PEst-OE/LIN/UI0022/2014.
[468]
oliveira & leal
references
Bach, Emmon. 1986. The Algebra of Events. Linguistics and Philosophy 9. 516.
Carlson, Lauri. 1981. Aspect and Quantification. In Philip Tedeschi & Annie Zaenen
(eds.), Syntax and Semantics, vol. 14, chap. 3, 3164. Academic Press.
Dahl, Osten. 1981. On the Definition of the Telic-Atelic (Bounded-Nonbounded)
Distinction. In Philip Tedeschi & Annie Zaenen (eds.), Syntax and Semantics,
vol. 14, chap. 5, 7990. Academic Press.
Declerck, Renaat. 1979. Aspect and the bounded/unbounded (telic/atelic) distinction. Linguistics 17. 761794.
Depraetere, Ilse. 1995.
On the necessity of distinguishing between
(un)boundedness and (a)telicity. Linguistics and Philosophy 18(1). 119.
Dowty, David (ed.). 1979. Word Meaning and Montague Grammar. The Semantics of
Verbs and Times in Generative Semantics and in Montagues PTQ. Reidel.
Dowty, David. 1991. Thematic Proto-Rules and Argument Selection. Language
67(3). 547619.
Engelberg, Stefan. 2002. Intransitive accomplishments and the lexicon: the role
of implicit arguments, definiteness and reflexivity in aspectual composition.
Journal of Semantics 19. 369416.
Filip, Hana (ed.). 1999. Aspect, Eventuality Types and Nominal Reference. Garland
Publishing Inc.
Filip, Hana & Susan Rothstein. 2006. Telicity as a semantic parameter. In James
Lavine, Steven Franks, Mila Tasseva-Kurktchieva & Hana Filip (eds.), Formal Approaches to Slavic Linguistics, vol. 14, 139156. Ann Arbor.
Garey, Howard. 1957. Verbal Aspect in French. Language 33(2). 91110.
Hay, Jen, Christopher Kennedy & Beth Levin. 1999. Scalar structure underlies
telicity in degree achievements . In Tanya Matthews & Devon Strolovitch
(eds.), Proceedings of SALT 9, 127144.
Kennedy, Christopher & Beth Levin. 2008. Measure of Change: The Adjectival
Core of Degree Achievements. In Louise McNally & Christopher Kennedy (eds.),
Adjectives and Adverbs: Syntax, Semantics and Discourse, chap. 7, 156182. Oxford
University Press.
Kenny, Anthony (ed.). 1963. Action, Emotion and Will. Humanities Press.
[469]
Krifka, Manfred. 1992. Thematic Relations as Links between Nominal Reference

and Temporal Constitution. In Ivan Sag & Anna Szabolcsi (eds.), Lexical Matters,
chap. 2, 2954. Stanford University.
Krifka, Manfred. 1995. Common Nouns: A Contrastive Analysis of Chinese and
English. In Gregory Carlson & Francis Pelletier (eds.), The Generic Book, chap. 11,
398411. The University of Chicago Press.
Krifka, Manfred. 1998. The Origins of Telicity. In Susan Rothstein (ed.), Events and
Grammar, chap. 9, 197235. Kluwer Academic Publishers.
Landman, Fred. 2008. On the differences between the tense-perspective-aspect
systems of English and Dutch. In Susan Rothstein (ed.), Theoretical and Crosslinguistic Approaches to the Semantics of Aspect, chap. 4, 107166. Benjamins.
Landman, Fred & Susan Rothstein. 2012. The felicity of aspectual for-phrases, part
2: incremental homogeneity. Language and Linguistic Compass 6(2). 97112.
Leal, Antnio. 2009. Semntica Aspectual e Nominal Contributo das Expresses Nominais para a Construo Aspectual das Frases: Faculdade de Letras da Universidade
do Porto PhD dissertation.
Leal, Antnio & Ftima Oliveira. 2008. Subtipos de verbos de movimento e classes
aspectuais. In Snia Frota & Ana Lcia Santos (eds.), Textos Seleccionados do XXIII
Encontro da Associao Portuguesa de Lingustica, 287298. Associao Portuguesa
de Lingustica.
Moens, Marc. 1987. Tense, Aspect and Temporal Reference: University of Edinburgh
PhD dissertation.
Mourelatos, Alexander. 1978. Events, Processes and States. Linguistics and Philosophy 2. 415434.
Pion, Christopher. 2006. Weak and strong accomplishments. In Katalin Kiss
(ed.), Event structure and the left periphery: Studies on Hungarian, chap. 5, 91106.
Springer.
Ramchand, Gillian (ed.). 1997. Aspect and Predication The Semantics of Argument
Structure. Clarendon Press.
Rothstein, Susan (ed.). 2004. Structuring Events: a Study in the Semantics of Lexical
Aspect. Blackwell.
Rothstein, Susan. 2008. Two puzzles for a theory of lexical aspect: semelfactives
and degree achievements. In Johannes Dlling, Tatjana Heyde-Zybatow & Martin Schfer (eds.), Event Structures in Linguistic Form and Interpretation, chap. 8,
175198. Walter de Gruyter.
[470]
oliveira & leal

Rothstein, Susan. 2012. Another Look at Accomplishments and Incrementality.
In Violeta Demonte & Louise McNally (eds.), Telicity, Change and State. A CrossCategorial View of Event Structure, chap. 3, 60102. Oxford University Press.
Santos, Diana Maria de Sousa Marques Pinto dos. 1996. Tense and aspect in English
and Portuguese: a contrastive semantical study: Instituto Superior Tcnico, Universidade Tcnica de Lisboa PhD dissertation.
Smith, Carlota (ed.). 1991. The Parameter of Aspect. Kluwer Academic Publishers.
de Swart, Henriette. 1998. Aspect shift and coercion. Natural Language and Linguistic Theory 16(2). 347385.
Tenny, Carol. 1987. Grammaticalizing Aspect and Affectedness: Massachusetts Institute of Technology PhD dissertation.
Tenny, Carol (ed.). 1994. Aspectual Roles and the Syntax-Semantics Interface. Kluwer.
Vendler, Zeno. 1957. Verbs and Times. The Philosophical Review 66(2). 143160.
Verkuyl, Henk (ed.). 1972. On the Compositional Nature of the Aspects. Reidel Publishing.
Verkuyl, Henk (ed.). 1993. A Theory of Aspectuality. The interaction between temporal
and atemporal structure. Cambridge University Press.
Zwarts, Joost. 2005. Prepositional Aspect and the Algebra of Paths. Linguistics and
Philosophy 28(6). 739779.
c o n ta c t s
Ftima Oliveira
moliv@letras.up.pt
Antnio Leal
jleal@letras.up.pt

Linguística, Informática e Tradução: Mundos Que Se Cruzam

Enviado por

Dados do documentoclique para ver informações do documentoAcademic works on linguistics, computing and translation

Dados do documentoclique para ver informações do documento

Direitos autorais:

Formatos disponíveis

Linguística, Informática e Tradução: Mundos Que Se Cruzam

Enviado por

Dados do documento

Título original

Direitos autorais

Formatos disponíveis

Compartilhar este documento

Compartilhar ou incorporar documento

Opções de compartilhamento

Você considera este documento útil?

Este conteúdo é inapropriado?

Direitos autorais:

Formatos disponíveis

Linguística, Informática e Tradução: Mundos Que Se Cruzam

Enviado por

Direitos autorais:

Formatos disponíveis

Oslo Studies in Language

Alberto Simes, Anabela Barreiro, Diana Santos,

Lingustica, Informtica e Traduo:

Oslo Studies in Language

Universidade do Minho & Linguateca

Oslo Studies in Language

Alberto Simes, Anabela Barreiro, Diana Santos,

Lingustica, Informtica e Traduo:

Oslo Studies in Language, 7(1), 2015.

Para uma ontologia dos estudos de traduo

Corpgrafo, Terminologie, Phrasologie

Estudo preliminar da anfora num corpus de interpretao

Slvia Arajo e Ana Correia

A admirao luz dos corpos

Diana Santos e Cristina Mota

Emprstimo lexical, conceptualizao e variao: Para a

Augusto Soares da Silva

Automatic Anonymisation of a new Portuguese-English Parallel

Japo visto de Portugal: Explorao usando um corpo de textos

Pesquisa em educao: perspectivas (qualitativas?) na explo139

ENCADEAr: ENCADEAmento automtico de notcias

Affinity Mining of Documents Sets via Network Analysis,

Pavel Brazdil, Lus Trigo, Joo Cordeiro, Rui Sarmento, and

Traduo automtica, ma non troppo

Estudos de Terminologia no Brasil: dilogos com Portugal

Maria Jos Bocorny Finatto

Ensinador Paralelo: Alicerces para uma pedagogia nova

Diana Santos e Alberto Simes

A tool at hand gestures and rhythm in listing events:

Isabel Galhano Rodrigues

Traduo Automtica na Interao com Mquinas

Antnio Teixeira, Jos Casimiro Pereira, Pedro Francisco e Nuno Almeida

Reporter fired for plagiarism: a forensic linguistic analysis of

The English R Coming! The never ending story of Portuguese

Two base generated structures for ditransitives in European

Ana Maria Brito

Corpus-driven glossaries in translator training courses

Stella Esther Ortweiler Tagnin

The identification of indicators of sentiment using a multi-view

Hugo Gonalo Oliveira, Valeria de Paiva, Cludia Freitas, Alexandre Rademaker,

SentiLex-PT: Principais caractersticas e potencialidades

Loving and hating in English and Portuguese:

Activities with culmination

Signe Oksefjell Ebeling

Ftima Oliveira and Antnio Leal

mundos que se cruzam

simes, barreiro, santos, sousa-silva & tagnin

lingustica, informtica e traduo

mundos que se cruzam

pe um conjunto de sugestes para um novo mapa coerente e consistente dos

simes, barreiro, santos, sousa-silva & tagnin

OSLa volume 7(1), 2015

mundos que se cruzam

OSLa volume 7(1), 2015

simes, barreiro, santos, sousa-silva & tagnin

mundos que se cruzam

simes, barreiro, santos, sousa-silva & tagnin