Literatura y lingüística - Concordâncias, listas de palavras e palavras-chave: o que elas podem nos dizer sobre a linguagem?

It is the cache of ${baseHref}. It is a snapshot of the page. The current page could have changed in the meantime.
Tip: To quickly find your search term on this page, press Ctrl+F or ⌘-F (Mac) and use the find bar.

Literatura y lingüística - Concordâncias, listas de palavras e palavras-chave: o que elas podem nos dizer sobre a linguagem?

número16

Entre zepellines y boeings 747: metáforas del vuelo y de la aviación en el habla cotidiana en español bonaerense

Copulativas de identificación en español: aspectos funcionales, semánticos y pragmáticos

índice de autores

índice de materia

búsqueda de artículos

Home Page

lista alfabética de revistas

Servicios Personalizados

Articulo

Indicadores

Citado por SciELO

Links relacionados

Similares en SciELO

Permalink

Literatura y lingüística

versión impresa ISSN 0716-5811

Lit. lingüíst. n.16 Santiago 2005

http://dx.doi.org/10.4067/S0716-58112005000100014

Literatura y Lingüítica N° 16, págs: 249-261

Lingüística: artículos y monografías

Concordâncias, listas de palavras e palavras-chave: o que elas podem nos dizer sobre a linguagem?

Leonardo Juliano Recski
brasileiro,
Universidade Federal de Santa Catarina

Resumo

Corpora armazenados eletronicamente são excelentes recursos para uma série de atividades. Este artigo descreve três métodos para a investigação da linguagem: concordâncias, listas de palavras e palavras-chave. Sugere-se que tais métodos estão ao alcance de aprendizes de línguas e literatura, de professores e de pesquisadores empregando computadores pessoais comuns. Concentrado-se especificamente nestes três métodos, espera-se que o artigo possa aguçar o apetite do crescente corpo de professores, aprendizes e pesquisadores com acesso a corpora para que possam mais autonomamente desvelar fatos sobre o funcionamento da linguagem em todas as suas variedades.

Palavras-chave: - lingüística de corpus - concordâncias- listas de palavras - palavras-chave

Abstract

Computerized corpora have proved to be excellent resources for a wide range of tasks. This article describes three methods for carrying out research into small corpora, namely, the use of concordances, wordlists and keywords. It is suggested that such methods are within the reach of language and literature learners, teachers or researchers working with an ordinary computer. It is hoped that, by concentrating specifically in three methods, the article may be able to whet the appetites of the growing body of teachers, learners and researchers with access to corpora to discover more for themselves about how languages work in all their variety.

Keywords: - corpus linguistics - concordance- wordlist - keywords

1. Introdução

Para que possam trabalhar de maneira eficiente com corpora pequenos ou grandes, aprendizes, professores de línguas ou pesquisadores precisam, acima de tudo, de fácil acesso a eles e de software adequados. Sem muita dificuldade, qualquer pessoa interessada em investigar diversos aspectos lingüísticos pode ligar o seu computador, sem sair de casa, e descobrir fatos interessantes e, até porque não dizer, surpreendentes, sobre a linguagem.

Este artigo descreve alguns dos possíveis métodos para a pesquisa de pequenos corpora. Sugere-se que tais métodos sejam compatíveis com as necessidades de aprendizes, professores de línguas e/ou pesquisadores interessados em realizar pesquisa empregando computadores pessoais comuns.

O artigo está estruturado em três partes. A seção 2 discute o uso de concordâncias para localizar ocorrências de uma dada palavra ou frase em um corpus, bem como para examinar quais palavras tipicamente co-ocorrem com estas palavras ou frases.

A seção 3 descreve o emprego de listas de palavras. Listas de palavras podem ser geradas a partir de um texto ou de uma coleção de textos. Informação sobre a freqüência de certas palavras pode ser de grande importância para que possamos identificar as características de um dado texto ou gênero.

Finalmente, a seção 4 discute o uso de palavras-chave. O princípio básico deste tipo de análise é que se uma palavra for muito mais freqüente em um dado texto do que sua freqüência em um conjunto de textos empregados como referência, ela provavelmente constitui uma palavra-chave.

2. Empregando concordâncias na investigação de aspectos lingüísticos

Concordâncias são de grande utilidade haja vista que não existe outra forma de obtermos uma grande quantidade de exemplos de morfemas, palavras ou frases em seus contextos de uso. Dicionários oferecem boas informações sobre a pronuncia, etimologia, aspectos gramaticais, significado e no máximo dois ou três exemplos de cada significado de uma palavra. Gramáticas propõem-se a exemplificar e explicar, mas uma boa parte das palavras ou frases não são exemplificadas. Logo, tanto aprendizes e professores, quanto lexicógrafos, podem utilizar concordâncias para obterem inúmeros exemplos. Ao examinarmos estes exemplos, é possível descobrir não apenas que palavras tipicamente co-ocorrem com a palavra que estamos examinando, mas obter também uma noção de sua freqüência.

Channell (2000) emprega o termo "significado pragmático" para aqueles aspectos do significado que estão relacionados a como uma palavra ou frase é tipicamente utilizada, ao invés daqueles que são inerentes a própria palavra ou frase. A pesquisa de Channell está em consonância com pesquisas anteriores, como as de Stubbs (1996) e Sincalir (1991), que empregam o termo "prosódia semântica" para descrever o fato de uma dada palavra ou frase poder ocorrer com maior freqüência no contexto de outras palavras ou frases que são predominantemente positivas ou negativas em sua orientação semântica. Uma concordância do adjetivo fat utilizando o British National Corpus Sampler demonstra que das 61 ocorrências encontradas em cerca de 2 milhões de palavras, 46 ocorrências (75%) apresentam uma conotação negativa (Figura 1).

Figura 1. Concordância do adjetivo fat no British National Corpus Sampler

1	bear in fact knocked Lambert down and he was so	FAT	he could not get up! Lambert came to Stamford ...
2	... are you? Doctor! Doctor! I tend to get	FAT	in certain places. What should I do?
3	... should be like I, I always thought I was	FAT	regardless of what weight. Yep. I was and it ...
4	... I have to live with. I think I'm	FAT	! The reality of anorexia for you was what, ...
5	... at one time. I see boys calling the girls	FAT	and it makes my hair stand on end! Erm ...
6	.. on continually and these poor girls are oh you're	FAT	! You've got a great big bottom! And ...
7	... don't want her you can have her she's too	FAT	for me." The humiliation made me shudder. ...
8	y proletariat of paint in allegorical restraint. Where	FAT	silk-hatted bosses strut and cower. Around the walls in
9	She was about forty years old and a little	FAT	. She looked afraid. &bquo;You wanted me, ...
10	... out of his seat. The passenger was a short	FAT	in a grey suit. He shouted angrily in ...
11	sked by her/his commander why he had become so	FAT	, she replied: ‘TIS strong beer and tobacco ...
12	... it's not nice to say that a girl is	FAT	these days, but she was all ample proportioned we ...
13	... man. Right you'd better see the cashier big	FAT	chap with the glasses. No I think on that ...
14	... so quick. Yeah you wolfed yours down, you	FAT	pig. I was starving though. Mm. I ...
15	... like and she mentioned Cardiff but I've gone so	FAT	I don't wanna go! Oh don't ...
16	... , that's all fat. I haven't got	FAT	legs really, I mean I put stockings on and ...
17	... ever so nice, I said oh I'm too	FAT	for that she said ooh have you seen, she ...
18	robably seen his mother butchered ah see that big	FAT	body just then a pair of feet I thought it ...
19	... ‘s why I'm thin and slim and you're	FAT	and la,'la, la, la. You're ...
20	... of her and'they say oh she's a bit	FAT	What abo't Gemma you'donIthink she's ...

As linhas de concordância da Figura 1 evidenciam que o fato de uma pessoa ser obesa pode ser considerado ruim ou não atrativo (pelo menos na cultura britânica). Logo, fat é utilizado aqui para demonstrar como informações advindas de um corpus corroboram a intuição de que geralmente este adjetivo é empregado pejorativamente.

Suponhamos agora, que um aprendiz de inglês como língua estrangeira, ao escrever um artigo científico em inglês, esteja interessado em iniciar um parágrafo com "This paper", "This article" ou "This study". Este mesmo aprendiz se pergunta: que tipos de verbos são normalmente empregados após "This paper / article / study"? Não existe uma maneira fácil de sabermos que tipos de verbos tipicamente co-ocorrem com article, paper e study em uma certa língua, a não ser através da consulta de linhas de concordância ou de um dicionário compilado com base em concordâncias.

Assim, para responder a pergunta acima, utilizo parte do corpus de artigos científicos compilado por Ken Hyland . As palavras pesquisadas foram article / paper / study com o pronome this situado num contexto de até duas palavras à esquerda. Após obter as linhas de concordância, a lista foi editada para conter apenas as ocorrências onde paper, article e study constituíam o sujeito da oração. O resultado pode ser observado na Figura 2.

Figura 2. Concordância de article, paper e study derivada do corpus de Ken Hyland

1	stematically understanding this phenomenon.	THIS ARTICLE	addresses this dilemma, encouraging the adopti
2	plications of game theory to retailing strategy	THIS ARTICLE	attempts to let the games speak for themselves.
3	have been applied with the retailer in mind.	THIS ARTICLE	examines three retailing issues-changes in tradi
4	(sr) for solid angle. One of the thrusts of	THIS ARTICLE	is to urge the promotion of radian to the status
5	subjects perform on the tasks given to them.	THIS ARTICLE	subjects perform on the tasks given to them.
6	ate bending problems is given by Adachi et al.	THIS PAPER	concerns the Laplace-transformed BEM formul
7	re and semiconductor properties of the device.	THIS PAPER	describes a physics-based multicell electrother
8	material handling equipment; (5) Plant layout.	THIS PAPER	focuses on stages 1 and 2 in the design of a ne
9	k out ways and means of utilizing waste heat.	THIS PAPER	investigates waste heat utilization in a ceramic
10	at are derived from polymer precursors [7, 8].	THIS PAPER	reports on the fabrication of a uniform and den
11	e material context of the Persian Gulf conflict.	THIS STUDY	contributes to work concerned with understand
12	, 1995; Shanna, Durand, and Gur-Arie, 1981).	THIS STUDY	demonstrates how failing to capture relevant hi
13	f a police shooting of Blacks in South Africa.	THIS STUDY	illustrates the processes through which the pap
14	ard, American fast food in particular. In sum,	THIS STUDY	investigates the perceptions and attitudes of Ho
15	portant research issues in automated welding.	THIS STUDY	will focus on this issue. In our initial study [11

Percebe-se que os substantivos article / paper / study podem ser seguidos de verbos como examine, address, report, concern, demonstrate, describe, focus, constribute, investigate, etc. Dentre todos estes verbos, os mais comumente encontrados foram investigate (12), examine (8) e address (7). Com o propósito de verificar se escritores brasileiros empregam os mesmos tipos de verbos com os substantivos artigo, estudo e trabalho, um corpus de artigos científicos escritos em português foi compilado². As linhas de concordância na Figura 3 demonstram que escritores brasileiros empregam muitos dos verbos empregados no corpus de inglês acadêmico.

Figura 3. Concordância de artigo, trabalho e estudo derivada do corpus de artigos científicos escritos em português

1	LA E NA ESCRITA1 Edair Gorski* Resumo	EST ARTIGO	trata da topicalidade como uma propriedade
2	SINO DE LÍNGUA PORTUGUESA Resumo	EST ARTIGO	apresenta algumas considersemões acerca do
3	co-construction; negotiation; dialogy. Resumo	EST ARTIGO	discute a interação em sala de aula situada so
4	r; teacher; reflection; transformation. Resumo	EST ARTIGO	tem como objetivo discutir o papel do(a) co
5	d spiral approaches; learning process. Resumo	EST ARTIGO	aponta para as vantagens da aplicação do mo
9	lugar da atuação individual de cada um deles.	ESTE TRABALHO	objetiva, assim, discutir (a) a compreensão d
11	z parte de suas vidas. 2. Pressupostos teóricos	ESTE TRABALHO	fundamenta-se no referencial de pesquisa da
12	urse in face to face interaction. 0. Introdução	ESTE TRABALHO	focaliza a interação em sala de aula entre 3 p
13	ve triggered linguistic change. 1. Introdução	ESTE TRABALHO	examina o problema da insemerminação do s
16	cente nos últimos anos, pelo menos, no Brasil.	ESTE TRABALHO	assenta-se em dois pressupostos teóricos. Pri
19	lizado principalmente no romance Mar Morto,	ESTE ESTUDO	considera o mar como um elemento que prov
21	interpretação abstraída do episódio abordado.	ESTE ESTUDO	situa-se no âmbito de um projeto mais abran
22	em quando esta não é entendida. 1. Objetivos	ESTE ESTUDO	tem como objetivo investigar o efeito de dife
23	pela humanidade. A partir desta perspectiva,	ESTE ESTUDO	busca perceber que práticas de leitura circun
24	"Práticas de Leitura e Formação do Leitor". 1	ESTE ESTUDO	é parte das atividades da Bolsa de Iniciação

3. Análises baseadas em listas de palavras

Listas de palavras fornecem um tipo de informação bastante diferente das concordâncias. Elas auxiliam o pesquisador a identificar palavras comuns em um corpus, informação esta, que pode ser útil, por exemplo, quando queremos determinar quais itens lexicais devemos ensinar e quais devemos ignorar.

A distribuição de palavras em um corpus pode assumir formas um tanto estranhas. Tipicamente, encontraremos um pequeno número de palavras com uma freqüência muito grande. O caso mais extremo é o do artigo the, que normalmente constitui cerca de 5% das palavras de qualquer corpus (Sinclair, 1991). Do outro lado da escala de freqüência existe um grande numero de palavras que ocorrem apenas uma vez (normalmente chamadas de hapax legomena).

Consideremos uma lista de palavras baseadas no Michigan Corpus of Academic Spoken English (MICASE)³ com cerca de 1,7 milhões de palavras (Tabela 1).

Tabela 1. As 30 palavras mais freqüentes no MICASE

N	Word	Freq.	%	N	Word	Freq.	%

1	THE	80.495	4,38	16	WE	17.040	0,93
2	AND	48.075	2,61	17	UH	16.712	0,91
3	THAT	47.534	2,59	18	T	15.416	0,84
4	YOU	45.879	2,50	19	WHAT	14.447	0,79
5	I	42.365	2,30	20	LIKE	14.123	0,77
6	OF	41.910	2,28	21	THEY	13.674	0,74
7	IT	39.020	2,12	22	HAVE	13.299	0,72
8	TO	37.466	2,04	23	BUT	11.950	0,65
9	A	35.390	1,92	24	KNOW	11.548	0,63
10	S	34.974	1,90	25	FOR	11.278	0,61
11	IN	27.169	1,48	26	BE	10.955	0,60
12	IS	27.166	1,48	27	THERE	10.894	0,59
13	THIS	20.205	1,10	28	OKAY	10.830	0,59
14	SO	20.179	1,10	29	ON	10.191	0,55
15	UM	17.819	0,97	30	YEAH	10.098	0,55

As 30 palavras mais freqüentes nesta lista representam aproximadamente 25% (mais de 410 mil palavras) do total de palavras do corpus. Note que a maioria dessas palavras são funcionais, i.e., com pouco conteúdo lexical, ou são itens tipicamente encontrados no discurso oral (e.g. um, uh, okay, yeah).

Os primeiros itens lexicais normalmente encontrados em uma lista de palavras são verbos como know (ranking 24 na lista), think (46), make (114) e o primeiro substantivo encontrado é people (81). Hapax legomena começam no ranking 21.730 (com a palavra aback) e terminam no ranking 35.458 (com a palavra zwitterions). Isto significa que 39% de toda a lista é composta por palavras que ocorrem apenas uma vez. Um resultado semelhante é obtido quando investigamos o Freiburg-Brown Corpus of American English (FROWN)⁴ com cerca de 1 milhão de palavras. O primeiro hapax legomena ocorre no ranking 28.751 e o último no ranking 51.274 (44% do corpus é constituído por hapax legomena). É interessante ressaltar que grande parte destes hapax legomena são substantivos próprios. Alguns exemplos extraídos do FROWN são: Marisa, Marlette, Maranos, Mardsen, Marta, Martyn, Masanori, Mathew, Mathilde, etc.

Isto significa que aproximadamente um terço de uma lista de palavras é constituída por palavras que ocorrem apenas uma vez e que aproximadamente 30 palavras muito freqüentes representam um quarto da freqüência total de um corpus.

As implicações dos fatos revelados acima são bastante sérias para o ensino: mesmo que aprendizes leiam milhões de palavras, muitas delas serão vistas apenas uma vez. Os substantivos próprios podem ser considerados irrelevantes para o ensino, mas existem muitos hapax legomena que não são substantivos próprios (e.g. deflate, defrost, defunct, defuse, degenerative, deletion, delineate, etc).

Outro exemplo do possível uso de listas de freqüência é a listagem de classes gramaticais mais comuns em um corpus. Para que isto seja possível é necessário que o corpus seja anotado gramaticalmente. Hoje em dia, este tipo de serviço já pode ser obtido via email sem nenhum custo para o pesquisador e/ou aprendiz (vide, por exemplo, o AMALGAM Tagger by email - http://www.comp.leeds.ac.uk/amalgam/amalgam/amalgtag3.html, ou o Birminghan's email tagging service - http://www.clg.bham.ac.uk/tagger/index.html).

Diferentemente de listas de freqüências originadas a partir de textos não anotados, que fornecem apenas as freqüências das palavras, listas de freqüência de elementos gramaticais constituem um exercício que requer uma maior capacidade interpretativa, tanto do pesquisador, quanto dos aprendizes. A partir de tais listas é possível, por exemplo, responder a perguntas como: a) quais são os itens gramaticais mais freqüentes em um dado texto; e b) qual a diferença entre as listas de freqüência de itens gramaticais em dois (ou mais) tipos de gêneros textuais.

Para responder às perguntas acima utilizo dois corpora. O primeiro (cerca de 200 mil palavras) foi compilado a partir de textos extraídos da renomada revista de ciências New Scientist. O segundo, representativo do discurso oral (cerca de 200 mil palavras) foi compilado a partir de transcrições de fala de programas exibidos pela rede de televisão norte americana CNN. O software utilizado para anotar os corpora foi o TOSCA Tagger⁵. Os resultados obtidos são apresentados na Tabela 2.

Tabela 2. Lista de freqüência de itens gramaticais no corpora New Scientist (science) CNN (spoken)

SCIENCE			SPOKEN

Noun	63.328		Noun	43.469
Verb	36.086		Verb	42.726
Preposition	28.202		Punctuation	29.012
Punctuation	25.649		Pronoun	27.197
Article	21.393		Preposition	19.251
Adjective	20.902		Adverb	15.821
Pronoun	14.848		Article	15.173
Adverb	13.213		Adjective	13.465
Conjunction	10.127		Conjunction	10.292
Numeral	5.242		Particle	3.022
Particle	2.909		Numeral	2.551
Tag	1.790		Existential there	763
Genitive marker	1.096		Genitive marker	692
Existential there	368		Miscelaneous	532

Existem diferenças entre as listas para os dois tipos de textos. Por exemplo, no corpus de inglês escrito científico encontramos um número bem maior de substantivos se comparado ao corpus de discurso oral. Uma possível razão para esta diferença pode estar relacionada ao fato de textos escritos serem, normalmente, lexicalmente mais elaborados do que textos provenientes do discurso oral. Fica intuitivamente claro que muitos textos escritos, tais como artigos científicos, são densamente permeados com informações, ao passo que textos representativos do discurso oral são mais complexos gramaticalmente (Halliday & Matthiessen, 2004). Existe uma explicação funcional para os dados revelados na Tabela 2. Geralmente, um texto escrito é mais longo e apresenta menos repetições do que uma transcrição de fala. O texto escrito é permanente, cuidadosamente editado e escrutinado antes de ser publicado, ao invés de ser espontâneo e não planejado como a maioria das interações orais.

Possíveis aplicações pedagógicas para o tipo de listagem fornecida na Tabela 2 incluem: a) aprendizes de inglês, como língua estrangeira, podem empregar este tipo de informação para descobrirem características estilísticas pertinentes a diferentes tipos de textos; e b) estes aprendizes podem observar como a quantidade de itens gramaticais varia de acordo com diferentes tipos de textos.

4. Descobrindo palavras-chave em um texto

Palavras-chave são extremamente úteis para a identificação de um texto ou gênero. Um das ferramentas encontrados no software WordSmith Tools (Scott, 1996) é a KeyWords, que compara listas de palavras pré-existentes. Uma lista (geralmente obtida a partir de um corpus relativamente grande) serve como referência; a outra, é baseada no texto que queremos investigar. O propósito de tal análise é descobrir que palavras caracterizam o texto que estamos interessados em investigar.

Para ilustrar o procedimento descrito acima, emprego um corpus compilado a partir de transcrições de discursos e entrevistas concedidas pelo presidente norte americano George W. Bush relativos a guerra do Iraque (disponibilizadas no site oficial da Casa Branca -www.whitehouse.gov). O corpus é composto por 57 textos (124.758 palavras) coletados entre 14/01/2001 e 18/02/2004.

A Tabela 3 contém parte da lista de palavras-chave gerada pela ferramenta KeyWords a partir do corpus descrito acima. O procedimento empregado pela ferramenta KeyWords está baseado em corpus de referência. O corpus de referência utilizado para esta ilustração foi compilado a partir de três corpora contemporâneos (MICASE, Switchboard, BNC Sampler)⁶ representativos do discurso oral (totalizando aproximadamente 8 milhões de palavras).

Basta vislumbrarmos a lista parcial de 32 palavras-chave disposta na Tabela 3 para termos uma boa idéia de alguns dos tópicos enfatizados pelo presidente Bush em seus discursos relacionados ao Iraque. Algumas das palavras que emergem na lista são empregadas pelo líder político norte americano para justificar a operação militar no Iraque. Por exemplo, a expressão weapons of mass destruction aparece 103 vezes como uma justificativa para a retaliação norte americana; outras justificativas são subsidiadas por palavras como free / freedom (para o mundo, mas principalmente para o povo iraquiano); terror / terrorist(s) e security.

É interessante ressaltar que uma das palavras-chave reveladas na Tabela 3 é o verbo auxiliar will (1009 ocorrências). Mas qual será a estratégia retórica do líder norte americano por traz deste emprego tão freqüente deste modal? Pode-se argumentar que uma característica compartilhada por muitos políticos é a de fazer promessas e previsões acerca do que vai acontecer no futuro como resultado de suas ações. O presidente Bush parece ser um mais um adepto desde clube; ele geralmente enfatiza o que será feito, porém sem explicitar como será feito. Assim, especulativamente, sugiro que o discurso altamente modulado do presidente Bush, através do emprego recorrente do auxiliar will, funciona para posicionar seus ouvintes -como parte de uma dialética onde ele, retoricamente, os manipula para naturalizar seus próprios pontos de vista.

Consideremos agora, como um aprendiz de literatura brasileira pode se beneficiar do uso de palavras-chave. Para ilustrar isto, utilizarei a obra literária Dom Casmurro de Machado de Assis. O corpus de referência empregado para a comparação das listas de palavras foi o corpus do Núcleo Interinstitucional de Lingüística Computacional (NILC)⁷ com cerca de 32 milhões de palavras.

A lista das primeiras 35 palavras-chave de Dom Casmurro, disposta na Tabela 4, revela alguns dos personagens do romance: os protagonistas Capitu e seu amigo de infância e posteriormente marido Bentinho; o amigo seminarista de Bentinho Escobar, a egoísta, ciumenta e intrigante Prima Justina; Tio Cosme -irmão de dona Glória (mãe de Bentinho); Ezequiel -o filho de Capitu e Bentinho e Sancha -a companheira de escola de Capitu.

Através das descrições feitas dos personagens, percebe-se uma palavra-chave interessante na lista acima: olhos (ranking 12 na Tabela 4). Os olhos são muito bem explorados por Machado de Assis, como em "Olhos de cigana oblíqua e dissimulada", "olhos de ressaca", "olhos dorminhocos", "olhos redondos, que me acompanham para todos os lados". Na verdade, esses elementos físicos, muitas vezes, parecem destacar o estado interior; tem-se um retrato íntimo das personagens. Em "olhos redondos" percebe-se uma característica física, mas, logo após, verifica-se um importante traço psicológico: "...que me acompanham para todos os lados; que me observam, me estudam". Outros exemplos do emprego de olhos por Machado de Assis estão expostos na Figura 4 abaixo.

Figura 4. Concordância do substantivo olhos em Dom Casmurro

1	da do tempo, desciam-lhe pelas costas. Morena,	OLHOS	claros e grandes, nariz reto e comprido, tinha a boca .
2	Pádua não é de todo má. Capitu, apesar daqueles	OLHOS	que o Diabo lhe deu... Você já reparou nos olhos ...
3	ranto da moça redobrou tanto que senti os meus	OLHOS	molhados e fugi. Vim para perto de uma janela. Pobre
4	etexto para mirá-los mais de perto, com os meus	OLHOS	longos, constantes, enfiados neles, e a isto atribuo que
5	com uma espécie de vertigem, sem fala, os	OLHOS	escuros. Quando eles me clarearam vi que Capitu tinh
6	cosida às saias de minha mãe, não atendia aos	OLHOS	ansiosos que eu lhe mandava; também não parecia esc
7	que a voz lhe tremia, e pareceu-me que tinha os	OLHOS	úmidos. Disse-lhe que também sentia a nossa separaça
8	evantei, nem sei se iria. Capitu fitou-me unsl	OLHOS	tão ternos, e a posição os fazia tão súplices, que ...
9	E, após alguma reflexão, fitando em mim uns	OLHOS	murchos e teimosos, perguntou-me: --Conservou o m
10	Le alguma cousa, um soneto. A insônia, musa de	OLHOS	arregalados, não me deixou dormir uma longa hora o
11	a assim perto, me envolvia, me encarava com os	OLHOS	furados e escuros. Quanto mais andava aquela Rua do
12	velhos e moços, sedas e chitas, e provavelmente	OLHOS	feios e belos, mas eu não vi uns nem outros. ...
13	scimo que, para desnortear a justiça, os mesmos	OLHOS	matadores seriam olhos piedosos, e correriam a chorar
14	migo Escobar era um tanto metediço e tinha uns	OLHOS	policiais a que não escapava nada. --São os olhos dele
15	e não vi que essa menina travessa e já de	OLHOS	pensativos era a flor caprichosa de um fruto sadio e
16	aos cinco anos, um rapagão bonito, com os seus	OLHOS	claros, já inquietos, como se quisessem namorar todas
17	afetos que me explicou daquela maneira os seus	OLHOS	teimosos. Outros olhos me procuravam também, não
18	era muito amiga de si. Quando tornou, trazia os	OLHOS	vermelhos; disse-nos que, ao mirar o filho dormindo,
19	na xícara, e comecei a mexer o café, os	OLHOS	vagos, a memória em Desdêmona inocente; o espetácu
20	meu favor, mas a fé velava com os seus grandes	OLHOS	ingênuos. Minha mãe faria, se pudesse, uma troca de

Basicamente, pode-se dizer que Dom Casmurro trata, através das lentes do narrador (Bentinho), da dúvida da traição. A história se perpetua em torno da tríade Bentinho - Capitu - Escobar. A realização de um amor antigo através de um filho; o qual, porém, pode não ser um filho legitimo. Isto parece ser o grande ponto da história; o duelo de conclusões dos leitores, pois são eles quem acabam por decidir qual o final, a conclusão.

Em face disto, alguns itens lingüísticos de particular interesse para aprendizes de literatura seriam itens interpessoais como eu, minha, mim, meu, me, (empregados ao longo de toda a história) bem como os nomes dos personagens. O diagrama exposto na Figura 5 nos auxiliará a compreender isto melhor.

Figura 5. Diagrama das 35 primeiras palavras-chave em Dom Casmurro

A Figura 5 abaixo é um diagrama das palavras-chave, onde as margens esquerda e direita representam o início e o fim da história. Este diagrama foi ordenado para mostrar a primeira (margem esquerda) e última (margem direita) vez que cada palavra aparece no texto.

É possível notar que o personagem Escobar surge na história a partir de sua metade (quando Bentinho vai para o seminário) e que Ezequiel - o filho de Capitu e Bentinho - só aparece perto do final do livro (depois do casamento dos dois).

5. Conclusões

Este artigo procurou demonstrar como algumas ferramentas computacionais podem auxiliar aprendizes, professores e/ou pesquisadores a compreender melhor alguns aspectos pertinentes à linguagem humana.

Espero ter evidenciado que através de concordâncias seja possível vislumbrar e complementar alguns aspectos lingüísticos não disponíveis em dicionários e gramáticas convencionais. Listas de palavras nos permitem não apenas explorar uma série de itens lingüísticos que possam ser de grande utilidade para o ensino de vocabulário, mas também nos auxiliam a identificar itens peculiares a diferentes gêneros textuais. Palavras-chave podem nos auxiliar de diversas formas (recuperação de textos, investigações sobre questões relacionadas a plágio, estudos de estrutura textual, etc), muitas das quais estão bem aquém do que foi discutido aqui, onde os exemplos foram literários e estilísticos.

Finalmente, é necessário salientar que computadores e software lingüísticos são apenas ferramentas. Cabe a nós empregarmos nossa criatividade para decidir como utilizá-los. O fato de não ser possível predizer o que cada um de nós talvez encontre vasculhando um corpus, parece aguçar nossos poderes de observação, contribuindo assim, para uma forma de aprendizado mais autônoma, crítica e interessante.

Notas

¹ O sub-corpus é formado por 15 textos representando oito disciplinas (biologia, engenharia, engenharia mecânica, marketing, lingüística, filosofia, sociologia e física) num total de 583.000 palavras.

² Os periódicos utilizados foram: The ESPecialist, Intercâmbio, Revista de Letras, Revista do Gelne e Boletins da ALAB. O corpus possui cerca de 787 mil palavras.

³ Para maiores informações favor acessar http://www.lsa.umich.edu/eli/micase/micase.htm - MICASE

⁴ O FROWN corpus foi compilado para ser equivalente ao BROWN e LOB corpora com a diferença de conter amostras de inglês americano representativo do início da década de 90. Para maiores informações acesse o site http://khnt.hit.uib.no/icame/manuals/frown/INDEX.HTM.

⁵ Para maiores informações favor consultar - http://lands.let.kun.nl/TSpublic/tosca/icle.html

⁶ Para obter maiores informações sobre estes corpora visite: http://www.isip.msstate.edu/projects/switchboard (Switchboard); http://www.comp.lancs.ac.uk/ucrel/bnc2sampler/sampler.htm - (BNC Sampler).

⁷ O corpus compilado pelo NILC, contém cerca de 35 milhões de palavras, e consiste de textos em prosa, divididos em textos corrigidos, textos não corrigidos e textos semi-corrigidos. Os textos classificados como corrigidos (corpus empregado como referência neste estudo), totalizando 32.590.000 palavras, são aqueles publicados para grande número de leitores (livros, jornais, revistas, etc). O corpus é composto por cerca de 4.300 textos de diversos gêneros: livros, revistas, a constituição brasileira e textos jurídicos e jornais.

Referências

Channel, Joanna, (2000). "Corpus-based analysis of evaluative lexis". In.: Hunston, S. e Thompson, G. (Eds.), Evaluation in Text: Authorial Stance and the Construction of Discourse, Oxford: Oxford University Press, p. 39-65. [ Links ]

Halliday, M. e Matthiessen, C., (2004). An Introduction to Functional Grammar (3rd Edition), London: Arnold. [ Links ]

Scott, Mike, (1996). WordSmith Tools, Oxford: Oxford University Press. [ Links ]

Sinclair, John, (1991). Corpus, Concordance, Collocation, Oxford, UK: Oxford University Press. [ Links ]

Stubbs, Michael, (1996). Text and Corpus Analysis, Cambridge, Massachusetts: Blackwell Publishers. [ Links ]