Servicios Personalizados
Articulo
Indicadores
- Citado por SciELO
Links relacionados
Literatura y lingüística
versión impresa ISSN 0716-5811
Lit. lingüíst. n.16 Santiago 2005
http://dx.doi.org/10.4067/S0716-58112005000100014
Literatura y Lingüítica N° 16, págs: 249-261 Lingüística: artículos y monografías
Concordâncias, listas de palavras e palavras-chave: o que elas podem nos dizer sobre a linguagem?
Leonardo Juliano Recski
Resumo Corpora armazenados eletronicamente são excelentes recursos para uma série de atividades. Este artigo descreve três métodos para a investigação da linguagem: concordâncias, listas de palavras e palavras-chave. Sugere-se que tais métodos estão ao alcance de aprendizes de línguas e literatura, de professores e de pesquisadores empregando computadores pessoais comuns. Concentrado-se especificamente nestes três métodos, espera-se que o artigo possa aguçar o apetite do crescente corpo de professores, aprendizes e pesquisadores com acesso a corpora para que possam mais autonomamente desvelar fatos sobre o funcionamento da linguagem em todas as suas variedades. Palavras-chave: - lingüística de corpus - concordâncias- listas de palavras - palavras-chave Abstract Computerized corpora have proved to be excellent resources for a wide range of tasks. This article describes three methods for carrying out research into small corpora, namely, the use of concordances, wordlists and keywords. It is suggested that such methods are within the reach of language and literature learners, teachers or researchers working with an ordinary computer. It is hoped that, by concentrating specifically in three methods, the article may be able to whet the appetites of the growing body of teachers, learners and researchers with access to corpora to discover more for themselves about how languages work in all their variety. Keywords: - corpus linguistics - concordance- wordlist - keywords 1. Introdução Para que possam trabalhar de maneira eficiente com corpora pequenos ou grandes, aprendizes, professores de línguas ou pesquisadores precisam, acima de tudo, de fácil acesso a eles e de software adequados. Sem muita dificuldade, qualquer pessoa interessada em investigar diversos aspectos lingüísticos pode ligar o seu computador, sem sair de casa, e descobrir fatos interessantes e, até porque não dizer, surpreendentes, sobre a linguagem. Este artigo descreve alguns dos possíveis métodos para a pesquisa de pequenos corpora. Sugere-se que tais métodos sejam compatíveis com as necessidades de aprendizes, professores de línguas e/ou pesquisadores interessados em realizar pesquisa empregando computadores pessoais comuns. O artigo está estruturado em três partes. A seção 2 discute o uso de concordâncias para localizar ocorrências de uma dada palavra ou frase em um corpus, bem como para examinar quais palavras tipicamente co-ocorrem com estas palavras ou frases. A seção 3 descreve o emprego de listas de palavras. Listas de palavras podem ser geradas a partir de um texto ou de uma coleção de textos. Informação sobre a freqüência de certas palavras pode ser de grande importância para que possamos identificar as características de um dado texto ou gênero. Finalmente, a seção 4 discute o uso de palavras-chave. O princípio básico deste tipo de análise é que se uma palavra for muito mais freqüente em um dado texto do que sua freqüência em um conjunto de textos empregados como referência, ela provavelmente constitui uma palavra-chave. 2. Empregando concordâncias na investigação de aspectos lingüísticos Concordâncias são de grande utilidade haja vista que não existe outra forma de obtermos uma grande quantidade de exemplos de morfemas, palavras ou frases em seus contextos de uso. Dicionários oferecem boas informações sobre a pronuncia, etimologia, aspectos gramaticais, significado e no máximo dois ou três exemplos de cada significado de uma palavra. Gramáticas propõem-se a exemplificar e explicar, mas uma boa parte das palavras ou frases não são exemplificadas. Logo, tanto aprendizes e professores, quanto lexicógrafos, podem utilizar concordâncias para obterem inúmeros exemplos. Ao examinarmos estes exemplos, é possível descobrir não apenas que palavras tipicamente co-ocorrem com a palavra que estamos examinando, mas obter também uma noção de sua freqüência. Channell (2000) emprega o termo "significado pragmático" para aqueles aspectos do significado que estão relacionados a como uma palavra ou frase é tipicamente utilizada, ao invés daqueles que são inerentes a própria palavra ou frase. A pesquisa de Channell está em consonância com pesquisas anteriores, como as de Stubbs (1996) e Sincalir (1991), que empregam o termo "prosódia semântica" para descrever o fato de uma dada palavra ou frase poder ocorrer com maior freqüência no contexto de outras palavras ou frases que são predominantemente positivas ou negativas em sua orientação semântica. Uma concordância do adjetivo fat utilizando o British National Corpus Sampler demonstra que das 61 ocorrências encontradas em cerca de 2 milhões de palavras, 46 ocorrências (75%) apresentam uma conotação negativa (Figura 1).
As linhas de concordância da Figura 1 evidenciam que o fato de uma pessoa ser obesa pode ser considerado ruim ou não atrativo (pelo menos na cultura britânica). Logo, fat é utilizado aqui para demonstrar como informações advindas de um corpus corroboram a intuição de que geralmente este adjetivo é empregado pejorativamente. Suponhamos agora, que um aprendiz de inglês como língua estrangeira, ao escrever um artigo científico em inglês, esteja interessado em iniciar um parágrafo com "This paper", "This article" ou "This study". Este mesmo aprendiz se pergunta: que tipos de verbos são normalmente empregados após "This paper / article / study"? Não existe uma maneira fácil de sabermos que tipos de verbos tipicamente co-ocorrem com article, paper e study em uma certa língua, a não ser através da consulta de linhas de concordância ou de um dicionário compilado com base em concordâncias. Assim, para responder a pergunta acima, utilizo parte do corpus de artigos científicos compilado por Ken Hyland . As palavras pesquisadas foram article / paper / study com o pronome this situado num contexto de até duas palavras à esquerda. Após obter as linhas de concordância, a lista foi editada para conter apenas as ocorrências onde paper, article e study constituíam o sujeito da oração. O resultado pode ser observado na Figura 2.
Percebe-se que os substantivos article / paper / study podem ser seguidos de verbos como examine, address, report, concern, demonstrate, describe, focus, constribute, investigate, etc. Dentre todos estes verbos, os mais comumente encontrados foram investigate (12), examine (8) e address (7). Com o propósito de verificar se escritores brasileiros empregam os mesmos tipos de verbos com os substantivos artigo, estudo e trabalho, um corpus de artigos científicos escritos em português foi compilado2. As linhas de concordância na Figura 3 demonstram que escritores brasileiros empregam muitos dos verbos empregados no corpus de inglês acadêmico.
3. Análises baseadas em listas de palavras Listas de palavras fornecem um tipo de informação bastante diferente das concordâncias. Elas auxiliam o pesquisador a identificar palavras comuns em um corpus, informação esta, que pode ser útil, por exemplo, quando queremos determinar quais itens lexicais devemos ensinar e quais devemos ignorar. A distribuição de palavras em um corpus pode assumir formas um tanto estranhas. Tipicamente, encontraremos um pequeno número de palavras com uma freqüência muito grande. O caso mais extremo é o do artigo the, que normalmente constitui cerca de 5% das palavras de qualquer corpus (Sinclair, 1991). Do outro lado da escala de freqüência existe um grande numero de palavras que ocorrem apenas uma vez (normalmente chamadas de hapax legomena). Consideremos uma lista de palavras baseadas no Michigan Corpus of Academic Spoken English (MICASE)3 com cerca de 1,7 milhões de palavras (Tabela 1).
As 30 palavras mais freqüentes nesta lista representam aproximadamente 25% (mais de 410 mil palavras) do total de palavras do corpus. Note que a maioria dessas palavras são funcionais, i.e., com pouco conteúdo lexical, ou são itens tipicamente encontrados no discurso oral (e.g. um, uh, okay, yeah). Os primeiros itens lexicais normalmente encontrados em uma lista de palavras são verbos como know (ranking 24 na lista), think (46), make (114) e o primeiro substantivo encontrado é people (81). Hapax legomena começam no ranking 21.730 (com a palavra aback) e terminam no ranking 35.458 (com a palavra zwitterions). Isto significa que 39% de toda a lista é composta por palavras que ocorrem apenas uma vez. Um resultado semelhante é obtido quando investigamos o Freiburg-Brown Corpus of American English (FROWN)4 com cerca de 1 milhão de palavras. O primeiro hapax legomena ocorre no ranking 28.751 e o último no ranking 51.274 (44% do corpus é constituído por hapax legomena). É interessante ressaltar que grande parte destes hapax legomena são substantivos próprios. Alguns exemplos extraídos do FROWN são: Marisa, Marlette, Maranos, Mardsen, Marta, Martyn, Masanori, Mathew, Mathilde, etc. Isto significa que aproximadamente um terço de uma lista de palavras é constituída por palavras que ocorrem apenas uma vez e que aproximadamente 30 palavras muito freqüentes representam um quarto da freqüência total de um corpus. As implicações dos fatos revelados acima são bastante sérias para o ensino: mesmo que aprendizes leiam milhões de palavras, muitas delas serão vistas apenas uma vez. Os substantivos próprios podem ser considerados irrelevantes para o ensino, mas existem muitos hapax legomena que não são substantivos próprios (e.g. deflate, defrost, defunct, defuse, degenerative, deletion, delineate, etc). Outro exemplo do possível uso de listas de freqüência é a listagem de classes gramaticais mais comuns em um corpus. Para que isto seja possível é necessário que o corpus seja anotado gramaticalmente. Hoje em dia, este tipo de serviço já pode ser obtido via email sem nenhum custo para o pesquisador e/ou aprendiz (vide, por exemplo, o AMALGAM Tagger by email - http://www.comp.leeds.ac.uk/amalgam/amalgam/amalgtag3.html, ou o Birminghan's email tagging service - http://www.clg.bham.ac.uk/tagger/index.html). Diferentemente de listas de freqüências originadas a partir de textos não anotados, que fornecem apenas as freqüências das palavras, listas de freqüência de elementos gramaticais constituem um exercício que requer uma maior capacidade interpretativa, tanto do pesquisador, quanto dos aprendizes. A partir de tais listas é possível, por exemplo, responder a perguntas como: a) quais são os itens gramaticais mais freqüentes em um dado texto; e b) qual a diferença entre as listas de freqüência de itens gramaticais em dois (ou mais) tipos de gêneros textuais. Para responder às perguntas acima utilizo dois corpora. O primeiro (cerca de 200 mil palavras) foi compilado a partir de textos extraídos da renomada revista de ciências New Scientist. O segundo, representativo do discurso oral (cerca de 200 mil palavras) foi compilado a partir de transcrições de fala de programas exibidos pela rede de televisão norte americana CNN. O software utilizado para anotar os corpora foi o TOSCA Tagger5. Os resultados obtidos são apresentados na Tabela 2.
Existem diferenças entre as listas para os dois tipos de textos. Por exemplo, no corpus de inglês escrito científico encontramos um número bem maior de substantivos se comparado ao corpus de discurso oral. Uma possível razão para esta diferença pode estar relacionada ao fato de textos escritos serem, normalmente, lexicalmente mais elaborados do que textos provenientes do discurso oral. Fica intuitivamente claro que muitos textos escritos, tais como artigos científicos, são densamente permeados com informações, ao passo que textos representativos do discurso oral são mais complexos gramaticalmente (Halliday & Matthiessen, 2004). Existe uma explicação funcional para os dados revelados na Tabela 2. Geralmente, um texto escrito é mais longo e apresenta menos repetições do que uma transcrição de fala. O texto escrito é permanente, cuidadosamente editado e escrutinado antes de ser publicado, ao invés de ser espontâneo e não planejado como a maioria das interações orais. Possíveis aplicações pedagógicas para o tipo de listagem fornecida na Tabela 2 incluem: a) aprendizes de inglês, como língua estrangeira, podem empregar este tipo de informação para descobrirem características estilísticas pertinentes a diferentes tipos de textos; e b) estes aprendizes podem observar como a quantidade de itens gramaticais varia de acordo com diferentes tipos de textos. 4. Descobrindo palavras-chave em um texto Palavras-chave são extremamente úteis para a identificação de um texto ou gênero. Um das ferramentas encontrados no software WordSmith Tools (Scott, 1996) é a KeyWords, que compara listas de palavras pré-existentes. Uma lista (geralmente obtida a partir de um corpus relativamente grande) serve como referência; a outra, é baseada no texto que queremos investigar. O propósito de tal análise é descobrir que palavras caracterizam o texto que estamos interessados em investigar. Para ilustrar o procedimento descrito acima, emprego um corpus compilado a partir de transcrições de discursos e entrevistas concedidas pelo presidente norte americano George W. Bush relativos a guerra do Iraque (disponibilizadas no site oficial da Casa Branca -www.whitehouse.gov). O corpus é composto por 57 textos (124.758 palavras) coletados entre 14/01/2001 e 18/02/2004. A Tabela 3 contém parte da lista de palavras-chave gerada pela ferramenta KeyWords a partir do corpus descrito acima. O procedimento empregado pela ferramenta KeyWords está baseado em corpus de referência. O corpus de referência utilizado para esta ilustração foi compilado a partir de três corpora contemporâneos (MICASE, Switchboard, BNC Sampler)6 representativos do discurso oral (totalizando aproximadamente 8 milhões de palavras). Basta vislumbrarmos a lista parcial de 32 palavras-chave disposta na Tabela 3 para termos uma boa idéia de alguns dos tópicos enfatizados pelo presidente Bush em seus discursos relacionados ao Iraque. Algumas das palavras que emergem na lista são empregadas pelo líder político norte americano para justificar a operação militar no Iraque. Por exemplo, a expressão weapons of mass destruction aparece 103 vezes como uma justificativa para a retaliação norte americana; outras justificativas são subsidiadas por palavras como free / freedom (para o mundo, mas principalmente para o povo iraquiano); terror / terrorist(s) e security. É interessante ressaltar que uma das palavras-chave reveladas na Tabela 3 é o verbo auxiliar will (1009 ocorrências). Mas qual será a estratégia retórica do líder norte americano por traz deste emprego tão freqüente deste modal? Pode-se argumentar que uma característica compartilhada por muitos políticos é a de fazer promessas e previsões acerca do que vai acontecer no futuro como resultado de suas ações. O presidente Bush parece ser um mais um adepto desde clube; ele geralmente enfatiza o que será feito, porém sem explicitar como será feito. Assim, especulativamente, sugiro que o discurso altamente modulado do presidente Bush, através do emprego recorrente do auxiliar will, funciona para posicionar seus ouvintes -como parte de uma dialética onde ele, retoricamente, os manipula para naturalizar seus próprios pontos de vista. Consideremos agora, como um aprendiz de literatura brasileira pode se beneficiar do uso de palavras-chave. Para ilustrar isto, utilizarei a obra literária Dom Casmurro de Machado de Assis. O corpus de referência empregado para a comparação das listas de palavras foi o corpus do Núcleo Interinstitucional de Lingüística Computacional (NILC)7 com cerca de 32 milhões de palavras. Através das descrições feitas dos personagens, percebe-se uma palavra-chave interessante na lista acima: olhos (ranking 12 na Tabela 4). Os olhos são muito bem explorados por Machado de Assis, como em "Olhos de cigana oblíqua e dissimulada", "olhos de ressaca", "olhos dorminhocos", "olhos redondos, que me acompanham para todos os lados". Na verdade, esses elementos físicos, muitas vezes, parecem destacar o estado interior; tem-se um retrato íntimo das personagens. Em "olhos redondos" percebe-se uma característica física, mas, logo após, verifica-se um importante traço psicológico: "...que me acompanham para todos os lados; que me observam, me estudam". Outros exemplos do emprego de olhos por Machado de Assis estão expostos na Figura 4 abaixo.
Basicamente, pode-se dizer que Dom Casmurro trata, através das lentes do narrador (Bentinho), da dúvida da traição. A história se perpetua em torno da tríade Bentinho - Capitu - Escobar. A realização de um amor antigo através de um filho; o qual, porém, pode não ser um filho legitimo. Isto parece ser o grande ponto da história; o duelo de conclusões dos leitores, pois são eles quem acabam por decidir qual o final, a conclusão. Em face disto, alguns itens lingüísticos de particular interesse para aprendizes de literatura seriam itens interpessoais como eu, minha, mim, meu, me, (empregados ao longo de toda a história) bem como os nomes dos personagens. O diagrama exposto na Figura 5 nos auxiliará a compreender isto melhor.
A Figura 5 abaixo é um diagrama das palavras-chave, onde as margens esquerda e direita representam o início e o fim da história. Este diagrama foi ordenado para mostrar a primeira (margem esquerda) e última (margem direita) vez que cada palavra aparece no texto. É possível notar que o personagem Escobar surge na história a partir de sua metade (quando Bentinho vai para o seminário) e que Ezequiel - o filho de Capitu e Bentinho - só aparece perto do final do livro (depois do casamento dos dois). 5. Conclusões Este artigo procurou demonstrar como algumas ferramentas computacionais podem auxiliar aprendizes, professores e/ou pesquisadores a compreender melhor alguns aspectos pertinentes à linguagem humana. Espero ter evidenciado que através de concordâncias seja possível vislumbrar e complementar alguns aspectos lingüísticos não disponíveis em dicionários e gramáticas convencionais. Listas de palavras nos permitem não apenas explorar uma série de itens lingüísticos que possam ser de grande utilidade para o ensino de vocabulário, mas também nos auxiliam a identificar itens peculiares a diferentes gêneros textuais. Palavras-chave podem nos auxiliar de diversas formas (recuperação de textos, investigações sobre questões relacionadas a plágio, estudos de estrutura textual, etc), muitas das quais estão bem aquém do que foi discutido aqui, onde os exemplos foram literários e estilísticos. Finalmente, é necessário salientar que computadores e software lingüísticos são apenas ferramentas. Cabe a nós empregarmos nossa criatividade para decidir como utilizá-los. O fato de não ser possível predizer o que cada um de nós talvez encontre vasculhando um corpus, parece aguçar nossos poderes de observação, contribuindo assim, para uma forma de aprendizado mais autônoma, crítica e interessante.
Notas 1 O sub-corpus é formado por 15 textos representando oito disciplinas (biologia, engenharia, engenharia mecânica, marketing, lingüística, filosofia, sociologia e física) num total de 583.000 palavras. 2 Os periódicos utilizados foram: The ESPecialist, Intercâmbio, Revista de Letras, Revista do Gelne e Boletins da ALAB. O corpus possui cerca de 787 mil palavras. 3 Para maiores informações favor acessar http://www.lsa.umich.edu/eli/micase/micase.htm - MICASE 4 O FROWN corpus foi compilado para ser equivalente ao BROWN e LOB corpora com a diferença de conter amostras de inglês americano representativo do início da década de 90. Para maiores informações acesse o site http://khnt.hit.uib.no/icame/manuals/frown/INDEX.HTM. 5 Para maiores informações favor consultar - http://lands.let.kun.nl/TSpublic/tosca/icle.html 6 Para obter maiores informações sobre estes corpora visite: http://www.isip.msstate.edu/projects/switchboard (Switchboard); http://www.comp.lancs.ac.uk/ucrel/bnc2sampler/sampler.htm - (BNC Sampler). 7 O corpus compilado pelo NILC, contém cerca de 35 milhões de palavras, e consiste de textos em prosa, divididos em textos corrigidos, textos não corrigidos e textos semi-corrigidos. Os textos classificados como corrigidos (corpus empregado como referência neste estudo), totalizando 32.590.000 palavras, são aqueles publicados para grande número de leitores (livros, jornais, revistas, etc). O corpus é composto por cerca de 4.300 textos de diversos gêneros: livros, revistas, a constituição brasileira e textos jurídicos e jornais. Referências Channel, Joanna, (2000). "Corpus-based analysis of evaluative lexis". In.: Hunston, S. e Thompson, G. (Eds.), Evaluation in Text: Authorial Stance and the Construction of Discourse, Oxford: Oxford University Press, p. 39-65. [ Links ] Halliday, M. e Matthiessen, C., (2004). An Introduction to Functional Grammar (3rd Edition), London: Arnold. [ Links ] Scott, Mike, (1996). WordSmith Tools, Oxford: Oxford University Press. [ Links ] Sinclair, John, (1991). Corpus, Concordance, Collocation, Oxford, UK: Oxford University Press. [ Links ] Stubbs, Michael, (1996). Text and Corpus Analysis, Cambridge, Massachusetts: Blackwell Publishers. [ Links ] |