Pronomes, artigos e outras palavras funcionais no discurso dos gêneros de “Grande Sertão: Veredas” (crítica algorítmica)

Ademar Pereira Soares Júnior, Nathália Silva Diôgo

Dados da edição:

Mafuá, Florianópolis, Santa Catarina, Brasil, n. 29, 2018. ISSNe: 1806-2555.

Como citar este texto?

Sobre os autor(es):

Ademar Pereira Soares Júnior
ademarpjunior@gmail.com
http://lattes.cnpq.br/9583957255154297
Universidade Federal do Piauí
Núcleo de Pesquisa em Literatura Digitalizada
Teresina - Piauí, Brasil

Nathália Silva Diôgo
nathidiogo@gmail.com
http://lattes.cnpq.br/1679253889880169
Universidade Federal do Piauí
Núcleo de Pesquisa em Literatura Digitalizada
Teresina - Piauí, Brasil

RESUMO: Esta pesquisa pretende discutir a escrita de João Guimarães Rosa em Grande Sertão: Veredas, apontando as diferenças e similaridades entre a distribuição de frequência dos pronomes, artigos e outras palavras funcionais nas falas das personagens do romance e compará-las ao do português falado/ordinário por homens e mulheres. Os dados foram analisados através do software NEOLO. Ao analisar a obra de Guimarães Rosa, baseado nas teorias de James W. Pennebaker (2011), alguns pontos chamaram a atenção tanto quando comparadas as falas das personagens entre si, como as entrevistas entre si, mas não houve confirmação de um padrão quando comparamos as falas das personagens com as entrevistas. Contudo, as discrepâncias nos levaram a novas possibilidades de discussão e a pensar em novas possibilidades de análises.

PALAVRAS-CHAVE: Discurso. Gênero. João Guimarães Rosa.

ABSTRACT: The aim of this study is to investigate gender-based differences in character speech in João Guimarães Rosa’s novel Grande Sertão: Veredas, and to compare these gendered patterns to modern-day spoken Portuguese in Brazil. We conducted this research by analyzing the frequency of distribution of pronouns, articles and other functional words in the character dialogues, noting similarities and differences between male and female characters. We then applied this same method to modern-day interviews of Brazilian men and women to see if there is a similar differentiation of speech based on gender. The data was analyzed using the NEOLO software. Applying the lens of James W. Pennebaker’s (2011) theories, we observed patterns when comparing numerous character dialogues from the novel, many of which were unexpected and not necessarily related to speech. We likewise discovered patterns when comparing several modern-day interviews. However, there was no confirmation of a common pattern betweenthe character dialogues from the novel and the modern-day interviews. Nevertheless, the discrepancies in our findings have led us to new possibilities for discussion and analysis.

KEYWORDS:Speech. Gender. João Guimarães Rosa.

 

Introdução e um pouco mais

A leitura de Grande Sertão: Veredas é um desafio para qualquer leitor, indo dos mais neófitos aos mais experientes. O texto não faz distinção a quem ele vai constranger ou decepcionar. Existe um número imenso de vieses interpretativos e possibilidades de compreensão. A verdade é que o romance não acaricia ninguém. O leitor está sempre diante do conflito de Édipo diante da Esfinge: “decifra-me ou te devoro”. Mas como o leitor da contemporaneidade não é o herói trágico, sobra a ele uma terceira opção: abandonar a leitura. E a quarta opção, claro, para alguns, é desfrutar a leitura e entrar no ambiente mágico criado por Guimarães Rosa que pretende ser os sertões do norte de Minas Gerais na fronteira com a Bahia.

As leituras mais proficientes vão se localizar dentro de um espectro grande de matizes das interpretações mitológicas, religiosas, discursivas, receptivas, comparatistas, linguísticas, psicanalíticas, de gêneros sexuais, de gêneros literários, dos espaços, etc. Em todos os casos, existe sempre material farto no romance para os críticos das diversas opções e nenhuma está esgotada. Ainda há muito a ser feito interpretativamente em relação à obraGrande Sertão: Veredas (GSV, doravante).

Neste artigo, vamos nos debruçar sobre a questão da linguagem. Sabemos que muitos de nossos possíveis leitores pensarão neste momento em abandonar a leitura pelo fato de existirem muitos trabalhos já publicados tratando do viés. Mas nossa proposta tem um delta diferencial em relação aos demais, porque usaremos uma metodologia que não é frequente e que poucos aplicaram até o momento da publicação deste texto. A linguagem em GSV, usada por Guimarães Rosa, foge a todas as possibilidades próprias da linguística e às vezes pode ser melhor entendida através da análise semiótica. Mas abordaremos o texto pelo caminho da textometria (lexicometria e estilometria).

Na verdade, a língua brasileira virou objeto de estudo desde o primeiro momento do Modernismo no Brasil. Existem diversos estudiosos-artistas que se enveredaram pela experiência artística com a utilização da língua portuguesa de variedade brasileira. Poetas daquela vanguarda sugeriam, por exemplo, que o Brasil adotasse a língua Tupi. Os artistas fora do grupo que fez a proposta e a sociedade jamais levaram essa proposta avante. Oswald de Andrade no “Manifesto Pau-Brasil” usou a significante expressão: “Tupi or not tupi? That’s the question”. Ele se apropriou antropofagicamente da fala do Hamlet, de Shakespeare. Mas o questionamento em apreço vem demonstrar a preocupação com a linguagem e, também, a vontade de alguns poetas do Modernismo de reciclar a língua usada no país para uma modalidade que fosse mais brasileira.

Como sabemos, o Modernismo brasileiro surgiu no começo do século XX, mas temos o ano de 1922 como marco inicial do movimento, especialmentea semana de fevereiro em que aconteceu a Semana de Arte Moderna, em São Paulo. O movimento tinha forte caráter nacionalista. Basta ler o nome dos manifestos que apareceram na época para perceber essa característica de valorização à coisa brasileira, senão vejamos: o já citado Manifesto Pau-Brasil; Movimento Nhengaçu Verde-Amarelo; Manifesto Antropofágico; e, Manifesto Regionalista. Algum tempo após a Semana, Mario de Andrade vai publicar o seu Macunaíma (essa obra é um exemplo da arte que era defendida pelos primeiros modernistas).

Em sendo um grupo que era arrebatado por um ufanismo-intelectual denso, as produções artísticas demonstravam essa preocupação e, também, refletiam espaços e personagens que eram movidos por vetores ideológicos inquebrantáveis sobre a necessidade do Brasil finalmente conseguir uma independência no seu falar e pensar.

Voltamos ao ponto em que interrompi o parágrafo mais acima para falar um pouco de Macunaíma. Inicio por lembrar nossos leitores que o livro foi de tal maneira chocante, que nem os intelectuais mais refinados da época conseguiram sequer definir claramente a que gênero literário ele pertencia, tão pouco o próprio Mário. O anti-herói, como foi classificado Macunaíma, o personagem principal, por muitos críticos, faz uma viagem por vários recantos do Brasil revisitando mitos, folclores, culturas regionais, músicas, religiões e línguas (indígenas e regionais). A movimentação de Macunaíma, por sua rapidez, é capaz de fazer um movimento centrípeto no intuito de levar todas as periferias para o centro (São Paulo) para lá travar uma longa luta contra a cultura importada personalizada no Gigante.

Antes do movimento Modernista, já havia um embrião germinando no seio da cultura brasileira, uma tentativa de modificar a sua língua. Trata-se da experiência linguística realizada por Euclides da Cunha em Os Sertões. O autor, ao retratar a guerra de Canudos, fez um exercício muito complexo com a língua dentro de um mesmo romance. Ele começou sua obra com um linguajar protocolar e técnico (Euclides tinha iniciação em engenharia) descrevendo a viagem para a Bahia,mas aos poucos a linguagem vai se modificando e passa a ser mais romantizada, mais poética, e, principalmente, mais local.

Após a 1ª geração de modernistas, as demais continuarão em busca de uma forma de língua que seja capaz de revelar a realidade brasileira, uma vez que o português que herdamos de nossos colonizadores não tem a plasticidade necessária para representar os fenômenos de nosso país. Assim vamos observar que as 2ª e 3ª gerações também se preocuparam com a língua portuguesa de variedade brasileira. O fato que podemos citar como prova da existência dessa busca em anos posteriores à Semana de Arte Moderna é a existência de um Manifesto Regionalista. Os artistas relacionados com esse manifesto trabalharam no sentido de priorizar as realidades das diversas regiões do Brasil, inclusive a língua. GSV é um dos romances regionalistas da 3ª geração de modernistas. Ele apresenta como uma das maiores dificuldades que nós citamos no início deste texto a linguagem utilizada pelos personagens. Os críticos vêm insistindo já há algum tempo que Guimarães Rosa tinha a pretensão de criar uma língua própria para compor GSV. Mas veremos mais adiante que as palavras efetivamente construídas, neologismos, não são em tão grande número como acredita-se. O que muitos tomam como neologismos nada mais é que formas lexicais características das regiões onde a história se passa – voltaremos para discutir isso com mais vagar nas próximas páginas.

Os principais artistas modernistas fundadores tiveram a oportunidade de viver no exterior e tomar conhecimento de pensadores que experimentavam possibilidades estéticas anti-parnasianas. Na França, apareceu no final do século XIX um movimento artístico que foi denominado de Decadentismo e que pretendia exercitar a arte, literatura principalmente, buscando explorar os sentidos e a linguagem. Na raia desse pensamento, os modernistas brasileiros deram grande importância à linguagem pelo seu caráter aglutinador; existia a necessidade de tornar o país continental que é e era o Brasil, num Estado unificado e forte por conta de suas riquezas naturais (o petróleo já era commodity então; e.g. “O petróleo é nosso!”, Monteiro Lobato, 1948, apud RUSSO JÚNIOR, 2014) e de um povo que podia se comunicar tanto oralmente quanto graficamente com sua língua         .

Textologia

A textometria é uma forma de investigação textual muito antiga. Desde a Idade Média, escribas católicos utilizavam o método de numerificar os textos para posteriormente fazer suas pesquisas, geralmente objetivando a identificação de autores de textos religiosos apócrifos.

A partir de verificações como: número de palavras com determinada quantidade de sílabas (geralmente palavras com número de sílabas muito alta); número de sinais de pontuação, média do comprimento das sentenças; número de vezes que determinada palavra foi utilizada etc. Estas práticas são tratadas pela crítica como lexicometria. A outra possibilidade de averiguação numérica, esta mais recente no tempo, vai verificar a posição de determinadas palavras no texto, quais os predicados que acompanham determinadas palavras, a ocorrência de frases negativas (não, nenhum, nunca etc) no texto etc. Estas práticas estão agrupadas na estilometria.

Outra prática que aparenta estranheza para quem não lida com textometria ou com linguística de corpus é o método chamado de “saco de palavras” – bag-of-words (HARRIS, 1954). Isso significa que o texto estruturado em parágrafos, sentenças e recuos perde essa estrutura para virar um conjunto de palavras desvinculadas umas das outras. A prática é comum na textometria, mas é mais rarana estilometria.

Ambas as técnicas, estilometria e lexicometria, são muito utilizadas para definir autoria de textos anônimos ou apócrifos. Essas práticas trouxeram vários fatos à luz, como por exemplo: a descoberta do responsável por atentados terroristas que aconteceram nos EUA na década de 70 do século passado. O autor era tratado pela alcunha de Unabomber, Ted Kaczynski, e era um terrorista doméstico, ou seja, ele era um cidadão norte-americano. O que deu as pistas para a sua identificação foi um manifesto que ele fez publicar. A partir desse material, os linguistas forenses (um novo profissional que apareceu com a prática da textometria) chegaram a diversas conclusões. Algumas delas foram externas: soube-se que o Unabomber era um intelectual acadêmico, ao que ele se opunha etc. e foram descobertas evidências internas como: características de estilo e características numéricas do texto. Com esse conhecimento, o investigador passou a procurar teses e dissertações que apresentassem as mesmas marcas textográficas existentes em bancos de dados de universidades até encontrar a tese do Theodore John Kaczynski. Com o nome, o FBI não teve dificuldades para encontrá-lo (embora ele vivesse em uma cabana no meio das florestas em Montana). O investigador forense que fez a identificação do Unabomber foi Don Foster e ele descreve seu trabalho de investigação em um capítulo do seu livro Author Unknown: On the Trail of Anonymous.

Neste trabalho lançamos mão de técnicas de textometria para analisar a língua usada por Guimarães Rosa na construção de seu romance GSV. Num primeiro momento, avaliamos a riqueza lexical do texto em questão comparada a um corpus em português ordinário (falado no diaadia) com 1 milhão de palavras. Usamos para esse propósito 6 ferramentas desenvolvidas telemática e especificamente para a tarefa de verificação de riqueza lexical. Esta trata-se de uma avaliação lexicométrica. Posteriormente, verificamos se as “falas” dos personagens masculinos, femininos e transgêneros se comportam como o encontrado em diálogos ordinários dos três gêneros. Este é um exercício estilométrico. A metodologia será descrita mais detalhadamente na próxima seção.

Tendo em vista que as principais características de cada movimento refletem diretamente o uso da língua e seu léxico, assim como no estilo do autor, esta pesquisa pretende discutir a escrita de João Guimarães Rosa em GSV, tomando por base os dados relacionados a estas questões. Isto porque, aparentemente, o autor utiliza um estilo com uma exacerbação do uso de léxicos como neologismos, barbarismos, estrangeirismos, idioletos, socioletos, jargões, assim como uma sintaxe fragmentada, entre outros aspectos citados anteriormente. Este trabalho foi desenvolvido utilizando softwares estatísticos livres. O principal software foi o NEOLO, mas também utilizamos o Calibre e o Lexico3

Metodologia

A execução da pesquisa foi estruturada em 3 fases distintas quanto à metodologia: (1) transformação do livro analógico para o digital utilizável por softwares do tipo Data Mining; (2) manejo de softwares do tipo Data Mining; (3) entendimento dos mecanismos que regem a crítica algorítmica. Após a conversão do texto para o formato apropriado, TXT, separamos as falas em discurso direto e/ou de pensamento das seguintes personagens: Riobaldo (representante masculino), todas as mulheres (já que a elas são atribuídas poucas falas em discurso direto) e Diadorim (que é uma personagem que nasce com o sexo feminino, mas se identifica como sendo do gênero masculino). Em seguida, selecionamos em sites de revistas populares e de temática geral (tais como Veja, Istoé, Época, etc.), assim como em portais da internet, entrevistas de pessoas dos sexos masculino e feminino e pessoas autodeclaradas homens transgênero.

Após leitura criteriosa do romance, separou-se as falas das personagens supracitadas para fins de comparação com o corpus do português falado, que foi elaborado através da coleta de entrevistas de pessoas brasileiras. Como a quantidade de palavras nas falas das personagens femininas escolhidas (Nhorinhá, Otacília e Ana Danúzia) se mostrou insuficiente para uma comparação significativa, resolvemos considerar a fala de todo o universo de personagens femininas do romance.

Ao rodar o romance GSV, o software NEOLO retornou os seguintes dados: 224.734 tokens (total de palavras do romance), 18.928 types (número de palavras únicas) e 10.463 hapaxes (palavras que ocorrem apenas uma única vez em todo o romance). Para resultados mais apurados, criou-se, ao longo da pesquisa, um banco de dados para filtrar regionalismos dicionarizados, nomes próprios de pessoas e lugares, além de nomes científicos e/ou populares de espécies da fauna e da flora. Esta medida foi necessária para filtrar palavras da lista de neologismos gerada pelo software levando em conta palavras que não constam nos dicionários do NEOLO, mas que não se configuram neologismos pelo uso regional e corriqueiro. O banco de dados poderá ser usado em investigações futuras e ampliado em caso de pesquisas com outras obras do autor.

Notadamente, a maioria das pesquisas de léxico focam nas palavras de conteúdo, que geralmente são aquelas que possuem um significado culturalmente compartilhado para nomear objetos e ações (como substantivos, verbos regulares e de ação, ou modificadores como adjetivos e advérbios). Entretanto, para um bom entendimento da língua é necessário se atentar também às palavras funcionais, pois estas possuem características estilísticas no processo de escrita. Isso porque o autor não tem controle sobre a frequência de letras e palavras em seus textos, especialmente quando se trata de palavras funcionais (BRANDÃO, 2006).

As palavras funcionais mais comuns incluem: pronomes, artigos, preposições, verbos de ligação, conjunções, negações, quantificadores e outros advérbios mais comuns. Massuad Moisés (2007), em um de seus livros sobre análise literária, chama a atenção para este ponto ao afirmar que, diferentemente das palavras de conteúdo, as palavras funcionais aparentam não ter um significado explícito, mas que há nelas uma significação latente. Ele também afirma que no texto literário as palavras de conteúdo podem ser mudadas de posição para atender o efeito estético que se queira exprimir, e que as palavras funcionais são, assim, as chaves para o sentido.

Ademais, as palavras funcionais são as palavras mais frequentes de uma língua. Para Pennebaker (2011), a quem nos valemos para a discussão, o uso destas difere de acordo com o sexo e é possível aplicar essa variável a estudos lexicométricos e estilométricos da literatura, mensurando o manejo de tais diferenças ao se estudar determinado autor e como ele dá voz a seus personagens. Para efeitos desse estudo, considerou-se as 100 palavras mais frequentes de cada corpus, tanto das falas das personagens como das entrevistas. Dentro desse recorte optou-se por trabalhar, nesse primeiro momento, apenas aquelas que demonstrassem uma variante significativa para efeitos da análise, e que tambémservissem de base para investigações futuras de variáveis distintas.

Resultados e discussão

Como dito, para esta empreitada, utilizamos como principal parâmetro o trabalho desenvolvido pelo psicólogo social americano James W. Pennebaker (2011) e seu grupo de estudos. Pennebaker se debruça para estudar especialmente o uso da língua, suas implicações no social e como este uso permite inferências sobre a personalidade de quem fala. E, com isso, não nos propomos aqui esmiuçar a personalidade de Rosa, pois sabemos que propor isso seria non-sense. No entanto, o autor é obviamente um criador de falas que não são suas, já que é ele, no seu conhecimento e domínio da língua (e suas variações), quem dá vida a quem fala na obra, ou seja, as personagens. Em sua pesquisa sobre os diálogos em GSV, Elizabeth Lowe (1976) infere que Guimarães Rosa considera o discurso como parte integral da personalidade e que, assim sendo, os diálogos funcionam para dar veracidade às personagens. Ele próprio, Guimarães Rosa, costumava entrevistar pessoas como forma de coletar dados para uma criação literária mais verossímil.

Pennebaker (2011), em uma de suas investigações, trata das diferenças no uso das palavras entre os gêneros. Tema que não deixa de ser polêmico dada a pluralidade do que se entende por gênero atualmente, assim como pela tentativa de categorizar como pessoas de diferentes gêneros se expressam de formas diferentes. Entretanto, a pesquisa do americano se baseia em parâmetros encontrados em extensas análises lexicométricas de corpus da língua inglesa em suas diversas variáveis, inclusive esta do gênero. Tendo em mãos os padrões para os gêneros masculino e feminino, o autor os aplicou para outras investigações, como por exemplo, a competência de um autor em reproduzir falas de personagens femininas com características lexicais do gênero feminino, assim como personagens masculinos versus características lexicais do gênero masculino; e vice-versa, no caso de uma autora.

Para essa análise, ele utilizou textos de dramaturgos e roteiristas como William Shakespeare, Quentin Tarantino, Sofia Coppola, Woody Allen, Callie Khouri, David Lynch, entre outros de ambos os sexos. Com essa análise, ele pôde constatar, por exemplo, que os personagens de Shakespeare e Tarantino de ambos os sexos se expressam com um léxico tipicamente masculino, embora isso não reflita na maneira como os atores interpretam, apenas no que eles dizem nas peças e filmes. Por outro lado, as personagens de Callie Khouri no filme Thelma e Louisie, seja do sexo masculino ou feminino, falam num estilo feminino. Outros dramaturgos/roteiristas registraram uma habilidade para reproduzir as características de cada gênero nas falas das personagens.

Nas tabelas 1 e 2 são apresentadas palavras encontradas no romance, nas entrevistas e no corpus da língua que se mostraram significativas, e a ordem em que aparecem entre parêntesis:

Tabela 1: termos mais frequentes e ordem em que aparecem em GSV

GSV Riobaldo Diadorim Mulheres
Pronomes e vocativos eu (12), tu (13), senhor (14), diadorim (15), você (21), me (22), minha (25), meu (31), ele (40), joca (41), seu (67), te (75), dele (78), vocês (89) riobaldo (4), você (7), eu (16), meu (17), joca (21), tu (27), ele (30), ela (37), te (39), me (42), dele (50), nós (69), dela (80) tu (5), meu (7), ele (17), eu (18), você (27), ela (57), me (71), meus (73), nós (82)
Verbos de ligação (ser/estar) é (5), sou (53), foi (58), era (69), estou (70), está (71), ser (84) é (6), está (32), foi (41), era (47), estou (56) é (14), foi (62)
Palavras de conteúdo semântico gente (27), chefe (32), homem (45), amigo (54), mundo (66), velho (68), guerra (80), sertão (85), morte (96), gente (20), homem (33), amigo (48), coragem (49), pai (70), chefe (79), deus (81), mundo (85), vida (91), coração (96) moço (10), deus (15), gente (19), marido (22), bonito (43), casa (44), cuidado (50), pai (84)
Preposições (posse) de (3), da (20), do (29), dos (62) de (2), da (18), do (29) de (2), da (51)
Artigos o (4), a (8), um (23), os (34), as (64) o (5), a (8), um (28), as (35), os (86) a (8), o (12)
Advérbios de negação e de tempo não (7), nada (49), nunca (98) não (9), sempre (58), tudo (60) não (11), nada (75), nunca (81)

Em sua pesquisa, Pennebaker (2011) defende que homens e mulheres usam as palavras de forma diferente, embora essas diferenças possam ser sutis. Segundo ele, uma das características que diferencia os discursos é o fato de que mulheres usam mais pronomes pessoais do que homens. De acordo com a Tabela 2, isso se mostra verdadeiro quando consideramos o recorte de entrevistas para o masculino e o feminino, mesmo se compararmos este com o recorte transgênero masculino. No entanto, no romance isso não se apresenta de forma significativa. Guimarães Rosa trabalha de forma eficiente com os padrões de fala dos indivíduos sobre os quais escreve. Acontece que Riobaldo e Diadorim não são meros retratos de homens do sertão, para além disso eles representam figuras transcendentes e simbólicas do homem e suas falas refletem mais isso do que as variações apontadas por Pennebaker.

Segundo Lowe (1976), por ter esse caráter metafísico e transcendental, as falas dos personagens de GSV destoam do que eles realmente são. Guimarães Rosa brinca num jogo que mescla o linguajar sertanejo com certa erudição que não é própria do perfil dos personagens. Se considerarmos que, com exceção de Riobaldo e alguns outros não investigados aqui, a maioria são iletrados, é possível perceber porque esse jogo de palavras se sobrepõem às tais diferenças sutis entre os três grupos de fala estudados no romance.

Na tabela 1, o que mais chama a atenção é que, embora as mulheres não tenham voz marcante, o grupo de palavras de conteúdo semântico mais frequentes são aquelas relacionadas à figura feminina do sertão, como por exemplo deus, marido, bonito, casa. Enquanto o mesmo grupo de palavras se parece mais similar nas falas de Riobaldo e Diadorim, já que a vivência de ambos é praticamente a mesma como dois jagunços. Outro ponto interesse é como esse mesmo grupo de palavras soa mais negativista para Riobaldo do que para Diadorim, que por sua vez enuncia frequentemente palavras como deus, coragem e até mesmo vida que contrasta diretamente com a palavra morte que aparece mais nas falas de Riobaldo. A mesma coisa com alguns advérbios, enquanto os nada e nunca de Riobaldo soam mais pessimistas, os tudo e sempre de Diadorim exprimem mais otimismo. Esse mesmo parâmetro não difere entre Riobaldo e as mulheres, sendo Diadorim o que mais difere e chama atenção.

Isso corrobora com a leitura de Lowe (1976), que afirma ser Riobaldo um símbolo do homem que enfrenta os mistérios da vida, dividido entre a vida e a morte, o bem e o mal. É alguém que repete constantemente uma espécie de mantra que diz como “a vida é muito perigosa”. Embora isso destoe do que Pennebaker aponte como algo tipicamente masculino, o uso excessivo de pronomes, em comparação com Diadorim e as mulheres, ainda concorda com o que diz o psicólogo americano. Segundo ele, o uso de pronomes pessoais, em especial o eu é usado em níveis mais elevados por pessoas autoconscientes e cuja atenção recai sobre si mesmo, especialmente quando estão sofrendo ou de alguma forma deprimidos. Como mostra a tabela 1, Riobaldo usa muito mais o eu do que o você, por exemplo, enquanto Diadorim usa muito mais o você, ou, ainda, o vocativo riobaldo do que o eu, dando a entender que ele está muito mais preocupado com o outro do que consigo mesmo.

Lowe (1976) faz uma análise de Diadorim como sendo não apenas uma espécie de guardador de Riobaldo, mas também como o lado positivo ou ideal do espírito de seu melhor amigo. Diadorim não só dá conforto quando Riobaldo está triste, como cuida dele quando está doente, além de estar o tempo todo encorajando-o a ser bravo. E acreditamos que esse papel justifique esse léxico mais positivista, no qual a atenção está mais centrada no outro do que em si mesmo, na fala de Diadorim, se compararmos as falas de ambos, como encontrado na análise do NEOLO. Ainda assim, o léxico de Diadorim está mais próximo do de Riobaldo do que do grupo feminino do romance.

Em relação ao pronomes, em especial o pronome eu,não se apresentaram diferenças significativas nas entrevistas do gênero masculino e feminino, aparecendo respectivamente nas posições 20 e 19. No entanto, no recorte transgênero, o mesmo pronome aparece em posição mais elevada (5), mostrando que o discurso sobre si mesmo nesse caso é bastante expressivo. Sabemos que esta é uma questão delicada, pessoas transgêneros, especialmente aquelas que vão à mídia, tendem a ser perguntadas sobre suas vidas pessoais e sobre o processo de percepção de uma nova identidade, enquanto que os outros dois grupos são frequentemente indagados sobre temas mais diversos. Em relação aos advérbios, o grupo feminino soa mais positivo, assim como se sobressai na maior variedade de temas de que tratam entre suas palavras mais frequentes.

Em muitos pontos os três grupos diferem entre si. Contudo, muitos dos dados significativos apontados por Pennebaker (2011) não se mostram da mesma forma ao olhar para a tabela 2, como é o caso do uso da palavra não, que não apresenta grande diferença para os três grupos. Assim como com os pronomes pessoais (geralmente atribuídos em maior escala às mulheres), preposições (aos homens), substantivos (aos homens), palavras negativas (às mulheres) e palavras grandes (também aos homens). Muitos dos casos se apresentaram de forma contrária ou sem grande significância. Deve-se levar em conta que a pesquisa de Pennebaker diz respeito à língua inglesa, o que sugere que são necessárias mais pesquisas relacionadas às palavras funcionais na língua portuguesa levando em conta algumas peculiaridades da língua. No entanto, analisando os dados obtidos entre si é possível perceber que diferenças sutis podem ser atribuídas aos grupos investigados.

Comparando as tabelas 1 e 2 não há um padrão que confirme a semelhança dos grupos que se aproximam, como as mulheres com as entrevistas do gênero feminino, de Diadorim com pessoas que se identificam como do gênero masculino tendo nascido com o sexo feminino, ou até mesmo de Riobaldo com as entrevistas do gênero masculino, sendo este último o que mais apresenta semelhanças. Vale ressaltar que não nos propomos aqui a rotular o personagem Diadorim como sendo transgênero masculino, contudo é sabido que se trata de alguém que se identifica como sendo do gênero masculino e vive como tal.

Nesse ponto, vale frisar que Diadorim difere completamente do que foi encontrado nos dados das entrevistas com pessoas transgênero. Enquanto está inserido num contexto extremamente masculino, num período em que não havia tanta discussão do tema, Diadorim se mostra como alguém que não quer atenção para si, como alguém que deseja manter sua condição em segredo. Isso contrasta de maneira bem clara com o contexto das pessoas transgêneros das entrevistas, que em geral são pessoas esclarecidas sobre o tema, ou que levantam uma bandeira por reconhecimento ou em defesa de suas identidades. Tais inferências corroboram com a comparação dos dados encontrados nas entrevistas e na fala da personagem.

Outra discrepância pode ser observada quando comparamos as falas das mulheres do romance com o léxico das entrevistas com pessoas do sexo feminino. Como já dito, embora estejam presentes em muitos momentos do romance, as mulheres têm pouca voz. Muitas vezes elas estão em cena, mas pronunciam poucas ou nenhuma palavra. Já nas entrevistas com o público, há uma variedade maior de temas, além de não apresentar diferenças significativas em relação aos outros grupos de palavras se comparados com o público masculino e transgênero masculino, o que pode ser atribuído também ao contexto atual e mais geral do que aquele em que Diadorim está inserido.

A quantidade menor de voz feminina nos diálogos do romance chama a atenção, já que há uma quantidade considerável de personagens femininas, no entanto, as falas e ações dessas personagens são registradas na maioria das vezes através dos personagens masculinos de forma indireta. Tal fato pode ser relacionado ao contexto histórico-cultural no qual o romance está situado, em que a figura masculina geralmente tinha mais voz. Este viés pode ser um caminho para uma investigação mais profunda desse ponto.

Tabela 2: termos mais frequentes e ordem em que aparecem nas entrevistas e corpora

Masculino Feminino Transgênero Masculino Corpus da Língua
Pronomes e vocativos eu (20), ele (20), me (33), eles (42), minha (47), você (52), ela (72), meu (74), eu (19), me (34), eles (40), minha (41), ele (49), meu (50), você (54), ela (58), sua (81), elas (96) eu (5), me (15), minha (22), ela (31), meu (39), você (44), ele (46), mim (56) ele (37), sua (38), seu (43), eu (54), seus (80), me (88), ela (95), eles (100)
Verbos de ligação (ser/estar) é (7), está (31), ser (34),  foi (35), são (36), era (53), estão (63), estou (99), sou (100) é (8), ser (27), são (29), foi (39), está (47), era (57), estão (69), é (9), era (27), foi (30), ser (27), sou (43), são (61), fui (66) é (14), foi (29), são (31), ser (36), está (49), era (72), foram (83), estão (87)
Palavras de conteúdo semântico brasil (29), pessoas (38), governo (58), país (65), gente (66), mundo (68), história (88), política (91), vida (97) pessoas (32), brasil (51), gente (52), sexo (56), vida (65), sexual (67), sociedade (72), governo (73), política (85), trabalho (90), mundo (92), crianças (95), professores (99) trans (21), mãe (47), homem (50), pessoas (55), gente (59), homens (67), mulher (68), gênero (82), pessoa (84), cirurgia (88), nome (91) brasil (55), presidente (60), governo (64), país (84), pessoas (85)
Preposições (posse) de (2), do (11), da (13), dos (32), das (40) de (3), da (10), do (12), dos (38), das (42) de (4), do (18), da (29), das (76) de (2), do (7), da (8), dos (25), das (30)
Artigos a (3), o (4), , um (9), uma (10), os (18), as (24) a (4), o (5), uma (13), um (15), os (18), as (22) a (3), o (7), um (10), uma (11), os (32), as (36) a (3), o (4), um (12), os (16), uma (19), as (24),
Advérbios de negação e de tempo não (8), tudo (80), sempre (92), nunca (95) não (7), tudo (80), sim (89), sempre (100) não (8), nada (83), nunca (95) não (17)

Considerações Finais

Com a intenção de investigar como as principais características de cada movimento refletem diretamente com o uso da língua e seu léxico, assim como no estilo do autor, esta pesquisa lançou mão de técnicas atuais e específicas, utilizando-se softwares de análise de corpus. Através desse tipo de análise é possível lançar um novo olhar para o texto literário que vai além daquele proposto pela leitura tradicional da obra.

Tomando por base as pesquisas do americano James Pennebaker (2011) sobre os diferentes usos da língua por diferentes grupos de pessoas, especialmente dentro do campo da literatura, tentou-se aplicar e comparar seus métodos e resultados com uma tentativa nova de investigação no campo literário. No presente trabalho avaliou-se os discursos das personagens do romance Grande Sertão: Veredas, de João Guimarães Rosa, com os discursos de pessoas falantes do português corrente na tentativa de identificar semelhanças, diferenças e/ou determinados padrões, como aponta o psicólogo americano.

Por fim, alguns pontos chamaram nossa atenção tanto quando comparamos as falas das personagensentre si, como as entrevistas entre si. No entanto, não houve confirmação de um padrão quando comparamos as falas das personagens com as entrevistas, embora as discrepâncias tenham nos levadoa novas possibilidades de discussão e a pensar em novas possibilidades de análises. Percebe-se que há poucas investigações relacionadas ao léxico da língua portuguesa, especialmente na literatura, e que este é um campo que se abre para novos achados. O passo seguinte é aplicar as teorias de Pennebaker em uma obra escrita no mesmo idioma investigado pelo psicólogo. Todavia, esse trabalho contribuiu para apontar um caminho a ser trilhado em relação aos estudos do léxico da língua portuguesa e do discurso literário.

Referências

BRANDÃO, Saulo.NEOLO. Software Estatístico Livre. Seattle (USA): University of Washington, 2014.

______. Atribuição de autoria: um problema antigo, novas ferramentas. Texto Digital, Florianópolis, ano 2, n. 1, 2006.

FOSTER, Don. Author Unknown: On the Trail of Anonymous. New York: Henry Holt, 2000.

HARRIS, Zellig. Distributional Structure. Word. 10 (2/3), 1954, p. 146–162.

JOCKERS, Matthew. Macroanalisys: Digital Methods and Literary History. Urbana; Champaign: U. of Illinois P., 2013.

LOWE, Elizabeth. Os diálogos de Grande Sertão: Veredas. Revista Letras, [S.l.], v. 25, jul. 1976. ISSN 2236-0999.

MOISÉS, Massaud. A Análise Literária. 5. ed. São Paulo: Cultrix, 2007.

PENNEBAKER, James. The Secret Life of Pronouns. New York: Bloomsbury Press, 2011.

RAMSAY, Stephen. Reading Machines: Toward an Algorithmic Criticism. Urbana; Champaign: U. of Illinois P., 2011.

______. Reconceiving Text Analysis. Literary and Linguistic Computing, v. 8, n. 2, 2003.

ROSA, João Guimarães. Grande Sertão: Veredas. Rio de Janeiro: Ed. João Olympio, 1980.

RUSSO JÚNIOR, Carlos. “O petróleo é nosso”: as derradeiras palavras de Monteiro Lobato. Jornal Opção, [S.l.], 22 nov. 2014. Opção cultural, p. 1. Disponível em: <https://www.jornalopcao.com.br/opcao-cultural/o-petroleo-e-nosso-derradeiras-palavras-de-monteiro-lobato-21532/>. Acesso em: 06 dez. 2017.

Data de envio: 28 de março de 2018.