Para os interessados, o artigo que causou burburinho por causa de um press release do site phis.org, é: Thompson, B., Roberts, S.G. & Lupyan, G. Cultural influences on word meanings revealed through large-scale semantic alignment. Nat Hum Behav (2020). 10.1038/s41562-020-0924-8. Os resultados do artigo são algo um pouco batido: realmente você consegue ter razões extralinguísticas interferindo na distribuição semântica de certas palavras, com graus diferentes de resistência dependendo do tipo sintático de palavra. É algo que os linguistas e antropólogos tem como dado e que o uso de algoritmos de Machine Learning e modelos estatísticos serviria num ambiente academicamente saudável como replicação: uma metodologia X conclui α e uma metodologia independente Y no futuro confirma a conclusão.

Agora, por que as rants de twitter? Bom, o primeiro ponto me parece que o press release foi infeliz, como tem sido recorrente na área de IA: algum pósdoc monta um algoritmo para demonstrar uma aplicação da tecnologia, chega a resultados que a comunidade científica da área acha óbvio e a publicação nos jornais segue o tropo do descobridor assessorado pela mais refinada tecnologia (Newton formulando a teoria das cores dele por ter por acaso o gênio e o prisma). O segundo ponto, que vem disso, é o desconhecimento do press release a respeito da pesquisa já feita na área (inclusive das metaáreas X-computaciona, ex. linguística computacional), desconhecimento esse que é transferido ao pósdoc que tocou a pesquisa. Eu vou tentar sair um pouco aqui do press-release que é absurdamente infeliz até com relação ao artigo original e contar os problemas que eu tenho com o artigo (que é mais interessante no fim do dia).

Nota: muitos comentários assumem que os autores desconhecem linguística e são um bando de cientistas da computação sem noção, mas o artigo demonstra que eles sabem o suficiente e os resultados são interessantes. Os problemas que quero apontar são problemas metodológicos que acabam criando conclusões problemáticas e eu só quero apontar pra ter algo pra fazer no domingo.

Problemas com os dados

A primeira questão que eu tenho é com a qualidade dos dados. Ao tratar a lista das línguas como dados suplementares e partir para uma generalização linguística “as línguas fazem XYZ” os autores se esquivam de um problema muito sério dos dados deles: super-representação de uma única família linguística. Não há em lugar nenhum do artigo-base a lista das línguas trabalhadas, ao contrário, estão soltas numa tabelinha do Supplementary Information do artigo. Eu reproduzo aqui a tabela (aliás, tem tão poucas famílias linguísticas que foi o regex mais fácil da minha vida).

Language ISO2 Language Family
Arabic ar Afro-Asiatic
Armenian hy Indo-European
Azerbaijani az Turkic
Basque eu Basque
Belarusian be Indo-European
Bulgarian bg Indo-European
Catalan ca Indo-European
Chinese zh Sino-Tibetan
Croatian hr Indo-European
Czech cs Indo-European
Danish da Indo-European
Dutch nl Indo-European
English en Indo-European
Estonian et Uralic
Finnish fi Uralic
French fr Indo-European
Georgian ka Kartvelian
German de Indo-European
Greek el Indo-European
Hebrew he Afro-Asiatic
Hindi hi Indo-European
Hungarian hu Uralic
Italian it Indo-European
Japanese ja Japonic
Kazakh kk Turkic
Korean ko Koreanic
Lithuanian lt Indo-European
Norwegian (Bokmål) no Indo-European
Persian fa Indo-European
Polish pl Indo-European
Portuguese pt Indo-European
Romanian ro Indo-European
Russian ru Indo-European
Slovak sk Indo-European
Slovenian sl Indo-European
Spanish es Indo-European
Swedish sv Indo-European
Tamil ta Dravidian
Turkish tr Turkic
Ukrainian uk Indo-European
Uzbek uz Turkic

Eu transformei isso por curiosidade num .csv e fui brincar com os dados. Fazendo uma breve conta, é possível ver que as línguas Indo-Europeias representam algo como 63.4% das 41 línguas que foram analisadas no artigo.

   LanguageFamily     n
   <chr>          <int>
 1 Afro-Asiatic       2
 2 Basque             1
 3 Dravidian          1
 4 Indo-European     26
 5 Japonic            1
 6 Kartvelian         1
 7 Koreanic           1
 8 Sino-Tibetan       1
 9 Turkic             4
10 Uralic             3

Talvez uma imagem deixe mais dramático:

Frequência das famílias linguísticas nos dados de Thompson, Roberts e Lupyan

O modelo deles lida com a distância história apenas entre as línguas indo-europeias, mas um bom jeito de resolver essa situação era:

  • restringir as conclusões às línguas IE; ou
  • aplicar o modelo nas IE, depois nas não IE e comparar os resultados.

No caso da segunda opção, eu ainda acharia problemático a falta de informação sobre dialetos e variantes e a falta de línguas minoritárias e de populações de periferias da globalização. Não pelo efeito token, mas para minimizar os efeitos possíveis da variável contato geo e demográfico. Sem isso, as conclusões são restritas às “línguas com acesso mínimo à wikipedia, incluindo azerbaijano e georgiano”, sob pena de você ter um enviesamento muito sério.

Termos de parentesco, dias da semana, etc

Muita gente percebeu que a similaridade das palavras para dia das semanas e termos de parentesco era um problema. Os antropólogos sabem que termos de parentesco são bastante variáveis entre as culturas, mas o artigo coloca eles, numerais e dias da semana como aqueles que são mais correlacionados entre as línguas, enquanto outros grupos semânticos são sensivelmente mais dissimilares. Eu retorno aqui ao ponto anterior: os dados representam línguas de uma certa família linguística muito mais do que outras e mesmo as línguas de troncos diferentes podem ser agrupadas dentro de um mesmo grupo cultural, especialmente dada a falta de informação dialetal.

Os autores assumem que os sistemas de parentesco variam, mas que os termos de relações familiares próximas são organizados de maneira relativamente simples e que isso produziu o alinhamento:

Although kinship systems vary, terms denoting close kin relations are organized along a few dimensions such as gender (son/daughter, mother/father) and generation (grandmother/mother/daughter). This low dimensionality seems to enable high alignment.

O problema ao meu ver é que os termos mais alinhados são filho, filha e tia. Embora pai/mãe e avô/avó não estarem nessa lista levante alguns problemas bem sérios, talvez tia seja o mais surpreendente, dado que irmão-de-pai/mãe e irmã-de-pai/mãe são exatamente onde os sistemas de parentesco passam a divergir mais intensamente. A explicação aqui é capenga: ela cobre os termos que não apresentam alinhamento no modelo enquanto não discute os termos que não tem o alinhamento previsto (tia) mas que mostram alto alinhamento. Sem uma explicação para a correlação apresentada, fica parecendo que os autores não tem uma e derivam dos dados uma conclusão que os dados agregados não necessariamente sustentam. O mesmo se dá com os dias da semana: não há um grupo de controle pra uma variável que cubra diferentes sistemas de divisão temporal, de modo que ao mesmo tempo a correlação pode ser causada por uma tendência linguística-cultural ou por um enviesamento dos dados.

Escopo e dados

No fim, o artigo parece pecar ao dar conclusões em um escopo imenso (as línguas e suas culturas) usando dados que cobrem um bloco linguístico e cultural muito restrito e conectado demais. O método de análise (vector space models) tem uns resultados bem interessantes em trabalhos mais focados (eu não posso deixar de mencionar o trabalho de pessoas conhecidas como Rodda, Probert e McGillivray Vector space models of Ancient Greek word meaning, and a case study on Homer, pelo qual fui saber do método), mas dado o escopo da generalização, o artigo faz parecer que o método é falho ou desnecessário (um canhão laser para matar uma mosca já morta). O próprio fato do artigo não discutir aplicações prévias do modelo é um tiro no pé.

Enfim, isso é uma rant desenvolvida. Espero que alguém com mais propriedade responda o paper e que tenha a mesma mídia que o tal paper, mas nós sabemos que a segunda parte não vai acontecer. Então espero que todo mundo fique suave e talvez leia o artigo, é divertido e os dados e scripts tão disponíveis para brincar.