TidyTuesday 2021-07-27
História Olímpica do Brasil de 1948 à 2016

Tidytuesday

Este trabalho foi feito a partir do tidytuesday, movimento criado pela R4DS que visa a criação de projetos de dados semanais voltados para o ecossistema R, do ano de 2021, semana 31. Todo código utilizado nessa análise e o projeto completo podem ser encontrados no repositório github.

Processo da Análise

A análise deste trabalho será baseada nos passos descritos no curso “Certificado Profissional de Análise de dados” do Google no Corsera, as etapas são as seguintes:

  • Ask — Fase de perguntas
  • Prepare — Fase de preparação dos dados
  • Process — Fase de processamento dos dados
  • Analyze — Fase de análise dos dados
  • Share — Fase de visualização dos dados
  • Act - Fase de ação ou de conclusão

Fase de perguntas

Objetivo

Este estudo objetiva investigar a participação feminina olímpica do Brasil no período de 1948 a 2016 e como essa participação difere da média olímpica, se comparada a países pares.

Resumo

Este trabalho foi feito com base nos dados históricos olímpicos modernos (fonte:kaggle), objetivando realizar uma comparação do Brasil com a média olímpica e com os maiores medalhistas americanos (Estados Unidos e Canadá) em relação à participação feminina de 1948 até 2016. O Canadá e os Estados Unidos foram escolhidos para comparação por estarem no continente americano, por possuírem tamanhos similares aos do Brasil, além do fato de terem participado de todas as edições olímpicas no período estudado.

Fase de preparação

O banco de dados deste projeto é composto por uma planilha confeccionada pelo usuário rgriffin do kagle a partir do site sports-reference. Os dados são compostos por duas planilhas chamadas “olympics” (com 271.116 linhas e 15 colunas) e “regions” (com 230 linhas e 3 colunas). A seguir o esquema de ambas as tabelas utilizadas nesse trabalho:

glimpse(tuesdata$olympics)
## Rows: 271,116
## Columns: 15
## $ id     <dbl> 1, 2, 3, 4, 5, 5, 5, 5, 5, 5, 6, 6, 6, 6, 6, 6, 6, 6, 7, 7, 7, …
## $ name   <chr> "A Dijiang", "A Lamusi", "Gunnar Nielsen Aaby", "Edgar Lindenau…
## $ sex    <chr> "M", "M", "M", "M", "F", "F", "F", "F", "F", "F", "M", "M", "M"…
## $ age    <dbl> 24, 23, 24, 34, 21, 21, 25, 25, 27, 27, 31, 31, 31, 31, 33, 33,…
## $ height <dbl> 180, 170, NA, NA, 185, 185, 185, 185, 185, 185, 188, 188, 188, …
## $ weight <dbl> 80, 60, NA, NA, 82, 82, 82, 82, 82, 82, 75, 75, 75, 75, 75, 75,…
## $ team   <chr> "China", "China", "Denmark", "Denmark/Sweden", "Netherlands", "…
## $ noc    <chr> "CHN", "CHN", "DEN", "DEN", "NED", "NED", "NED", "NED", "NED", …
## $ games  <chr> "1992 Summer", "2012 Summer", "1920 Summer", "1900 Summer", "19…
## $ year   <dbl> 1992, 2012, 1920, 1900, 1988, 1988, 1992, 1992, 1994, 1994, 199…
## $ season <chr> "Summer", "Summer", "Summer", "Summer", "Winter", "Winter", "Wi…
## $ city   <chr> "Barcelona", "London", "Antwerpen", "Paris", "Calgary", "Calgar…
## $ sport  <chr> "Basketball", "Judo", "Football", "Tug-Of-War", "Speed Skating"…
## $ event  <chr> "Basketball Men's Basketball", "Judo Men's Extra-Lightweight", …
## $ medal  <chr> NA, NA, NA, "Gold", NA, NA, NA, NA, NA, NA, NA, NA, NA, NA, NA,…
glimpse(tuesdata$regions)
## Rows: 230
## Columns: 3
## $ NOC    <chr> "AFG", "AHO", "ALB", "ALG", "AND", "ANG", "ANT", "ANZ", "ARG", …
## $ region <chr> "Afghanistan", "Curacao", "Albania", "Algeria", "Andorra", "Ang…
## $ notes  <chr> NA, "Netherlands Antilles", NA, NA, NA, NA, "Antigua and Barbud…

Fase de processamento

Nesta fase foram investigados os dados a procura de erros e de inconsistências que atrapalhem a análise. Nessa verificação foram identificados valores ausentes na coluna “medal”, bem como inconsistência de nominação na coluna “team”. Como solução foi feita uma união das tabelas “olympics” e “regions” para podermos utilizar a coluna “region” da tabela “regions” em substituição da coluna “team” da tabela “olympics”. O código utilizado nessa fase pode ser observado a seguir:

#Mesclando as bases para dar utilidade a coluna "region" da tabela "regions"
olympics <- left_join(tuesdata$regions, tuesdata$olympics, by = c("NOC" = "noc"))


#limpando a base de algumas colunas que não serao utilizadas,
#bem como transformando outras em fatores para melhor manipulação
olympics <- olympics |>
  mutate(
    medal = replace_na(medal, "None"),
    sex = factor(sex, levels = c("M", "F")),
    medal = ordered(medal, levels = c("None", "Bronze", "Silver", "Gold")),
    season = factor(season, levels = c("Summer", "Winter")),
    year = factor(year, ordered = TRUE),
    NOC = factor(NOC)
  ) |>
  select(-c(id, notes, age, height, weight, team))

Fases de análise e visalização

Nesta fase foi realizada a comparação entre a média olímpica, Canadá, EUA e Brasil considerando as seguintes métricas:

  • Participação por esporte praticado;
  • Participação por ano olímpico;
  • Quantidade de medalhas por esporte praticado;
  • Quantidade de medalhas por ano olímpico.

Participação por esporte

Neste quesito há muita sobreposição entre os países e a média olímpica, com esportes como Boxe, Polo aquático, canoagem e tiro olímpico com baixa representatividade feminina, enquanto esportes como Handebol, Vôlei de praia, Vôlei, Ginastica olímpica e Triatlo com uma alta representatividade feminina. Neste quesito o Brasil segue, em regra, a média olímpica e de seus pares em relação à participação feminina olímpica por esporte.

Medalhas por esporte

Nas vsalizações dispostas abaixo, observou-se uma relação direta entre a participação feminina e a quantidade de medalhas proporcionais por gênero dentre todos os países e a média olímpica. Quanto maior a participação feminina, maior a quantidade de medalhas. Contudo, no caso brasileiro essa relação não abrange todo o escopo olímpico, por isso observou-se que em esportes como ginastica olímpica e natação, por exemplo, essa relação entre representatividade e quantidade de medalhas não se fez verdadeira. Isto pode acontecer devido a diversos fatores que vão desde a tradição de cada esporte no país, até as diferenças salariais, de patrocínio e de condições de trabalho em gerais, que fogem ao escopo deste trabalho e necessitam de dados adicionais.

Participação por ano

Nesta métrica também há uma relação direta com o tempo e a participação feminina nas olimpíadas. Com o passar do tempo a quantidade de mulheres participando nas olimpíadas cresceu, saindo de média de 10% no ano de 1948 até mais de 45% no ano de 2016. No caso específico do Brasil ocorreram algumas diferenças pontuais, como, por exemplo, a participação feminina diminuiu consideravelmente dos anos de 1948 até o ano de 1964, tendo conseguido votar ao patamar de 1948 somente no ano de 1988, esta diminuição pode ter se dado por fatores internos como a República populista (1945 à 1964) e a ditadura militar (1964 à 1985), contudo para realizar tal afirmação são necessários dados adicionais. Ocorreu também, no caso brasileiro uma diminuição, não tão expressiva quanto a anterior, da participação feminina dos anos de 2008 a 2016, que podem também necessita de dados adicionais para ser analisada.

Medalhas por ano

Neste quesito, em geral, há uma relação direta com o tempo e a quantidade de medalhas femininas, a média olímpica vai de cerca de 15% no ano de 1948 à mais de 45% no ano de 2016. O Canadá e os Estados Unidos seguem esta tendencia mundial, contudo o caso brasileiro é diferente. No Brasil do ano de 1948 a 1992 o aumento da participação feminina não se converteu em medalhas, tendo a primeira medalha feminina em olimpíadas acontecido no ano de 1996, sendo que a partir desse ano a proporção de mulheres participantes e de medalhas não tem uma relação clara, com exceção dos anos de 2008 a 2016, momento que houve uma diminuição de medalhas femininas, acompanhando a diminuição da participação feminina.

Conclusão

Neste trabalho foi feita a análise da participação feminina durante no período de 1948 a 2016, observando tanto a média mundial, quando países como o Canadá, os Estados Unidos e o Brasil. Pôde-se observar, na média, uma relação positiva do tempo com a participação feminina, bem como no número de medalhas proporcionais. Contudo, no caso brasileiro houve algumas diferenças. No período de 1948 a 1984 houve, em geral, uma diminuição da participação feminina no Brasil, tendo retornado aos patamares anteriores somente no ano de 1988. Da mesma maneira, o aumento da participação feminina ocorrido do ano de 1948 a 2016 no Brasil não foi convertido em número de medalhas proporcionais, tendo o Brasil ganhado sua primeira medalha somente no ano de 1996. Estas diferenças podem se dar por fatores internos (República Populista e Ditadura Militar), além de fatores de desigualdade de gênero como falta de patrocínio, baixos salários e falta de incentivo à delegação feminina. Contudo, para podermos realizar tais afirmações se faz necessário mais dados para ancorar tais suposições aos fatos, o que foge ao escopo deste trabalho.