Importação e Pacotes

Análise Expliratória (EDA)

Coisas para verificar:

  • Coisas univariadas
    • Tipo correto das variáveis
    • Colunas constantes
    • Colunas quase constantes/categorias raras (principalmente da variávei resposta, é desbalanceada?)
    • Alta cardinalidade (muitas categorias)
    • Valores discrepantes (outliers)
    • Valores faltantes (missings)
    • Assimetria
    • Escala
  • Coisas multivariadas
    • Associação/correlação entre variáveis explicativas
    • Combinações lineares entre explicativas
    • Relação entre explicativas e resposta

Olhada na base

#> Rows: 14,999
#> Columns: 10
#> $ nivel_satisfacao        <dbl> 0.38, 0.50, 0.11, 0.72, 0.37, 0.41, 0.10, 0.9…
#> $ ultima_avaliacao        <dbl> 0.53, 0.86, 0.88, 0.87, 0.52, 0.50, 0.77, 0.8…
#> $ atuacao_projetos        <dbl> 2, 5, 7, 5, 2, 2, 6, 5, 5, 2, 2, 6, 4, 2, 2, …
#> $ horas_trabalhadas       <dbl> 157, 262, 272, 223, 159, 153, 247, 259, 224, …
#> $ tempo_empresa           <dbl> 3, 6, 4, 5, 3, 3, 4, 5, 5, 3, 3, 4, 5, 3, 3, …
#> $ licenca_medica          <chr> "não licenciado", "não licenciado", "não lice…
#> $ desligado               <chr> "sim", "sim", "sim", "sim", "sim", "sim", "si…
#> $ promocao_ultimos_3_anos <chr> "não promovido", "não promovido", "não promov…
#> $ area                    <chr> "comercial", "comercial", "comercial", "comer…
#> $ salario                 <chr> "baixo", "mediano", "mediano", "baixo", "baix…
Data summary
Name turnover
Number of rows 14999
Number of columns 10
_______________________
Column type frequency:
character 5
numeric 5
________________________
Group variables None

Variable type: character

skim_variable n_missing complete_rate min max empty n_unique whitespace
licenca_medica 0 1 10 14 0 2 0
desligado 0 1 3 3 0 2 0
promocao_ultimos_3_anos 0 1 9 13 0 2 0
area 0 1 2 11 0 10 0
salario 0 1 4 7 0 3 0

Variable type: numeric

skim_variable n_missing complete_rate mean sd p0 p25 p50 p75 p100 hist
nivel_satisfacao 0 1 0.61 0.25 0.09 0.44 0.64 0.82 1 ▃▅▇▇▇
ultima_avaliacao 0 1 0.72 0.17 0.36 0.56 0.72 0.87 1 ▂▇▆▇▇
atuacao_projetos 0 1 3.80 1.23 2.00 3.00 4.00 5.00 7 ▇▆▃▂▁
horas_trabalhadas 0 1 201.05 49.94 96.00 156.00 200.00 245.00 310 ▃▇▆▇▂
tempo_empresa 0 1 3.50 1.46 2.00 3.00 3.00 4.00 10 ▇▃▁▁▁

Sumaŕio - Variáveis Categóricas

Sumaŕio - Variáveis Numéricas

Relação entre as explicativas

Correlações entre as numéricas

Sankey das explicativas categóricas

Relação com a variável resposta

Variáveis numéricas

Variáveis categóricas