XGBoost

# XGBoost
## Teoria e prática
### <img src = 'https://d33wubrfki0l68.cloudfront.net/9b0699f18268059bdd2e5c21538a29eade7cbd2b/67e5c/img/logo/cursor1-5.png' width = '40%'>
### 2021-11-20

---

## Professores

#### Athos Damiani

Estatístico no IME/USP

Senior Data Scientist na Nubank

]

#### Daniel Falbel

Estatístico no IME/USP

Software Engineer na RStudio

]

---

## Dinâmica curso

- As aulas serão um espaço de teoria, exemplos e dúvidas.

- Teremos exercícios para serem feitos "em casa" e um trabalho final (Kaggle!). **Com exceção da entrega final, nenhum exercício precisará ser entregue**.

- O certificado será emitido mediante uma **entrega final**. O prazo da entrega final será estabelecido ao longo do curso.

- Haverá monitoria para esclarecimento de dúvidas sempre 30 minutos antes do início das aulas.

---

## Tirando dúvidas

- **Não existe dúvida idiota**.

- Fora do horário de aula ou monitoria:
  - perguntas gerais sobre o curso deverão ser feitas no Classroom.

- perguntas sobre R ou Machine Learning, principalmente as que envolverem código, sugerimos serem enviadas no [nosso discourse](https://discourse.curso-r.com/).

---

## Por que usar o discourse?

- Muito melhor para escrever textos que possuem códigos. Com ele, podemos usar o pacote `{reprex}`! [Veja aqui dicas de como fazer uma boa pergunta](https://discourse.curso-r.com/t/como-escrever-uma-boa-pergunta/542).

- Aprender a pesquisar sobre erros que o R solta e fazer a pergunta certa é essencial para aprender e resolver problemas de programação.

- No discourse, teremos mais pessoas acompanhando e respondendo as dúvidas.

- Em um ambiente aberto, as suas dúvidas vão contribuir com a comunidade (a sua dúvida pode ser a mesma que a da outra pessoa!).

### [https://discourse.curso-r.com/](https://discourse.curso-r.com/)

---

# Conteúdo

- Introdução

- Árvore de Decisão - Mini-revisão

- XGBoost - Teoria

- XGBoost - passo a passo

- Hiperparâmetros/Estratégias

---

# Agenda

- Google Classroom + Introdução
- Mostrar as contas na mão num exemplo de 4 pontos (regressão)
- Mostrar as diferenças entre classificação e regressão
- Exercícios de Script (algoritmo na mao feito em R)

]

### Aula 3 - Na prática
- Pacote tidymodels
- Como que a matriz X tem que ir (dummy etc)
- Overfitting/Computação
- Exercício de treino de tunagem
- Kaggle InClass
]

---

# Referências

.pull-left[
<a href = "https://web.stanford.edu/~hastie/Papers/ESLII.pdf">
<img src="img/esl.jpg" style=" display: block; margin-left: auto; margin-right: auto;width:300px;"></img>
</a>
]

.pull-right[
<a href = "https://web.stanford.edu/~hastie/ISLR2/ISLRv2_website.pdf">
<img src="img/isl.jpg" style=" display: block; margin-left: auto; margin-right: auto;width:300px"></img>
</a>
]

---

# Referências

<br>

<a href = "https://xgboost.readthedocs.io/en/latest/tutorials/model.html">
<img src="img/xgboost_logo.png" style=" display: block; margin-left: auto; margin-right: auto;width:300px;"></img>
</a>
]

.pull-right[
<a href = "https://www.youtube.com/user/joshstarmer">
<img src="img/statquest_logo.jpg" style=" display: block; margin-left: auto; margin-right: auto;width:300px"></img>
</a>
]

---

# Referências

<br>

<a href = "https://www.tmwr.org/">
<img src="img/tmwr.png" style=" display: block; margin-left: auto; margin-right: auto;width:300px;"></img>
</a>
]

.pull-right[
<a href = "hhttps://www.tidymodels.org/">
<img src="img/tidymodels.png" style=" display: block; margin-left: auto; margin-right: auto;width:300px"></img>
</a>
]

---

# XGBoost

---

# XGBoost

---

## Alinhamento de conceitos

---

# XGBoost

## O que XGBoost é:

- Um algoritmo de machine learning

- Um modelo estatístico

- Um fornecedor de probabilidades/estimativas

- Um "concorrente" de regressão logística, random forest, redes neurais, etc.

- Difícil de entender =)

]

## O que XGBoost NÃO é:

- Magia

- Bala de prata para qualquer problema

- Pior que deep learning

- Melhor que deep learning

]

---

# XGBoost

### Coisas boas

- Bom para dados tabulares. Preparado para bases arbitrariamente grandes.

- Serve para classificação, regressão, séries temporais, ranqueamento, análise de sobrevivência.

- Bom para quando precisamos de boas previsões.

- Implementado nas principais ferramentas de ciência de dados.

]

### Coisas ruins

- Possui mais hiperparâmetros do que os demais algoritmos.

- Difícil de explicar ao gestor como funciona em poucas palavras.

- Menos interpretável do que regressão linear e árvore de decisão.

]

---

# XGBoost

## Objetivos do Curso

Ao final do curso, a aluna/o aluno

- Saberá explicar como o XGBoost funciona.

- Terá mais uma opção de escolha além da regressão logística/linear, random forest, redes neurais, knn, entre outras.

- Ficará a vontade em propor o uso de XGBoost em seu trabalho.

---

---

# No R

```r
# XGBoost
modelo_xgb <- boost_tree(
  min_n = tune(),
  mtry = tune(),
  trees = tune(),
  tree_depth = tune(),
  learn_rate = tune(),
  loss_reduction = tune(),
  sample_size = tune() 
)
```

---

# Intuição das somas de árvores

]

Cada "step" é uma árvore

]

---

# XGBoost

## Exemplo passo-a-passo (no pptx)

---

#Intuição dos hiperparâmetros

---

#Intuição dos hiperparâmetros

```r
modelo <- boost_tree(
  mtry = 1, 
  trees = 100, 
  min_n = 1, 
  tree_depth = 1, 
  learn_rate = 1,
  sample_size = 1, 
  loss_reduction = 1
)
```
]

]

```r
modelo <- boost_tree(
  mtry = 1, 
  trees = 100, 
  min_n = 1, 
* tree_depth = 2,
  learn_rate = 1,
  sample_size = 1, 
  loss_reduction = 1
)
```

]

]

---

#Intuição dos hiperparâmetros

```r
modelo <- boost_tree(
  mtry = 1, 
  trees = 100, 
  min_n = 1, 
  tree_depth = 1, 
* learn_rate = 0.1,
  sample_size = 1, 
  loss_reduction = 1
)
```
]

]

```r
modelo <- boost_tree(
  mtry = 1, 
  trees = 100, 
  min_n = 1, 
  tree_depth = 1, 
  learn_rate = 1,
* sample_size = 0.5,
  loss_reduction = 1
)
```

]

]

---

#Intuição dos hiperparâmetros

```r
modelo <- boost_tree(
  mtry = 1, 
  trees = 100, 
  min_n = 1, 
  tree_depth = 1, 
  learn_rate = 1, 
  sample_size = 1, 
* loss_reduction = 0.1
)
```
]

]

```r
modelo <- boost_tree(
  mtry = 1, 
  trees = 100, 
  min_n = 1,  
* tree_depth = 2,
* learn_rate = 0.1,
* sample_size = 0.5,
* loss_reduction = 0.1
)
```

]

]

---

# Extrapolação dos modelos de árvores

![](xgboost_files/figure-html/unnamed-chunk-8-1.png)

---

# XGBoost

## Na prática

---

# Sobre os problemas nos dados

- XGBoost trata missing automaticamente dentro dele, não precisa tratar. Porém, sempre vale técnicas de imputação para tentar aprimorar o modelo!

- Multicolinearidade não é um problema grave para modelos de árvore. Mas é sempre bom filtrar variáveis explicativas muito correlacionadas. [Ler esse post para exemplo.](https://www.curso-r.com/blog/2018-05-22-arvore-e-multicolinearidade/)

- Variável resposta precisa ir como factor. Não pode ser character nem 0/1.

- As variáveis categóricas precisam ser "dummyficadas" antes. XGBoost só aceita explicativas numéricas.

- A escala das variáveis explicativas não atrapalham modelos de árvores.

- A assimetria das variáveis explicativas não atrapalham modelos de árvores.