Introdução

Este projeto serve como trabalho de conclusão do curso R para Ciência de Dados I, ministrado em junho de 2020, pela Curso-R. Tem como objetivo colocar em prática todo conteúdo aprendido no curso através de uma situação problema. Serão utilizados pacotes como tidyverse e ggplot2.

A base em análise será do IMDB, em que consta uma série de filmes com informações de avaliação da crítica e orçamentárias e servirá para direcionar a produção para que um filme obtemnha sucesso.


Etapas

1. Entendendimento o problema

2. Coleta de dados

3. Exploração dos dados

4. Análise profunda dos dados

5. Conclusão e Resultados


1. Entendimento do Problema

Deseja-se investir na produção de um filme sem ter qualquer conhecimento sobre cinema e produção. As únicas informações obtidas estão contidas em uma base de dados do IMDB, que conta com as notas da crítica e características particulares de cada filme.

O maior interesse é de se obter um sucesso financeiro e da crítica, porém caso algum outro critério seja atraente, pode-se mudar de ideia.


2. Coleta de dados

A base de dados tem origem do portal Kaggle, tendo disponíveis informações de 100 anos de filme (1916 - 2016), contanto com 15 variáveis distribuídas em diversas características destas produções.

Variáveis da base de dados IMDB

Variáveis
titulo
ano
diretor
duracao
cor
generos
pais
classificacao
orcamento
receita
nota_imdb
likes_facebook
ator_1
ator_2
ator_3

3. Exploração dos dados

Como estão em análise as características de repercussão dos filmes, criou-se a variável de Lucro, definida por:

\[ Lucro = Receita - Orçamento \]

Sendo assim, para primeira análise, verificou-se a correlação entre as variávereis quantitativas:

Figura 1. Correlograma das variáveis quantitativas

Figura 1. Correlograma das variáveis quantitativas

De acordo com o Correlograma, podem-se notar algumas relações interssantes para a análise:

Nota IMDB

Mesmo com as coeficientes fracos, a correlação das variáveis aponta que:

  • O filme de sucesso na crítica se motra mais antigo, com mais likes no facebook, lucro e receita, além de ter longa duração.

Orçamento, Receita e Lucro

Nesta ocasião não se deve considerar a relação entre lucro e receita, especificamente, visto que as duas são colineares, uma é proveninete da outra. Com isso verifica-se que:

  • Quanto ao orçamento, verifica-se que os filmes mais atuais e com maior duração tem orçamentos mais elevados. Em relação às consequências de um orçamento elevado, nota-se que ocasiona receita e likes no facebook maiores. Além disso, nota-se também que quanto maior o lucro, maior os likes no facebook.

Como o interesse maior é em destacar os filmes com sucessos financeiro e na crítica, serão analisados os histogramas das variáveis lucro e nota do IMDB, além dos devidos quartis.

Figura 2. Histograma do lucro e nota do IMDB.

Figura 2. Histograma do lucro e nota do IMDB.

De acordo com as distribuições das variáveis lucro e nota do IMDB, toma-se por definição de sucesso todos os filmes que encontram-se acima do 3º quartil de cada um destes atributos, ou seja:

Variável 3º Quartil
Nota IMDB > 7,1
Lucro ($) > 30.127.620

Com isso cria-se a variável sucesso (SIM ou NAO), a fim de descobrir as características dos filmes que obtiveram SIM neste atributo.

Separando as outras variáveis entre categotias de pré e pós lançamento de um filme e considerando que pode-se interferir nestas avriàveis, tem-se que:

Pré lançamento Pós lançamento
Diretor Nota IMDB
Duração Likes no Facebook
Cor Receita
Gênero Lucro
Classificação
Orçamento
Ator 1, 2 e 3

Características de Pré lançamento

Trabalhando primeiro as variáveis de pré lançamento, verificam-se as principais características de uma produção de sucesso.

Figura 3. Gráficos de características de pré lançamento dos filmes de sucesso

Figura 3. Gráficos de características de pré lançamento dos filmes de sucesso

De acordo com as informações acima, ressaltam-se os dez diretores mais bem sucedidos em seus filmes, tendo destaque para Steven Spielberg, que possui uma grande quantidade de filmes considerados sucessos. Além dos diretores, os atores também possuem destaque em filmes de sucesso, como Tom Hanks e Harrison Ford, que representam 34,7% dos dez atores principais mais bem sucedidos. Sabendo do destaque dos atores, pode-se perceber que mesmo estes não sendo os atores principais, ainda possuem relação ao sucesso dos filmes. Analisando o gráfico dos dez atores mais bem sucedidos (considerando ator principal e coadjuvante), pode-se notar que Morgan Freemen, John Ratzenberh (que não aparecem entre os atores principais mais bem sucedidos) e Matt Damon, surgem entre os destaques desta lista.

Quando se fala de caraterísticas mais específicas da produção, a maioria dos filmes de sucesso são coloridos (97%), com classificação a partir de 13 anos (71,4% - sendo 40,3% de filmes a partir de 18 anos) e dos gêneros drama, aventura e comédia. Além disso a duração média destes filmes é de 127 minutos (ou 2h e 7 min) e orçamento médio de $57.066.837.

Vale a pena verificar os gastos orçamentários de cada diretor, visto que pode impactar diretamente no lucro de um filme:

Figura 4. Boxplot de orçamento vs diretores

Figura 4. Boxplot de orçamento vs diretores

Nota-se que Christopher Nolan e James Cameron foram os que mais gastaram em um filme, sendo o primeiro com a maior mediana dos orçamentos dos filmes. Como esta variável, a pricípio, é melhor quanto menor (deseja-se gastar menos), percebe-se que Rob Reinier, James Wan e Francis Ford Coppola tiveram os menores gastos em um filme, sendo que Coppola e Steven Spilberg tiveram as menores medianas dentre todos os filmes produzidos.

Destaca-se também a análise da média orçamentária dos filmes destes diretores:

diretor media_orcamento
Christopher Nolan 186250000
Peter Jackson 148250000
James Cameron 134500000
John Lasseter 90000000
James Wan 62800000
Quentin Tarantino 48600000
Robert Zemeckis 45833333
Steven Spielberg 35300067
Clint Eastwood 29014286
Rob Reiner 27250000
Francis Ford Coppola 22625000

Na análise das médias, veirifica-se que os maiores gastos médios são de Christopher Nolan, Peter Jackson e James Cameron, enquanto que os menores pertencem aos diretores Francis Ford Coppola , Rob Reinier e Clint Eastwod.

Características de Pós lançamento

Para as características de pós lançamento, é válido fazer os cruzamentos com as informações extraídas da análise de pré lançamento.

Com isso, verificam-se os lucros de cada diretor bem sucedido:

Figura 4. Boxplot de lucro vs diretores

Figura 4. Boxplot de lucro vs diretores

Pode-se perceber que James Cameron foi o diretor que teve mais lucro em um filme, enquanto que Peter Jackson possui maior valor de mediana. Já quando se comparam as médias desses diretores nota-se que, além de James Cameron, que permanece em primeiro lugar, Christopher Nolan surge como segunda maior média de lucro.

diretor media_lucro
James Cameron 236600782
Christopher Nolan 183589832
Peter Jackson 171463683
Steven Spielberg 166604413
Robert Zemeckis 133141211
John Lasseter 121116270
Clint Eastwood 99883607
James Wan 98421240
Rob Reiner 67725812
Francis Ford Coppola 65736186
Quentin Tarantino 56912756

A mesma análise será feita para a nota IMDB.

Figura 4. Boxplot da nota do IMDB vs diretores

Figura 4. Boxplot da nota do IMDB vs diretores

Qunato se fala de avaliação da crítica, Francis Ford Coppola apresenta a maior nota e maior mediana dentre os diretores. Olhando para as médias das notas por diretor bem sucedido, James Cameron tem melhor desempenho, seguido de Christopher Nolan.

diretor media_nota_imdb
Christopher Nolan 8.65
Francis Ford Coppola 8.55
Quentin Tarantino 8.36
Peter Jackson 8.35
Steven Spielberg 8.03
James Cameron 7.94
Robert Zemeckis 7.92
Clint Eastwood 7.81
Rob Reiner 7.68
John Lasseter 7.65
James Wan 7.55

4. Análise profunda dos dados

Com a análise exploratória dos dados, aplicou-se um modelo de regressão logística a fim de descobrir o impacto de cada atributo de um filme no seu sucesso. Para isso, utilizaram-se tranformações e adições de novas variáveis. São estas:

Variável Critério
sucesso (0 ou 1) Nota do IMDB > 7,1 e Lucro > 30.127.620
sucesso_diretor (0 ou 1) Top 10 diretores de sucesso
sucesso_ator_principal (0 ou 1) Top 10 atores principais
sucesso_classificacao Categorias > 13 anos e > 18 anos
sucesso_duracao > 127 min

Diante das novas variáveis, separa-se uma parte da base para treino (70%) e outra parte para teste (30%) a fim da aplicação da modelagem. Com isso, verificam-se as razões entre as classes das variáveis:

Variáveis Razão de Chance Erro Padrão Valor de z p-valor
(Intercept) 0.13 0.44 -4.61 0.00
sucesso_diretor1 5.64 0.23 7.47 0.00
sucesso_ator_principal1 1.67 0.20 2.53 0.01
sucesso_duracao1 3.81 0.16 8.42 0.00
corColor 0.82 0.42 -0.47 0.64
orcamento 1.00 0.00 -1.26 0.21
likes_facebook 1.00 0.00 9.25 0.00
sucesso_classificacao1 0.41 0.17 -5.43 0.00

De acordo com a tabela acima, em relação ao sucesso de um filme:

  • Possui 6 vezes mais chance caso seja dirigido por um dos TOP 10 diretores de sucesso;

  • Possui 2 vezes mais chance caso tenha atuação principal dos TOP 10 atores principais;

  • Possui 4 vezes mais chance caso tenha mais de 127 minutos de duraão;

  • Possui 0,60 vezes mais chance caso não seja das categorias mais que 13 e mais que 18 anos de idade.

No entando, como a variável sucesso_classificação contraria a análise descritiva (devido estarem muitos filmes de sucesso e insucesso conditos das categorias), esta não será levada em consideração. Outra variável que, mesmo sendo aceita na equação de predição, não será considerada, é likes no facebook, visto que sua razão de chance não demonstra influência no sucesso de um filme.

Com isso, aplica-se a predição para verificar a acurácia do modelo:

0 1
0 732 76
1 13 15

Como já aplicou-se a segmentação dos filmes de sucesso, adotou-se a probabilidade de 0,1 para identificar um filme de sucesso. De acordo com a matriz de confusão acima, verifica-se que o modelo teve acurácia de 0,86, ou 86%.

5. Conclusão e Resultados

Diante das informações analisadas e exploradas, pode-se indicar que as medidas para se obter sucesso da crítica e financeiro em um filme são:

  • Escolher um dos top 10 diretores mais bem sucedidos, visto que aumenta em 6 vezes a chance de sucesso:
Diretor
Christopher Nolan
Clint Eastwood
Francis Ford Coppola
James Cameron
James Wan
John Lasseter
Peter Jackson
Quentin Tarantino
Rob Reiner
Robert Zemeckis
Steven Spielberg

Ressalta-se que o diretor Christopher Nolan se destacou entre as maiores notas e maiores lucros, sendo a melhor indição individual de diretor. Caso deseja-se ter menores gastos, o diretor Francis Ford Coppola seria a melhor indicação, ainda sim garantindo uma grande chance de sucesso;

  • Esolher entre os top 10 atores principais mais bem sucedidos, visto que aumenta em 2 vezes a chance de sucesso:
Atores
Bill Murray
Clint Eastwood
Denzel Washington
Harrison Ford
Jennifer Lawrence
Leonardo DiCaprio
Matt Damon
Robert Downey Jr.
Tom Cruise
Tom Hanks

Destaque para Tom Hanks e Harrison Ford, que são os que participaram de mais filmes que obtiveram sucesso;

  • Produzir um filme com mais de 127 minutos, pois apresenta 4 vezes mais chance de sucesso;

  • Produzir filmes do gênero Drama e coloridos, visto que são a maioria entre os que obtiveram sucesso;

  • Ter um orçamento por volta de $57.066.837, que é o orçamento médio entre os filmes de sucesso.

Com estas tratativas na produção de um filme, as chances de sucesso ficam mais evidentes, tanto no lucro quanto na avaliação da crítica.