Este projeto serve como trabalho de conclusão do curso R para Ciência de Dados I, ministrado em junho de 2020, pela Curso-R. Tem como objetivo colocar em prática todo conteúdo aprendido no curso através de uma situação problema. Serão utilizados pacotes como tidyverse e ggplot2.
A base em análise será do IMDB, em que consta uma série de filmes com informações de avaliação da crítica e orçamentárias e servirá para direcionar a produção para que um filme obtemnha sucesso.
Deseja-se investir na produção de um filme sem ter qualquer conhecimento sobre cinema e produção. As únicas informações obtidas estão contidas em uma base de dados do IMDB, que conta com as notas da crítica e características particulares de cada filme.
O maior interesse é de se obter um sucesso financeiro e da crítica, porém caso algum outro critério seja atraente, pode-se mudar de ideia.
A base de dados tem origem do portal Kaggle, tendo disponíveis informações de 100 anos de filme (1916 - 2016), contanto com 15 variáveis distribuídas em diversas características destas produções.
Variáveis da base de dados IMDB
Variáveis |
---|
titulo |
ano |
diretor |
duracao |
cor |
generos |
pais |
classificacao |
orcamento |
receita |
nota_imdb |
likes_facebook |
ator_1 |
ator_2 |
ator_3 |
Como estão em análise as características de repercussão dos filmes, criou-se a variável de Lucro, definida por:
\[ Lucro = Receita - Orçamento \]
Sendo assim, para primeira análise, verificou-se a correlação entre as variávereis quantitativas:
De acordo com o Correlograma, podem-se notar algumas relações interssantes para a análise:
Nota IMDB
Mesmo com as coeficientes fracos, a correlação das variáveis aponta que:
Orçamento, Receita e Lucro
Nesta ocasião não se deve considerar a relação entre lucro e receita, especificamente, visto que as duas são colineares, uma é proveninete da outra. Com isso verifica-se que:
Como o interesse maior é em destacar os filmes com sucessos financeiro e na crítica, serão analisados os histogramas das variáveis lucro e nota do IMDB, além dos devidos quartis.
De acordo com as distribuições das variáveis lucro e nota do IMDB, toma-se por definição de sucesso todos os filmes que encontram-se acima do 3º quartil de cada um destes atributos, ou seja:
Variável | 3º Quartil |
---|---|
Nota IMDB | > 7,1 |
Lucro ($) | > 30.127.620 |
Com isso cria-se a variável sucesso (SIM ou NAO), a fim de descobrir as características dos filmes que obtiveram SIM neste atributo.
Separando as outras variáveis entre categotias de pré e pós lançamento de um filme e considerando que pode-se interferir nestas avriàveis, tem-se que:
Pré lançamento | Pós lançamento |
---|---|
Diretor | Nota IMDB |
Duração | Likes no Facebook |
Cor | Receita |
Gênero | Lucro |
Classificação | |
Orçamento | |
Ator 1, 2 e 3 |
Características de Pré lançamento
Trabalhando primeiro as variáveis de pré lançamento, verificam-se as principais características de uma produção de sucesso.
De acordo com as informações acima, ressaltam-se os dez diretores mais bem sucedidos em seus filmes, tendo destaque para Steven Spielberg, que possui uma grande quantidade de filmes considerados sucessos. Além dos diretores, os atores também possuem destaque em filmes de sucesso, como Tom Hanks e Harrison Ford, que representam 34,7% dos dez atores principais mais bem sucedidos. Sabendo do destaque dos atores, pode-se perceber que mesmo estes não sendo os atores principais, ainda possuem relação ao sucesso dos filmes. Analisando o gráfico dos dez atores mais bem sucedidos (considerando ator principal e coadjuvante), pode-se notar que Morgan Freemen, John Ratzenberh (que não aparecem entre os atores principais mais bem sucedidos) e Matt Damon, surgem entre os destaques desta lista.
Quando se fala de caraterísticas mais específicas da produção, a maioria dos filmes de sucesso são coloridos (97%), com classificação a partir de 13 anos (71,4% - sendo 40,3% de filmes a partir de 18 anos) e dos gêneros drama, aventura e comédia. Além disso a duração média destes filmes é de 127 minutos (ou 2h e 7 min) e orçamento médio de $57.066.837.
Vale a pena verificar os gastos orçamentários de cada diretor, visto que pode impactar diretamente no lucro de um filme:
Nota-se que Christopher Nolan e James Cameron foram os que mais gastaram em um filme, sendo o primeiro com a maior mediana dos orçamentos dos filmes. Como esta variável, a pricípio, é melhor quanto menor (deseja-se gastar menos), percebe-se que Rob Reinier, James Wan e Francis Ford Coppola tiveram os menores gastos em um filme, sendo que Coppola e Steven Spilberg tiveram as menores medianas dentre todos os filmes produzidos.
Destaca-se também a análise da média orçamentária dos filmes destes diretores:
diretor | media_orcamento |
---|---|
Christopher Nolan | 186250000 |
Peter Jackson | 148250000 |
James Cameron | 134500000 |
John Lasseter | 90000000 |
James Wan | 62800000 |
Quentin Tarantino | 48600000 |
Robert Zemeckis | 45833333 |
Steven Spielberg | 35300067 |
Clint Eastwood | 29014286 |
Rob Reiner | 27250000 |
Francis Ford Coppola | 22625000 |
Na análise das médias, veirifica-se que os maiores gastos médios são de Christopher Nolan, Peter Jackson e James Cameron, enquanto que os menores pertencem aos diretores Francis Ford Coppola , Rob Reinier e Clint Eastwod.
Características de Pós lançamento
Para as características de pós lançamento, é válido fazer os cruzamentos com as informações extraídas da análise de pré lançamento.
Com isso, verificam-se os lucros de cada diretor bem sucedido:
Pode-se perceber que James Cameron foi o diretor que teve mais lucro em um filme, enquanto que Peter Jackson possui maior valor de mediana. Já quando se comparam as médias desses diretores nota-se que, além de James Cameron, que permanece em primeiro lugar, Christopher Nolan surge como segunda maior média de lucro.
diretor | media_lucro |
---|---|
James Cameron | 236600782 |
Christopher Nolan | 183589832 |
Peter Jackson | 171463683 |
Steven Spielberg | 166604413 |
Robert Zemeckis | 133141211 |
John Lasseter | 121116270 |
Clint Eastwood | 99883607 |
James Wan | 98421240 |
Rob Reiner | 67725812 |
Francis Ford Coppola | 65736186 |
Quentin Tarantino | 56912756 |
A mesma análise será feita para a nota IMDB.
Qunato se fala de avaliação da crítica, Francis Ford Coppola apresenta a maior nota e maior mediana dentre os diretores. Olhando para as médias das notas por diretor bem sucedido, James Cameron tem melhor desempenho, seguido de Christopher Nolan.
diretor | media_nota_imdb |
---|---|
Christopher Nolan | 8.65 |
Francis Ford Coppola | 8.55 |
Quentin Tarantino | 8.36 |
Peter Jackson | 8.35 |
Steven Spielberg | 8.03 |
James Cameron | 7.94 |
Robert Zemeckis | 7.92 |
Clint Eastwood | 7.81 |
Rob Reiner | 7.68 |
John Lasseter | 7.65 |
James Wan | 7.55 |
Com a análise exploratória dos dados, aplicou-se um modelo de regressão logística a fim de descobrir o impacto de cada atributo de um filme no seu sucesso. Para isso, utilizaram-se tranformações e adições de novas variáveis. São estas:
Variável | Critério |
---|---|
sucesso (0 ou 1) | Nota do IMDB > 7,1 e Lucro > 30.127.620 |
sucesso_diretor (0 ou 1) | Top 10 diretores de sucesso |
sucesso_ator_principal (0 ou 1) | Top 10 atores principais |
sucesso_classificacao | Categorias > 13 anos e > 18 anos |
sucesso_duracao | > 127 min |
Diante das novas variáveis, separa-se uma parte da base para treino (70%) e outra parte para teste (30%) a fim da aplicação da modelagem. Com isso, verificam-se as razões entre as classes das variáveis:
Variáveis | Razão de Chance | Erro Padrão | Valor de z | p-valor |
---|---|---|---|---|
(Intercept) | 0.13 | 0.44 | -4.61 | 0.00 |
sucesso_diretor1 | 5.64 | 0.23 | 7.47 | 0.00 |
sucesso_ator_principal1 | 1.67 | 0.20 | 2.53 | 0.01 |
sucesso_duracao1 | 3.81 | 0.16 | 8.42 | 0.00 |
corColor | 0.82 | 0.42 | -0.47 | 0.64 |
orcamento | 1.00 | 0.00 | -1.26 | 0.21 |
likes_facebook | 1.00 | 0.00 | 9.25 | 0.00 |
sucesso_classificacao1 | 0.41 | 0.17 | -5.43 | 0.00 |
De acordo com a tabela acima, em relação ao sucesso de um filme:
Possui 6 vezes mais chance caso seja dirigido por um dos TOP 10 diretores de sucesso;
Possui 2 vezes mais chance caso tenha atuação principal dos TOP 10 atores principais;
Possui 4 vezes mais chance caso tenha mais de 127 minutos de duraão;
Possui 0,60 vezes mais chance caso não seja das categorias mais que 13 e mais que 18 anos de idade.
No entando, como a variável sucesso_classificação contraria a análise descritiva (devido estarem muitos filmes de sucesso e insucesso conditos das categorias), esta não será levada em consideração. Outra variável que, mesmo sendo aceita na equação de predição, não será considerada, é likes no facebook, visto que sua razão de chance não demonstra influência no sucesso de um filme.
Com isso, aplica-se a predição para verificar a acurácia do modelo:
0 | 1 | |
---|---|---|
0 | 732 | 76 |
1 | 13 | 15 |
Como já aplicou-se a segmentação dos filmes de sucesso, adotou-se a probabilidade de 0,1 para identificar um filme de sucesso. De acordo com a matriz de confusão acima, verifica-se que o modelo teve acurácia de 0,86, ou 86%.
Diante das informações analisadas e exploradas, pode-se indicar que as medidas para se obter sucesso da crítica e financeiro em um filme são:
Diretor |
---|
Christopher Nolan |
Clint Eastwood |
Francis Ford Coppola |
James Cameron |
James Wan |
John Lasseter |
Peter Jackson |
Quentin Tarantino |
Rob Reiner |
Robert Zemeckis |
Steven Spielberg |
Ressalta-se que o diretor Christopher Nolan se destacou entre as maiores notas e maiores lucros, sendo a melhor indição individual de diretor. Caso deseja-se ter menores gastos, o diretor Francis Ford Coppola seria a melhor indicação, ainda sim garantindo uma grande chance de sucesso;
Atores |
---|
Bill Murray |
Clint Eastwood |
Denzel Washington |
Harrison Ford |
Jennifer Lawrence |
Leonardo DiCaprio |
Matt Damon |
Robert Downey Jr. |
Tom Cruise |
Tom Hanks |
Destaque para Tom Hanks e Harrison Ford, que são os que participaram de mais filmes que obtiveram sucesso;
Produzir um filme com mais de 127 minutos, pois apresenta 4 vezes mais chance de sucesso;
Produzir filmes do gênero Drama e coloridos, visto que são a maioria entre os que obtiveram sucesso;
Ter um orçamento por volta de $57.066.837, que é o orçamento médio entre os filmes de sucesso.
Com estas tratativas na produção de um filme, as chances de sucesso ficam mais evidentes, tanto no lucro quanto na avaliação da crítica.