Um pequeno drama para começar…

Athos e Fernando, cansados de ficarem confinados pela quarentena na vida de docência em EAD, decidem dar um rumo diferente em suas vidas…

Os dois colegas de espírito empreendedor querem colocar toda a criatividade que lhes vaza pelos poros através da 7ª arte…

Mas como empreender em cinema com segurança hoje em dia? Num período com tantos produtores, tantos diretores, onde todo mundo “entende”, todo mundo é “crítico” (não, não estamos falando de futebol, mas de cinema mesmo!) e qualquer um com um celular consegue fazer um vídeo… Afinal, como empreender com segurança?

Cinema não é uma ciência exata, mas nem por isso a experiência precisa ser um tiro no escuro…

Vamos ajudar nossos amigos a empreender na 7ª arte usando o que poderia ser classificado como a 8ª arte: Data Science! Sim, esta buzzword dos tempos atuais é uma versão mais glamourosa do que se chamava Modelagem Estatística anos atrás…

Combinando a elegância de algoritmos deduzidos com maestria a mais de 200 anos atrás por estatísticos geniais com algoritmos mais novos e mais brutos da computação que… como diria… bom, se você tiver poder computacional eles simplesmente convergem… temos o melhor dos mundos… Quase que algo assim… de cinema!

E como embasar esta nossa análise?


Elementar, meu caro Watson!

Sherlock Holmes a esta altura já deduziu que o melhor é utilizar a IMDb (e não o super sistema da IBM conhecido como Watson…)

IMDb, também conhecida como Internet Movie Database (ou Base de Dados de Filmes na Internet numa tradução livre), é uma base de dados online de informação sobre música, cinema, filmes, programas e comerciais para televisão e jogos de computador.

Claro, aqui nos deteremos na parte de cinema e, mais especificamente, de filmes produzidos até 2016.

E como faremos isso?

Darth Vader certamente iria nos tentar a usar o “Lado Python da Força”, mas como somos mocinhos aqui, faremos uso do “Lado R da Força” mesmo. :-)

Sem mais delongas, vamos observar a IMDb com atenção:


Variáveis texto:

Variável Faltantes Preenchimento Mais curto Mais comprido Em branco Únicos
titulo 0 100.00% 1 86 0 3.711
diretor 73 98.03% 3 32 0 1.812
cor 14 99.62% 5 15 0 2
generos 0 100.00% 5 64 0 761
pais 0 100.00% 3 3 0 1
classificacao 0 100.00% 5 19 0 4
ator_1 4 99.89% 4 27 0 1.568
ator_2 7 99.81% 3 28 0 2.279
ator_3 13 99.65% 3 27 0 2.672
a Apenas variáveis texto


Variáveis numéricas:

Variável Faltantes Preenchimento Média Desvio Padrão Percentil 0 Percentil 25 Percentil 50 Percentil 75 Percentil 100
ano 73 98.03% 2.002,06 12,83 1.916,00 1.998,00 2.005,00 2.010,25 2.016,00
duracao 6 99.84% 106,37 23,89 7,00 93,00 103,00 117,00 330,00
orcamento 295 92.05% 35.237.114,25 42.060.076,68 218,00 6.000.000,00 20.000.000,00 49.000.000,00 300.000.000,00
receita 559 84.94% 54.530.550,00 70.913.203,67 703,00 9.592.406,25 31.837.373,50 71.346.990,00 760.505.847,00
nota_imdb 0 100.00% 6,37 1,13 1,60 5,70 6,50 7,10 9,30
likes_facebook 0 100.00% 7.794,35 20.108,54 0,00 0,00 180,00 3.000,00 349.000,00
a Apenas variáveis numéricas


Houston, we have a problem!

Nossa base de dados não possui uma medida mais objetiva de sucesso financeiro.

Métricas Financeiras

Por isso, vamos criar 2 variáveis para avaliar mais objetivamente o sucesso financeiro:

  • Lucro: A diferença entre a receita obtida e o orçamento empregado.
  • Receita/Orçamento: A razão entre a receita e o orçamento empregado.

Métricas de Sucesso de Crítica

Além disso, utilizarei a nota da IMDb como medida de sucesso de crítica.

Seria possível utilizar a quantidade de curtidas no Facebook como uma medida de sucesso, mas uma vez que o uso desta rede social vem crescendo ao longo do tempo, é possível antecipar que filmes mais recentes seriam desproporcionalmente beneficiados.

Então eu não vou utilizar o número de curtidas no Facebook.

A relativização do tempo…

Não, não vou entrar aqui nas questões da física relativística de Einstein, embora este seja um tema fascinante…

A questão é como as métricas que utilizaremos são relativos no tempo.

O custo de um filme é muito diferente hoje do que foi um século atrás. Então orçamento, receita e tudo o que deriva deles tem relação com o ano de produção do filme.

Por isso, com base na distribuição dos quantis exposta acima e no fato de que esta base tem filmes produzidos até 2016, eu estou arbitrariamente decidindo utilizar apenas os filmes produzidos a partir de 1996. Assim garantimos pelo menos 75% dos dados (o primeiro quartil é de 1998) e pelo menos 20 anos de história do cinema

Além disso, na rápida análise exploratória, descobrimos uma variável (pais) que tem um único valor (USA). Podemos descartá-la.

Então usaremos 2 medidas de sucesso financeiro e 1 medida de sucesso de crítica.

Vamos examinar melhor essas…


Variáveis de análise:

Variável Faltantes Preenchimento Média Desvio Padrão Percentil 0 Percentil 25 Percentil 50 Percentil 75 Percentil 100
nota_imdb 0 100.00% 6,24 1,10 1,60 5,60 6,40 7,00 9,10
lucro 463 84.57% 13.341.668,74 52.402.364,48 -190.641.321,00 -10.217.492,00 1.250.934,00 25.074.895,00 523.505.847,00
rec_orca 463 84.57% 7,02 159,67 0,00 0,53 1,10 2,04 7.194,49
a Variáveis de Análise


Já nos dá alguma idéia, mas é sempre bom ter isso de forma mais visual…

Por variável…


Lucro da Produção

Figura 01. Lucro da Produção.

Figura 01. Lucro da Produção.


Receita / Orçamento

Figura 02. Receita / Orçamento das Produções

Figura 02. Receita / Orçamento das Produções


Notas da IMDb

Figura 03. Notas IMDb.

Figura 03. Notas IMDb.


My precious…

Aqui temos um tema delicado, definir o que seria sucesso…

Com base na análise exploratória feita até então, vou arbitrariamente definir como sucesso qualquer um dos indicadores que esteja acima do valor arredondado do 75° percentil.

Ou seja, um filme será considerado de sucesso se obtiver uma das seguintes condições:

Com estas definições, vamos olhar para os critérios que permitiram um filme atingir o sucesso…

Diretor

Para não correr o risco de considerar diretores “sortudos” ou “azarados” (ou seja, que tenham tido muito sucesso ou um grande fracasso) com poucas produções, utilizaremos na análise apenas os diretores com mais de 5 produções dirigidas.

A seguir vamos examinar o Lucro Médio (e Nota Média IMDb) por Diretor (com mais de 5 produções):

Figura 04. Lucro Médio por Diretor (com mais de 5 produções).

Figura 04. Lucro Médio por Diretor (com mais de 5 produções).

Em princípio destaca-se os diretores Jay Roach e Christopher Nolan. O primeiro por um lucro médio superior a $ 100 milhões, o segundo por chegar próximo a isso com uma nota IMDb média bastante elevada.


Mas como a média pode ser enganosa, vamos olhar a distribuição dos lucros.

Figura 05. Distribuição de Lucro por Diretor (com mais de 5 produções).

Figura 05. Distribuição de Lucro por Diretor (com mais de 5 produções).

Interessante que Jay Roach confirma a impressão que tive de ser uma aposta financeira boa. Por outro lado, Christopher Nolan mostrou ter uma boa média por um trabalho excepcional e uma mediana que é… digamos… bem mediana… Outros diretores que chamam a atençao aqui seriam James Wan, Michael Bay e Tim Story, com medianas elevadas e poucas ou nenhuma producões dando prejuízo…


A seguir vamos examinar as distribuições da relação entre receita e orçamento dos diretores com maior relação entre receita e orçamento, uma métrica completamente diferente…

Figura 06. Distribuição de Receita por Orçamento por Diretor (com mais de 5 produções).

Figura 06. Distribuição de Receita por Orçamento por Diretor (com mais de 5 produções).

O nome de Jay Roach aparece mais uma vez, mas com uma consistência grande na relação entre Receita e Orçamento, bastante concentrados em um valor “baixo”. Aqui o destaque é para o diretor James Wan… Tim Story aparece como uma terceira opção…


A seguir vamos examinar as Notas IMDb Médias (e Receita / Orçamento média) por Diretor (com mais de 5 produções):
Figura 07. Nota IMDB Média por Diretor (com mais de 5 produções).

Figura 07. Nota IMDB Média por Diretor (com mais de 5 produções).

Mais uma vez Christopher Nolan desponta como a melhor média de Notas IMDb.

Quentin Tarantino não fica muito atrás, tendo inclusive uma relação entre Receita e Orçamento melhor que Christopher Nolan.


Por fim, para não ficar apenas com a média, vamos examinar as distribuições das Notas IMDb médias dos diretores com maiores Notas IMDb médias.
Figura 08. Distribuição de Notas IMDb Médias por Diretor (com mais de 5 produções).

Figura 08. Distribuição de Notas IMDb Médias por Diretor (com mais de 5 produções).

Christopher Nolan se destaca mais uma vez aqui, por ter uma ótima distribuição de notas IMDb. Quentin Tarantino também é bem colocado aqui, além de não possuir, tecnicamente falando, outliers nesta distribuição. Por fim, David Fincher não faz feito não…


Atores e Atrizes Principais

Para não correr o risco de considerar atores e atrizes principais “sortudos” ou “azarados” (ou seja, que tenham tido muito sucesso ou um grande fracasso) com poucas produções, utilizaremos na análise apenas os atores ou atrizes principais com mais de 5 produções estreladas.

A seguir vamos examinar o Lucro Médio (e Nota Média IMDb) por Ator ou Atriz Principal (com mais de 5 produções):

Figura 09. Lucro Médio por Ator ou Atriz principal (com mais de 5 produções).

Figura 09. Lucro Médio por Ator ou Atriz principal (com mais de 5 produções).

Quatro atores ou atrizes principais se destacam aqui. Steve Carell, Jennifer Lawrence, Bradley Cooper e Natalie Portman.

Jennifer Lawrence, Leonardo DiCaprio e Tom Hanks também despontam por terem um lucro médio elevado com boas notas IMDb médias.


Mas como a média pode ser enganosa, vamos olhar a distribuição dos lucros.

Figura 10. Distribuição de Lucro por Ator ou Atriz Principal (com mais de 5 produções).

Figura 10. Distribuição de Lucro por Ator ou Atriz Principal (com mais de 5 produções).

Interessante como a análise de um boxplot pode mostrar outliers que distorcem a média…

Dos quatro atores ou atrizes principais citados anteriormente (Steve Carell, Jennifer Lawrence, Bradley Cooper e Natalie Portman), esta última nem aparece entre as melhores medianas…

Jennifer Lawrence teve um trabalho que foi destaque, o que influenciou sua média.

E mesmo com a melhor mediana de lucro, um quarto dos filmes estrelados por Steve Carell deram prejuízo…

Seria necessário um enredo de cinema para explicar isso…


A seguir vamos examinar as distribuições da relação entre receita e orçamento dos atores ou atrizes principais com maior relação entre receita e orçamento, uma métrica completamente diferente…

Figura 11. Distribuição de Receita por Orçamento por Ator ou Atriz Principal (com mais de 5 produções).

Figura 11. Distribuição de Receita por Orçamento por Ator ou Atriz Principal (com mais de 5 produções).

Aqui mais uma vez o destaque é Steve Carell, com uma mediana elevada da relação entre Receita e Orçamento.

Jennifer Lawrence e Bradley Cooper também se mostram boas opções.


A seguir vamos examinar as Notas IMDb Médias (e Receita / Orçamento média) por Ator ou Atriz Principal (com mais de 5 produções):
Figura 12. Nota IMDB Média por Ator ou Atriz Principal (com mais de 5 produções).

Figura 12. Nota IMDB Média por Ator ou Atriz Principal (com mais de 5 produções).

A disputa aqui é mais apertada. Nomes conhecidos tais como Leonardo DiCaprio, Christian Bale e Tom Hanks ficam ligeiramente à frente…


Por fim, para não ficar apenas com a média, vamos examinar as distribuições das Notas IMDb médias dos Atores ou Atrizes Principais com maiores Notas IMDb médias.
Figura 13. Distribuição de Notas IMDb Médias por ator_1 (com mais de 5 produções).

Figura 13. Distribuição de Notas IMDb Médias por ator_1 (com mais de 5 produções).

Como mencionei anteriormente, a disputa aqui é mais apertada. Nomes conhecidos tais como Leonardo DiCaprio, Christian Bale e Tom Hanks formam como que um primeiro pelotão… Ryan Gosling, Philip Seymour Hoffman e Jennifer Lawrence formam como que o segundo pelotão das melhores escolhas


Eu poderia seguir com a análise de atores e atrizes coadjuvantes, mas entendo que a maior contribuição vem dos atores e atrizes principais.

Por uma questão de tempo disponível para a análise, tentarei analisar outras métricas.

Gênero

A seguir vamos examinar o Lucro Médio (e Nota Média IMDb) por Gênero:

Figura 14. Distribuição de Lucros dos principais Gêneros.

Figura 14. Distribuição de Lucros dos principais Gêneros.

O gênero não garante lucro, não é uma boa medida…


Conclusões

Diretor

Com bases nas análises, a minha recomendação para o Athos e Fernando é que eles considerem contratar o diretor Christopher Nolan que combina uma boa performance financeira com uma boa avaliação da crítica.

Se a prioridade for por segurança financeira, a recomendação é pelo diretor Jay Roach.

Se a prioridade for pela avaliação da crítica, a recomendação fica entre os diretores Christopher Nolan ou Quentin Tarantino.


Ator ou Atriz Principal

Com bases nas análises, a minha recomendação para o Athos e Fernando é que eles considerem contratar ou o ator Steve Carell, se a prioridade for boa performance financeira…

… ou o ator Leonardo DiCaprio se a prioridade for a avaliação da crítica.

Aqui não temos um claro destaque. Talvez um filme em que estes dois atores atuem juntos seja um grande sucesso!