Objetivo: fazer uma análise exploratória dos dados do IMDB.
Contexto: imaginem que o Athos e o Fernando queiram investir na produção de um filme, mas eles não sabem nada de cinema. Eles tem interesse em produzir um filme que seja tanto um sucesso financeiro, quanto um sucesso de crítica, mas poderiam abandonar um dos critérios caso o outro seja muito atraente. Para isso, eles precisam saber quais os melhores diretores, atores e qual gênero de filme é mais propenso a uma produção de sucesso. Informações sobre duração e classificação etária também seriam interessantes para eles, assim como uma ideia do quanto eles precisariam desembolsar.
Dado o enunciado, meu objetivo será trazer informações para que eles possam fazer as melhores escolhas para investir em um filme. Para isso, vou usar a imaginação e simular que Athos e Fernando são empresários super ricos e donos e fundadores da Plataforma Global de Ensino à Distância (EAD) Curso R.
Em tempos de Instagram, TikTok e Youtubers, para muita gente, “estar na mídia” é tão ou mais importante do que ter muita grana ($$$). Não à toa os detentores do fortunas, os super ricos, têm procurado cada vez mais os serviços dos influenciadores digitais para popularizarem suas marcas e seus produtos.
Enquanto a estratégia acima ainda vem se demonstrando assertiva em alguns casos, há quem diga que em um futuro próximo os consumidores não se importarão apenas com quem são os “garotos propaganda” dos produtos que querem comprar, mas também como o posicionamento social da marca e quem está por trás daquela brand, com a finalidade de evitar possíveis contradições entre o que dizem as empresas e o que elas realmente representam.
Pensando em suas reputações e em como isso poderia influenciar seus negócios, alguns ricaços brasileiros já se valeram de seu poderio econômico e se aventuraram no campo das biografias, contando histórias que pretendiam ser inspiradoras, cheias de superação e com pitadas motivacionais que quase faziam seres humanos normais como nós acreditarem que um dia poderíamos estar naquele pedestal também.
Bom, a história já mostrou que nem tudo que reluz é ouro e biografias antes aclamadas, como a do empresário Eike Batista foram totalmente desacreditadas pelos acontecimentos que por motivos bem óbvios acabaram não populando as páginas do livro sobre a vida do empresário. Eventos como esse do ex-homem mais rico do Brasil e consumidores mais ávidos por informações em formatos que permitam mais agilidade, acabam reduzindo um pouco o mercado de livros biográficos, afinal, enquanto as pessoas são cobradas por mais produção, rapidez e eficiência, quem é que realmente tem tempo de ler um livro de 300 páginas? (Contém ironia).
Assim, minha dica para esses super ricaços é evitar o mercado de biografias e mergulhar no mercado de áudio visual. Filmes!! Isso mesmo, filmes são mais curtos do que livros, podem atingir um público muito maior, têm um poder impressionante de passar uma menssagem, criam debates e podem gerar um lucro extraordinário, principalmente em tempo de pandemias e isolamento social. Imaginem só, todo mundo em casa conectando no Netflix para assistir a mais uma bela história de meritocracia ou heroísmo de algum milionário.
Prova da popularidade dos filmes é o número cada vez maior de produções que vêm sendo realizadas ao longo dos anos. A base de dados do Internet Movie Database (IMDb) com 3.713 filmes registrados de 1916 até 2016, evidencia o forte crescimento do número de filmes principalmente a partir dos anos 90.Ainda que o gráfico acima demonstre uma forte queda no número de filmes produzidos a partir de 2014, isso não significa as obras cinematográficas tenham ficado fora de moda. Vale lembrar que além dos possíveis problemas com a continuidade da alimentação da base de dados que estamos analisando, foi a partir desses anos que plataformas como Amazom Prime e Netflix mudaram completamente o mercado de distribuição de filmes e tornando as películas cada vez mais acessíveis para o grande público.
Apesar dos “problemas” com a base, acredito que isso não será um problema para demonstrar os benefícios de investir na produção de um filme para os milionários Athos e Fernando, fundadores da plataforma global de EAD Curso R, focada em ciência de dados. Aliás, vale dizer que a credibilidade deles em nada se parecem com a do ex-magnata do power point citado anteriomente. Os curso oferecidos nas plataformas já formaram aproximadamente 26 mil novos cientistas de dados, portanto não seria um grande esforço para um Diretor de cinema fazer um filme com uma história sobre os dois e a Curso R.
Mas chega de lero lero e vamos aos números!Quando recebi a tarefa, as principais premissas para os contratantes eram que o filme fosse sucesso de crítica e/ou sucesso financeiro. Certamente há várias maneiras de conseguir demonstrar isso, mas vamos começar olhando para as avaliações dos filmes através das notas presentes na base IMDb. Vamos focar nossa análise no sucesso de crítica, já que entendemos que fazer um filme que passe uma mensagem positiva sobre Athos e Fernando, permitirá que o público possa conhece-los ainda mais e, consequentemente isso trará retorno financeiro através do aumento do número de pessoas interessados nos cursos da Curso R.
O gráfico a seguir nos mostra que a nota média por ano vem caindo ao longo dos anos, o que já funciona como um primeiro alerta. O público vem ficando cada vez mais crítico, isso provavelmente se deve ao fato de que com mais filmes disponíveis, mais o público vai adquirindo base comparativa, permitindo que as pessoas saibam cada vez mais do que elas realmente gostam em um filme.A gráfico anterior mostra quais gêneros foram mais produzidos entre os filmes de nossa base de dados. Como estamos interessados em pensar que tipo de filme poderia ser feito para falar de Athos e Fernando, o leitor pode estar fazendo o questionamento se o melhor gênero não seria um documentário. Quem pergunta isso não está errado sob o ponto de vista do paralelo que começamos a fazer com as biografias no início do texto, mas será que essa é a única maneira de contar uma história? Será que uma comédia ou um drama não poderiam contar a história dessa dupla de uma maneira mais interessante? Para responder essas perguntas vamos ver se estes genêros se destacam entre aqueles com maior nota média.
Posição | Gênero | Nota Média |
---|---|---|
1 | Action|Adventure|Crime|Drama|Sci-Fi|Thriller | 8.8 |
2 | Action|Adventure|Biography|Drama|History | 8.6 |
3 | Crime|Drama|Fantasy|Mystery | 8.5 |
4 | Adventure|Animation|Drama|Family|Musical | 8.5 |
5 | Action|Animation|Crime|Sci-Fi|Thriller | 8.4 |
6 | Documentary|Drama|Sport | 8.3 |
7 | Comedy|Mystery|Thriller | 8.3 |
8 | Biography|Drama|History|Music | 8.3 |
9 | Adventure|Drama|War | 8.3 |
10 | Adventure|Drama|History|Thriller|War | 8.3 |
11 | Adventure|Animation|Comedy|Drama|Family|Fantasy | 8.3 |
Diferente do que foi mostrado na figura 3, onde comédia vem em primeiro lugar em números de produções feitas e drama em segundo lugar, a Tabela 1 deixa claro que filmes com mais de uma classificação de gênero possuem maior sucesso de crítica. Nesse caso, a liderança passa a ser ocupada por Ação|Drama|Romance e só voltamos a ver o gênero comédia na terceira posição. Mas a visão obtida através da tabela anterior é bem abrangente e construída utilizando todos os anos disponíveis na base.
A seguir podemos ter uma idéia de como as notas médias alteram a liderança de gêneros em um olhar mais atual, ou seja, “colocando uma lupa” apenas nos anos a partir de 2000.Posição | Gênero | Nota Média |
---|---|---|
1 | Action|Drama|Romance | 8.5 |
2 | Action|Animation|Crime|Sci-Fi|Thriller | 8.4 |
3 | Comedy|Mystery|Thriller | 8.3 |
4 | Adventure|Drama|War | 8.3 |
5 | Adventure|Animation|Comedy|Drama|Family|Fantasy | 8.3 |
6 | Biography|Comedy|Crime|Drama | 8.2 |
7 | Biography|Crime|Drama|History | 8.1 |
8 | Adventure|Drama|Thriller|Western | 8.1 |
9 | Adventure|Comedy|Crime|Drama | 8.1 |
10 | Action|Adventure|Comedy|Romance|Sci-Fi | 8.1 |
Como bons filmes não são determinados apenas pelo gênero, vamos tentar verificar através dos dados se de alguma maneira os atores envolvidos nas tramas ajudam a impulsionar as notas.
Destacamos que a base de dados possui três colunas diferentes para atores (ator_1
, ator_2
e ator_3
) sem fazer qualquer diferenciação de importância entre elas. Então, é possível que em um determinado filme a atriz X esteja na coluna ator_2
e em outro filme ela esteja na couna ator_3
. Como nosso objetivo é apenas fazer algumas avaliações sobre os atores, vamos trabalhar apenas com a coluna ator_1
, mas é claro que com uma continuidade deste trabalho a análise poderá ser expandida para todas as colunas.
Posição | Ator | Nota Média |
---|---|---|
1 | Kimberley Crossman | 8.7 |
2 | Abigail Evans | 8.7 |
3 | David Raizor | 8.6 |
4 | Collin Alfredo St. Dic | 8.5 |
5 | Tommy Sheppard | 8.4 |
6 | Noam Chomsky | 8.3 |
7 | Mary Kate Wiles | 8.3 |
8 | Campbell Scott | 8.3 |
9 | Bob Proctor | 8.2 |
10 | Sally Kirkland | 8.1 |
11 | Jim Meskimen | 8.1 |
Por outro lado, escolher Robert De Niro para protagonizar o filme da Curso R, interpretando Athos ou Fernando não parece ser a escolha mais óbvia, uma vez que os melhores anos da carreira dele parecem ter ficado para trás como podemos vizualizar no gráfico anterior.
Ainda no Top 5 dos atores com mais filmes, vemos atores mais jovens do que os dois primeiros portanto com mais chances de interpretarem os papéis pricipais do filme em questão:
Matt Damon: Astro de Jason Bourne, Perdido em Marte e Interestelar tem ótimas notas médias sendo a última 8,1 em 2015 depois de ter registrado 6,6 no ano anterior;
Johnny Depp: Ator principal da inesquecível saga de Piratas do Caribe vem apresentando uma tendência de nota média decrescente nos últimos anos, o que é uma pena pois talvez seja ele entre os 5 atores, aquele com mais semelhanças físicas com os fundadores da Curso R; e
Robert Downey Jr.: O eterno Tony Stark parece ser uma escolha mais do que certa, a última nota média foi 8,2, apresenta trajetória de notas médias ascendente e, alavancado pelo sucesso dos filmes Vingadores e Homem de Ferro, seus trabalhos têm batido record de bilheteria.
Figura 7. Nota Média IMDb.
Posição | Diretor | Nota Média |
---|---|---|
1 | John Stockwell | 9.1 |
2 | Mitchell Altieri | 8.7 |
3 | Cary Bell | 8.7 |
4 | Mike Mayhall | 8.6 |
5 | Christopher Nolan | 8.6 |
6 | Ron Fricke | 8.5 |
7 | Damien Chazelle | 8.5 |
8 | Marius A. Markevicius | 8.4 |
9 | Jay Oliva | 8.4 |
10 | Pete Docter | 8.3 |
11 | Lee Unkrich | 8.3 |
12 | Justin Paul Miller | 8.3 |
Agora que temos uma ideia de qual caminho seguir, vamos tentar trazer uma visão financeira para que Athos e Fernando possam decidir sobre o filme a ser feito. Obviamente que para conseguir ser mais assertivo nos resultados relacionados aos riscos financeiros do projeto, poderíamos desenvolver um modelo de Machine Learning com previsão da nota IMDb ou de lucro, mas deixaremos isso para uma outra oportunidade pois não é o foco do trabalho fazer previsões e, além disso a questão financeira não é o principal foco dos sócios da Curso R, uma vez que a intenção aqui é melhorar a ainda mais a imagem deles, tendo em vista que eles só esperam que seus lucros venham exclusivamente da sua plataforma de EAD.
Assim, podemos ver pelo gráfico a seguir que a grande maioria dos filmes obteve lucro, o que de certa forma pode trazer alguma tranquilidade para Athos e Fernando em evitar um grande prejuízo em busca de melhorar ainda mais a imagem de sua empresa.Como o gráfico anterior utilizava todos os dados presentes na base, limitamos um pouco mais os anos (a partir de 2010) para ver se ainda tínhamos a mesma percepção de que a maior parte dos filmes gerou lucro, o que parece continuar acontecendo na Figura 10 a seguir, ainda que não fique tão evidente quanto na Figura 9. Além disso, adicionamos ao gráfico uma característica faixa etária dos filmes através do tamanho das circuferências, para verificar se existe algum tipo de relação linear entre a classificação etária e a receita, o que não foi possível avaliar, devido a aparente aleatoriedade desta relação, conforme o gráfico demonstrou.
Orçamento
, maior é a dispersão de resultados da Receita
o que geraria uma certa imprevisibilidade de um modelo de Machine Learning que poderíamos desenvolver futuramente para prever a Receita.Lucro
fica maior a medida em que aumentamos o Orçamento
. Lucro
e Nota IMDb
o que nos permite observar que a curva começa a apresentar uma inclinação positiva a partir da nota 6, ou seja, aumetam as chances do filme ter lucro caso tenha uma boa avaliação. O que é uma ótima notícia para Athos e Fernando porque como dissemos antes, o foco deles é uma boa avaliação da crítica.