Contact Us
Data Science: como prever a receita mundial de filmes?
Tempo de leitura: 3 minutos

Data Science Hands-on: “Predicting movies’ worldwide revenue”

No passado dia 4 de Maio, dia mundialmente conhecido como o dia do Star Wars (“May the fourth“), cerca de 40 aficionados de Data Science aproveitaram a ocasião para em mais uma sessão do Lisbon Kaggle Meetup aprenderem sobre este tema a praticar e partilhar. O Meetup “Data Science Hands-on” decorreu no Instituto Superior Técnico (IST) e foi dedicado precisamente ao cinema:

  • o problema abordado consistiu em prever a receita dos filmes antes da sua estreia!

Para este evento contou-se ainda com o patrocínio da Xpand IT e com a colaboração da Hackerschool Lisboa, um grupo de alunos do IST interessados em tecnologia e que também evangeliza a prática do learn-by-doing.

Em primeiro lugar, o evento teve início com uma apresentação do Ricardo Pires da Xpand IT, que introduziu a empresa e as suas unidades focadas no tratamento e exploração de dados. Deu, assim, uma amostra aos participantes de como estes problemas se enquadram num contexto real. Logo de seguida, o professor Rui Henriques, que leciona a disciplina de Data Science no IST, explicou aos participantes a sua perspetiva de como abordar um problema de Data Science, dando algumas dicas sobre o desafio do meetup.

Os dados deste desafio potenciam a aprendizagem e dão uma ideia do que poderá ser um problema real uma vez que são semi-estruturados e exigem um esforço grande no tratamento dos mesmos.

Estima-se que cerca de 80% do trabalho diário de um Data Scientist seja em tarefas de tratamento de dados.
Forbes

Assim, após as duas apresentações, os participantes começaram a desvendar os mistérios escondidos nos dados. Verificaram, por exemplo, o aumento das receitas ao longo dos anos de uma forma geral. Notaram ainda que os filmes americanos têm uma receita superior aos restantes.

data science como prever

Abordagem ao desafio

Na primeira parte, os participantes modelaram o problema com colunas mais simples e estruturadas como: 

  • budget
  • popularity
  • runtime
  • data

Desta forma, tentaram obter as suas primeiras previsões para as receitas dos filmes. Na figura abaixo, que representa a matriz de correlação de Spearman, verifica-se que o budget e a popularity são as colunas mais correlacionadas com a receita.

data science como prever

Na segunda parte, atacaram-se as colunas semi-estruturadas, aplicando a técnica de one-hot encoding, como:

  • realizador
  • o elenco do filme

Com esta exploração mais aprofundada dos dados, as equipas descobriram os filmes que mais receitas geraram (ver tabela abaixo).

Outro aspeto relevante é percebermos que a popularidade nem sempre está diretamente relacionada com a receita, como é o caso do filme “Transformers: Dark of the Moon”,  uma vez que se apresenta pouco popular mas com uma receita alta.

data science como prever

Outro facto interessante é observar os atores que em média geraram as receitas mais altas:

data science como prever

Conclusões

No final do meetup, os participantes deram a conhecer as soluções implementadas:

  • O grupo com um dos melhores resultados aplicou Logistic Regression. Apesar de ser um modelo simples, pode dar bons resultados quando há foco no tratamento dos dados.
  • O tratamento dos dados passou por técnicas como a deteção de outliers, nos filmes com um budget muito discrepante, substituindo estes valores pela mediana.
  • As colunas de budget e revenue foram transformadas para o logaritmo das mesmas, de modo a aproximá-las de uma distribuição Gaussiana.
  • Umas das vantagens de usar um modelo mais simples é que estes são, também, mais fáceis de explicar a um stakeholder de negócio.
Data Science meetup
data science meetup
Data Science meetup

Leave a comment

Comments are closed.

Comments

  1. … [Trackback]

    […] Find More to that Topic: careers.xpand-it.com/blog/data-science-como-prever-a-receita-mundial-de-filmes/ […]

  2. … [Trackback]

    […] Read More Info here on that Topic: careers.xpand-it.com/blog/data-science-como-prever-a-receita-mundial-de-filmes/ […]

  3. … [Trackback]

    […] Find More Info here to that Topic: careers.xpand-it.com/blog/data-science-como-prever-a-receita-mundial-de-filmes/ […]

  4. … [Trackback]

    […] There you will find 59783 additional Info on that Topic: careers.xpand-it.com/blog/data-science-como-prever-a-receita-mundial-de-filmes/ […]

  5. … [Trackback]

    […] There you will find 30751 more Info to that Topic: careers.xpand-it.com/blog/data-science-como-prever-a-receita-mundial-de-filmes/ […]

  6. … [Trackback]

    […] Info to that Topic: careers.xpand-it.com/blog/data-science-como-prever-a-receita-mundial-de-filmes/ […]

  7. … [Trackback]

    […] Find More Info here on that Topic: careers.xpand-it.com/blog/data-science-como-prever-a-receita-mundial-de-filmes/ […]

  8. … [Trackback]

    […] Information on that Topic: careers.xpand-it.com/blog/data-science-como-prever-a-receita-mundial-de-filmes/ […]

  9. … [Trackback]

    […] Read More on to that Topic: careers.xpand-it.com/blog/data-science-como-prever-a-receita-mundial-de-filmes/ […]

  10. … [Trackback]

    […] Find More here on that Topic: careers.xpand-it.com/blog/data-science-como-prever-a-receita-mundial-de-filmes/ […]

  11. … [Trackback]

    […] Read More to that Topic: careers.xpand-it.com/blog/data-science-como-prever-a-receita-mundial-de-filmes/ […]

  12. … [Trackback]

    […] Find More on that Topic: careers.xpand-it.com/blog/data-science-como-prever-a-receita-mundial-de-filmes/ […]

  13. … [Trackback]

    […] Info on that Topic: careers.xpand-it.com/blog/data-science-como-prever-a-receita-mundial-de-filmes/ […]

  14. … [Trackback]

    […] There you will find 80769 more Info on that Topic: careers.xpand-it.com/blog/data-science-como-prever-a-receita-mundial-de-filmes/ […]

  15. … [Trackback]

    […] Find More Info here on that Topic: careers.xpand-it.com/blog/data-science-como-prever-a-receita-mundial-de-filmes/ […]