Careers Xpand IT Careers Xpand IT
Contact Us
marketing.talent@xpand-it.com
Careers Xpand ITCareers Xpand IT
  • Procurar Oportunidades
    • Oportunidades de Emprego
    • Estudantes & Universidades
  • Life at Xpand IT
    • Trabalhar na Xpand IT
    • Os nossos Valores
  • Xtech Community
    • Blog
  • Quem Somos
    • Equipas de Produto & Tecnologia
    • Equipas Corporativas
    • O que fazemos
    • Imprensa
  • Contactos
Info
Junta-te a nósJunta-te a nósJunta-te a nós
Search website
Search
Close

Data Science: como prever a receita mundial de filmes?

  1. Home
  2. Blog Xtech Community
Data Science: como prever a receita mundial de filmes?
Tempo de leitura: 3 minutos

Data Science Hands-on: “Predicting movies’ worldwide revenue”

No passado dia 4 de Maio, dia mundialmente conhecido como o dia do Star Wars (“May the fourth“), cerca de 40 aficionados de Data Science aproveitaram a ocasião para em mais uma sessão do Lisbon Kaggle Meetup aprenderem sobre este tema a praticar e partilhar. O Meetup “Data Science Hands-on” decorreu no Instituto Superior Técnico (IST) e foi dedicado precisamente ao cinema:

  • o problema abordado consistiu em prever a receita dos filmes antes da sua estreia!

Para este evento contou-se ainda com o patrocínio da Xpand IT e com a colaboração da Hackerschool Lisboa, um grupo de alunos do IST interessados em tecnologia e que também evangeliza a prática do learn-by-doing.

Em primeiro lugar, o evento teve início com uma apresentação do Ricardo Pires da Xpand IT, que introduziu a empresa e as suas unidades focadas no tratamento e exploração de dados. Deu, assim, uma amostra aos participantes de como estes problemas se enquadram num contexto real. Logo de seguida, o professor Rui Henriques, que leciona a disciplina de Data Science no IST, explicou aos participantes a sua perspetiva de como abordar um problema de Data Science, dando algumas dicas sobre o desafio do meetup.

Os dados deste desafio potenciam a aprendizagem e dão uma ideia do que poderá ser um problema real uma vez que são semi-estruturados e exigem um esforço grande no tratamento dos mesmos.

Estima-se que cerca de 80% do trabalho diário de um Data Scientist seja em tarefas de tratamento de dados.

(Fonte: Forbes) 

Assim, após as duas apresentações, os participantes começaram a desvendar os mistérios escondidos nos dados. Verificaram, por exemplo, o aumento das receitas ao longo dos anos de uma forma geral. Notaram ainda que os filmes americanos têm uma receita superior aos restantes.

data science como prever

Abordagem ao desafio

Na primeira parte, os participantes modelaram o problema com colunas mais simples e estruturadas como: 

  • budget
  • popularity
  • runtime
  • data

Desta forma, tentaram obter as suas primeiras previsões para as receitas dos filmes. Na figura abaixo, que representa a matriz de correlação de Spearman, verifica-se que o budget e a popularity são as colunas mais correlacionadas com a receita.

data science como prever

Na segunda parte, atacaram-se as colunas semi-estruturadas, aplicando a técnica de one-hot encoding, como:

  • realizador
  • o elenco do filme

Com esta exploração mais aprofundada dos dados, as equipas descobriram os filmes que mais receitas geraram (ver tabela abaixo).

Outro aspeto relevante é percebermos que a popularidade nem sempre está diretamente relacionada com a receita, como é o caso do filme “Transformers: Dark of the Moon”,  uma vez que se apresenta pouco popular mas com uma receita alta.

data science como prever

Outro facto interessante é observar os atores que em média geraram as receitas mais altas:

data science como prever

Conclusões

No final do meetup, os participantes deram a conhecer as soluções implementadas:

  • O grupo com um dos melhores resultados aplicou Logistic Regression. Apesar de ser um modelo simples, pode dar bons resultados quando há foco no tratamento dos dados.
  • O tratamento dos dados passou por técnicas como a deteção de outliers, nos filmes com um budget muito discrepante, substituindo estes valores pela mediana.
  • As colunas de budget e revenue foram transformadas para o logaritmo das mesmas, de modo a aproximá-las de uma distribuição Gaussiana.
  • Umas das vantagens de usar um modelo mais simples é que estes são, também, mais fáceis de explicar a um stakeholder de negócio.
Data Science meetup
data science meetup
Data Science meetup
Categories:
  • Blog Xtech Community
Tags:
  • Data Science
  • Meetup

Leave a comment

Cancel reply

Anterior Seguinte
  • Popular
  • Recente
Cinco razões para continuar a trabalhar na mesma empresa de TI
Jan 22, 20

Cinco razões para continuar a trabalhar na mesma empresa de TI

Comecei um novo desafio profissional em teletrabalho. Foi assim a minha experiência
Mai 14, 20

Comecei um novo desafio profissional em teletrabalho. Foi assim a minha experiência

5 lições que aprendi a trabalhar como QA Tester
Fev 19, 21

5 lições que aprendi a trabalhar como QA Tester

Data Engineer ou Data Scientist? Descobre a carreira que faz match contigo
Nov 09, 20

Data Engineer ou Data Scientist? Descobre a carreira que faz match contigo

Queres começar uma carreira em tecnologia? Experimenta as Power Apps
Abr 23, 20

Queres começar uma carreira em tecnologia? Experimenta as Power Apps

A minha primeira experiência profissional no estágios de verão da Xpand IT
Set 20, 19

A minha primeira experiência profissional no estágios de verão da Xpand IT

Como implementar Service Discovery com Spring?
Jan 25, 21

Como implementar Service Discovery com Spring?

Como criei impacto através dos dados enquanto Engineer?
Jan 29, 21

Como criei impacto através dos dados enquanto Engineer?

Dev Talks: Xpand IT organiza webinars para developers e programadores
Jun 01, 20

Dev Talks: Xpand IT organiza webinars para developers e programadores

Teletrabalho: boas práticas para trabalhar em casa (miúdos incluídos)
Mar 31, 20

Teletrabalho: boas práticas para trabalhar em casa (miúdos incluídos)

5 lições que aprendi a trabalhar como QA Tester
Fev 19, 21

5 lições que aprendi a trabalhar como QA Tester

Como criei impacto através dos dados enquanto Engineer?
Jan 29, 21

Como criei impacto através dos dados enquanto Engineer?

Como implementar Service Discovery com Spring?
Jan 25, 21

Como implementar Service Discovery com Spring?

Ambiente startup numa grande empresa, é possível? Acreditem que sim
Dez 09, 20

Ambiente startup numa grande empresa, é possível? Acreditem que sim

Data Engineer ou Data Scientist? Descobre a carreira que faz match contigo
Nov 09, 20

Data Engineer ou Data Scientist? Descobre a carreira que faz match contigo

Entrevista de emprego online: quatro dicas para seres bem-sucedido
Jul 17, 20

Entrevista de emprego online: quatro dicas para seres bem-sucedido

Dev Talks: Xpand IT organiza webinars para developers e programadores
Jun 01, 20

Dev Talks: Xpand IT organiza webinars para developers e programadores

Comecei um novo desafio profissional em teletrabalho. Foi assim a minha experiência
Mai 14, 20

Comecei um novo desafio profissional em teletrabalho. Foi assim a minha experiência

Três dicas para criar um CV de engenharia informática de sucesso
Mai 08, 20

Três dicas para criar um CV de engenharia informática de sucesso

Xpand IT está a recrutar. Tem vagas para Lisboa, Porto e Viana do Castelo
Mai 06, 20

Xpand IT está a recrutar. Tem vagas para Lisboa, Porto e Viana do Castelo

Xpandit

Portugal

Xpandit

United Kingdom

Xpandit

United States of America

Xpandit

Sweden

Logo_white_RGB

    Subscrever Newsletter
    Tweets
    • Procurar Oportunidades
    • Life at Xpand IT
    • Xtech Community
    • Quem Somos
    • Contactos
    www.xpand-it.com | 2021 | All rights reserved
    • Procurar Oportunidades
      • Oportunidades de Emprego
      • Estudantes & Universidades
    • Life at Xpand IT
      • Trabalhar na Xpand IT
      • Os nossos Valores
    • Xtech Community
      • Blog
    • Quem Somos
      • Equipas de Produto & Tecnologia
      • Equipas Corporativas
      • O que fazemos
      • Imprensa
    • Contactos
    Legal Privacy Policy Terms of Use
    Careers Xpand IT Norte 2020Careers Xpand IT Compete 2020Careers Xpand IT Portugal 2020Careers Xpand ITCareers Xpand IT fundos
    This website uses cookies to provide you with a better user experience. By using our site you agree to the use of cookies as describe by our cookie policy
    Read moreAgree
    Manage consent

    Privacy Overview

    This website uses cookies to improve your experience while you navigate through the website. Out of these, the cookies that are categorized as necessary are stored on your browser as they are essential for the working of basic functionalities of the website. We also use third-party cookies that help us analyze and understand how you use this website. These cookies will be stored in your browser only with your consent. You also have the option to opt-out of these cookies. But opting out of some of these cookies may affect your browsing experience.
    Necessary
    Sempre activado

    Necessary cookies are absolutely essential for the website to function properly. This category only includes cookies that ensures basic functionalities and security features of the website. These cookies do not store any personal information.

    Non-necessary

    Any cookies that may not be particularly necessary for the website to function and is used specifically to collect user personal data via analytics, ads, other embedded contents are termed as non-necessary cookies. It is mandatory to procure user consent prior to running these cookies on your website.

    SAVE & ACCEPT