12 案例

学习目标

  • 目标


1 需求

现在我们有一组从2006年到2016年1000部最流行的电影数据

数据来源:https://www.kaggle.com/damianpanek/sunday-eda/data

  • 问题1:我们想知道这些电影数据中评分的平均分,导演的人数等信息,我们应该怎么获取?

  • 问题2:对于这一组电影数据,如果我们想rating,runtime的分布情况,应该如何呈现数据?

  • 问题3:对于这一组电影数据,如果我们希望统计电影分类(genre)的情况,应该如何处理数据?

2 实现

首先获取导入包,获取数据

%matplotlib inline
import pandas  as pd 
import numpy as np
from matplotlib import pyplot as plt

2.1 问题一:

我们想知道这些电影数据中评分的平均分,导演的人数等信息,我们应该怎么获取?

  • 得出评分的平均分

使用mean函数

  • 得出导演人数信息

求出唯一值,然后进行形状获取

2.2 问题二:

对于这一组电影数据,如果我们想Rating,Runtime (Minutes)的分布情况,应该如何呈现数据?

  • 直接呈现,以直方图的形式

选择分数列数据,进行plot

  • Rating进行分布展示

进行绘制直方图

修改刻度的间隔

  • Runtime (Minutes)进行分布展示

进行绘制直方图

修改间隔

2.3 问题三:

对于这一组电影数据,如果我们希望统计电影分类(genre)的情况,应该如何处理数据?

  • 思路分析

    • 思路

      • 1、创建一个全为0的dataframe,列索引置为电影的分类,temp_df

      • 2、遍历每一部电影,temp_df中把分类出现的列的值置为1

      • 3、求和

  • 1、创建一个全为0的dataframe,列索引置为电影的分类,temp_df

  • 2、遍历每一部电影,temp_df中把分类出现的列的值置为1

  • 3、求和,绘图

Last updated