3.2.2 数据概览_Python金融数据挖掘与分析实战-QQ阅读女生幻言网

上QQ阅读APP看书，第一时间看更新

本节将以线上购物数据Income_n_onlineshopping为例介绍如何进行数据概览。

1）使用pandas中的read_csv读取数据。

import pandas as pd                                             # 引入pandas库
rawdata = pd.read_csv('./Income_n_onlineshopping.csv')          # 读取数据

2）查看部分数据，头五行和尾五行的数据结果如图3-2和图3-3所示。

图3-2　输出数据头五行

图3-3　输出数据尾五行

rawdata.head()                                                  # 打印头五行
rawdata.tail()                                                  # 打印尾五行

3）检查数据类型，结果如图3-4所示。

rawdata.dtypes

图3-4　输出数据类型

图3-5　输出数据的范围

4）对数据进行简单的统计分析，从而对数据有一个整体认知。清洗数据前看一下数据是很有用的。

print(rawdata.describe())

输出数据集每列的count（数量）、mean（平均值）、std（标准差）、min（最小值）、25%/50%/75%（分位数）、max（最大值），如图3-5所示。由于Region与Online Shopper两列不是数字，统计中并未囊括。

5）检查表格的行数和列数或列名。

检查表格行数和列数的代码如下：

nrow,ncol = rawdata.shape       # 可以将行数和列数保存到两个变量带之后调用

检查列名的代码如下：

colNames = rawdata.columns.tolist()
print(colNames)
['Region', 'Age', 'Income', 'Online Shopper']