![Python金融数据挖掘与分析实战](https://wfqqreader-1252317822.image.myqcloud.com/cover/160/42557160/b_42557160.jpg)
上QQ阅读APP看书,第一时间看更新
3.2.2 数据概览
本节将以线上购物数据Income_n_onlineshopping为例介绍如何进行数据概览。
1)使用pandas中的read_csv读取数据。
import pandas as pd # 引入pandas库 rawdata = pd.read_csv('./Income_n_onlineshopping.csv') # 读取数据
2)查看部分数据,头五行和尾五行的数据结果如图3-2和图3-3所示。
![](https://epubservercos.yuewen.com/4BD184/22070570401553906/epubprivate/OEBPS/Images/3-2.jpg?sign=1739669494-Dr6xAwP2fA8gHxXXFAmuZLY64bbiYuxp-0-18625846cab2c69682ef3c3b48726024)
图3-2 输出数据头五行
![](https://epubservercos.yuewen.com/4BD184/22070570401553906/epubprivate/OEBPS/Images/3-3.jpg?sign=1739669494-nGycSyeHvw2RCB6ZHdzVrcBUYOMXkxhc-0-7b9b41c8b17e936732f59acdbf722f05)
图3-3 输出数据尾五行
rawdata.head() # 打印头五行 rawdata.tail() # 打印尾五行
3)检查数据类型,结果如图3-4所示。
rawdata.dtypes
![](https://epubservercos.yuewen.com/4BD184/22070570401553906/epubprivate/OEBPS/Images/3-4.jpg?sign=1739669494-TfoE4WIKgik6XbHTRRo9ZmDxbgfznm8t-0-a9c633bf56ac41594dbad9cd1276df10)
图3-4 输出数据类型
![](https://epubservercos.yuewen.com/4BD184/22070570401553906/epubprivate/OEBPS/Images/3-5.jpg?sign=1739669494-5SskNK2lGl1GhyQtcOaYCBh5KhUNN5xb-0-a38b66addb166bcc29a6685aa8d0e6f6)
图3-5 输出数据的范围
4)对数据进行简单的统计分析,从而对数据有一个整体认知。清洗数据前看一下数据是很有用的。
print(rawdata.describe())
输出数据集每列的count(数量)、mean(平均值)、std(标准差)、min(最小值)、25%/50%/75%(分位数)、max(最大值),如图3-5所示。由于Region与Online Shopper两列不是数字,统计中并未囊括。
5)检查表格的行数和列数或列名。
检查表格行数和列数的代码如下:
nrow,ncol = rawdata.shape # 可以将行数和列数保存到两个变量带之后调用
检查列名的代码如下:
colNames = rawdata.columns.tolist() print(colNames) ['Region', 'Age', 'Income', 'Online Shopper']