数据分析之路前传-统计学week01

数据的图表展示

Posted by BY xiaobao(微信:Bao1697047283) on November 3, 2019

目录

  1. 数据的图表展示

数据预处理

数据预处理就是在对数据分类或分组之前所做的必要处理

「1. 数据审核

  1. 筛选
  2. 排序
  3. … 」

数据审核

数据审核就是检查数据中是否有错误

  • 原始数据
    • 数据的完整性和准确性
  • 二手数据
    • 数据的适用性和时效性

数据筛选、排序

数据:

筛选排序操作:

  • 数据透视表的插入制作

数据:

透视表的插入:

品质数据的整理展示

分类数据对整理与图示

分类数据本身就是对事务的一种分类,在整理时先列出所分的类别,然后计算出每一类别的频数、频率或者比率、比例即可形成一张频数分布表,然后根据需要展示成所需要的图形

  • 频数分布

把各个类别及落在其中的相应频数全部列出,并用表格的形式表现出来

顺序数据对整理与图示

对于顺序数据出了上面的整理和图示技术还可以计算累计频数和累积频率

  • 累积频数

将各有序类别或组的频数逐级累加起来得到的频数

数值型数据的整理与展示

数据分组

数据分组是根据统计研究的需要,将原始数据按照某种标准分成不同的组别,分组后的数据称为分组数据

数据分组的目的是观察数据的分布特征

数据分组的方法

* 单变量值分组(把每一个变量值作为一组适合离散变量,且在变量值较少的情况下使用)
* 组距分组(把所有变量划分为若干区间在连续变量或变量较多的情况下通常采用)

原数据

透视表制作

  1. 组数
  • ①确定组数 一般情况下,一组数据所分的组数不应少于5 组且不多于15 组,即5≤K≤15。实际应用时,可根据数据的 多少和特点及分析的要求来确定组数。
  • ②确定各组的组距 组距是一个组的上限与下限的差。组距可根据全部数据的最大值和最小值及所分的组数来确定,即组距=(最 大值-最小值)÷组数。 注意:为便于计算,组距宜取5 或10 的倍数,而且第一组的下限应低于最小变量值,最后一组的上限应高 于最大变量值。
  • ③根据分组整理成频数分布表
  1. 组距
  • 可以根据最大最小值除以组数来决定(第一组的下限应该低于最小变量值,最后一组的上限应该高于最大值)
  1. 等距分组、不等距分组
  • 在组距分组时,如果各组的组距相等,则称为等距分组;如果各组的组距不相等,则称为不等距分组
  1. 组中值
  • 组中值是每一组中下限值与上限值中间的值,即 组中值=(下限值+上限值)/2
  • 在组距分组时,通常用组中值作为该组数据的一个代表值。使用组中值代表一组数据时有一个必要的假定条件,即各组数据在本组内呈均匀分布或在组中值两侧呈对称分布。

  • 当然也可以看这个百度到的gif动图全流程

数值型数据的图示

条形图、饼图、环形图及累积分布图等都适用于显示数值型数据。此外,对数值型数据还有一些图示方法,这些方法并不适用于分类数据和顺序数据。

  • (1)分组数据:直方图

①直方图:展示分组数据分布的一种图形,它是用矩形的宽度和高度(即面积)来表示频数分布的。绘制该图时,用横轴表示各组组限,纵轴表示频数(一般标在左方)或频率(一般标在右方)

②直方图与条形图的区别

图形 频数表示 排列方式 数据类型
条形图 ①条形的长度表示频数,宽度固定②长度有意义,高度没有意义 各矩形分开排列 分类数据
直方图 ①矩形面积表示频数,矩形高度表示频数或组距,宽度表示组限②高度与宽度均有意义 各矩形连续排列 数值型数据
  • (2)未分组数据:茎叶图和箱线图

①茎叶图

a.茎叶图

茎叶图是反映原始数据分布的图形。它由茎和叶两部分构成,其图形是由数字组成的。它主要用于反映原始数据的分布形状及离散状况,比如,分布是否对称,数据是否集中,是否有离群点等。

b.茎叶图的绘制方法

绘制茎叶图的关键是设计好树茎。制作茎叶图时,首先把一个数字分成两部分,通常是以该组数据的高位数值作为树茎,而且叶上只保留该数值的最后一个数字。

c.茎叶图与直方图的区别

茎叶图类似于横置的直方图,与直方图相比,茎叶图既能给出数据的分布状况,又能给出每一个原始数值,即保留了原始数据的信息;而直方图虽然能很好地显示数据的分布,但不能保留原始的数值。在应用方面,直方图通常适用于大批量数据,茎叶图通常适用于小批量数据。

②箱线图

a.箱线图

由一组数据的最大值、最小值、中位数、两个四分位数这五个特征值绘制而成,反映原始数据分布。通过箱线图,不仅可以反映出一组数据分布的特征,还可以进行多组数据分布特征的比较。

b.箱线图的绘制方法

先找出一组数据的最大值、最小值、中位数和两个四分位数(中位数Me 是一组数据排序后处于中间位置上的变量值,四分位数是处在数据25%位置和75%位置上的两个值,分别称为下四分位数QL 和上四分位数QU);然后,连接两个四分位数画出箱子;再将最两个极值点与箱子相连接,中位数在箱子中间。

  • (3)时间序列数据:线图

如果数值型数据是在不同时间上取得的,即时间序列数据,则可以绘制线图。线图主要用于反映现象随时间变化的特征。

注意:绘制线图时,时间一般绘在横轴,观测值绘在纵轴。一般应绘成横轴略大于纵轴的长方形,其长宽比例大致为10:7。图形过扁或过于瘦高,不仅不美观,而且会给人造成视觉上的错觉,不便于对数据变化的理解。 一般情况下,纵轴数据下端应从“0”开始,以便于比较。数据与“0”之间的间距过大,可以采取折断的符号将纵轴折断。

  • (4)多变量数据的图示

①散点图

是指用二维坐标展示两个变量之间关系的一种图形。它是用坐标横轴代表变量x,纵轴代表变量y,每组数据(xi,yi)在坐标系中用一个点表示,n 组数据在坐标系中形成的n 个点称为散点,由坐标及其散点形成的二维数据图称为散点图。

②气泡图

可用于展示三个变量之间的关系。绘制时将一个变量放在横轴,另一个变量放在纵轴,而第三个变量则用气 泡的大小来表示。

③雷达图

是指显示多个变量的常用图示方法,也称为蜘蛛图。雷达图在显示或对比各变量的数值总和时十分有用,假定各变量的取值具有相同的正负号,则总的绝对值与图形所围成的区域成正比。此外,利用雷达图也可以研究多个样本之间的相似程度

未完待续…且待我学会spass再来战斗图示

合理的使用图示

  • 数据类型与主要的图示方法

  • 对比分析的常见图示方法