一本好的参考书不应该只告诉读者技术性或者知识性的东西,还应该把作者的思想和经验与读者交流。刚看了这本书第一章的前面几页就觉得这本书不错,因为作者告诉我们怎样成为一位合格的统计学家,而不是仅仅会用统计学作为工具。第一章的第一句话是这么说的:
Statistics starts with a problem, proceeds with the collection of data, continues with the data analysis and finishes with conclusions。
问题很重要,甚至比解决问题还重要。这好像是爱因斯坦说的。有了问题之后需要思考怎样回答,即提出解决问题的思路。有了思路之后需要收集数据,以及基于这些数据进行统计学分析,最后得到了结论。
不管做什么分析,明白分析的目的是至关重要的,这是做分析首先需要做的事情。当形成了思路,而且很清楚自己想达到怎样的目的之后,有针对性的收集数据。如果数据是自己收集的,自己肯定知道数据的来龙去脉,后续的分析也更有把握。然而大部分情况下,做统计分析的人是不太可能去收集原始数据的,这就要求在做分析前一定要仔细检查数据。这一步看起来很简单,但是却非常重要。如果有可能的话,了解数据是怎样收集而来的。作者举了一个例子说明这一步的重要性。该例子中血压数据的最小值是0,还有其他几个指标的最小值也是0.而根据我们的常识,这些指标是不可能为0的,因此需要思考为什么会这样。在该例子中,这些为0的值是一些缺失值,可能记录这些数据的人把缺失值记成了0,而这对于进行统计学分析是影响很大的。有的值是分类变量,用因子表示更好。如果不进行数据的检查,会形成错误的结论。
下面是一些作者提到的用来对数据做初步检查的函数:
1 summary()
该函数会给出变量的最小值,分位数值和均值。这对于初步了解数据是非常重要的。
2 hist()
该函数会画出直方图,表明数据的分布
3 plot (density (pima$diastolic, na . rm=TRUE) )
density()函数能够估计出变量的概率密度分布,比直方图更准确
4 plot (sort (pima$diastolic), pch=".")
给出数据排序之后的分布,如果是正态分布,这里的曲线应该是直线向上的。
4 把变量中的0值变为缺失值
pima$variable[pima$variable] <-NA
5 定量变量和分类变量的关系图
plot(quantitative,qualititative)会显示出分类变量每个类别下定量变量的分布,即它的最小值,最大值,分位数值等。
6 pairs()
pairs(pima)会显示出pima中各个变量两两间的散点图
7 abline()
abline()函数可以在已有的图上添加直线,可以有下面几种常用的形式:
1)abline(a,b),其中a是intercept,b是slope
2)abline(h=a), 这是指水平线,a是其对应的纵坐标;
3)abline(v=a),这是指垂直线,a是其对应的横坐标;
