众所周知,统计学是数据分析的基石。学了统计学,你会发现很多时候的分析并不那么准确,比如很多人都喜欢用平均数去分析一个事物的结果,但是这往往是粗糙的。而统计学可以帮助我们以更科学的角度看待数据,逐步接近这个数据背后的“真相”。 大部分的数据分析,都会用到统计方面的以下知识,可以重点学习:
概率是指的对于某一个特定事件的可能性的数值度量,且在0-1之间。我们抛一枚硬币,它有正面朝上和反面朝上两种结果,通常用样本空间S表示,S={正面,反面},而正面朝上这一特定的试验结果叫样本点。对于样本空间少的试验,我们极易观察出他们样本空间的大小,而对于较复杂的试验,我们就需要学习些计数法则了。
如果一个试验可以分为循序的k个步骤,在第1步中有N1种试验结果,在第2步中有N2种试验结果...以此类推。那么所有的试验结果的总数为N1*N2*N3...*Nk。
举例:抛两枚硬币,第一枚有正反两种结果,第二枚有正反两种结果。所以试验结果的总数是 2X2=4
其实事件为样本空间的一个子集,通常,如果能确定一个试验的所有样本点并且能够知晓每个样本点的概率,那么我们就能求出事件的概率。
两个圆形区域所在的部分就是事件A和B的并,其中重叠的部分说明有一些样本点即属于A又属于B,它可以称之为交。
P(A∪B) = P(A)+P(B) – P(A∩B)。P(A∪B) 是两个圆形面积,P(A)是蓝色圆面积,P(B)是橙色圆面积,当两者相加时,会多出一块重叠区域,于是减去P(A∩B)进行修正,得出正确的结果。
如果某个事件A发生的可能性受到另外一个事件B的影响,此时A发生的可能性叫做条件概率,记作P(AB)。表明我们是在B条件已经发生的条件下考虑A发生的可能性,统计学中称为给定条件B下事件A的概率。
简单的来讲,贝叶斯定理其实就是,我们先假设一个事件发生的概率,然后又找到一个信息,最后得出在这个信息下这一事件发生的概率。
举一个我们生活中的例子,当我们和一个被怀疑做坏事的人聊天时,我们首先假设他做坏事的概率为a,然后我们根据和他交谈的信息,得出对他新的认识,重新判断他做坏事的概率b.
如果当直接计算P(A)较为困难时,而P(Bj),P(ABj) (j=1,2,...)的计算较为简单时,可以利用全概率公式计算P(A)。
思想就是,将事件A分解成几个小事件,通过求小事件的概率,然后相加从而求得事件A的概率,而将事件A进行分割的时候,不是直接对A进行分割,而是先找到样本空间Ω的一个个划分B1,B2,...Bn,这样事件A就被事件AB1,AB2,...ABn分解成了n部分,即A=AB1+AB2+...+ABn,每一Bj发生都可能导致A发生相应的概率是P(ABj),由加法公式得
概率中通常将试验的结果称为随机变量。随机变量将每一个可能出现的试验结果赋予了一个数值,包含离散型随机变量和连续型随机变量。
既然随机变量可以取不同的值,统计学家就用概率分布描述随机变量取不同值的概率。相对应的,有离散型概率分布和连续型概率分布。
数学期望是对随机变量中心位置的一种度量。是试验中每次可能结果乘以其结果的概率的总和。简单说,它是概率中的平均值。
二项分布是一种离散型的概率分布。故明思义,二项代表它有两种可能的结果,把一种称为成功,另外一种称为失败。
除了结果的规定,它还需要满足其他性质:每次试验成功的概率均是相同的,记录为p;失败的概率也相同,为1-p。每次试验必须相互独立,该试验也叫做伯努利试验,重复n次即二项概率。掷硬币就是一个典型的二项分布。当我们要计算抛硬币n次,恰巧有x次正面朝上的概率,可以使用二项分布的公式:
泊松概率是另外一个常用的离散型随机变量,它主要用于估计某事件在特定时间或空间中发生的次数。比如一天内中奖的个数,一个月内某机器损坏的次数等。
泊松概率的成立条件是在任意两个长度相等的区间中,时间发生的概率是相同的,并且事件是否发生都是相互独立的。
泊松概率既然表示事件在一个区间发生的次数,这里的次数就不会有上限,x取值可以无限大,只是可能性无限接近0,f(x)的最终值很小。
上述分布都是离散概率分布,当随机变量是连续型时,情况就完全不一样了。因为离散概率的本质是求x取某个特定值的概率,而连续随机变量不行,它的取值是可以无限分割的,它取某个值时概率近似于0。连续变量是随机变量在某个区间内取值的概率,此时的概率函数叫做概率密度函数。
正态概率分布是连续型随机变量中最重要的分布。世界上绝大部分的分布都属于正态分布,人的身高体重、考试成绩、降雨量等都近似服从。
正态分布如同一条钟形曲线。中间高,两边低,左右对称。想象身高体重、考试成绩,是否都呈现这一类分布态势:大部分数据集中在某处,小部分往两端倾斜。
u代表均值,σ代表标准差,两者不同的取值将会造成不同形状的正态分布。均值表示正态分布的左右偏移,标准差决定曲线的宽度和平坦,标准差越大曲线越平坦。
正态随机变量有69.3%的值在均值加减一个标准差的范围内,95.4%的值在两个标准差内,99.7%的值在三个标准差内。
均值u=0,标准差σ=1的正态分布叫做标准正态分布。它的随机变量用z表示,将均值和标准差代入正态概率密度函数,得到一个简化的公式:
为了计算概率需要学习一个新的函数叫累计分布函数,它是概率密度函数的积分。用P(X=x)表示随机变量小于或者等于某个数值的概率,F(x) = P(X=x)。
曲线f(x)就是概率密度函数,曲线与X轴相交的阴影面积就是累计分布函数。
计算三种类型的概率(这里需要说明一点,只有标准正态分布时,随机变量才用z表示)
任何一个一般的正态分布都可以通过线性变换转化为标准正态分布。它依据的定理如下:
现在有一个u=10和σ=2的正态随机变量,求x在10与14之间的概率是多少?
a.20分钟内购买肯德基早餐的人数的均值是10人,那么如果求每20分钟有x人购买的概率,就应该用泊松概率函数
其实当我们抽样的时候,我们抽取的每个样本的均值、方差、比率,可能都是不同的,如果我们把抽取一个简单的随机样本看作一次试验,那么(x拔)就有期望、方差、标准差和概率分布了((x拔)的概率分布也就是(x拔)的抽样分布)
1. 如果总体服从正态分布时:任何样本容量下的(x拔)的抽样分布都是正态分布。
a.中心极限定理:从总体中抽取容量为n的简单随机样本,当样本的容量额很大时,样本均值(x拔)的抽样分布近似服从正态概率分布。
b.其实在大多数的应用中,样本容量大于30时,(x拔)的抽样分布近似服 从正态概率分布
在上面的公式之中,x是一个服从二项分布的随机变量,n为常数,所以(p拔)也是离散型的概率分布。其实,如果样本容量足够大,并且np=5和n(1-p)=5,二项分布可用正态分布近似,(p拔)的抽样分布可用正态分布来近似。
这是一道有关顾客购物消费额的问题,根据历史数据,σ=20美元,并且总体服正态分布。现在抽取n=100名顾客的简单随机样本,其样本均值(x拔)=82美元。求总体均值的区间估计
4. 任何正态分布的随机变量都有95%的值在均值附近加减1.96个标准差以内(通过查表可得)
其中这个区间是在95%置信水平下建立的,置信系数为0.05。区间(78.08,85.92)为95%的置信区间。
其实我们也能得出这样的结论:想要达到的置信水平越高,边际误差就要越大,置信区间也是越宽。
有一类相似的概率分布组成的分布族;某个特定的t分布依赖于自由度的参数;自由度越大,t分布与标准正态分布的差别越小;t分布的均值为0;
2. 利用实验性的研究,选取一个初始样本,以初始样本的样本比例作为计划值。
4. 如果上述均不可,计划值取为0.5,这是因为p(星)=0.5时,p星*(1-p星)取得最大值,同时样本容量也能取的最大值。
质检机构检查某品牌咖啡的标签上显示装有3磅咖啡,现在质检机构需要确定每罐咖啡的质量至少有三磅,以保证消费者权益。已知道σ=0.18,现在取得n=36罐咖啡组成一个随机样本,计算出(x拔)=2.92
1. 首先我们明白想要的结果是证明u3,所以就提出了原假设和备选假设如下:H0:u=3;Ha:u3
3. 由于样本n=36,σ=0.18,所本均值的抽样分布是服从正态概率分布
5. 因为原假设u是大于等于3的,所以我们就观察z小于或等于-2.69的值,让p值等于检验统计值z小于或等于-2.69的概率;利用标准正态概率表,z=-2.69时,p值=0.0038
其中我们可以这样理解z小于或者等于-2.69的概率p=0.0038这一事件的发生概率是非常的小,又加上允许犯错的概率是0.01(也即是发生的概率是0.01结果是非常小的,我直接忽略了)。
所以我们直接认为z小于或者等于-2.69这一事件太小以至于我们认为他是不发生的。所以我们拒绝了H0:u=3这一假设。所以,在0.01的显著水平下有足够的统计证据拒绝H0。