数据分析知识点.doc
一.K.Pearson 收集了大量父亲身高与儿子身高的资料。其中十对如下:求 Y 关于 X 的线性回归方程。 1 21ˆˆ()(ˆ .(), )解 : 的 最 乘 估 计 为, 小 二 : @ni i xyiniiayxbxyySb 267.0,6.8,479,482.4,17.,79.经 计 算 得 : iii x xyi yxySS, ˆˆ35.9768,0.46abb故 的 最 小 二 乘 估 计 :ˆ356.6701.4(8)y x回 归 方 程 :或 写 成 :误差方差的估计例 1 中误差方差的估计父亲身高x(吋)60 62 64 65 66 67 68 70 72 74儿子身高y(吋)63.6 65.2 66 65.5 66.9 67.1 67.4 68.3 70.1 70267.01,491.3,38.529.i yiyyS计 算 得 : ˆ7.2,0.46.xySb又 已 知 2 2ˆ1.49,ˆ(2)0.186.eyxy eQSbQn所 以 , 的 无 偏 估 计误差方差估计的意义: 误差方差的大小对模型的好坏有很大的影响。自变量对因变量影响的大小是同误差对因变量的影响相比较的。(c)如果自变量对因变量的影响不能显著的超过误差对因变量的影响,就很难从这样的模型中提炼出有效的、有足够精度的信息。显著性检验检验例 1 中回归效果是否显著,取 α=0.05。采用最小二乘法估计参数 a 和 b,并不需要事先知道 Y 与 X 之间一定具有相关关系,即使是平面图上一堆完全杂乱无章的散点,也可以用公式求出回归方程。因此 μ(x)是否为 x 的线性函数,一要根据专业知识和实践来判断,二要根据实际观察得到的数据用假设检验方法来判断。 01:0,:0,HbHb即 要 检 验 假 设若原假设被拒绝,说明回归效果是显著的,否则,若接受原假设,说明 Y 与 X 不是线性关系,回归方程无意义。 2ˆ ˆ0.4617.60.186.xbS由 前 面 的 结 果 知 :, ,20.2583tnt查 表 得 :0:ˆ2.306.xHbtS因 此 假 设 的 检 验 拒 绝 域 为 :0.4617.4.12.306.8:tHb计 算 得 ,故 拒 绝 , 认 为 回 归 效 果 是 显 著 的 。2. 合金钢的强度 y 与钢材中碳的含量 x 有密切关系。为了冶炼出符合要求强度的钢常常通过控制钢水中的碳含量来达到目的,为此需要了解 y 与 x 之间的关系。其中 x:碳含量(%) y:钢的强度(kg/mm2)数据见下:x 0.03 0.04 0.05 0.07 0.09 0.10 0.12 0.15 0.17 0.20y 40.5 39.5 41.0 41.5 43.0 42.0 45.0 47.5 53.0 56.0(1 )画出散点图;(2)设 μ(x)=a+bx,求 a,b 的估计;(3)求误差方差的估计,画出残差图;(4)检验回归系数 b 是否为零(取 α=0.05) ;(5)求回归系数 b 的 95%置信区间;(6 )求在 x=0.06 点,回归函数的点估计和 95%置信区间;(7)求在 x=0.06 点,Y 的点预测和 95%区间预测。 (1 )合金钢的强度 y 与钢材中碳的含量 x 的散点图249,1.0,0.138,8.5,976,2.75.(2)计 算 得 :i i ii i ii x xyiyxSS1 2ˆˆ()(), .的 最 小 二 乘 估 计, 为 : @ni i xyi iiayxbySbxb ˆˆ, 35.406,92.641得 的 最 小 二 乘 估 计 : ababˆ35.406921.9.().y x回 归 方 程 :或 写 成 :24, 043,28.9i i yi iyyS(3)计 算 得 : ˆ.75,9.61.xySb又 已 知 @2 2ˆ.48,(2)3.46.所 以 , 的 无 偏 估 计eyxy eQbQn合金钢的强度 y 与钢材中碳的含量 x 的回归直线图01 2(4):,:0ˆxHbHbtStn检 验 假 设 的 显 著 性 水 平为 的 检 验 拒 绝 域 : 。0.2592.6410.29768.2178.306,3t t经 计 算拒 绝 原 假 设 , 认 为 合 金 钢 强 度 与 炭 含 量 的 回 归 效 果 显 著 。 2 95ˆˆ 67.829,17.493xbbtnS (5)回 归 系 数 的 置 信 水 平 % 的 置 信 区 间 : .0 00ˆˆ6.6 .01xyabx( ) 当 时 ,三.某公司在各地区销售一种特殊的化妆品。该公司观测了 15 个城市在某季度内对该化妆品的销售量 Y 及各地区适合使用该化妆品的人数 x1 和人均收入 x2,得到数据如下表所示。假设误差服从正态分布 ,试建立 x1 和 x2,与 y 之间的线性回归方程并研究相应20,N的统计推断问题。地区 销售(箱) 人口(千人) 人均收入(元)i yi xi1 Xi21 162 274 24502 120 180 32543 223 375 38024 131 205 28385 67 86 23476 169 265 37827 81 98 30088 192 330 24509 116 195 213710 55 53 256011 252 430 402012 232 372 442713 144 236 266014 103 157 208815 212 370 2605我们可根据 SAS 运算结果得到下表:方差来源 自由度 平方和(SS) 均方(MS ) F 值 P 值回归(R) 2 53844.71643 26922.35822 5679.466 0.0001误差(E) 12 56.88357 4.74030总和(T) 14 53901.60000由上表我们可以得到 的估计值@24.70,269.358MSESR检验假设: 01212: :,HH至 少 有 一 个 非 零的统计量 的 检验的 p 值为SRFME05679.4,F00.1HP(在 SAS 系统中,若检验 p 值小于或等于 0.0001,则均输出为 0.0001 )。这表明 y 与x1,x2 的线性回归关系是高度显著的。参数估计的有关结果参数 参数估计 标准差 t 值 p 值B0 3.452613 2.43065049 1.420 0.1809B1 0.496005 0.00605444 81.924 0.0001B2 0.009199 0.00096811 9.502 0.0001可以看到,化妆品销售量与适合于使用该化妆品的人数及人均收入之间有显著的线性关系,且 x1 和 x2 均是很重要的自变量,并且回归方程为@123.45260.4960.9YXX一般的检验步骤1.拟合全模型得残差平方和 SSE(F);2.在 H0 下,拟合相应的约简模型得残差平方和 SSE(R);3.分别计算 SSE(F)和 SSE(R)的自由度;4.计算检验统计量的观测值及检验 P 值,并与给定的显著水平做比较。