統計検定 準1級 例題集 解答/解答例と解説
選択問題及び部分記述問題 問11
問題の要約
-
徳島県のスクリーン数を回帰式で予測
-
徳島県の映画館従業者数 : 48人
-
: 被説明変数を都道府県別スクリーン数
-
: 説明変数を都道府県別映画館従業者数
-
回帰式 :
-
下の推定結果より,徳島県のスクリーン数の予測値を求めよ.
Call: lm(formula = y ~ x) Residuals: Min 1Q Median 3Q Max -54.566 -9.848 -4.421 6.684 82.728 Coefficients: Estimate Std. Error t value Pr(>|t|) (Intercept) 18.465565 3.862580 4.781 2.07e-05 *** x 0.106381 0.004791 22.204 < 2e-16 *** --- Signif. codes: 0‘ *** ’0.001‘ ** ’0.01‘ * ’0.05‘ . ’0.1‘ ’1 Residual standard error: 20.41 on 43 degrees of freedom (2 observations deleted due to missingness) Multiple R-squared: 0.9198, Adjusted R-squared: 0.9179 F-statistic: 493 on 1 and 43 DF, p-value: < 2.2e-16 -
散布図および回帰診断図より,[1] の回帰分析及び徳島県のスクリーン数の予測の問題点を述べよ.
※図は省略
解答
-
答 : ③
-
回帰係数が有意であることや,自由度調整済み決定係数が高いことから,求めた回帰式は有効と判断できそうであるが,これは,観測値13が外れ値となっていることが影響している.
「Residuals vs Fitted」は,予測値に対する残差プロットである.予測値が大きくなるほど残差も大きくなっていることがわかる.
「Normal Q-Q」は,残差の正規確率プロットである.正規確率プロットは,データが正規分布に従っているかどうかを知るために使われる.残差のプロットは直線的になっていないことから,正規性があるとはいえない.
「Scales - Location」は,適合値に対する標準化された残差プロットである.予測値が大きくなるほど残差も大きくなっていることがわかる.
「Residuals vs Leverage」は,Cookの距離である.Cookの距離は,観測値が予測値に与える影響の度合いを表し,主に外れ値を特定する場合に利用される.Cook距離は,全ての観測値を用いて予測した場合と,1つのデータを除いた観測値で求めた予測値との違いを距離として求めたものである.Cookの距離が0.5以上であれば大きいと言われている.観測値13が 0.5 以上であり,外れ値であることがわかる.
以上より,誤差が不均一な分散であることや,正規性のないことが問題であり,その対応として,外れ値の除外や非線形回帰式での予測も考慮していくことが考えられる.