بررسی فرضهای رگرسیون خطی در SPSS | کلید تحلیل صحیح و معتبر مدل
رگرسیون خطی ساده فقط وارد کردن داده و کلیک روی دکمه«Analyze» نیست!
اگر بدون بررسی فرضهای رگرسیون خطی، مدلسازی آماری را انجام دهید، مثل این است که ساختمانی را بدون پیریزی روی زمین سست بنا کنید؛ ظاهراً درست، اما عملاً غیرقابل اعتماد!
بررسی فرضهای رگرسیون خطی یکی از حیاتیترین مراحل در تحلیل آماری با SPSS است که اغلب نادیده گرفته میشود. اما دقیقاً همینجاست که تفاوت بین یک تحلیلگر آماری مبتدی و یک متخصص مشخص میشود.
در این قسمت از آموزش SPSS با هم بررسی میکنیم:
- مهمترین فرضهای رگرسیون (نرمال بودن باقیماندهها، استقلال مشاهدات، خطی بودن رابطه، نبود دادههای پرت و یکسانی واریانس) چیستند؟
- چگونه این فرضها را در محیط SPSS بهدرستی بررسی و تفسیر کنیم؟
- چه ابزارهایی برای تشخیص هر کدام از مشکلات آماری وجود دارد؟
- چطور مطمئن شویم که مدل ما قابل اعتماد و نتایج آن قابل استناد هستند؟
اگر میخواهید تحلیل رگرسیونی دقیق، علمی و قابل اتکا انجام دهید، بررسی این فرضها قدمی غیرقابل چشمپوشی است. این قسمت، راهنمای کامل شما برای رسیدن به تحلیلهای حرفهایتر است.
فرضهای رگرسیون خطی ساده
مهمترین فرضهای رگرسیون خطی ساده به شرح زیر هستند:
1. نرمال بودن باقیماندهها
2. مستقل و تصادفی بودن باقیماندهها
3. باقیماندهها واریانس ثابتی را در سطوح پیشبینیکننده نشان دهند ( به این مورد واریانس همسان گفته میشود. وقتی باقیماندهها واریانس ثابتی را نشان نمیدهند، به آن واریانس ناهمسان میگویند).
4. وجود رابطه خطی بین متغیر پیشبینیکننده و متغیر پیامد.
5. موارد پرت یا موارد بسیار تأثیرگذار در دادهها وجود نداشته باشد.
در ادامه با بررسی مثال موارد فوق را بطور کامل با هم بررسی خواهیم کرد.
مثال:
میخواهیم با استفاده از نمرات استرس، نمرات پیشرفت تحصیلی دانشآموزان را پیشبینی کنیم. به این منظور از رگرسیون خطی ساده استفاده میکنیم. ابتدا از مسیر Analyze>Regression>Linear پنجره رگرسیون را باز میکنیم. متغیر پیشبین را به «Independent» و متغیر پاسخ را به «Dependent» انتقال میدهیم.

رسم نمودار پراکنش
برای بررسی فرضهای رگرسیون خطی روی «Plots» کلیک میکنیم. در این قسمت میتوانیم نمودارهای پراکنش رسم کنیم و با استفاده از روشهای بصری تعدادی از فرضهای رگرسیون را بررسی کنیم. در اینجا، من یک نمودار باقیمانده «Residual» را با باقیماندههای استیودنت شده «SRESID » (محور Y) در برابر مقادیر پیشبینیشده استاندارد «ZPRED» (محور X) رسم میکنم. نمودار باقیماندهها میتواند برای (الف) تشخیص غیرخطی بودن بین رابطه بین متغیرها، (ب) تشخیص خطاهای ناهمسانی واریانس (ج) شناسایی دادههای پرت احتمالی و (د) نرمالیتی باقیماندهها مفید باشد. فعال کردن تیک نمودار هیستوگرام «Histogram» و احتمال نرمال «Normal probability plot» در پائین صفحه راههایی را برای ارزیابی میزان انحراف خطاهای باقیمانده از نرمال بودن (یعنی نقض فرض نرمال بودن) فراهم میکند.

ذخیره باقیماندهها
با کلیک کردن روی گزینه save، میتوانیم مقادیر و باقیماندههای پیشبینیشده استاندارد «Standardized» یا غیراستاندارد «Unstandardized»، و همچنین باقیماندههای استیودنت شده «Studentized» را برای مجموعه دادهها درخواست کنیم (شکل زیر). این مقادیر را میتوان برای اهداف تشخیصی بیشتر (یعنی بررسی انحرافات از فرضیات مدل) استفاده کرد.

باقیماندههای استاندارد نشده «Unstandardized Residual» از تفاوت بین مقادیر مشاهده شده و مقادیر پیشبینی شده در مدل بدست میآیند. مقادیر پیشبینی شده غیر استاندارد «Unstandardized Predicted Values» نیز از جایگذاری مقادیر متغیر مستقل در مدل حاصل میشوند (شکل زیر).

باقیماندههای استاندارد شده «Standardized Residual»، از تقسیم باقیماندههای استاندارد نشده بر انحراف معیار باقیماندهها بدست میآیند.
باقیماندههای استیودنت شده «Studentized Residual» مشابه با باقیماندهای استاندارد شده هستند. با این تفاوت که انحراف معیار در مخرج بر مبنای یک اهرم تعدیل میشود. این موضوع باعث میشود که برای تشخیص دادههای پرت این شاخص بهتر از باقیماندههای استاندارد عمل کند.

از فواصل کوک «Cook’s Distances»، «Standardized DfBeta(s) » و «Standardized DfFit» میتوانیم برای شناسایی مواردی که ممکن است تأثیر نامناسبی بر برازش کلی مدل داشته باشند، استفاده کنیم.
بررسی نتایج رگرسیون خطی ساده
هدف از این مقاله بررسی فرضهای رگرسیون است. بنابراین تمرکز ما روی فرضیات رگرسیون است. چنانچه میخواهید نحوه انجام و تفسیر رگرسیون خطی ساده را بطور دقیق و ساده یاد بگیرید میتوانید از این لینک استفاده کنید.
در ادامه ابتدا بطور مختصر نتایج رگرسیون را بررسی میکنیم. سپس فرضیات را بررسی میکنیم.
جدول اول خروجی نرم افزار SPSSدر خصوص رگرسیون، شامل خلاصه مدل است. در این جدول ضریب تعیین مدل R-square نشان میدهد که متغیر مستقل (اضطراب) تقریباً 16 درصد از تغییرات در پیشرفت تحصیلی را توضیح میدهد (شکل زیر).

شیب رگرسیون غیراستاندارد (b=-1) نشان میدهد که به ازای هر ۱ واحد افزایش در اضطراب، ۱ واحد کاهش در پیشرفت تحصیلی پیشبینی میشود (شکل زیر). میبینیم که این شیب از نظر آماری معنادار است (P<0.001).
شیب رگرسیون استاندارد شده (β=-0.4) معادل همبستگی پیرسون هنگام اجرای یک تحلیل رگرسیون ساده است. در اینجا به شرح زیر تفسیر میشود: به ازای هر ۱ واحد افزایش نمره استاندارد در اضطراب، کاهش پیشبینیشده 0.4 واحد نمره استاندارد در پیشرفت تحصیلی است.

بررسی فرضیات رگرسیون خطی ساده
جدول زیر نیز حداقل، حداکثر، میانگین و انحراف معیار مقادیر را برای شاخصهای مختلف ارائه میدهد.

بررسی نرمال بودن توزیع باقیماندهها
یکی از مفروضات رگرسیون خطی، نرمال بودن توزیع باقیماندهها است. به این منظور نمودار هیستوگرام باقیماندههای استاندارد رسم شده است (شکل زیر). توزیع باقیماندههای استاندارد شده به نظر مطابقت مناسبی با توزیع نرمال دارد.

دارلینگتون و هیز (۲۰۱۷) اظهار میکنند که «نرمال بودن توزیع باقیماندهها یکی از کم اهمیتترین فرضیات رگرسیون است. چنانچه شواهد روشنی از غیرنرمال بودن شدید در باقیماندهها ببینید. همچنین خطاهای زیاد و موارد بسیار تأثیرگذار زیادی را مشاهده کنید، میتوانید نگران نقض این فرض باشید.
بررسی نرمالیتی توزیع باقیماندهها با استفاده از نمودار P-P plot
نمودار PP-plot میتواند برای ارزیابی نرمال بودن باقیماندهها استفاده شود (شکل زیر). هرچه باقیماندههای مشاهدهشده به خط رگرسیون نزدیکتر باشند، شواهد قویتری از نرمال بودن دادهها فراهم میشود. این نمودار به خوبی نشان میدهد که توزیع باقیماندهها به توزیع نرمال بسیار نزدیک است.

نمودار پراکنش باقیماندههای استیودنت در برابر مقادیر پیشبینی استاندارد
در این نمودار پراکنش باقیماندههای استیودنت در برابر مقادیر پیشبینیشده استاندارد پلات شدهاند (شکل زیر). این نمودار در شناسایی غیرخطی بودن رابطه بین X و Y، شناسایی دادههای پرت بالقوه و/یا موارد تأثیرگذار، و شناسایی ناهمسانی واریانس باقیماندهها مفید است. در ادامه تمام این موارد بررسی میشود.

چگونه متوجه شویم که آیا باقیماندهها، واریانس همسان (یعنی واریانس ثابت) دارند یا خیر؟ در ادامه نمونهای از نمودار باقیماندههای ایدهآل وجود دارد که در آن شواهدی از واریانس همسان وجود دارد. در این حالت، باقیماندهها به صورت تصادفی و یکنواخت در سراسر مقادیر Y برازش شده (که روی محور X ظاهر میشوند) توزیع شدهاند.

چنانچه واریانس باقیماندهها در طول خط رگرسیون ثابت نباشد میتواند یکی از الگوهای زیر پدید آید.

بر اساس دادههای ما نمودار پراکنش باقیماندهها به طور منطقی با نمودار ایدهآل (چپ) سازگار به نظر میرسد و نشان میدهد که فرض همسانی واریانسها رعایت شده است.

باقیماندهها شامل تغییرات باقیمانده در متغیر وابسته پس از در نظر گرفتن متغیر مستقل هستند. در این مثال ما یک رابطه خطی بین اضطراب (X) و موفقیت (Y) مدلسازی کردهایم. اگر رابطه بین دو متغیر ما غیرخطی باشد، در نمودار به شکل انحنای باقیماندهها نشان داده میشود. در پایین سمت چپ، نمودار ایدهآل اولیه خود را از مقادیر استاندارد Y برازش شده و باقیماندههای استیودنت داریم که در آن باقیماندهها به طور تصادفی و یکنواخت در اطراف0 توزیع شدهاند و هیچ انحنایی در باقیماندهها وجود ندارد. دو نمودار دیگر، انحنای باقیماندهها را به دلیل غیرخطی بودن مدلسازی نشده بین X و Y نشان میدهند.

یک قاعدهی سرانگشتی برای شناسایی دادههای پرت احتمالی، باقیماندهی استاندارد شده یا استیودنت شدهی بزرگتر از ۳ در مقدار مطلق است (پیتوچ و استیونز، ۲۰۱۶) (شکل زیر).

نمودار پراکنش باقیماندههای استیودنت در برابر مقادیر پیش بینی استاندارد برای دادهها ما نشان میدهد که هیچیک از باقیماندهها از عدد 3 بیشتر نبودند. بنابراین هیچ داده پرتی مشاهده نشد.

تشخیص دادههای پرت بالقوه
به منظور بررسی دادههای پرت بالقوه از مسیر Analyze>Descriptive Statistics>Explore اقدام میکنیم. در پنجره باز شده باقیماندههای استاندارد و استیودنت شده را به قسمت «Dependent List» انتقال میدهیم و از بخش «Statistics» گزینه «Outliers» را فعال میکنیم. از بخش «Plots» تیک قسمت «Histogram» و «Normality Plots with Tests» را فعال میکنیم (شکل زیر).



بررسی توزیع باقیماندهها در خروجی نرم افزار
هنگام قضاوت در مورد نرمال بودن، میتوانید برای توزیع باقیماندهها به چولگی و کشیدگی مراجعه کنید. اگر مقادیر چولگی و/یا کشیدگی خارج از محدوده 2- تا 2+ قرار گیرند، میتوانید انحراف قابل توجه نسبت به نرمال بودن را نتیجه بگیرید (Vaughn, 2012). در کار ما این مقادیر بین دو حد تعیین شده هستند. پس نرمال بودن باقیماندهها از نظر کمیتهای چولگی و کشیدگی تأیید میشود (شکل زیر).

تشخیص دادههای پرت بالقوه
میتوان از باقیماندههای استاندارد یا استیودنت شده برای شناسایی دادههای پرت بالقوه استفاده کرد. برخی از محققان یکی از این دو رویکرد را به رویکرد دیگر برای تشخیص دادههای پرت ترجیح میدهند. مقادیر مطلق بزرگتر از 3 (به صورت قدر مطلق) ممکن است نشاندهنده وجود یک داده پرت بالقوه در رابطه با متغیر وابسته (Y) باشد. جدول زیر مقادیر حدی برای باقیماندهها را نشان میدهد. این مقادیر هیچیک بزرگتر از معیار 3 نیستند. بنابراین داده پرت بالقوه در دادههای ما وجود ندارد.

آزمونهای نرمالیتی باقیماندهها
نتایج آزمونهای نرمال بودن توزیع باقیماندهها در جدول زیر آورده شده است. معناداری آماری (P<0.05) به عنوان شاخصی در نظر گرفته میشود که نشان میدهد توزیع باقیماندهها به طور معنیداری از نرمال بودن فاصله دارد.
نکته مهم: آزمون شاپیرو-ویلک زمانی که با n مجموعه داده کوچکتر کار میکنید، قدرتمندتر است. هنگام ارزیابی نرمال بودن، نباید صرفاً به نتایج آزمونهای آماری تکیه کرد. زیرا اندازه نمونه در قدرت این آزمونها مؤثر است. توصیه میشود هنگام تصمیمگیری در مورد اینکه آیا باقیماندههای شما به طور معنیداری از نرمال بودن فاصله دارند یا خیر، نتایج این آزمونها را به همراه سایر اطلاعات (مانند آمار چولگی و کشیدگی، هیستوگرام، وجود دادههای پرت) در نظر بگیرید.

بررسی نرمال بودن باقیماندهها بصورت بصری
در ادامه خروجی نرم افزار میتوانیم بصورت بصری با استفاده از نمودار هیستوگرام و Q-Q plot بررسی کنیم که آیا در باقیماندههای توزیع نرمال وجود دارد یا خیر؟ مطابق شکل زیر هیستوگرام زنگولهای شکل است و در نمودار Q-Q plot نیز نقاط نزدیک خط رگرسیونی هستند. بنابراین از این نظر نیز مشکلی در دادهها وجود ندارد.

تشخیص دادههای تأثیر گذار بالقوه
برای تشخیص دادههای تأثیرگذار بالقوه مجدداً از گزینه Explore استفاده میکنیم. اما این بار دادههای مربوط به Cook، DFBETAهای استاندارد شده و DFFITهای استاندارد شده را استفاده میکنیم (شکل زیر).

تشخیص دادههای منفرد تأثیرگذار از طریق Cook’s Distance
بهطورکلی اگر چند داده منفرد تأثیر نامتناسبی بر رگرسیون داشته باشند، نتایج رگرسیون معتبر نیست. فواصل کوک، راه حلی برای بررسی سهم موارد منفرد در برازش کلی مدل رگرسیون فراهم میکند. کمترین مقدار ممکن برای d کوک، صفر است. مواردی با مقادیر بالاتر، مواردی هستند که تأثیر بیشتری بر مدل نسبت به مواردی با مقادیر پایینتر دارند. یک قاعده کلی، مواردی را که مقدار d کوک آنها برابر یا بزرگتر از ۱ است، به عنوان مواردی در نظر میگیرد که تأثیر بیش از حدی بر مدل رگرسیون دارند (Lomax & Hahs -Vaughn, 2012; Pituch & Stevens, 2016). در این مثال هیچ یک از موارد ما مقدار d کوک نزدیک به 1 ندارند (شکل زیر).

تشخیص دادههای منفرد تأثیرگذار از طریق DFFIT
DFFIT استاندارد رویکرد دیگری برای شناسایی مواردی است که ممکن است تأثیر بیشتری بر یک مدل داشته باشند. به طور خاص، این رویکرد میزان تأثیر یک مورد بر مقادیر برازش شده روی Y را نشان میدهد ( پیتوچ و استیونز، ۲۰۱۶). مقادیر استاندارد DFFIT بزرگتر از 1 یا ۲ ممکن است نشاندهنده یک مورد بالقوه مشکلساز باشد (داس و گوگوی ، ۲۰۱۵). هیچ یک از منفیترین یا مثبتترین مقادیر در دادههای ما از ۱ یا ۲ بیشتر نیستند (شکل زیر).

تشخیص دادههای منفرد مؤثر از طریق DFBATAS
DFBETASهای استاندارد برای شناسایی مواردی که ممکن است به طور خاص در رابطه با تخمین پارامترهای خاص تأثیرگذار باشند، مفید هستند. در سمت چپ شکل زیر DFBETASهای استاندارد برای عرض از مبدا قرار دارند. در سمت راست DFBETASهای استاندارد برای شیب رگرسیون برای اضطراب قرار دارند. مقادیر موجود در این جداول نشان دهنده تغییر پیشبینی شده در تخمین پارامترهای فردی هنگام حذف یک مورد است. مواردی با مقادیر بزرگتر از 2 (در مقدار مطلق) به عنوان کاندیداهایی برای داشتن تأثیر بالا بر یک پارامتر معین شناسایی میشوند (لوماکس و هاس – وان، 2012).
در این جداول، میبینیم که بالاترین DFBETAهای استاندارد شده، آستانه 2 را برای شناسایی موارد تأثیرگذار برآورده نمیکنند (شکل زیر).

انجام آزمون برای تشخیص ناهمسانی واریانس
در ابتدای این مقاله از نمودار باقیماندهها برای بررسی بصری شواهدی از نقض فرض همسانی واریانسها استفاده کردیم. اما ما میتوانیم یک آزمون برای همسانی واریانسها در SPSS انجام دهیم تا ببینیم آیا واریانس باقیماندهها در طول خط رگرسیون مشابه است یا خیر؟ برای انجام این کار، باید مدل خود را از طریق مسیر Analyze>General Linear Model>Univariate در SPSS اجرا کنیم.

متغیر مستقل در مدل ما به عنوان یک متغیر کمکی مشخص شده و متغیر وابسته در کادر متغیر وابسته وارد میشود. در قسمت گزینهها، میتوانیم آزمون F و همچنین آزمون براش-پاگان را انتخاب کنیم. در اینجا، من آزمون اصلاحشده براش-پاگان (BP) و آزمون F را انتخاب کردهام. آزمون اصلاحشده BP در برابر غیرنرمال بودن باقیماندهها مقاومتر است (lyon & Tsai, 1996).

در زیر تب Model برای هر آزمون، گزینه Use Univariate Model را انتخاب میکنیم (شکل بالا).
مطابق نتایج هر دو آزمون براش-پاگان و F دارای P>0.05 هستند. بنابراین فرض همسانی واریانسها تأیید میشود (شکل زیر).

نمودار پراکندگی برای بررسی خطی بودن رابطه
در ابتدای مقاله خطی بودن رابطه را از طریق نمودار پراکنش باقیماندهها بررسی کردیم. اما میتوانیم خطی بودن رابطه را از طریق نمودار پراکندگی نیز بررسی کنیم. به این منظور از مسیر Graphs>Legacy Dialogs>Scatter/Dots اقدام میکنیم. در پنجره باز شده «Simple Scatter» را انتخاب میکنیم.

در پنجره باز شده متغیر وابسته «achievement» را به محور Y و متغیر «anxiety» را به محور X انتقال میدهیم و «OK» میکنیم (شکل زیر).

در خروجی نرم افزار، با دوبار کلیک کردن روی نمودار پراکندگی و سپس کلیک روی «Add Fit Line at Total»، یک خط رگرسیون ظاهر میشود. به طور پیشفرض، خط برازش خطی (Linear) است.

میتوانیم Quadratic (و سپس دکمهی Apply) را انتخاب کنیم تا یک خط برازش بر اساس یک معادلهی درجه دوم را رسم کنیم.

توجه داشته باشید که خط انحنای بسیار کمی دارد. علاوه بر این، ضریب تعیین (R-square) برای روند درجه دوم تنها 0.001 بیشتر از روند خطی است.
میتوانیم Cubic (و سپس دکمهی Apply) را انتخاب کنیم تا یک خط برازش بر اساس یک معادلهی درجه سوم داشته باشیم (شکل زیر).

ممکن است در اینجا بخواهید که یک رابطه درجه سوم را فرض کنید. با این حال، خط برازش درجه سوم تا حد زیادی با گنجاندن یک نقطه داده تأثیرگذار به سمت معادله درجه سوم هدایت میشود (به نقطه تأثیر گذار انتهای سمت راست نمودار دقت کنید). علاوه بر این، R-square درجه سوم با 0.169 هنوز خیلی بیشتر از R-square خطی با 0.16 و R-square درجه دوم با 0.161 تفاوت نیست. بنابراین سادهترین توصیف رابطه بین دو متغیر حالت خطی است.
اگر رابطهمون غیرخطی بود چکار کنیم؟
اگر یک مدل غیرخطی (مثلاً درجه دوم یا درجه سوم) برازش بهتری با دادهها نسبت به مدل خطی نشان میداد، میتوانیم به سادگی با استفاده از خروجی رگرسیون چندجملهای که با استفاده از روش تخمین منحنی تولید کردیم، رابطه بین متغیر مستقل و وابسته را گزارش کنیم. به عنوان یک روش جایگزین، میتوانیم با ایجاد نسخههای مربع و مکعب متغیر مستقل (یعنی اضطراب به توان دو و اضطراب به توان سه) و وارد کردن آنها در مراحل مختلف در مجموعهای از رگرسیونهای سلسله مراتبی، همان خروجی را تولید کنیم و نتایج یکسان خواهد بود.
تحلیل رگرسیون با استفاده از خطاهای استاندارد سازگار با ناهمسانی واریانس
همانطور که قبلاً اشاره شد، رگرسیون معمولی، واریانس باقیماندهها را ثابت فرض میکند. در مواردی که این فرض نقض شود، خطاهای استاندارد «مغرضانه و ناسازگار» هستند (هیز و کای، ۲۰۰۷). این میتواند احتمال ارتکاب نوع ۱ یا نوع ۲ (خطای تصمیمگیری) را هنگام استنباط در مورد پارامترهای رگرسیون جمعیت افزایش دهد. هیز و کای (۲۰۰۷) استفاده از خطاهای استاندارد سازگار با واریانس ناهمسانی (HE-SE) را هنگام استنباط در جایی که واریانس ناهمسانی وجود دارد، پیشنهاد کردند.
SPSS گزینهای برای HE-SE از طریق مسیر رگرسیون معمول ندارد. با این حال، میتوان نتایج این رگرسیون را از طریق یک مسیر جایگزین در SPSS به دست آورد. به این منظور از مسیر Analyze>General Linear Model>Univariate اقدام میکنیم. در پنجره باز شده متغیر «achievement» را به «Dependent Variable» و «anxiety» را به «Covariate(s)» انتقال میدهیم (شکل زیر).

به قسمت «Options» میرویم و تیک گزینههای نشان داده شده در شکل زیر را فعال میکنیم. هیز و کای (۲۰۰۷) استفاده از تخمینگر HC3 یا HC4 را توصیه کردند. در اینجا، من HC3 را انتخاب کردهام. برای اینکه جدول رگرسیون را نیز داشته باشیم، قسمت «Parameter estimates» را نیز فعال میکنیم (شکل زیر).

در این حالت خروجی نرم افزار مشابه با خروجی رگرسیون خطی معمولی است. با این تفاوت که شیب و عرض از مبدآ رگرسیون با استفاده از خطاهای استاندارد مقاوم آزمون شدهاند.
نتایج با استفاده از دو روش معمولی و خطاهای استاندارد مقاوم، در ادامه آورده شده است. ضرایب رگرسیون برای هر دو روش مشابه است. تنها تفاوتی که در نتایج وجود دارد این است که در رگرسیون مقاوم، خطاهای استاندارد مقاوم تولید شدهاند و آزمون تی و حدود اطمینان 95 درصد با استفاده از خطاهای استاندارد مقاوم انجام شدهاند.


نظرات :