۰۹۳۸۴۲۲۶۷۳۸

بررسی فرض‌های رگرسیون خطی در SPSS | کلید تحلیل صحیح و معتبر مدل

رگرسیون خطی ساده فقط وارد کردن داده و کلیک روی دکمه«Analyze» نیست!

اگر بدون بررسی فرض‌های رگرسیون خطی، مدل‌سازی آماری را انجام دهید، مثل این است که ساختمانی را بدون پی‌ریزی روی زمین سست بنا کنید؛ ظاهراً درست، اما عملاً غیرقابل اعتماد!

بررسی فرض‌های رگرسیون خطی یکی از حیاتی‌ترین مراحل در تحلیل آماری با SPSS است که اغلب نادیده گرفته می‌شود. اما دقیقاً همین‌جاست که تفاوت بین یک تحلیل‌گر آماری مبتدی و یک متخصص مشخص می‌شود.

در این قسمت از آموزش SPSS با هم بررسی می‌کنیم:

  • مهم‌ترین فرض‌های رگرسیون (نرمال بودن باقی‌مانده‌ها، استقلال مشاهدات، خطی بودن رابطه، نبود داده‌های پرت و یکسانی‌ واریانس‌) چیستند؟
  • چگونه این فرض‌ها را در محیط SPSS به‌درستی بررسی و تفسیر کنیم؟
  • چه ابزارهایی برای تشخیص هر کدام از مشکلات آماری وجود دارد؟
  • چطور مطمئن شویم که مدل ما قابل اعتماد و نتایج آن قابل استناد هستند؟

اگر می‌خواهید تحلیل رگرسیونی دقیق، علمی و قابل اتکا انجام دهید، بررسی این فرض‌ها قدمی غیرقابل چشم‌پوشی است. این قسمت، راهنمای کامل شما برای رسیدن به تحلیل‌های حرفه‌ای‌تر است.

فرض‌های رگرسیون خطی ساده

مهمترین فرض‌های رگرسیون خطی ساده به شرح زیر هستند:

1. نرمال بودن باقیمانده‌ها

2. مستقل و تصادفی بودن باقیمانده‌ها

3. باقیمانده‌ها واریانس ثابتی را در سطوح پیش‌بینی‌کننده نشان دهند ( به این مورد واریانس همسان گفته می‌شود. وقتی باقیمانده‌ها واریانس ثابتی را نشان نمی‌دهند، به آن واریانس ناهمسان می‌گویند).

4. وجود رابطه خطی بین متغیر پیش‌بینی‌کننده و متغیر پیامد.

5. موارد پرت یا موارد بسیار تأثیرگذار در داده‌ها وجود نداشته باشد.

در ادامه با بررسی مثال موارد فوق را بطور کامل با هم بررسی خواهیم کرد.

مثال:

می‌خواهیم با استفاده از نمرات استرس، نمرات پیشرفت تحصیلی دانش‌آموزان را پیش‌بینی کنیم. به این منظور از رگرسیون خطی ساده استفاده می‌کنیم. ابتدا از مسیر Analyze>Regression>Linear پنجره رگرسیون را باز می‌کنیم. متغیر پیش‌بین را به «Independent» و متغیر پاسخ را به «Dependent» انتقال می‌دهیم.

مسیر انجام رگرسیون خطی ساده

رسم نمودار پراکنش

برای بررسی فرض‌های رگرسیون خطی روی «Plots» کلیک می‌کنیم. در این قسمت می‌توانیم نمودارهای پراکنش رسم کنیم و با استفاده از روش‌های بصری تعدادی از فرض‌های رگرسیون را بررسی کنیم. در اینجا، من یک نمودار باقیمانده‌ «Residual» را با باقیمانده‌های استیودنت شده «SRESID » (محور Y) در برابر مقادیر پیش‌بینی‌شده استاندارد «ZPRED» (محور X) رسم می‌کنم. نمودار باقیمانده‌ها می‌تواند برای (الف) تشخیص غیرخطی بودن بین رابطه بین متغیرها، (ب) تشخیص خطاهای ناهمسانی واریانس (ج) شناسایی داده‌های پرت احتمالی و (د) نرمالیتی باقیمانده‌ها مفید باشد. فعال کردن تیک نمودار هیستوگرام «Histogram» و احتمال نرمال «Normal probability plot» در پائین صفحه راه‌هایی را برای ارزیابی میزان انحراف خطاهای باقیمانده از نرمال بودن (یعنی نقض فرض نرمال بودن) فراهم می‌کند.

رسم نمودار پراکنش باقیما‌نده‌ها

ذخیره باقیمانده‌ها

با کلیک کردن روی گزینه save، می‌توانیم مقادیر و باقیمانده‌های پیش‌بینی‌شده استاندارد «Standardized» یا غیراستاندارد «Unstandardized»، و همچنین باقیمانده‌های استیودنت شده «Studentized» را برای مجموعه داده‌ها درخواست کنیم (شکل زیر). این مقادیر را می‌توان برای اهداف تشخیصی بیشتر (یعنی بررسی انحرافات از فرضیات مدل) استفاده کرد.

ذخیره مقادیر انواع باقیمانده‌ها

باقیمانده‌های استاندارد نشده «Unstandardized Residual» از تفاوت بین مقادیر مشاهده شده و مقادیر پیش‌بینی شده در مدل بدست می‌آیند. مقادیر پیش‌بینی شده غیر استاندارد «Unstandardized Predicted Values» نیز از جایگذاری مقادیر متغیر مستقل در مدل حاصل می‌شوند (شکل زیر).

باقیماند‌ه‌ها و مقادیر پیش‌بینی غیر استاندارد

باقیمانده‌های استاندارد شده «Standardized Residual»، از تقسیم باقیمانده‌های استاندارد نشده بر انحراف معیار باقیمانده‌‌ها بدست می‌آیند.

باقیمانده‌های استیودنت شده «Studentized Residual» مشابه با باقیماند‌های استاندارد شده هستند. با این تفاوت که انحراف معیار در مخرج بر مبنای یک اهرم تعدیل می‌شود. این موضوع باعث می‌شود که برای تشخیص داده‌های پرت این شاخص بهتر از باقیمانده‌های استاندارد عمل کند.

باقیماند‌ه‌های استاندارد و استیودنت شده

از فواصل کوک «Cook’s Distances»، «Standardized DfBeta(s) » و «Standardized DfFit» می‌توانیم برای شناسایی مواردی که ممکن است تأثیر نامناسبی بر برازش کلی مدل داشته باشند، استفاده کنیم.

بررسی نتایج رگرسیون خطی ساده

هدف از این مقاله بررسی فرض‌های رگرسیون است. بنابراین تمرکز ما روی فرضیات رگرسیون است. چنانچه می‌خواهید نحوه انجام و تفسیر رگرسیون خطی ساده را بطور دقیق و ساده یاد بگیرید می‌توانید از این لینک استفاده کنید.

در ادامه ابتدا بطور مختصر نتایج رگرسیون را بررسی می‌کنیم. سپس فرضیات را بررسی می‌کنیم.

جدول اول خروجی نرم افزار SPSS‌در خصوص رگرسیون، شامل خلاصه مدل است. در این جدول ضریب تعیین مدل R-square نشان می‌دهد که متغیر مستقل (اضطراب) تقریباً 16 درصد از تغییرات در پیشرفت تحصیلی را توضیح می‌دهد (شکل زیر).

خلاصه مدل در رگرسیون خطی ساده

شیب رگرسیون غیراستاندارد (b=-1) نشان می‌دهد که به ازای هر ۱ واحد افزایش در اضطراب، ۱ واحد کاهش در پیشرفت تحصیلی پیش‌بینی می‌شود (شکل زیر). می‌بینیم که این شیب از نظر آماری معنادار است (P<0.001).

شیب رگرسیون استاندارد شده (β=-0.4) معادل همبستگی پیرسون هنگام اجرای یک تحلیل رگرسیون ساده است. در اینجا به شرح زیر تفسیر می‌شود: به ازای هر ۱ واحد افزایش نمره استاندارد در اضطراب، کاهش پیش‌بینی‌شده 0.4 واحد نمره استاندارد در پیشرفت تحصیلی است.

ضرایب مدل در رگرسیون خطی ساده

بررسی فرضیات رگرسیون خطی ساده

جدول زیر نیز حداقل، حداکثر، میانگین و انحراف معیار مقادیر را برای شاخص‌های مختلف ارائه می‌دهد.

آماره های توصیفی برای باقیمانده‌ها

بررسی نرمال بودن توزیع باقیمانده‌ها

یکی از مفروضات رگرسیون خطی، نرمال بودن توزیع باقیمانده‌ها است. به این منظور نمودار هیستوگرام باقیمانده‌های استاندارد رسم شده است (شکل زیر). توزیع باقیمانده‌های استاندارد شده به نظر مطابقت مناسبی با توزیع نرمال دارد.

هیستوگرام توزیع نرمال برای باقیمانده‌های استاندارد

دارلینگتون و هیز (۲۰۱۷) اظهار می‌کنند که «نرمال بودن توزیع باقیمانده‌ها یکی از کم اهمیت‌ترین فرضیات رگرسیون است. چنانچه شواهد روشنی از غیرنرمال بودن شدید در باقیمانده‌ها ببینید. همچنین خطاهای زیاد و موارد بسیار تأثیرگذار زیادی را مشاهده کنید، می‌توانید نگران نقض این فرض باشید.

بررسی نرمالیتی توزیع باقیمانده‌ها با استفاده از نمودار P-P plot

نمودار PP-plot می‌تواند برای ارزیابی نرمال بودن باقیمانده‌ها استفاده شود (شکل زیر). هرچه باقیمانده‌های مشاهده‌شده به خط رگرسیون نزدیک‌تر باشند، شواهد قوی‌تری از نرمال بودن داده‌ها فراهم می‌شود. این نمودار به خوبی نشان می‌دهد که توزیع باقیمانده‌ها به توزیع نرمال بسیار نزدیک است.

نمودار P-P plot برای باقیمانده‌های استاندارد رگرسیون خطی

نمودار پراکنش باقیمانده‌های استیودنت در برابر مقادیر پیش‌بینی استاندارد

در این نمودار پراکنش باقیمانده‌های استیودنت در برابر مقادیر پیش‌بینی‌شده استاندارد پلات شده‌اند (شکل زیر). این نمودار در شناسایی غیرخطی بودن رابطه بین X و Y، شناسایی داده‌های پرت بالقوه و/یا موارد تأثیرگذار، و شناسایی ناهمسانی واریانس‌ باقیمانده‌ها مفید است. در ادامه تمام این موارد بررسی می‌شود.

نمودار پراکنش باقیمانده‌های استیودنت در برابر مقادیر پیش‌بینی رگرسیون

چگونه متوجه شویم که آیا باقیمانده‌ها، واریانس همسان (یعنی واریانس ثابت) دارند یا خیر؟ در ادامه نمونه‌ای از نمودار باقیمانده‌های ایده‌آل وجود دارد که در آن شواهدی از واریانس همسان وجود دارد. در این حالت، باقیمانده‌ها به صورت تصادفی و یکنواخت در سراسر مقادیر Y برازش شده (که روی محور X ظاهر می‌شوند) توزیع شده‌اند.

حالت ایده ال برای برقراری فرض همگنی واریانس‌ها

چنانچه واریانس باقیمانده‌ها در طول خط رگرسیون ثابت نباشد می‌تواند یکی از الگوهای زیر پدید آید.

حالت‌های مختلف ناهمسانی‌ واریانس‌ها

بر اساس داده‌های ما نمودار پراکنش باقیمانده‌ها به طور منطقی با نمودار ایده‌آل (چپ) سازگار به نظر می‌رسد و نشان می‌دهد که فرض همسانی‌ واریانس‌ها رعایت شده است.

مقایسه نمودار پراکنش ایده‌ال و نمودار باقیمانده‌ها بر مبنای داده‌های ما

باقیمانده‌ها شامل تغییرات باقی‌مانده در متغیر وابسته پس از در نظر گرفتن متغیر مستقل هستند. در این مثال ما یک رابطه خطی بین اضطراب (X) و موفقیت (Y) مدل‌سازی کرده‌ایم. اگر رابطه بین دو متغیر ما غیرخطی باشد، در نمودار به شکل انحنای باقیمانده‌ها نشان داده می‌شود. در پایین سمت چپ، نمودار ایده‌آل اولیه خود را از مقادیر استاندارد Y برازش شده و باقیمانده‌های استیودنت داریم که در آن باقیمانده‌ها به طور تصادفی و یکنواخت در اطراف0 توزیع شده‌اند و هیچ انحنایی در باقیمانده‌ها وجود ندارد. دو نمودار دیگر، انحنای باقیمانده‌ها را به دلیل غیرخطی بودن مدل‌سازی نشده بین X و Y نشان می‌دهند.

بررسی فرض خطی بودن رابطه با استفاده از باقیمانده‌ها

یک قاعده‌ی سرانگشتی برای شناسایی داده‌های پرت احتمالی، باقیمانده‌ی استاندارد شده یا استیودنت شده‌ی بزرگتر از ۳ در مقدار مطلق است (پیتوچ و استیونز، ۲۰۱۶) (شکل زیر).

بررسی داده‌های پرت بالقوه با استفاده از نمودار پراکنش باقیمانده‌ها

نمودار پراکنش باقیمانده‌های استیودنت در برابر مقادیر پیش بینی استاندارد برای داده‌ها ما نشان می‌دهد که هیچیک از باقیمانده‌ها از عدد 3 بیشتر نبودند. بنابراین هیچ داده پرتی مشاهده نشد.

نمودار پراکنش باقیمانده‌ها و بررسی وجود داده‌های پرت

تشخیص داده‌های پرت بالقوه

به منظور بررسی داده‌های پرت بالقوه از مسیر Analyze>Descriptive Statistics>Explore اقدام می‌کنیم. در پنجره باز شده باقیمانده‌های استاندارد و استیودنت شده را به قسمت «Dependent List» انتقال می‌دهیم و از بخش «Statistics» گزینه «Outliers» را فعال می‌کنیم. از بخش «Plots» تیک قسمت «Histogram» و «Normality Plots with Tests» را فعال می‌کنیم (شکل زیر).

مسیر انجام Explore در نرم افزار SPSS

فعال کردن گزینه Outliers در پنجره اصلی Explore

فعال کردن گزینه‌های Histogram و Normality plot with test در پنجره Explore

بررسی توزیع باقیمانده‌ها در خروجی نرم افزار

هنگام قضاوت در مورد نرمال بودن، می‌توانید برای توزیع باقیمانده‌ها به چولگی و کشیدگی مراجعه کنید. اگر مقادیر چولگی و/یا کشیدگی خارج از محدوده 2- تا 2+ قرار گیرند، می‌توانید انحراف قابل توجه نسبت به نرمال بودن را نتیجه بگیرید (Vaughn, 2012). در کار ما این مقادیر بین دو حد تعیین شده هستند. پس نرمال بودن باقیمانده‌ها از نظر کمیت‌های چولگی و کشیدگی تأیید می‌شود (شکل زیر).

آماره‌های توصیفی باقیمانده‌های استاندارد و استیودنت شده

تشخیص داده‌های پرت بالقوه

می‌توان از باقیمانده‌های استاندارد یا استیودنت شده برای شناسایی داده‌های پرت بالقوه استفاده کرد. برخی از محققان یکی از این دو رویکرد را به رویکرد دیگر برای تشخیص داده‌های پرت ترجیح می‌دهند. مقادیر مطلق بزرگتر از 3 (به صورت قدر مطلق) ممکن است نشان‌دهنده وجود یک داده پرت بالقوه در رابطه با متغیر وابسته (Y) باشد. جدول زیر مقادیر حدی برای باقیمانده‌ها را نشان می‌دهد. این مقادیر هیچیک بزرگتر از معیار 3 نیستند. بنابراین داده پرت بالقوه در داده‌های ما وجود ندارد.

مقادیر حدی باقیمانده‌های استاندارد و استیودنت شده

آزمون‌های نرمالیتی باقیمانده‌ها

نتایج آزمون‌های نرمال بودن توزیع باقیمانده‌ها در جدول زیر آورده شده است. معناداری آماری (P<0.05) به عنوان شاخصی در نظر گرفته می‌شود که نشان می‌دهد توزیع باقیمانده‌ها به طور معنی‌داری از نرمال بودن فاصله دارد.

نکته مهم: آزمون شاپیرو-ویلک زمانی که با n مجموعه داده کوچک‌تر کار می‌کنید، قدرتمندتر است. هنگام ارزیابی نرمال بودن، نباید صرفاً به نتایج آزمون‌های آماری تکیه کرد. زیرا اندازه نمونه در قدرت این آزمون‌ها مؤثر است. توصیه می‌شود هنگام تصمیم‌گیری در مورد اینکه آیا باقیمانده‌های شما به طور معنی‌داری از نرمال بودن فاصله دارند یا خیر، نتایج این آزمون‌ها را به همراه سایر اطلاعات (مانند آمار چولگی و کشیدگی، هیستوگرام، وجود داده‌های پرت) در نظر بگیرید.

آزمون‌های نرمال بودن باقیمانده‌ها

بررسی نرمال بودن باقیمانده‌ها بصورت بصری

در ادامه خروجی نرم افزار می‌توانیم بصورت بصری با استفاده از نمودار هیستوگرام و Q-Q plot بررسی کنیم که آیا در باقیمانده‌های توزیع نرمال وجود دارد یا خیر؟ مطابق شکل زیر هیستوگرام زنگوله‌ای شکل است و در نمودار Q-Q plot نیز نقاط نزدیک خط رگرسیونی هستند. بنابراین از این نظر نیز مشکلی در داده‌ها وجود ندارد.

بررسی بصری نرمال بودن باقیمانده‌ها با استفاده از هیستوگرام و نمودار Q-Q plot

تشخیص داده‌های تأثیر گذار بالقوه

برای تشخیص داده‌های تأثیرگذار بالقوه مجدداً از گزینه Explore استفاده می‌کنیم. اما این بار داده‌های مربوط به Cook، DFBETAهای استاندارد شده و DFFITهای استاندارد شده را استفاده می‌کنیم (شکل زیر).

مسیر انجام Explore‌ برای تشخیص داده‌های تأثیر گذار بالقوه

تشخیص داده‌های منفرد تأثیرگذار از طریق Cook’s Distance

به‌طورکلی اگر چند داده منفرد تأثیر نامتناسبی بر رگرسیون داشته باشند، نتایج رگرسیون معتبر نیست. فواصل کوک، راه حلی برای بررسی سهم موارد منفرد در برازش کلی مدل رگرسیون فراهم می‌کند. کمترین مقدار ممکن برای d کوک، صفر است. مواردی با مقادیر بالاتر، مواردی هستند که تأثیر بیشتری بر مدل نسبت به مواردی با مقادیر پایین‌تر دارند. یک قاعده کلی، مواردی را که مقدار d کوک آنها برابر یا بزرگتر از ۱ است، به عنوان مواردی در نظر می‌گیرد که تأثیر بیش از حدی بر مدل رگرسیون دارند (Lomax & Hahs -Vaughn, 2012; Pituch & Stevens, 2016). در این مثال هیچ یک از موارد ما مقدار d کوک نزدیک به 1 ندارند (شکل زیر).

مقادیر حدی برای فواصل کوک

تشخیص داده‌های منفرد تأثیرگذار از طریق DFFIT

DFFIT استاندارد رویکرد دیگری برای شناسایی مواردی است که ممکن است تأثیر بیشتری بر یک مدل داشته باشند. به طور خاص، این رویکرد میزان تأثیر یک مورد بر مقادیر برازش شده روی Y را نشان می‌دهد ( پیتوچ و استیونز، ۲۰۱۶). مقادیر استاندارد DFFIT بزرگتر از 1 یا ۲ ممکن است نشان‌دهنده یک مورد بالقوه مشکل‌ساز باشد (داس و گوگوی ، ۲۰۱۵). هیچ یک از منفی‌ترین یا مثبت‌ترین مقادیر در داده‌های ما از ۱ یا ۲ بیشتر نیستند (شکل زیر).

مقادیر حدی برای DFFFIT‌ها

تشخیص داده‌های منفرد مؤثر از طریق DFBATAS

DFBETASهای استاندارد برای شناسایی مواردی که ممکن است به طور خاص در رابطه با تخمین پارامترهای خاص تأثیرگذار باشند، مفید هستند. در سمت چپ شکل زیر DFBETASهای استاندارد برای عرض از مبدا قرار دارند. در سمت راست DFBETASهای استاندارد برای شیب رگرسیون برای اضطراب قرار دارند. مقادیر موجود در این جداول نشان دهنده تغییر پیش‌بینی شده در تخمین پارامترهای فردی هنگام حذف یک مورد است. مواردی با مقادیر بزرگتر از 2 (در مقدار مطلق) به عنوان کاندیداهایی برای داشتن تأثیر بالا بر یک پارامتر معین شناسایی می‌شوند (لوماکس و هاس – وان، 2012).

در این جداول، می‌بینیم که بالاترین DFBETAهای استاندارد شده، آستانه 2 را برای شناسایی موارد تأثیرگذار برآورده نمی‌کنند (شکل زیر).

مقادیر حدی برای DFBETA‌ها

انجام آزمون برای تشخیص ناهمسانی واریانس

در ابتدای این مقاله از نمودار باقیمانده‌ها برای بررسی بصری شواهدی از نقض فرض همسانی واریانس‌ها استفاده کردیم. اما ما می‌توانیم یک آزمون برای همسانی واریانس‌ها در SPSS انجام دهیم تا ببینیم آیا واریانس باقیمانده‌ها در طول خط رگرسیون مشابه است یا خیر؟ برای انجام این کار، باید مدل خود را از طریق مسیر Analyze>General Linear Model>Univariate در SPSS اجرا کنیم.

آزمون برای تشخیص ناهمسانی واریانس‌ها

متغیر مستقل در مدل ما به عنوان یک متغیر کمکی مشخص شده و متغیر وابسته در کادر متغیر وابسته وارد می‌شود. در قسمت گزینه‌ها، می‌توانیم آزمون F و همچنین آزمون براش-پاگان را انتخاب کنیم. در اینجا، من آزمون اصلاح‌شده براش-پاگان (BP) و آزمون F را انتخاب کرده‌ام. آزمون اصلاح‌شده BP در برابر غیرنرمال بودن باقیمانده‌ها مقاوم‌تر است (lyon & Tsai, 1996).

آزمون‌های براش-پاگان و F

در زیر تب Model برای هر آزمون، گزینه Use Univariate Model را انتخاب می‌کنیم (شکل بالا).

مطابق نتایج هر دو آزمون براش-پاگان و F دارای P>0.05 هستند. بنابراین فرض همسانی واریانس‌ها تأیید می‌شود (شکل زیر).

نتایج آزمون ناهمسانی واریانس‌ها

نمودار پراکندگی برای بررسی خطی بودن رابطه

در ابتدای مقاله خطی بودن رابطه را از طریق نمودار پراکنش باقیمانده‌ها بررسی کردیم. اما می‌توانیم خطی بودن رابطه را از طریق نمودار پراکندگی نیز بررسی کنیم. به این منظور از مسیر Graphs>Legacy Dialogs>Scatter/Dots اقدام می‌کنیم. در پنجره باز شده «Simple Scatter» را انتخاب می‌کنیم.

رسم نمودار پراکنش برای بررسی خطی بودن رابطه

در پنجره باز شده متغیر وابسته «achievement» را به محور Y و متغیر «anxiety» را به محور X‌ انتقال می‌دهیم و «OK» می‌کنیم (شکل زیر).

نمودار پراکنش

در خروجی نرم افزار، با دوبار کلیک کردن روی نمودار پراکندگی و سپس کلیک روی «Add Fit Line at Total»، یک خط رگرسیون ظاهر می‌شود. به طور پیش‌فرض، خط برازش خطی (Linear) است.

رسم خط برازش

می‌توانیم Quadratic (و سپس دکمه‌ی Apply) را انتخاب کنیم تا یک خط برازش بر اساس یک معادله‌ی درجه دوم را رسم کنیم.

رسم خط درجه دوم

توجه داشته باشید که خط انحنای بسیار کمی دارد. علاوه بر این، ضریب تعیین (R-square) برای روند درجه دوم تنها 0.001 بیشتر از روند خطی است.

می‌توانیم Cubic (و سپس دکمه‌ی Apply) را انتخاب کنیم تا یک خط برازش بر اساس یک معادله‌ی درجه سوم داشته باشیم (شکل زیر).

رسم خط درجه سوم

ممکن است در اینجا بخواهید که یک رابطه درجه سوم را فرض کنید. با این حال، خط برازش درجه سوم تا حد زیادی با گنجاندن یک نقطه داده تأثیرگذار به سمت معادله درجه سوم هدایت می‌شود (به نقطه تأثیر گذار انتهای سمت راست نمودار دقت کنید). علاوه بر این، R-square درجه سوم با 0.169 هنوز خیلی بیشتر از R-square خطی با 0.16 و R-square درجه دوم با 0.161 تفاوت نیست. بنابراین ساده‌ترین توصیف رابطه بین دو متغیر حالت خطی است.

اگر رابطه‌مون غیرخطی بود چکار کنیم؟

اگر یک مدل غیرخطی (مثلاً درجه دوم یا درجه سوم) برازش بهتری با داده‌ها نسبت به مدل خطی نشان می‌داد، می‌توانیم به سادگی با استفاده از خروجی رگرسیون چندجمله‌ای که با استفاده از روش تخمین منحنی تولید کردیم، رابطه بین متغیر مستقل و وابسته را گزارش کنیم. به عنوان یک روش جایگزین، می‌توانیم با ایجاد نسخه‌های مربع و مکعب متغیر مستقل (یعنی اضطراب به توان دو و اضطراب به توان سه) و وارد کردن آنها در مراحل مختلف در مجموعه‌ای از رگرسیون‌های سلسله مراتبی، همان خروجی را تولید کنیم و نتایج یکسان خواهد بود.

تحلیل رگرسیون با استفاده از خطاهای استاندارد سازگار با ناهمسانی واریانس

همانطور که قبلاً اشاره شد، رگرسیون معمولی، واریانس باقیمانده‌ها را ثابت فرض می‌کند. در مواردی که این فرض نقض شود، خطاهای استاندارد «مغرضانه و ناسازگار» هستند (هیز و کای، ۲۰۰۷). این می‌تواند احتمال ارتکاب نوع ۱ یا نوع ۲ (خطای تصمیم‌گیری) را هنگام استنباط در مورد پارامترهای رگرسیون جمعیت افزایش دهد. هیز و کای (۲۰۰۷) استفاده از خطاهای استاندارد سازگار با واریانس ناهمسانی (HE-SE) را هنگام استنباط در جایی که واریانس ناهمسانی وجود دارد، پیشنهاد کردند.

SPSS گزینه‌ای برای HE-SE از طریق مسیر رگرسیون معمول ندارد. با این حال، می‌توان نتایج این رگرسیون را از طریق یک مسیر جایگزین در SPSS به دست آورد. به این منظور از مسیر Analyze>General Linear Model>Univariate اقدام می‌کنیم. در پنجره باز شده متغیر «achievement» را به «Dependent Variable» و «anxiety» را به «Covariate(s)» انتقال می‌دهیم (شکل زیر).

تحلیل رگرسیون برای ناهمسانی واریانس‌ها

به قسمت «Options» می‌رویم و تیک گزینه‌های نشان داده شده در شکل زیر را فعال می‌کنیم. هیز و کای (۲۰۰۷) استفاده از تخمین‌گر HC3 یا HC4 را توصیه کردند. در اینجا، من HC3 را انتخاب کرده‌ام. برای اینکه جدول رگرسیون را نیز داشته باشیم، قسمت «Parameter estimates» را نیز فعال می‌کنیم (شکل زیر).

تنظیمات مدل برای ناهمسانی واریانس‌ها

در این حالت خروجی نرم افزار مشابه با خروجی رگرسیون خطی معمولی است. با این تفاوت که شیب و عرض از مبدآ رگرسیون با استفاده از خطاهای استاندارد مقاوم آزمون شده‌اند.

نتایج با استفاده از دو روش معمولی و خطاهای استاندارد مقاوم، در ادامه آورده شده است. ضرایب رگرسیون برای هر دو روش مشابه است. تنها تفاوتی که در نتایج وجود دارد این است که در رگرسیون مقاوم، خطاهای استاندارد مقاوم تولید شده‌اند و آزمون تی و حدود اطمینان 95 درصد با استفاده از خطاهای استاندارد مقاوم انجام شده‌‌اند.

برازش مدل رگرسیونی با خطای استاندارد مقاوم

برازش مدل رگرسیون معمولی

 

رسول محمدی

برای مشاوره یا انجام پژوهش‌های آماری در تلگرام یا ایتا با شماره 09384226738 بطور مستقیم با من در ارتباط باشید.

دیدگاهتان را بنویسید

نشانی ایمیل شما منتشر نخواهد شد. بخش‌های موردنیاز علامت‌گذاری شده‌اند *

10 − دو =