۰۹۳۸۴۲۲۶۷۳۸

رگرسیون خطی (قسمت دوم: حداقل مربعات)

در این مقاله روش حداقل مربعات برای برازش خط رگرسیون را توضیح می‌دهیم. این مقاله ادامه قسمت اول مبحث رگرسیون خطی است.

مثال رگرسیون خطی

در قسمت اول از رگرسیون خطی دیدیم که چطور به سادگی می‌توانیم از رگرسیون خطی استفاده کنیم و با استفاده سن خودرو قیمت آن را تخمین بزنیم.

معادله خط رگرسیون برای تخمین قیمت خودرو را به شرح زیر بدست آوردیم:

معادله خط رگرسیون

همانطور که ملاحظه می‌کنید، عرض از مبدأ معادله 30.57 است. به این معنی که خط رگرسیون محور قیمت را در نقطه 30.57 قطع می‌کند. شیب خط هم 3.55- است که نشان می‌دهد به ازای افزایش هر سال سن خودرو قیمت آن 3.55 هزار یورو کاهش می‌یابد (شکل 1).

شکل 1. معادله خط رگرسیون

شکل 1. معادله خط رگرسیون

روش حداقل مربعات

روش حداقل مربعات شامل جستجو برای مقادیر بهینه عرض از مبدأ و شیب خط است تا بهترین خط ممکن از بین نقاط برازش یابد.

فرض کنید ما یک خط بطور تصادفی از بین نقاط عبور می‌دهیم. عرض از مبدأ این خط فرضی 25 و شیب آن 2 است (شکل 2). حالا سؤال این است که آیا این خط از خط قبلی بهتر است؟

شکل 2. برازش یک خط تصادفی از بین نقاط

شکل 2. برازش یک خط تصادفی از بین نقاط

برای مقایسه این خط با خط قبلی از روش حداقل مربعات (Ordinary least square) استفاده می‌کنیم. در این روش مجموع مربعات تفاوت مشاهدات نسبت به خط باید کمترین مقدار را داشته باشد. برای فهم بهتر مطلب مثالی مطرح می‌کنیم.

مثال روش حداقل مربعات رگرسیون خطی

فرض کنید دو متغیر X و Y را اندازه‌گیری و نمودار پراکنش این دو متغیر را مانند شکل 3 رسم کرده‌ایم.

شکل 3. اندازه‌گیری دو متغیر فرضی X و Y

شکل 3. اندازه‌گیری دو متغیر فرضی X و Y

حالا یک خط تصادفی بر داده‌ها برازش می‌کنیم. فرض کنید عرض از مبدأ این خط 3 و شیب آن 2 باشد (شکل 4).

شکل 4. برازش خط فرضی با عرض از مبدأ 3 و شیب 2

شکل 4. برازش خط فرضی با عرض از مبدأ 3 و شیب 2

محل تقاطع خط با محور Y،‌ عدد 3 را نشان می‌دهد که عرض از مبدأ است. خط فرضی ما شیب 2 دارد. یعنی به ازای افزایش یک واحد در X، مقدار Y دو واحد افزایش می‌یابد.

محاسبه حداقل مربعات خطا در رگرسیون

حداقل مربعات شامل فواصل عمودی نقاط از خط رگرسیون است. در رگرسیون خطی این فاصله اشتباه (Error) یا باقیمانده (Residual) نامیده می‌شود (شکل 5).

شکل 5. فاصله عمودی نقاط تا خط رگرسیون

شکل 5. فاصله عمودی نقاط تا خط رگرسیون

اگر فاصله تمام نقاط نسبت خط رگرسیون را محاسبه، به توان دو برسانیم و با هم جمع کنیم، مجموع مربعات خطا (SSE) را بدست آورده‌ایم.

برای محاسبه فاصله بین نقاط و خط رگرسیون باید به ازای هر X مقداری تخمینی Y را بدست آوریم. اگر هر مقدار X را در معادله رگرسیون قرار دهیم و عملیات ریاضی انجام دهیم، مقداری تخمینی Y به ازای هر X‌ بدست می‌آید.

مقادیر تخمینی Y به ازای هر X را در شکل 6 با Yest، نشان داده‌ایم.

شکل 6. مقادیر تخمینی X به ازای هر Y

شکل 6. مقادیر تخمینی X به ازای هر Y

حالا می‌توانیم فاصله عمودی نقاط را نسبت به خط محاسبه کنیم. اگر مقدار حقیقی Y را از مقدار تخمینی آن کسر کنیم، فاصله هر نقطه نسبت به خط رگرسیون بدست می‌آید (شکل 6).

شکل 7. محاسبه فاصله نقاط نسبت به خط رگرسیون

شکل 7. محاسبه فاصله نقاط نسبت به خط رگرسیون

در مرحله بعد باید فاصله نقاط نسبت به خط رگرسیون را به توان 2 برسانیم.

شکل 8. مربع فاصله نقاط نسبت به خط رگرسیون

شکل 8. مربع فاصله نقاط نسبت به خط رگرسیون

حالا توان دوم اعداد را با هم جمع می‌کنیم تا مجموع مربعات بدست بیاید.

مجموع مربعات خطا در رگرسیون خطی

به این ترتیب مجموع مربعات خطا در خط ما با عرض از مبدأ 3 و شیب 2، عدد 24.5 بدست می‌آید.

الان می‌توانیم خطوط دیگری را هم بطور تصادفی رسم کنیم و مجموع مربعات خطا را برای آن خطوط نیز محاسبه کنیم. در نهایت هر خطی که کمترین مجموع مربعات را داشته باشد، آن خط بهترین خط برای ما خواهد بود.

اما در عمل نیازی به این محاسبات برای بدست آوردن مقادیر بهینه شیب و عرض از مبدأ نیست.

محاسبه مقادیر بهینه شیب و عرض از مبدأ در رگرسیون خطی

برای محاسبه مقدار بهینه شیب و عرض از مبدأ می‌توانیم از نرم افزارهای آماری کمک بگیریم. نرم افزارهای آماری مقدار عرض از مبدأ و شیب خط را در حالت حداقل مربعات خطا به ما می‌دهند.

البته برای رگرسیون خطی می‌توانیم از فرمول زیر برای یافتن شیب خط رگرسیون استفاده کنیم.

فرمول شیب خط رگرسیون خطی

در صورت کسر این فرمول، کوواریانس X و Y و در مخرج کسر، واریانس X قرار می‌گیرد.

اگر عبارت کوواریانس و واریانس را در فرمول شیب خط قرار دهیم، فرمول شیب بصورت زیر در می‌آید:

فرمول شیب خط در رگرسیون خطی

با استفاده از فرمول بالا می‌توانیم برای داده‌های مثال، شیب خط را محاسبه کنیم. ابتدا میانگین‌های X و Y را محاسبه می‌کنیم (شکل 9).

شکل 9. محاسبه میانگین‌های X و Y

شکل 9. محاسبه میانگین‌های X و Y

در نهایت با گذاشتن همه مقادیر در فرمول، شیب خط رگرسیون را محاسبه می‌کنیم:

محاسبه شیب خط رگرسیون

برای این مثال شیب خط را 2 بدست آوردیم.

عرض از مبدأ را نیز می‌توانیم از طریق فرمول زیر محاسبه کنیم:

فرمول محاسبه عرض از مبدأ

اگر میانگین‌های X و Y و همچنین شیب خط را در فرمول جایگذاری کنیم، مقدار عرض از مبدأ بدست می‌آید:

محاسبه عرض از مبدأ در رگرسیون خطی

پس معادله بهترین خطی که می‌توانیم از بین داده‌ها عبور دهیم به شرح زیر است:

معادله رگرسیون خطی

 

دیدگاهتان را بنویسید

نشانی ایمیل شما منتشر نخواهد شد. بخش‌های موردنیاز علامت‌گذاری شده‌اند *