مدل‌های خطی با اثرات آمیخته (قسمت اول-مفهوم)

۰۳ اردیبهشت ۱۴۰۳

رسول محمدی

149 بازدید

تاریخ ویرایش : 03 اردیبهشت 1403

در این مقاله با مدل‌های خطی با اثرات آمیخته (Linear Mixed-effects models) آشنا می‌شویم. برای فهم بهتر این مقاله باید مقالات مربوط به آنالیز واریانس و رگرسیون خطی را مطالعه نمایید.

آشنایی با مدل‌های خطی با اثرات آمیخته

اصطلاح آمیخته برای این‌گونه مدل‌ها به این دلیل استفاده می‌شود که ما در این مدل‌ها اثرات ثابت (Fixed) و تصادفی (Random) را همزمان داریم.

تعریف اثرات ثابت (Fixed effects):

کمیت‌هایی که در یک جمعیت ثابت و بدون تغییر هستند را اثرات ثابت می‌نامیم. مثلاً میانگین یک جمعیت یا پارامترهای موجود در یک جمعیت که ما آن‌ها را برآورد می‌کنیم همگی ثابت هستند.

تعریف اثرات تصادفی (Random effects):

اثرات تصادفی پارامترهایی هستند که بین گروه‌های مختلف متغیر وابسته متغیر هستند. به عنوان مثال اگر ما روی یک فرد در چند زمان اندازه‌‌گیری های تکراری داشته باشیم، میانگین این اندازه‌ها می‌تواند یک پارامتر باشد. در این صورت هر فرد در جامعه می‌تواند یک تخمین منحصر به فرد برای خودش داشته باشد و متغیر فرد (subject) را می‌توانیم به عنوان یک متغیر تصادفی در مدل تعریف کنیم.

مثال برای مدل‌های خطی با اثرات آمیخته

فرض کنید چهار فرد در یک مدت زمان خاص یک نوع رژیم غذایی را مصرف می‌کنند. وزن این افراد را قبل از مصرف رژیم غذایی، یک هفته پس از آن و دو هفته پس از دریافت رژیم غذایی اندازه‌گیری می‌کنیم (شکل 1).

شکل 1. اندازه‌گیری وزن بدن

شکل 1. اندازه‌گیری وزن بدن

اگر وزن‌های افراد را در یک نمودار پراکنش دو طرفه پلات کنیم شکل زیر را خواهیم داشت:

شکل 2. نمایش وزن افراد در قالب نمودار دو طرفه

در شکل 2 اطلاعات مربوط به هر فرد را با شماره نشان داده‌ایم.

فرض کنید می‌خواهیم میزان کاهش وزن افراد به ازای هر هفته را تخمین بزنیم. در این صورت از روش رگرسیون خطی استفاده می‌کنیم و یک خط بین نقاط برازش می‌کنیم (شکل 3).

شکل 3. برازش خط رگرسیونی از بین نقاط برای تخمین میزان کاهش وزن

معادله خط رگرسیونی در شکل 3 به شرح زیر است:

معادله خط رگرسیونی

عرض از مبدأ این خط 875/89 و شیب خط 125/3- است. عرض از مبدأ (89.857) میانگین وزن افراد جمعیت قبل از شروع دریافت رژیم غذایی را نشان می‌دهد. شیب خط (3.125-)، متوسط کاهش وزن در هر هفته را نشان می‌دهد. به این معنی که افراد ما بطور متوسط در طول هر هفته 3.125 کیلوگرم وزن کم کرده‌اند.

الان می‌خواهیم بدانیم که آیا متوسط کاهش وزن در هر هفته (شیب خط) آیا معنی‌دار است؟ به این منظور آزمون فرضیات را مطرح می‌کنیم.

آزمون فرضیات

آزمون فرضیات را برای شیب خط رگرسیون بصورت زیر تعریف می‌کنیم:

آزمون فرضیات

آیا می‌توانیم فرض صفر مبنی برابری شیب خط رگرسیون با صفر را رد کنیم؟ اگر بتوانیم این فرض را رد کنیم به این معنی است که رژیم غذایی ما واقعاً بر وزن افراد موثر است.

محاسبه P-value و نتیجه‌گیری

در این آزمایش مقدار P-value را عدد 0.372 بدست آورده‌ایم. چون مقدار P-value از عدد 0.05 بزرگتر است، نمی‌توانیم فرض صفر را رد کنیم. بنابراین نتیجه می‌گیریم که رژیم غذایی ما موثر نبوده است.

اما همانطور که ملاحظه می‌کنیم ما بطور متوسط در هر هفته 3.125 کیلوگرم کاهش وزن داشته‌ایم و عجیب است که این مقدار کاهش وزن معنی‌دار نیست. اگر به هر 4 نمونه هم دقت کنیم، می‌بینیم که هر 4 فرد ما در طول زمان کاهش وزن‌ را تجربه کرده‌اند.

اما چرا با اینکه تمام افراد ما در طول زمان کاهش وزن داشته‌اند، این مقدار کاهش وزن معنی‌دار نیست؟ پاسخ این سوال را در ادامه خواهیم داد.

اگر ما به جای رگرسیون معمولی از مدل خطی با اثرات آمیخته (Linear mixed effects model) استفاده کنیم، مقدار P-value‌ ما 0.001 بدست می‌آید و به راحتی می‌توانیم فرض صفر را رد کنیم و نتیجه بگیریم که شیب خط ما با عدد صفر تفاوت معنی‌دار دارد.

اما چرا چنین تفاوت بزرگی بین نتیجه حاصل از رگرسیون خطی و مدل خطی با اثرات آمیخته وجود دارد؟

مقایسه رگرسیون خطی ساده و مدل خطی با اثرات آمیخته

به شکل 4 دقت کنید. زمانی که ما از رگرسیون خطی ساده استفاده می‌کنیم، نقاط داده‌ها از خط رگرسیونی بسیار دور هستند. چون 4 فرد انتخاب شده از جمعیت در ابتدای آزمایش، وزن‌های مختلفی داشته‌اند، لذا نقاط از خط رگرسیون فاصله دارند.

شکل 4. فواصل نقاط نسبت به خط رگرسیون معمولی

در حقیقت ما نباید به وزن افراد در ابتدا و قبل از شروع آزمایش توجه کنیم. ما باید به میزان کاهش وزن هر فرد در طول زمان نسبت به وزن اولیه خودش دقت کنیم. برای اینکه بتوانیم تنوع وزن افراد در ابتدای آزمایش را حذف کنیم، از مدل خطی با اثرات آمیخته استفاده می‌کنیم.

در این مدل ما افراد را به عنوان اثر تصادفی در مدل تعریف می‌کنیم تا بتوانیم برای هر فرد شیب و عرض از مبدأ جداگانه تخمین بزنیم (شکل 5).

"شکل

شکل 5. در نطر گرفتن داده‌های هر فرد بصورت جداگانه در مدل

با استفاده از مدل خطی با اثرات آمیخته می‌توانیم در مدل برای هر فرد یک خط جداگانه برازش کنیم.

اگر از یک مدل با عرض از مبدأ تصادفی و شیب خط ثابت استفاده کنیم شکل 6 را خواهیم داشت:

شکل 6. مدل با عرض از مبدأ تصادفی و شیب خط ثابت

بنابراین می‌توانیم تصور کنیم که این مدل شامل افرادی است که در ابتدای آزمایش وزن متفاوت دارند. ولی با مصرف رژیم غذایی شیب کاهش وزن تمام این افراد مشابه است.

اما تشابه شیب کاهش وزن افراد در طول زمان واقعی به نظر نمی‌رسد. چرا که افراد مختلف ممکن است نرخ متفاوتی از کاهش وزن را در طول یک دوره داشته باشند. اما برای سادگی مسئله می‌توانیم فرض کنیم که هر چهار فرد دارای شیب کاهش مساوی هستند. توجه داشته باشید که ما می‌توانیم شیب را هم به عنوان یک متغیر تصادفی در مدل لحاظ کنیم که در مقاله بعد به این موضوع می‌پردازیم.

مدل دارای عرض از مبدأ تصادفی و شیب ثابت

در مدل با عرض از مبدأ تصادفی، هر فرد دارای یک عرض از مبدأ مخصوص به خودش می‌باشد. اگر مدل مربوطه را در یک نرم افزار آماری تعریف کنیم، می‌توانیم مقادیر عرض از مبدأ هر فرد را بدست بیاوریم. این مقادیر فاصله عرض از مبدأ هر فرد را نسبت به عرض از مبدأ کل نشان می‌دهد.

اگر خاطرتان باشد معادله خط رگرسیون اصلی ما به شرح زیر بود:

معادله خط رگرسیونی

عرض از مبدأ برای خط اصلی ما 89.875 است. اگر عرض از مبدأ را در مدل بصورت تصادفی تعریف کنیم برای هر فرد یک عرض از مبدأ منحصر به فرد خواهیم داشت. در این صورت عرض از مبدأ برای افراد مختلف به شرح می‌باشد:

محاسبه عرض از مبدا برای هر فرد

این مقادیر فاصله عرض از مبدأ هر فرد را نسبت به عرض از مبدأ خط اصلی نشان می‌دهد. به عنوان مثال، عرض از مبدأ فرد اول 11.2 واحد بیشتر از عرض از مبدأ خط اصلی است. اگر 11.2 واحد به عرض از مبدأ خط اصلی اضافه کنیم، عرض از مبدأ خط مربوط به فرد اول بدست می‌آید. برای بقیه افراد هم می‌توانیم به همین طریق عرض از مبدأ افراد را بدست بیاوریم.

کاهش خطا در مدل آمیخته

پس الان چهار خط داریم که نقاط به این خطوط بسیار نزدیکتر هستند. نزدیکی نقاط به این خطوط باعث کاهش خطای استاندارد و کاهش P-value نهایی می‌شود (شکل 7).

شکل 7. برازش خطوط برای هر فرد و نمایش فاصله نقاط نسبت به خطوط

در شکل زیر مجموع مربعات خطا در هر دو حالت رگرسیون خطی ساده و مدل خطی با اثرات آمیخته مشاهده می‌کنید.

"شکل

شکل 8. مقایسه رگرسیون خطی ساده و مدل خطی با اثرات آمیخته

مطابق شکل 8، مجموع مربعات خطا را در حالت مدل خطی با اثرات آمیخته 11.9 و در حالت رگرسیون خطی ساده 896 بدست آورده‌ایم. چرا که در رگرسیون خطی ساده فاصله نقاط نسبت به خط خیلی زیاد است. اما در مدل خطی با اثرات آمیخته فاصله نقاط نسبت به خطوط بسیار کاهش می‌یابد.

چرا به این مدل خطی، آمیخته گفته می‌شود؟

به دلیل اینکه در این مدل اثرات ثابت و تصادفی همزمان مورد استفاده قرار می‌گیرد، این مدل را مدل خطی با اثرات آمیخته می‌نامیم.

تفاوت عرض از مبدأ خطوط مربوط به هر یک از افراد، نسبت به عرض از مبدأ خط اصلی یک متغیر تصادفی برای ما می‌سازد. این مقادیر دارای توزیع نرمال با میانگین صفر و واریانس تخمینی توسط مدل می‌باشد.

چون در این مدل فقط عرض از مبدأ بین افراد متفاوت است، این مدل، عرض از مبدأ تصادفی (random intercept) نامیده می‌شود. در حقیقت اگر ما از جامعه بطور تصادفی نمونه‌های تصادفی انتخاب کنیم، انتظار داریم که توزیع وزن افراد از توزیع نرمال تبعیت کند.

مقایسه رگرسیون خطی چندگانه و مدل خطی با اثرات آمیخته

فرض کنید به جای اینکه متغیر فرد (subjects) را در مدل به عنوان یک فاکتور تصادفی (random factor) لحاظ کنیم، در قالب رگرسیون خطی چندگانه ما متغیر فرد (subjects) را به عنوان یک فاکتور ثابت در مدل در نظر بگیریم. اگر متغیر فرد را در مدل بصورت ثابت در نظر بگیریم، به این مفهوم است که ما می‌خواهیم افراد مختلف را با هم مقایسه کنیم. در این صورت افراد ما دیگر بطور تصادفی از یک جمعیت انتخاب نمی‌شوند.

نتایج هر دو مدل رگرسیون خطی چند گانه و مدل خطی با اثرات آمیخته را در شکل 8 نشان داده‌ایم.

"شکل

شکل 9. مقایسه نتایج رگرسیون خطی چندگانه و مدل خطی با اثرات آمیخته

توضیح نتایج

توجه کنید که شیب خطوط در هر دو مدل با هم برابر (3.125-) است. اما عرض از مبدأ دو مدل با هم متفاوت است. در رگرسیون خطی چندگانه عرض از مبدأ 101.125 و در مدل خطی با اثرات آمیخته عرض از مبدأ 89.875 بدست آمد.

در رگرسیون خطی چندگانه یک فرد به عنوان طبقه رفرنس قرار می‌گیرد و بقیه افراد با آن فرد مقایسه می‌شوند. عرض از مبدأ در رگرسیون خطی چندگانه (101.125) مربوط به فرد اول است. این در حالی است که در مدل خطی با اثرات آمیخته عرض از مبدأ مربوط به خط اصلی است که از میانگین چهار فرد حاصل می‌شود. در رگرسیون خطی چندگانه، اعداد 6-، 18- و 21- فاصله عرض از مبدأ افراد 2، 3 و 4 را نسبت به فرد 1 (رفرنس) نشان می‌دهد. در حالی‌که در مدل آمیخته اعداد 11.17، 5.21، 6.70- و 9.68- فاصله هر فرد نسبت به خط اصلی را نشان می‌دهد.

مشکل دیگری که در رگرسیون خطی چندگانه وجود دارد، مفروض استقلال مشاهدات است که نقض می‌شود. چراکه مشاهدات ما مستقل نیستند و مثلاً سه مشاهده اول مربوط به فرد اول، سه مشاهده دوم مربوط به فرد دوم و ….. است.

مزیت استفاده از مدل‌های خطی با اثرات آمیخته نسبت آنالیز واریانس با اندازه‌های مکرر

در استفاده از مدل خطی با اثرات آمیخته نسبت به آنالیز واریانس با اندازه‌های تکراری چندین مزیت وجود دارد.

اولین مزیت این است که در مدل خطی با اثرات آمیخته ما می‌توانیم ضرایبی مانند شیب خطوط را تخمین بزنیم. مزیت دیگر استفاده از مدل خطی با اثرات آمیخته این است که در این مدل اگر داده‌های گم شده داشته باشیم، باز هم به خوبی می‌توانیم ضرایب را تخمین بزنیم. در حالی‌که‌ در آنالیز واریانس با اندازه‌های تکراری اگر یک فرد در طول زمان یک مشاهده گم شده داشت، تمام اطلاعات مربوط به آن فرد از آزمایش حذف می‌شود. این امر منجر به کاهش حجم نمونه و قدرت آزمون می‌شود.

در آنالیز واریانس با اندازه‌های تکراری متغیر وابسته از نوع پیوسته در نظر گرفته می‌شود. در حالی‌که در مدل‌های خطی با اثرات آمیخته تعمیم یافته (generalized linear mixed-effects model) متغیر وابسته می‌تواند از نوع باینری یا شمارشی نیز باشد. همچنین متغیر تکراری همیشه به عنوان یک متغیر طبقه‌ای در نظر گرفته می‌شود. این موضوع به این مفهوم است که نقاط زمانی باید برای تمام افراد کاملاً مشابه باشد. اما در مدل خطی با اثرات آمیخته متغیر مستقل می‌تواند از نوع پیوسته باشد که به این مفهوم است که نقاط زمانی می‌تواند برای افراد مختلف متفاوت باشد.

توجه کنید که مفروضات مدل خطی با اثرات آمیخته با بقیه مدل‌های خطی مشابه است. به عنوان مثال، در این مدل متغیر یا متغیرهای مستقل باید با متغیر پاسخ بطور خطی ارتباط داشته باشد و باقیمانده ها نیز دارای توزیع نرمال باشند. همچنین مدل خطی با اثرات آمیخته فرض می‌کند که مشاهدات مربوط به هر فرد (کلاستر) دارای همبستگی مثبت هستند.

در مقاله دوم از این بخش بررسی می‌کنیم که چگونه می‌توانیم شیب خطوط را هم بصورت تصادفی در مدل تعریف کنیم.

آشنایی با مدل‌های خطی با اثرات آمیخته

تعریف اثرات ثابت (Fixed effects):

تعریف اثرات تصادفی (Random effects):

مثال برای مدل‌های خطی با اثرات آمیخته

آزمون فرضیات

محاسبه P-value و نتیجه‌گیری

مقایسه رگرسیون خطی ساده و مدل خطی با اثرات آمیخته

مدل دارای عرض از مبدأ تصادفی و شیب ثابت

کاهش خطا در مدل آمیخته

چرا به این مدل خطی، آمیخته گفته می‌شود؟

مقایسه رگرسیون خطی چندگانه و مدل خطی با اثرات آمیخته

توضیح نتایج

مزیت استفاده از مدل‌های خطی با اثرات آمیخته نسبت آنالیز واریانس با اندازه‌های مکرر

رسول محمدی

نظرات :

دیدگاهتان را بنویسید لغو پاسخ