۰۹۳۸۴۲۲۶۷۳۸

قضیه حد مرکزی را به سادگی درک کنید: راهنمای تصویری گام به گام

مقدمه

آیا تا به حال به این فکر کرده‌اید که چرا نتایج بسیاری از آزمایش‌ها و نظرسنجی‌ها، حتی اگر به صورت تصادفی انتخاب شوند، اغلب به شکل یک منحنی زنگوله‌ای توزیع می‌شوند؟ از قد و وزن افراد گرفته تا نمرات آزمون‌ها و حتی توزیع خطاها در اندازه‌گیری‌ها، همه می‌توانند از این الگو پیروی کنند. این راز در مفهومی به نام “قضیه حد مرکزی” نهفته است.

تصور کنید که می‌خواهیم قد متوسط دانش‌آموزان یک مدرسه را تخمین بزنیم. اگر قد هر دانش‌آموز را یک متغیر تصادفی در نظر بگیریم، توزیع این متغیر می‌تواند هر شکلی داشته باشد. اما اگر به جای یک دانش‌آموز، قد متوسط یک نمونه بزرگ از دانش‌آموزان را در نظر بگیریم، چه اتفاقی می‌افتد؟ قضیه حد مرکزی به ما می‌گوید که با افزایش اندازه نمونه، توزیع میانگین‌های نمونه به تدریج به یک توزیع نرمال نزدیک می‌شود، حتی اگر توزیع اولیه متغیر تصادفی ما هر شکلی داشته باشد.

چرا دانستن قضیه حد مرکزی مهم است؟

  • درک بهتر آمار و احتمال: این قضیه یکی از مهم‌ترین مفاهیم در آمار و احتمال است و به ما کمک می‌کند تا پدیده‌های تصادفی را بهتر درک کنیم.
  • تحلیل داده‌ها: در بسیاری از تحلیل‌های آماری، از قضیه حد مرکزی برای استنباط درباره جمعیت استفاده می‌شود.
  • تصمیم‌گیری در شرایط عدم قطعیت: این قضیه به ما کمک می‌کند تا در شرایطی که اطلاعات کامل نداریم، تصمیمات بهتری بگیریم.

در این مقاله، شما یاد خواهید گرفت:

  • قضیه حد مرکزی چیست و چه معنایی دارد؟
  • چرا توزیع نرمال اینقدر مهم است؟
  • کاربردهای قضیه حد مرکزی در دنیای واقعی
  • چگونه از این قضیه برای تحلیل داده‌های خود استفاده کنید؟

اگر به آمار و احتمال علاقه دارید و می‌خواهید درک عمیق‌تری از دنیای داده‌ها پیدا کنید، این مقاله برای شماست. با ما همراه باشید تا با استفاده از مثال‌های ساده و شبیه‌سازی‌های کامپیوتری، قضیه حد مرکزی را به طور کامل درک کنید.

به دلیل اینکه آزمون فرضیات پارامتریک عموماً بر مبنای فرض توزیع نرمال هستند، قضیه حد مرکزی یک مفهوم بسیار مهم و کلیدی برای آزمون فرضیات پارامتریک است.

مفهوم دقیق قضیه حد مرکزی

قضیه حد مرکزی به اینصورت تعریف می‌شود که توزیع میانگین نمونه‌های با حجم‌های بالا تقریباً نرمال است. اگرچه ممکن است توزیعی که ما از آن نمونه‌گیری می‌کنیم، نرمال نباشد.

مثلاً توزیع متغیر شکل 1 را در نظر بگیرید.

شکل 1. توزیع یک متغیر

شکل 1. توزیع یک متغیر

مطابق شکل 1، توزیع این متغیر نرمال نیست و از سمت راست چولگی دارد.

فرض کنید از این توزیع 30 مشاهده به تصادف انتخاب می‌کنیم. میانگین این 30 مشاهده را محاسبه می‌کنیم. همین کار را 10000 بار انجام می‌دهیم. یعنی 10000 بار 30 تا مشاهده از توزیع انتخاب می‌کنیم و میانگین آن‌ها را حساب می‌کنیم. حالا 10000 میانگین داریم که این میانگین‌ها توزیع نرمال دارند (شکل 2).

شکل 2. توزیع متغیر اصلی و توزیع میانگین نمونه‌ها

شکل 2. توزیع متغیر اصلی و توزیع میانگین نمونه‌ها

پس ما یک توزیع داریم که مربوط به متغیراصلی است و یک توزیع هم داریم که مربوط به توزیع میانگین‌ مشاهده‌های گرفته‌ شده از توزیع اصلی است. اگر حجم نمونه‌ها بزرگتر از 30 باشد، توزیع میانگین‌ها تقریباً نرمال است. هر چند توزیع متغیر اصلی نرمال نباشد. این موضوع در شکل 2 نشان داده شده است.

مثال برای قضیه حد مرکزی

توزیع احتمالات یک تاس متقارن را در نظر بگیرید. توزیع احتمالات تاس یک توزیع ثابت است. یعنی اگر این تاس را بیندازیم، احتمال اینکه هر وجه تاس بیاید کاملاً مشابه است (شکل 1).

شکل 3. توزیع احتمالات وجه‌های مختلف یک تاس

شکل 3. توزیع احتمالات وجه‌های مختلف یک تاس

در این تاس احتمال اینکه در یک پرتاب عدد 5 بیاید یک ششم است. یک ششم حدوداً 16.7 درصد می‌شود. این احتمال دقیقاً برابر با احتمال آمدن هر وجه دیگری از تاس می‌باشد.

فرض کنید یک تاس 5 بار ریخته می‌شود. در این 5 بار به ترتیب اعداد 2، 3، 4، 6 و 6 می‌آید. بنابراین، میانگین اعداد این 5 پرتاب برابر با 4.2 می‌شود.

حالا 5 بار دیگر تاس را پرتاب می‌کنیم. این بار میانگین 5 پرتاب ما 3.8 می‌شود. چون به تصادف این بار اعداد دیگری آمده است.

مجدداً 5 پرتاب دیگر انجام می‌دهیم. این بار میانگین 4.2 می‌شود. نهایتاً ما 6 مرتبه 5 پرتاب انجام می‌دهیم تا 5 میانگین بدست بیاوریم. این میانگین‌ها را در شکل 4 نشان داده‌ایم.

شکل 4. میانگین 6 مرتبه پرتاب 5 بار یک تاس

شکل 4. میانگین 6 مرتبه پرتاب 5 بار یک تاس

توزیع میانگین‌ها

به شکل 5 دقت کنید. الان ما 6 میانگین داریم که اگر دقت کنیم، می‌بینیم که این میانگین‌ها توزیع تقریباً نرمال دارند. می‌توانیم برای این میانگین‌ها هیستوگرام رسم کنیم (شکل5).

شکل 5. هیستوگرام میانگین‌ها

شکل 5. هیستوگرام میانگین‌ها

ارتفاع ستون اول سمت چپ در هیستوگرام نشان می‌دهد که بین میانگین‌ها یک عدد وجود دارد که در محدوده 3-2 است. ستون دوم نشان می‌دهد سه عدد وجود دارد که در محدوده 4-3 هستند. ستون سوم نیز نشان می‌دهد که دو عدد وجود دارد که در محدوده 5-4 هستند.

اگر منحنی توزیع نرمال را روی هیستوگرام قرار دهیم، می‌بینیم که توزیع این میانگین‌ها تقریباً نرمال است و میانگین مقادیر هم برابر با 3.5 می‌باشد (شکل 6).

"شکل

شکل 6. قرار دادن منحنی توزیع نرمال روی هیستوگرام

چرا میانگین مقادیر 3.5 می‌شود؟

چون ترکیبات عددی زیادی وجود دارد که اعدادی نزدیک به 3.5 به ما می‌دهد. در حالی‌که ترکیبات عددی کمی وجود دارد که میانگین‌های خیلی بالا یا پائین به ما بدهد.

به عنوان مثال احتمال بسیار کمی وجود دارد که میانگین 5 پرتاب اعدادی بالاتر از 5 یا 6 به ما بدهد.

بنابراین نتیجه می‌گیریم که اگرچه ما از یک جمعیت با توزیع کاملاً ثابت نمونه‌گیری انجام می‌دهیم، اما میانگین نمونه‌های ما توزیع نرمال دارند. این دقیقاً مفهوم قضیه حد مرکزی است.

نکاتی در مورد قضیه حد مرکزی

میانگین نمونه‌های اخذ شده از جمعیت همیشه توزیع نرمال ندارند. اینکه توزیع میانگین نمونه‌ها نرمال باشد بستگی به حجم نمونه و توزیع اولیه جمعیت دارد.

در این مثال، چون ما از یک جمعیت با توزیع ثابت متقارن نمونه گیری کرده‌ایم، حجم نمونه 5 برای هر نمونه کافی است تا توزیع میانگین نمونه‌های ما نرمال باشد.

حالا فرض کنید ما از یک جمعیت نامتقارن با توزیع نمایی نمونه‌گیری می‌کنیم. این جمعیت بر خلاف جمعیت دارای توزیع ثابت، انحراف زیادی از توزیع نرمال دارد و متقارن نیست (شکل 7).

شکل 7. جمعیت با توزیع نمایی

شکل 7. جمعیت با توزیع نمایی

اگر هر نمونه‌ای از این جمعیت می‌گیریم، 5 عضو داشته باشد و این کار را 10000 مرتبه تکرار کنیم. نهایتاً می‌توانیم هیستوگرام نرمال را رسم کنیم. می‌بینیم که توزیع میانگین نمونه‌ها هنوز چولگی دارد و به ظاهر مقداری از توزیع نرمال فاصله دارد (شکل 8).

شکل 8. توزیع میانگین نمونه‌ها با 5 عضو در هر نمونه

شکل 8. توزیع میانگین نمونه‌ها با 5 عضو در هر نمونه

اما اگر حجم نمونه را به 30 افزایش دهیم، توزیع میانگین نمونه‌ها تقریباً نرمال خواهد بود (شکل 9).

شکل 9. توزیع میانگین نمونه‌ها با 30 عضو در هر نمونه

شکل 9. توزیع میانگین نمونه‌ها با 30 عضو در هر نمونه

نکات مهم

قضیه حد مرکزی اینطور بیان می‌کند که میانگین نمونه‌های گرفته شده از جمعیت تقریباً دارای توزیع نرمال است، حتی اگر جمعیت اولیه توزیع نرمال نداشته باشد.

اگر حجم نمونه کم باشد و توزیع اولیه متغیر نرمال نباشد، توزیع میانگین نمونه ها نرمال نخواهد بود. هر چه حجم نمونه را افزایش دهیم، توزیع میانگین نمونه‌ها به توزیع نرمال نزدیکتر خواهد شد.

هر چه جمعیت اولیه ما از توزیع نرمال انحراف بیشتری داشته باشد، برای برقراری مفروض نرمالیتی، ما به حجم نمونه بیشتری نیاز داریم مثلاً اگر جمعیت اولیه ما توزیع نمایی داشته باشد نسبت به زمانی که توزیع جمعیت اولیه ثابت باشد، به حجم نمونه بیشتری برای برقراری مفروض نرمالیتی نیاز داریم.

برای اینکه بتوانیم فرض کنیم مقادیر میانگین نمونه‌ها دارای توزیع نرمال است، به عنوان یک قانون کلی می توانیم حجم نمونه 30 به بالارا در نظر بگیریم.

رسول محمدی

برای مشاوره یا انجام پژوهش‌های آماری در تلگرام یا ایتا با شماره 09384226738 بطور مستقیم با من در ارتباط باشید.

دیدگاهتان را بنویسید

نشانی ایمیل شما منتشر نخواهد شد. بخش‌های موردنیاز علامت‌گذاری شده‌اند *

1 × چهار =