۰۹۳۸۴۲۲۶۷۳۸

معیارهای پراکندگی (محدوده داده‌ها، دامنه میان چارکی، نمودار جعبه‌ای)

در این مقاله معیارهای پراکندگی شامل محدوده داده‌ها (Range)، دامنه میان چارکی (IQR) و نمودار جعبه‌ای (Boxplot) را بررسی می‌کنیم. در مقاله دوم پراکندگی با انحراف معیار (Standard Deviation) آشنا می‌شویم.

تعریف پراکندگی

پراکندگی در داده‌ها یعنی چقدر مقادیر ما به هم نزدیک یا از هم دور هستند. معیارهای مختلفی برای پراکندگی مقادیر وجود دارد که در ادامه با هم بررسی می‌کنیم.

پراکندگی (محدوده داده ها)

محدوده داده‌ها شامل اختلاف بین کوچکترین و بزرگترین عدد است. چنانچه این اختلاف زیاد باشد، پراکندگی زیاد و اگر این اختلاف کم باشد پراکندگی کم است. به عنوان مثال به شکل 1 دقت کنید. مقادیر وزن دو نمونه را روی نمودار نشان داده‌ایم.

شکل 1. نمایش محدوده داده‌ها روی نمودار پراکنش

شکل 1. نمایش محدوده داده‌ها روی نمودار پراکنش

تفاوت بین دو نمودار ناشی از این است که در نمونه سمت چپ کودکان هم جز نمونه ما هستند. در حالی‌که در نمونه سمت راست فقط بزرگسالان حضور دارند. در نمودار سمت چپ اختلاف بین کوچکترین و بزرگترین عدد 95 و در نمودار دوم این اختلاف 50 است. پس نمونه سمت چپ محدوده بزرگتری نسبت به نمونه سمت راست دارد.

محاسبه محدوده داده‌ها

برای محاسبه محدوده داده‌ها، کوچکترین عدد را از بزرگترین عدد کم می‌کنیم (شکل 2).

شکل 2. نحوه محاسبه محدوده‌ داده‌ها

شکل 2. نحوه محاسبه محدوده‌ داده‌ها

مطابق شکل 3، با کسر کوچکترین عدد از بزرگترین عدد، مقدار محدوده اعداد بدست می‌آید.

پراکندگی (دامنه میان چارکی)

دامنه میانگین چارکی از تفاوت بین چارک سوم (Q3) و چارک اول (Q1) حاصل می‌شود و پراکندگی مقادیر را به این روش نشان می‌دهد. بطور کلی چارک از تقسیم داده ها به چهار قسمت حاصل می‌شود.

مثلاً اعداد زیر را در نظر بگیرید.

داده‌ها

برای محاسبه دامنه میان چارکی، ابتدا باید اعداد را به چهار قسمت تقسیم کنیم. چون ما هشت عدد داریم، می‌‌توانیم طوری تقسیم بندی را انجام دهیم، که در هر قسمت دو عدد قرار گیرد (شکل 3).

شکل 3. تقسیم داده‌ها به چهار قسمت

شکل 3. تقسیم داده‌ها به چهار قسمت

بخش Q1، چارک اول، Q2، چارک دوم یا میانه و Q3 چارک سوم را نشان می‌دهد.

چون تعداد اعداد ما زوج است از میانگین دو مقدار وسط به عنوان میانه استفاده می‌کنیم. یعنی اگر از عدد پنج و ششم میانگین بگیریم، میانه ما عدد 5.5 بدست می‌آید.

اگر چهار عدد پائین‌تر از میانه را در نظر بگیریم و باز هم میانه آن‌ها را محاسبه کنیم، چارک اول بدست می‌آید. حالا اگر چهار عدد بالاتر از میانه را در نظر بگیریم و مجدداً میانه این اعداد را هم محاسبه کنیم، چارک سوم بدست می‌آید.

دامنه میان چارکی محدوده‌ای است که 50% اعداد در آن محدوده واقع می‌شوند. در این مثال، 50 درصد از اعداد در محدوده 3.5 تا 8.5 قرار می‌گیرد.

شکل 4. نحوه محاسبه دامنه میان چارکی

شکل 4. نحوه محاسبه دامنه میان چارکی

پراکندگی (نمودار جعبه‌ای یا باکس پلات)

نمودار جعبه‌ای یا باکس پلات روش گرافیکی است که میانه، چارک‌ها و محدوده اعداد را همزمان نشان می‌دهد. شکل 5 یک نمونه از باکس پلات را نشان‌ می‌دهد.

شکل 5. باکس پلات

شکل 5. باکس پلات

داده‌های پرت در باکس پلات

مقادیر پرت در خارج از نمودار باکس پلات با نقطه یا ستاره نشان داده‌ می‌شوند. اگر عددی از 1.5 برابر طول باکس فاصله‌اش نسبت به باکس بیشتر باشد، در خارج از باکس پلات ظاهر می‌شود. در حالی‌که اگر عددی از 3 برابر طول باکس فاصله‌اش نسبت به باکس بیشتر باشد، با ستاره (*) نشان داده‌ می‌شود.

اجزای مختلف باکس پلات

انتهایی‌ترین بخش نمودار باکس پلات از پائین، کمترین عدد را نشان می‌دهد. بالاترین قسمت نمودار بزرگترین عدد را نشان می‌دهد. فاصله بین دو انتهای نمودار محدوده اعداد است. بالاترین قسمت جعبه، چارک سوم و پائین‌ترین قسمت جعبه چارک اول را نشان می‌دهد. طول جعبه وسط دامنه میانگین چارکی را نشان می‌دهد. خط وسط جعبه نمایانگر میانه است.

چارک‌ها و صدک‌ها در باکس پلات

شکل 6. چارک‌ها و صدک‌ها روی نمودار باکس پلات

شکل 6. چارک‌ها و صدک‌ها روی نمودار باکس پلات

مطابق شکل 6، در نمودار باکس پلات ما می‌توانیم چارک‌ها را بصورت صدک نیز نمایش دهیم. چارک اول، معادل صدک 25 ام است. یعنی در نمودار باکس پلات، 25 درصد از داده‌ها از 3.5 کمتر هستند. چارک سوم معادل صدک 75 ام است. یعنی 75 درصد از مقادیر کمتر از 8.5 هستند. 50 درصد از داده‌ها نیز مقداری بین 3.5 تا 8.5 دارند.

دیدگاهتان را بنویسید

نشانی ایمیل شما منتشر نخواهد شد. بخش‌های موردنیاز علامت‌گذاری شده‌اند *