معیارهای پراکندگی (محدوده دادهها، دامنه میان چارکی، نمودار جعبهای)
در این مقاله معیارهای پراکندگی شامل محدوده دادهها (Range)، دامنه میان چارکی (IQR) و نمودار جعبهای (Boxplot) را بررسی میکنیم. در مقاله دوم پراکندگی با انحراف معیار (Standard Deviation) آشنا میشویم.
تعریف پراکندگی
پراکندگی در دادهها یعنی چقدر مقادیر ما به هم نزدیک یا از هم دور هستند. معیارهای مختلفی برای پراکندگی مقادیر وجود دارد که در ادامه با هم بررسی میکنیم.
پراکندگی (محدوده داده ها)
محدوده دادهها شامل اختلاف بین کوچکترین و بزرگترین عدد است. چنانچه این اختلاف زیاد باشد، پراکندگی زیاد و اگر این اختلاف کم باشد پراکندگی کم است. به عنوان مثال به شکل 1 دقت کنید. مقادیر وزن دو نمونه را روی نمودار نشان دادهایم.
شکل 1. نمایش محدوده دادهها روی نمودار پراکنش
تفاوت بین دو نمودار ناشی از این است که در نمونه سمت چپ کودکان هم جز نمونه ما هستند. در حالیکه در نمونه سمت راست فقط بزرگسالان حضور دارند. در نمودار سمت چپ اختلاف بین کوچکترین و بزرگترین عدد 95 و در نمودار دوم این اختلاف 50 است. پس نمونه سمت چپ محدوده بزرگتری نسبت به نمونه سمت راست دارد.
محاسبه محدوده دادهها
برای محاسبه محدوده دادهها، کوچکترین عدد را از بزرگترین عدد کم میکنیم (شکل 2).
شکل 2. نحوه محاسبه محدوده دادهها
مطابق شکل 3، با کسر کوچکترین عدد از بزرگترین عدد، مقدار محدوده اعداد بدست میآید.
پراکندگی (دامنه میان چارکی)
دامنه میانگین چارکی از تفاوت بین چارک سوم (Q3) و چارک اول (Q1) حاصل میشود و پراکندگی مقادیر را به این روش نشان میدهد. بطور کلی چارک از تقسیم داده ها به چهار قسمت حاصل میشود.
مثلاً اعداد زیر را در نظر بگیرید.
برای محاسبه دامنه میان چارکی، ابتدا باید اعداد را به چهار قسمت تقسیم کنیم. چون ما هشت عدد داریم، میتوانیم طوری تقسیم بندی را انجام دهیم، که در هر قسمت دو عدد قرار گیرد (شکل 3).
شکل 3. تقسیم دادهها به چهار قسمت
بخش Q1، چارک اول، Q2، چارک دوم یا میانه و Q3 چارک سوم را نشان میدهد.
چون تعداد اعداد ما زوج است از میانگین دو مقدار وسط به عنوان میانه استفاده میکنیم. یعنی اگر از عدد پنج و ششم میانگین بگیریم، میانه ما عدد 5.5 بدست میآید.
اگر چهار عدد پائینتر از میانه را در نظر بگیریم و باز هم میانه آنها را محاسبه کنیم، چارک اول بدست میآید. حالا اگر چهار عدد بالاتر از میانه را در نظر بگیریم و مجدداً میانه این اعداد را هم محاسبه کنیم، چارک سوم بدست میآید.
دامنه میان چارکی محدودهای است که 50% اعداد در آن محدوده واقع میشوند. در این مثال، 50 درصد از اعداد در محدوده 3.5 تا 8.5 قرار میگیرد.
شکل 4. نحوه محاسبه دامنه میان چارکی
پراکندگی (نمودار جعبهای یا باکس پلات)
نمودار جعبهای یا باکس پلات روش گرافیکی است که میانه، چارکها و محدوده اعداد را همزمان نشان میدهد. شکل 5 یک نمونه از باکس پلات را نشان میدهد.
شکل 5. باکس پلات
دادههای پرت در باکس پلات
مقادیر پرت در خارج از نمودار باکس پلات با نقطه یا ستاره نشان داده میشوند. اگر عددی از 1.5 برابر طول باکس فاصلهاش نسبت به باکس بیشتر باشد، در خارج از باکس پلات ظاهر میشود. در حالیکه اگر عددی از 3 برابر طول باکس فاصلهاش نسبت به باکس بیشتر باشد، با ستاره (*) نشان داده میشود.
اجزای مختلف باکس پلات
انتهاییترین بخش نمودار باکس پلات از پائین، کمترین عدد را نشان میدهد. بالاترین قسمت نمودار بزرگترین عدد را نشان میدهد. فاصله بین دو انتهای نمودار محدوده اعداد است. بالاترین قسمت جعبه، چارک سوم و پائینترین قسمت جعبه چارک اول را نشان میدهد. طول جعبه وسط دامنه میانگین چارکی را نشان میدهد. خط وسط جعبه نمایانگر میانه است.
چارکها و صدکها در باکس پلات
شکل 6. چارکها و صدکها روی نمودار باکس پلات
مطابق شکل 6، در نمودار باکس پلات ما میتوانیم چارکها را بصورت صدک نیز نمایش دهیم. چارک اول، معادل صدک 25 ام است. یعنی در نمودار باکس پلات، 25 درصد از دادهها از 3.5 کمتر هستند. چارک سوم معادل صدک 75 ام است. یعنی 75 درصد از مقادیر کمتر از 8.5 هستند. 50 درصد از دادهها نیز مقداری بین 3.5 تا 8.5 دارند.
نظرات :