معیارهای پراکندگی (انحراف استاندارد)
در این مقاله در مورد معیاری از پراکندگی دادهها به نام انحراف استاندارد (Standard Deviation) صحبت میکنیم. قبلاً در طی مقالهای معیارهای دیگری از پراکندگی دادهها را شامل محدوده دادهها، دامنه میان چارکی و نمودار باکس پلات را بررسی کردهایم.
انحراف استاندارد
انحراف استاندارد با استفاده از فرمول زیر بدست می آید.
اجزای فرمول به شرح زیر است:
n، حجم نمونه
Xi، ارزش مشاهده X در جایگاه i
ایکس-بار: میانگین مقادیر
مثال
فرض کنید ارتفاع سه گیاه را اندازهگیری کردهاید. ارتفاع این سه گیاه به ترتیب 3، 4 و 6 سانتیمتر است (شکل 1).
شکل 1. نمایش ارتفاع گیاه روی نمودار
برای محاسبه انحراف استاندارد باید مراحل زیر را انجام دهیم:
- محاسبه میانگین
میانگین از جمع مقادیر تقسیم بر تعداد آنها حاصل میشود. در مثال ما میانگین عدد 4 بدست آمد.
- محاسبه مجموع مربعات
حالا باید تفاوت هر یک از نقاط را نسبت به میانگین محاسبه و به توان دو برسانیم. در شکل 2 فاصله نقاط نسبت به میانگین را نشان دادهایم. همچنین فاصله هر نقطه نسبت به میانگین را ابتدا محاسبه و سپس به توان دو رساندیم. نهایتاً مجموع مجذور تفاوتها از میانگین را محاسبه کردیم که عدد 8 بدست آمد. عدد 8 در صورت کسر واریانس قرار میگیرد.
شکل 2. نحوه محاسبه مجموع مربعات
- محاسبه انحراف استاندارد
در نهایت عدد 8 را تقسیم بر درجه آزادی میکنیم و از آن جذر میگیریم تا واریانس بدست آید. نهایتاً از واریانس جذر میگیریم.
میانگین همراه با انحراف استاندارد
اگر انحراف استاندارد را به علاوه-منهای میانگین کنیم، یک بازه بدست میآید. برای مثال ما میتوانیم میانگین و انحراف استاندارد را به شکل زیر بنویسیم.
اگر عدد 4 را یکبار با عدد 2 جمع کنیم و بار دیگر 2 را از 4 کم کنیم یک بازه حاصل میشود. این بازه را میتوان روی یک نمودار میلهای مانند شکل 3 نشان داد.
شکل 3. نمایش میانگین و انحراف معیار روی نمودار ستونی
اگر توزیع دادههای ما نرمال باشد، میتوانیم این بازه را به این صورت تفسیر کنیم که حدود 68 درصد از دادهها در محدوده یک انحراف استاندارد از میانگین قرار میگیرند. چون در این مثال 3 عدد بیشتر نداشتیم، تصور این موضوع کمی مشکل است. اجازه دهید با یک مثال دیگر مطلب را بهتر شرح بدهیم.
مثال
تصور کنید ارتفاع 70 گیاه را اندازه گیری کرده و روی یک نمودار ستونی نمایش دادهایم (شکل 4).
شکل 4. نمایش میانگین و انحراف معیار روی نمودار ستونی
الان میتوانیم ارور بار را به این شکل تفسیر کنیم که حدود 68 درصد از اعداد بین محدوده ارور بار قرار می گیرند. مقدار 68% را از خصوصیات توزیع نرمال گرفتهایم. توزیع نرمال را در جلسه جداگانهای بطور مفصل بررسی کردهایم.
واریانس
واریانس نمونه را میتوانیم از فرمول زیر بدست آوریم.
به عبارت دیگر، واریانس از مجموع توان دوم انحرافها از میانگین تقسیم بر درجه آزادی حاصل میشود. نکتهای باید توجه کنیم این است که عموماً برای اندازهگیری پراکندگی از انحراف استاندارد که ریشه دوم واریانس است استفاده میکنیم. چون مقیاس آن مشابه با مقیاس دادهها است.
بررسی پراکندگی داده ها: انحراف استاندارد یا دامنه میان چارکی؟
انتخاب بین انحراف استاندارد و دامنه میان چارکی دقیقاً به این موضوع ارتباط دارد که برای کمیت تمایل به مرکز از میانگین استفاده کنیم یا از میانه؟ یعنی میانگین همیشه با انحراف استاندارد و میانه با دامنه میان چارکی گزارش میشود.
به عبارت بهتر، چنانچه دادههای ما انحراف مشخصی از توزیع نرمال نداشته باشد و توزیع دادههای ما متقارن باشد، از میانگین و انحراف معیار استفاده میکنیم.
اما اگر دادههای ما دارای چولگی یا کشیدگی باشد یا در دادههای ما مشاهدههای پرت یا دورافتاده وجود دارد، از میانه و دامنه میان چارکی استفاده میکنیم.
نکتهای باید توجه کنیم این است محدوده یک انحراف معیار از میانگین حدود 68 % از دادهها قرار دارد. در حالی در محدوده دامنه میان چارکی 50 % از اعداد قرار میگیرد.
نظرات :