15‏/02‏/2016

تحليل التباين

تحليل التباين (analysis of variance ــ ANOVA) هو مجموعة من النماذج الإحصائية (statistical model) مع إجرائيان مرافقة لهذه النماذج تمكن من مقارنة  المتوسطات  لمجتمعات إحصائية مختلفة عن طريق تقسيم التباين variance الكلي الملاحظ بينهم إلى أجزاء مختلفة.
    أول طرق تحليل التباين تم وضعها من قبل الإحصائي رونالد فيشر في العشرينات والثلاثينات من القرن العشرين لذلك تعرف أحيانا بتحليل فيشر للتباين.
    قد سبق دراسة اختبارات الفروض لتساوي متوسطي مجتمعين ولكن هناك دراسات لتساوي متوسطات ثلاث مجتمعات أو أكثر، وهل يمكن التعميم لأكثر من مجتمعين، نعم قد يكون ذلك ولكن وجود ثلاث عقبات رئيسية تجعلنا البحث عن طريقة أخرى وهذه الثلاث عقبات هي:
1) الجهد المبذول في المقارنة بين كل مجتمعين وخاصة إذا كثر عدد المجموعات الثنائية والتي عددها يحدد من  ن ق ر = ن(ن – 1) ÷ 2
2) إذا كان لدينا العديد من المستويات فالمقارنة الثنائية بينهم تفقد الكثير من المعلومات المتوفرة لدينا عن المجتمع محل الدراسة وهو ما ينقص من دقة تقدير معالم المجتمع.
3) إن كثرة المستويات ينقص بشكل ملحوظ  القيمة (1 – α)ن ما يزيد في قيمة حيث P = 1 – (1– α )n حيث α الخطأ من النوع الأول.
    فإن كنا بصدد اختبار تساوي متوسطات لخمس مجتمعات بمستوى معنوية 0.05 فاحتمال الحصول على قرار صحيح بعدم وجود فرق معنوي واحد لكل اختبار هو 0.95 وعليه يكون احتمال الحصول إلى قرار صحيح بالنسبة لكل الاختبارات وعددها 10 من 5ق2 = ( 5 × 4 ) ÷ ( 2 × 1 ) = 10 يساوي (0.95)10 = 0.4013 مما يؤدى لاحتمال القرار الخاطئ (α) يساوي 1 – (0.95)10 = 0.4013 ويزداد بزيادة عدد المجتمعات (احتمال الوقوع في الخطأ من النوع الأول) لا بد من أسلوب آخر لاختبار تساوي المتوسطات يعرف بتحليل التباين ( Analysis of variance ) أو ANOVA  الذي قدمه العالم فيشر (Ronald A.Fisher) كأسلوب لتحليل البيانات للتجارب المختلفة وهو عبارة عن مجموعة من الطرق الإحصائية المساعدة لاختبارات الفروض أبسطها one-way ANOVA.
تحليل التباين الأحادي ( مستوى واحد)                    تحليل التباين الأحادي ( أكثر من مستوى واحد )                       
    هو طريقة لاختبار معنوية الفرق بين المتوسطات لعدة عينات بمقارنة واحدة، ويعرف أيضاً بطريقة تؤدي لتقسيم الاختلافات الكلية لمجموعة من المشاهدات التجريبية لعدة أجزاء للتعرف على مصدر الاختلاف بينها ولذا فالهدف هنا فحص تباين المجتمع لمعرفة مدى تساوى متوسطات المجتمع ولكن لا بد من تحقيق ثلاثة أمور قبل استخدامه وهي:
1) العينات عشوائية ومستقلة.
2) مجتمعات هذه العينات كلاً لها توزيع طبيعي.
3) تساوي تباين المجتمعات التي أخذت منها العينات العشوائية المستقلة.
 ولتوضيح ما سبق بمقارنة متوسطات ثلاث مجتمعات باستخدام ثلاث عينات (تحقق فيها الشروط  الثلاثة السابقة) موضحة بالجدول الآتي:

العينة الثالثةالعينة الثانيةالعينة الأولى
33
32
33.5
31.5
27
28
26.5
26.5
40
41
40.5
38.5

`X3 = 32.5
S3 = 0.91

`X2= 27
S2 = 0.71

`X1 = 40
S1 = 1.08

السؤال: هل في البيانات ما يكفي لوجود فرق بين المتوسطات؟
الجواب: نعم (بمجرد النظر) فالتشتت (التباين) ظاهر 40، 27، 32.5 (المتوسطات) بمقارنته بالتشتت بين العينات (وحداتها 40 ، 41 ، 40.5، 38.5) فيبدو معدوماً.
إذا أخذنا البيانات الآتية:
العينة الثالثةالعينة الثانيةالعينة الأولى
10
60
27.5
50
20
11
40
15
65
`X3 = 32.5
S3 =25.4
`X2= 27
S2 =20.4
`X1 = 40
S1 = 25

    فالبيانات هنا لها نفس المتوسطات في البيانات السابقة ولكن التشتت (داخل لعينات) كبيراً بما هو عليه في المتوسطات.
فالدليل على وجود الفرق بين متوسطات الجدول الأول واضح ولا يظهر ذلك بوضوح في بيانات الجدول الثاني بالرغم من تساوي المتوسطات في الحالتين ولذا يتبين لنا القصد من تحليل التباين والذي يعني الفرق بين المتوسطات والذي يقاس بالتشتت داخل البيانات.

اختبار تساوي أكثر من متوسطين
    ليكن لدينا الاختبار التالي:
Ho : μ1 = μ2 = μ3 = ... μk   ,    H1 : عدم تساوي متوسطين على الأقل
وبفرض أن العينات مأخوذة من مجتمعات طبيعية ولها نفس التباين، فلاختبار يرتكز على مقارنة التباين داخل العينات وبينها بتقدير التباين المشترك بطريقتين فالأولى لا تعتمد على صحة أو عدم صحة الفرض الصفري بينما تتأثر الطريقة الثانية بالفرض الصفري فإن تبين خلاف معنوي بين الطريقتين (في التقدير) أخذنا بعدم صحة الفرض الصفري لأن عدم تساوي المتوسطات قد أثر على التقدير الثاني فتسبب في تجاوزه التقدير الأول فرفض Ho ونفصل ذلك بتقديرين للتباين σ2 كالآتي:

للتبسيط لنأخذ عينات من المجتمعات محل الدراسة لها نفس الحجم وحيث أن التباين في المجتمعات متماثل فنقدر التباين σبمتوسط التباينات في العينات أي أن:
ويرمز لهذا التقدير بالرمز Sw2 لكونه يمثل التباين داخل المجموعات (Within Group) أي:
    وفي حالة تساوي حجم العينات. ويلاحظ عدم اعتماد هذا التقدير على صحة أو عدم صحة Ho لأن كل تباين Si2 محسوب بطريقة مستقلة عن الآخرين وبافتراض صحة Hoفيعني أن العينات مأخوذة من مجتمع واحد، ونعلم تباين المتوسطات مأخوذة من مجتمع تباينه σ2 ويساوي σ2 / وتقديره:
حيث يمثل   ̿X المتوسط الكلي للمتوسطات وعليه فيمكن تقدير σ2 بضرب S`x2 بالحجم المشترك للعينات 'n أي:
وهذا يمثل التباين بين المجموعات ( Between Group ) وهذان التقديران للتباين المشترك σأحدهم لا يعتمد على صحة أو عدم صحة H0 في حين الآخر يجب صحة H0أي أن جميع العينات المأخوذة يجب أن تكون من نفس المجتمع فتطابق التقديرين يعني صحة H0 وإلا تعارضت البيانات مع H0 ويجب أن نعلم أن اختلاف حجم العينات يجعل قيمة التقدير الأول Sw2 كالآتي:

وهو امتداد لتقدير المجتمع واستخدم للاستدلال الإحصائي لمتوسطين حال تساوي تباين المجتمعين ويكون التقدير الثاني كالآتي:
ويمكن استخدم الصيغ التالية:
النسبة بين التقديرين SB2 ، Sw2  تعرف بتوزيع F وهو توزيع ملتو جهة اليمين بمعلمتين تتمثلان بدرجتي حرية (البسط ، المقام) وهما k – 1 للبسط ، n – k للمقام حيث  nمجموع إحجام العينات، فإذا كان لدينا اختبار لقياس معنوية الفرق بين التقديرين (F) نوجد Fα حيث α مستوى المعنوية المستخدم للفرضية H0 التي ترفض إذا كان F > Fαوإلا نؤكد بوجود الاختلاف بين المتوسطات، والشكل التالي يبين توزيع F.
منحنى توزيع F حسب درجات الحرية

جدول تحليل التباين
    إذا أردنا إجراء اختبار فروض بين متوسطات عددها من العينات العشوائية المستقلة وبفرض n1 عدد مفردات العينة الأولى ، n2 عدد مفردات العينة الثانية ، ...، nk عدد مفردات العينة k وأن Xji للقيمة المفردة الموجودة i في العينة وسنضع ذلك في الجدول التالي لبيانات العينات في تحليل التباين:

   العينة       المشاهدات 
Sample 1Sample 2Sample ...Sample k
1
2
:
N
X11
X12
:
X1n1
X21
X22
:
X2n2
:
:
:
:
Xk1
Xk2
:
Xknk
مجموع مفردات العينةT1T2Tk
= عدد المشاهدات الكلي
N = n1 + n2 + ... + nk
المجموع الكلي (العام)ـ
T = T1 + T2 + ... + Tk

من الجدول يتبين لنا:
1) الانحراف بين قيمة المشاهدة والمتوسط الحسابي العام وهو الانحراف الكلي ويرمز له (..Xji – `) حيث i = 1, 2, ..., k ( للعينات ) ، j = 1, 2, ..., n  (للمشاهدات).
2) الاختلاف بين المتوسط الحسابي بكل عينة والمتوسط الحسابي العام  (..Xji – `) وهو الانحراف بين العينات ويرجع لأسباب عشوائية حال عدم الاختلاف للعامل المؤثر
     بين العينات وإلا فالاختلاف يرجع للأسباب العشوائية بجانب تأثير هذا العامل.
3) الاختلاف بين قيمة كل مشاهدة داخل العينة والمتوسط الحسابي  ( Xji – `Xi ) وهو الانحراف داخل العينات ويرجع هذا الاختلاف لأسباب عشوائية بحتة.

بناء على ما سبق يمكن النظر للجدول التالي (جدول تحليل التباين) الذي يبين الخطوات اللازمة لحساب F (قيمة إحصائية الاختبار) حيث K عدد مستويات المتغير المستقل:

مصدر التباين
Source of Variance
مجموع المربعات
Sum of squares (SS)
درجات الحرية
df
متوسط مجموع المربعات أو التباين
Mean squares (MS)
F (المحسوبة)
Calculated
F (الجدولية)
Tabulated (Sig.)
بين المجموعات
Between Groups
SSB
– 1
 SB2
 SB2 / SW2


Fα (K – 1) ,  (N – K)


داخل المجموعات
Within Groups (Error)
SSW
– K
SW2
المجموع
Total
SST = SSB + SSW
– 1


مثال:
    في دراسة لتأثير وجود الطلاب في الصفوف على تحصيلهم في مادة الإحصاء، قام أستاذ الإحصاء بأخذ عينات عشوائية ومستقلة من ثلاثة صفوف (يقوم بتدريسها) كل منها مكون من خمسة طلاب وقام الأستاذ برصد درجاتهم والجدول التالي يبينها. بمستوى معنوية α = 0.05 اختبر ما إذا كان متوسط النتائج في اختبارات الأداء يختلف في تحصيل الطلاب.
Class 1Class 2Class 3
669658
658762
886677
925590
607880

الحل:                 حل آخر             الحل باستخدام SPSS                   الحل باستخدام MINITAB                     الحل باستخدام EXCEL                         الحل باستخدام SAS
  لكل الحلول:   الاختبار: H0 : μ1 = μ2 = μ3   (الفرضية الصفرية)  ،      متوسطان على الأقل غير متساويين : H1    (الفرضية البديلة)
    نستكمل الجدول كالآتي:
Class 1Class 2Class 3
X1X12X2X22X3X32
664356969216583364
654225877569623844
887744664356775929
928464553025908100
603600786084806400
  T1 = 371, T12 = 137641
28389
  T2 = 382, T22 = 145924
30250
  T3 = 367, T32 = 134589
27637

T = T1 +  T2 +  T3 = 371 +382 + 367 =1120    ,     T2 = 1254400        ,     n1 = n2 = n3 = 5     ,    N = 15


SSB = 137641 / 5 + 145924 / 5 + 134689 / 5 – 1254400 / 15
        = 418254 / 5 – 1254400 / 15
        = 83650.8 – 83626.7
        = 24.1
SSW = ∑X12 +  ∑X22 +  ∑X32 – 83650.5
         =  28389 + 30250 + 27637 – 83650.5
         = 86276 – 83650.5
         = 2625.5
SB2 = 24.1 / (3 – 1) = 12.1
SW2 = 2625.5 / (15 – 3) = 218.8
F = SB2 / SW2
F = 12.05 / 218.8
F = 0.055 < 3.89 = Fα(2 , 12)
جدول النتائج
مصدر التباين
Source of Variance
مجموع المربعات
Sum of squares (SS)
درجات الحرية
df
متوسط مجموع المربعات أو التباين
Mean squares (MS)
F (المحسوبة)
Calculated
F (الجدولية)
Tabulated
بين المجموعات
Between Groups
SSB = 24.1
– 1 = 3 – 1 = 2
 SB2 = 24.1/2 = 12.05
 SB2 / SW2
12.05/218.5
0.055
Fα (K – 1) ,  (N – K)

3.89
أنظر الجدول أدناه
باللون الأصفر
داخل المجموعات
Within Groups (Error)
SSW = 2625.5
– K = 15 – 3 = 12
SW2 = 2625.5/12 = 218.8
المجموع
Total
SST = SSB + SSW
           = 2649.6
– 1 = 15 – 1 = 14
t-font-family:"Times New Roman";mso-bidi-font-family:"Times New Roman"'>= 2649.6
– 1 = 15 – 1 = 14
  
  إن قيمة F المحسوبة أقل من قيمة F الجدولية ولذا نقبل الفرضية الصفرية عند α = 0.05 بعدم وجود اختلاف بين المتوسطات.
حل آخر
سنستخدم الصيغ:
Within groups ( SW2 )
Between groups  ( SB2 )
Variance ( S2 )

نكون الجدول الآتي:

Class 1
Class 2
Class 3
X1
X1 – `X1
(X1 – `X1)2
X2
X2 – `X2
(X2 – `X2)2
X3
X3 – `X3
(X3 – `X3)2
66
– 8.2
67.24
96
19.6
 384.16
58
– 15.4
 237.16
65
– 9.2
84.64
87
10.6
 112.36
62
– 11.4
 129.96
88
13.8
190.44
66
– 10.4
 108.16
77
3.6
 12.96
92
17.8
316.84
55
– 21.4
 457.96
90
16.6
 275.56
60
– 14.2
201.64
78
1.6
 2.56
80
6.6
43.56
371

860.8
382

1065.2
367

699.2
`X1= 74.2
 S12 = 860.8/4 = 215.2
  `X2= 76.4
S22 = 1065.2/4 = 266.3
`X3= 73.4
 S32 = 699.2/4 = 174.8
باستخدام الصيغ السابقة نجد أن:
 SW2  = ( S12 + S22 + S32 ) / K
         = ( 215.2 + 266.3 + 174.8) / 3
         = 218.77
̿X = (74.2 + 76.4 + 73.4) / 3 = 74.667
 SB2  =5 [74.2 – 74.227 )2 + (  76.4 – 74.667 )2 + ( 73.4 – 74.667 )2 ] / ( 3 – 1 )
         = 5( 0.218 + 3.003 + 1.605) / 2
         = 24.13 / 2
         = 12.065
F = SB2 /  SW2
   = 12.065 / 218.77
   = 0.055 < 3.89

   إن قيمة F المحسوبة أقل من قيمة F الجدولية ولذا نقبل الفرضية الصفرية عند α = 0.05 بعدم وجود اختلاف بين المتوسطات.