مروان أحمد طاهات MANT: تحليل التباين

تحليل التباين (analysis of variance ــ ANOVA) هو مجموعة من النماذج الإحصائية (statistical model) مع إجرائيان مرافقة لهذه النماذج تمكن من مقارنة المتوسطات لمجتمعات إحصائية مختلفة عن طريق تقسيم التباين variance الكلي الملاحظ بينهم إلى أجزاء مختلفة.

أول طرق تحليل التباين تم وضعها من قبل الإحصائي رونالد فيشر في العشرينات والثلاثينات من القرن العشرين لذلك تعرف أحيانا بتحليل فيشر للتباين.

قد سبق دراسة اختبارات الفروض لتساوي متوسطي مجتمعين ولكن هناك دراسات لتساوي متوسطات ثلاث مجتمعات أو أكثر، وهل يمكن التعميم لأكثر من مجتمعين، نعم قد يكون ذلك ولكن وجود ثلاث عقبات رئيسية تجعلنا البحث عن طريقة أخرى وهذه الثلاث عقبات هي:

1) الجهد المبذول في المقارنة بين كل مجتمعين وخاصة إذا كثر عدد المجموعات الثنائية والتي عددها يحدد من ^نق_ر = ن(ن – 1) ÷ 2

2) إذا كان لدينا العديد من المستويات فالمقارنة الثنائية بينهم تفقد الكثير من المعلومات المتوفرة لدينا عن المجتمع محل الدراسة وهو ما ينقص من دقة تقدير معالم المجتمع.

3) إن كثرة المستويات ينقص بشكل ملحوظ القيمة (1 – α)^ن ما يزيد في قيمة P حيث P = 1 – (1– α )ⁿحيث α الخطأ من النوع الأول.

فإن كنا بصدد اختبار تساوي متوسطات لخمس مجتمعات بمستوى معنوية 0.05 فاحتمال الحصول على قرار صحيح بعدم وجود فرق معنوي واحد لكل اختبار هو 0.95 وعليه يكون احتمال الحصول إلى قرار صحيح بالنسبة لكل الاختبارات وعددها 10 من ⁵ق₂ = ( 5 × 4 ) ÷ ( 2 × 1 ) = 10 يساوي (0.95)¹⁰ = 0.4013 مما يؤدى لاحتمال القرار الخاطئ (α) يساوي 1 – (0.95)¹⁰ = 0.4013 ويزداد بزيادة عدد المجتمعات (احتمال الوقوع في الخطأ من النوع الأول) لا بد من أسلوب آخر لاختبار تساوي المتوسطات يعرف بتحليل التباين ( Analysis of variance ) أو ANOVA الذي قدمه العالم فيشر (Ronald A.Fisher) كأسلوب لتحليل البيانات للتجارب المختلفة وهو عبارة عن مجموعة من الطرق الإحصائية المساعدة لاختبارات الفروض أبسطها one-way ANOVA.

تحليل التباين الأحادي ( مستوى واحد) تحليل التباين الأحادي ( أكثر من مستوى واحد )

هو طريقة لاختبار معنوية الفرق بين المتوسطات لعدة عينات بمقارنة واحدة، ويعرف أيضاً بطريقة تؤدي لتقسيم الاختلافات الكلية لمجموعة من المشاهدات التجريبية لعدة أجزاء للتعرف على مصدر الاختلاف بينها ولذا فالهدف هنا فحص تباين المجتمع لمعرفة مدى تساوى متوسطات المجتمع ولكن لا بد من تحقيق ثلاثة أمور قبل استخدامه وهي:

1) العينات عشوائية ومستقلة.

2) مجتمعات هذه العينات كلاً لها توزيع طبيعي.

3) تساوي تباين المجتمعات التي أخذت منها العينات العشوائية المستقلة.

ولتوضيح ما سبق بمقارنة متوسطات ثلاث مجتمعات باستخدام ثلاث عينات (تحقق فيها الشروط الثلاثة السابقة) موضحة بالجدول الآتي:

العينة الثالثة	العينة الثانية	العينة الأولى
33 32 33.5 31.5	27 28 26.5 26.5	40 41 40.5 38.5
`X₃ = 32.5 S₃ = 0.91	`X₂= 27 S₂ = 0.71	`X₁ = 40 S₁ = 1.08

السؤال: هل في البيانات ما يكفي لوجود فرق بين المتوسطات؟

الجواب: نعم (بمجرد النظر) فالتشتت (التباين) ظاهر 40، 27، 32.5 (المتوسطات) بمقارنته بالتشتت بين العينات (وحداتها 40 ، 41 ، 40.5، 38.5) فيبدو معدوماً.

إذا أخذنا البيانات الآتية:

العينة الثالثة	العينة الثانية	العينة الأولى
10 60 27.5	50 20 11	40 15 65
`X₃ = 32.5 S₃ =25.4	`X₂= 27 S₂ =20.4	`X₁ = 40 S₁ = 25

فالبيانات هنا لها نفس المتوسطات في البيانات السابقة ولكن التشتت (داخل لعينات) كبيراً بما هو عليه في المتوسطات.

فالدليل على وجود الفرق بين متوسطات الجدول الأول واضح ولا يظهر ذلك بوضوح في بيانات الجدول الثاني بالرغم من تساوي المتوسطات في الحالتين ولذا يتبين لنا القصد من تحليل التباين والذي يعني الفرق بين المتوسطات والذي يقاس بالتشتت داخل البيانات.

اختبار تساوي أكثر من متوسطين

ليكن لدينا الاختبار التالي:

H_o : μ₁ = μ₂ = μ₃ = ... μ_k , H₁ : عدم تساوي متوسطين على الأقل

وبفرض أن العينات مأخوذة من مجتمعات طبيعية ولها نفس التباين، فلاختبار يرتكز على مقارنة التباين داخل العينات وبينها بتقدير التباين المشترك بطريقتين فالأولى لا تعتمد على صحة أو عدم صحة الفرض الصفري بينما تتأثر الطريقة الثانية بالفرض الصفري فإن تبين خلاف معنوي بين الطريقتين (في التقدير) أخذنا بعدم صحة الفرض الصفري لأن عدم تساوي المتوسطات قد أثر على التقدير الثاني فتسبب في تجاوزه التقدير الأول فرفض H_o ونفصل ذلك بتقديرين للتباين σ² كالآتي:

للتبسيط لنأخذ عينات من المجتمعات محل الدراسة لها نفس الحجم وحيث أن التباين في المجتمعات متماثل فنقدر التباين σ²بمتوسط التباينات في العينات أي أن:

ويرمز لهذا التقدير بالرمز S_w² لكونه يمثل التباين داخل المجموعات (Within Group) أي:

وفي حالة تساوي حجم العينات. ويلاحظ عدم اعتماد هذا التقدير على صحة أو عدم صحة H_o لأن كل تباين S_i² محسوب بطريقة مستقلة عن الآخرين وبافتراض صحة H_oفيعني أن العينات مأخوذة من مجتمع واحد، ونعلم تباين المتوسطات مأخوذة من مجتمع تباينه σ² ويساوي σ² / n وتقديره:

حيث يمثل ̿X المتوسط الكلي للمتوسطات وعليه فيمكن تقدير σ² بضرب S_`x²بالحجم المشترك للعينات 'n أي:

وهذا يمثل التباين بين المجموعات ( Between Group ) وهذان التقديران للتباين المشترك σ²أحدهم لا يعتمد على صحة أو عدم صحة H₀ في حين الآخر يجب صحة H₀أي أن جميع العينات المأخوذة يجب أن تكون من نفس المجتمع فتطابق التقديرين يعني صحة H₀ وإلا تعارضت البيانات مع H₀ ويجب أن نعلم أن اختلاف حجم العينات يجعل قيمة التقدير الأول S_w² كالآتي:

وهو امتداد لتقدير المجتمع واستخدم للاستدلال الإحصائي لمتوسطين حال تساوي تباين المجتمعين ويكون التقدير الثاني كالآتي:

ويمكن استخدم الصيغ التالية:

النسبة بين التقديرين S_B² ، S_w² تعرف بتوزيع F وهو توزيع ملتو جهة اليمين بمعلمتين تتمثلان بدرجتي حرية (البسط ، المقام) وهما k – 1 للبسط ، n – k للمقام حيث nمجموع إحجام العينات، فإذا كان لدينا اختبار لقياس معنوية الفرق بين التقديرين (F) نوجد F_α حيث α مستوى المعنوية المستخدم للفرضية H₀ التي ترفض إذا كان F > F_αوإلا نؤكد بوجود الاختلاف بين المتوسطات، والشكل التالي يبين توزيع F.

منحنى توزيع F حسب درجات الحرية

جدول تحليل التباين

إذا أردنا إجراء اختبار فروض بين متوسطات عددها k من العينات العشوائية المستقلة وبفرض n₁ عدد مفردات العينة الأولى ، n₂ عدد مفردات العينة الثانية ، ...، n_k عدد مفردات العينة k وأن X_ji للقيمة المفردة الموجودة i في العينة j وسنضع ذلك في الجدول التالي لبيانات العينات في تحليل التباين:

→ العينة المشاهدات ↓	Sample 1	Sample 2	Sample ...	Sample k
1 2 : N	X₁₁ X₁₂ : X_1n1	X₂₁ X₂₂ : X_2n2	: _: : :	X_k1 X_k2 : X_knk
مجموع مفردات العينة	T₁	T₂		T_k
N = عدد المشاهدات الكلي	N = n₁ + n₂ + ... + n_k
المجموع الكلي (العام)ـ	T = T₁ + T₂ + ... + T_k

من الجدول يتبين لنا:

1) الانحراف بين قيمة المشاهدة والمتوسط الحسابي العام وهو الانحراف الكلي ويرمز له (..X_ji – `X ) حيث i = 1, 2, ..., k ( للعينات ) ، j = 1, 2, ..., n (للمشاهدات).

2) الاختلاف بين المتوسط الحسابي بكل عينة والمتوسط الحسابي العام (..X_ji – `X ) وهو الانحراف بين العينات ويرجع لأسباب عشوائية حال عدم الاختلاف للعامل المؤثر

بين العينات وإلا فالاختلاف يرجع للأسباب العشوائية بجانب تأثير هذا العامل.

3) الاختلاف بين قيمة كل مشاهدة داخل العينة والمتوسط الحسابي (X_ji – `Xi ) وهو الانحراف داخل العينات ويرجع هذا الاختلاف لأسباب عشوائية بحتة.

بناء على ما سبق يمكن النظر للجدول التالي (جدول تحليل التباين) الذي يبين الخطوات اللازمة لحساب F (قيمة إحصائية الاختبار) حيث K عدد مستويات المتغير المستقل:

مصدر التباين Source of Variance	مجموع المربعات Sum of squares (SS)	درجات الحرية df	متوسط مجموع المربعات أو التباين Mean squares (MS)	F (المحسوبة) Calculated	F (الجدولية) Tabulated (Sig.)
بين المجموعات Between Groups	SS_B	K – 1	S_B²	S_B² _/ S_W²	F_{α (K – 1) , (N – K)}
داخل المجموعات Within Groups (Error)	SS_W	N – K	S_W²
المجموع Total	SS_T = SS_B + SS_W	N – 1

مثال:

في دراسة لتأثير وجود الطلاب في الصفوف على تحصيلهم في مادة الإحصاء، قام أستاذ الإحصاء بأخذ عينات عشوائية ومستقلة من ثلاثة صفوف (يقوم بتدريسها) كل منها مكون من خمسة طلاب وقام الأستاذ برصد درجاتهم والجدول التالي يبينها. بمستوى معنوية α = 0.05 اختبر ما إذا كان متوسط النتائج في اختبارات الأداء يختلف في تحصيل الطلاب.

Class 1	Class 2	Class 3
66	96	58
65	87	62
88	66	77
92	55	90
60	78	80

الحل: حل آخر الحل باستخدام SPSS الحل باستخدام MINITAB الحل باستخدام EXCEL الحل باستخدام SAS

لكل الحلول: الاختبار: H₀ : μ₁ = μ₂ = μ₃ (الفرضية الصفرية) ، متوسطان على الأقل غير متساويين : H₁ (الفرضية البديلة)

نستكمل الجدول كالآتي:

Class 1		Class 2		Class 3
X₁	X₁²	X₂	X₂²	X₃	X₃²
66	4356	96	9216	58	3364
65	4225	87	7569	62	3844
88	7744	66	4356	77	5929
92	8464	55	3025	90	8100
60	3600	78	6084	80	6400
T₁ = 371, T₁² = 137641	28389	T₂ = 382, T₂² = 145924	30250	T₃ = 367, T₃² = 134589	27637

T = T₁ + T₂ + T₃ = 371 +382 + 367 =1120 , T² = 1254400 , n₁ = n₂ = n₃ = 5 , N = 15

SSB = 137641 / 5 + 145924 / 5 + 134689 / 5 – 1254400 / 15

= 418254 / 5 – 1254400 / 15

= 83650.8 – 83626.7

= 24.1

SSW = ∑X₁² + ∑X₂² + ∑X₃² – 83650.5

= 28389 + 30250 + 27637 – 83650.5

= 86276 – 83650.5

= 2625.5

S_B² = 24.1 / (3 – 1) = 12.1

S_W² = 2625.5 / (15 – 3) = 218.8

F = S_B² / S_W²

F = 12.05 / 218.8

F = 0.055 < 3.89 = F_{α(2 , 12)}

جدول النتائج

مصدر التباين Source of Variance	مجموع المربعات Sum of squares (SS)	درجات الحرية df	متوسط مجموع المربعات أو التباين Mean squares (MS)	F (المحسوبة) Calculated	F (الجدولية) Tabulated
بين المجموعات Between Groups	SS_B = 24.1	K – 1 = 3 – 1 = 2	S_B² = 24.1/2 = 12.05	S_B² _/ S_W² 12.05/218.5 0.055	F_{α (K – 1) , (N – K)} 3.89 أنظر الجدول أدناه باللون الأصفر
داخل المجموعات Within Groups (Error)	SS_W = 2625.5	N – K = 15 – 3 = 12	S_W² = 2625.5/12 = 218.8
المجموع Total	SS_T = SS_B + SS_W = 2649.6	N – 1 = 15 – 1 = 14

t-font-family:"Times New Roman";mso-bidi-font-family:"Times New Roman"'>= 2649.6

N – 1 = 15 – 1 = 14

إن قيمة F المحسوبة أقل من قيمة F الجدولية ولذا نقبل الفرضية الصفرية عند α = 0.05 بعدم وجود اختلاف بين المتوسطات.

حل آخر

سنستخدم الصيغ:

Within groups ( S_W² )	Between groups ( S_B² )	Variance ( S² )

نكون الجدول الآتي:

Class 1			Class 2			Class 3
X₁	X₁ – `X₁	(X₁ – `X₁)²	X₂	X₂ – `X₂	(X₂ – `X₂)²	X₃	X₃ – `X₃	(X₃ – `X₃)²
66	– 8.2	67.24	96	19.6	384.16	58	– 15.4	237.16
65	– 9.2	84.64	87	10.6	112.36	62	– 11.4	129.96
88	13.8	190.44	66	– 10.4	108.16	77	3.6	12.96
92	17.8	316.84	55	– 21.4	457.96	90	16.6	275.56
60	– 14.2	201.64	78	1.6	2.56	80	6.6	43.56
371		860.8	382		1065.2	367		699.2
`X₁= 74.2	S₁² = 860.8/4 = 215.2		`X₂= 76.4	S₂² = 1065.2/4 = 266.3		`X₃= 73.4	S₃² = 699.2/4 = 174.8

باستخدام الصيغ السابقة نجد أن:

S_W² = ( S₁² + S₂² + S₃² ) / K

= ( 215.2 + 266.3 + 174.8) / 3

= 218.77

̿X = (74.2 + 76.4 + 73.4) / 3 = 74.667

S_B² =5 [( 74.2 – 74.227 )² + ( 76.4 – 74.667 )² + ( 73.4 – 74.667 )² ] / ( 3 – 1 )

= 5( 0.218 + 3.003 + 1.605) / 2

= 24.13 / 2

= 12.065

F = S_B² / S_W²

= 12.065 / 218.77

= 0.055 < 3.89

إن قيمة F المحسوبة أقل من قيمة F الجدولية ولذا نقبل الفرضية الصفرية عند α = 0.05 بعدم وجود اختلاف بين المتوسطات.

15‏/02‏/2016

تحليل التباين