הטעיית מדיניות ציבורית: השוואה ושילוב של גדלי אפקט מתוקננים

מבוא

המאמר פותח בהתייחסות למגמה הגוברת בעולם החינוך לקבל החלטות מדיניות על סמך ראיות, במסגרת גישת "מה עובד" (What Works). גישה זו שואפת לבסס מדיניות חינוכית על סיכומים סטטיסטיים של מחקרים, במיוחד דרך שימוש בגודל אפקט מתוקנן ובאמצעות ניתוחים מצרפיים (מטה-אנליזה ומטה-מטה-אנליזה). הכותב מצביע על כך שמקבלי ההחלטות מסתמכים על דירוגים של תחומים חינוכיים לפי גדלי אפקט, מתוך הנחה שערכים גבוהים יותר מצביעים על השפעה חינוכית משמעותית יותר. אך סימפסון טוען כי הנחות אלו שגויות: גדלי אפקט מושפעים רבות מהחלטות תכנוניות של החוקרים, ובכך עלולים להטעות את קובעי המדיניות.

חינוך מבוסס ראיות ותנועת "מה עובד"

אחת ההנחות הרווחות כיום היא כי חינוך צריך להתבסס על ראיות, בדומה למקובל ברפואה. אך בעוד שבתחום הרפואי ישנם טיפולים אחידים ותוצאות מדידות באופן ברור, החינוך מתאפיין במורכבות רבה יותר מבחינת ההגדרות, התהליכים והתוצאות. המאמר מציין כי למרות זאת, גופים ממשלתיים מאמצים את הסיכומים המספריים של מטה-מטה-אנליזות כבסיס עיקרי למדיניות. למשל, בבריטניה נעשה שימוש נרחב ב"ערכת הכלים" של קרן ההשכלה (EEF), אשר מדרגת שיטות חינוכיות לפי גודל האפקט הממוצע.

המחבר מצביע על מגמה של "אהבת מדדים" (metricophilia), כלומר נטייה להאמין שמספרים, גם כשהם מנותקים מהקשרם, הם אמת מספקת לבסס עליה החלטות. תופעה זו עלולה להוביל לשגיאות חמורות, במיוחד כשהמספרים הללו אינם מייצגים את ההשפעה האמיתית של ההתערבויות החינוכיות.

גודל אפקט מתוקנן

גודל האפקט המתוקנן, לרוב בצורת Cohen's d, הפך לכלי המרכזי בניתוחים סטטיסטיים של השפעת התערבויות חינוכיות. הוא מחושב כהפרש בין ממוצעים מחולק בסטיית תקן, ונועד במקור לשפר את סיכויי גילוי האפקט (כלומר, את העוצמה הסטטיסטית של מחקר). סימפסון טוען כי על אף הפשטות המתמטית של חישוב גודל האפקט, השימוש בו ליצירת סיכומים השוואתיים בין מחקרים שונים דורש הבנה עמוקה של ההקשרים שבהם נוצרו הנתונים.

ההנחות של מטה-אנליזות חינוכיות

לשימוש בגודלי אפקט מתוקננים בניתוחים מצרפיים קיימות שתי הנחות עיקריות: ראשית, שגודל אפקט גדול מצביע על השפעה חינוכית רבה יותר; שנית, שניתן לשלב גודלי אפקט ממחקרים שונים כדי לקבל אומדן כללי על תחום חינוכי מסוים. המאמר מבקש להפריך הנחות אלו ולהדגים שהן אינן מתקיימות בפועל.

הפרת ההנחות של המטה-אנליזה

החלק המרכזי של המאמר מציג שלוש דרכים מרכזיות בהן מופרות ההנחות של המטה-אנליזה, באופן שמוביל להטעיה שיטתית ולא אקראית.

קבוצות השוואה

קבוצת ההשוואה במחקר התערבות היא מרכיב קריטי. כאשר מחקרים שונים משתמשים בקבוצות השוואה שונות, השוואת גודלי האפקט או שילובם הופכת לבלתי תקפה. לדוגמה, השפעה של התערבות מול "ללא התערבות" תייצר גודל אפקט גבוה יותר מהשוואה מול התערבות חלופית, אף שהשינוי בפועל עשוי להיות זהה. המאמר מציג דוגמאות רבות מהספרות בהן שולבו מחקרים בעלי קבוצות השוואה שונות, דבר שפוגע בתוקף ההשוואות.

טווח מוגבל של אוכלוסיית המדגם (range restriction)

כאשר דגימה מתבצעת מקבוצת אוכלוסייה מצומצמת, למשל תלמידים שנבחרו לפי הישגיהם הקודמים, גודל האפקט גדל באופן מלאכותי בגלל ירידה בסטיית התקן. כלומר, אותו שינוי בממוצע התוצאות יפיק גודל אפקט גבוה יותר באוכלוסייה הומוגנית. המחבר מציג סימולציות מתמטיות שמראות כיצד הטיה זו פועלת, ומדגיש כי מטה-אנליזות כמעט ואינן מתקנות על כך. הדבר יוצר מצג שווא לפיו התערבויות שמבוצעות בקבוצות מצומצמות הן אפקטיביות יותר מאחרות, אף שזה אינו בהכרח נכון.

תכנון מבחנים ומדדים

אפילו הבחירה במדד ההערכה יכולה להוביל להבדלים ניכרים בגודל האפקט. מבחנים שממוקדים יותר בהתערבות יניבו אפקטים גבוהים יותר מאשר מבחנים כלליים או סטנדרטיים. גם אורך המבחן משפיע: מבחנים ארוכים יותר מגדילים את דיוק המדידה, מה שמוביל להפחתת סטיית התקן ולעלייה מלאכותית בגודל האפקט. סימפסון מדגיש שמדובר בהחלטות מחקריות לגיטימיות שמעצבות את התוצאה, אך לא משקפות את האפקט החינוכי האמיתי של ההתערבות.

מסקנות

המאמר מסכם כי גודל האפקט המתוקנן אינו מדד ישיר להשפעה חינוכית, אלא משקף את "בהירות" האפקט במסגרת תנאי המחקר הספציפיים. השוואות בין תחומים חינוכיים לפי גודל אפקט מתוקנן אינן תקפות כאשר מדובר במחקרים שהתנהלו בתנאים לא זהים מבחינת קבוצות השוואה, מדגם ומדדים. יתרה מזו, בתחומים בהם קל יותר לעצב מחקרים רגישים, כמו מטה-קוגניציה ומשוב, צפויים להתקבל גודלי אפקט גבוהים יותר גם כאשר ההשפעה החינוכית בפועל אינה רבה יותר.

הכותב מזהיר כי הסתמכות על מטה-מטה-אנליזות לצורך קביעת מדיניות ציבורית מסיטה את המשאבים החינוכיים לא על פי השפעה אמיתית אלא לפי הרגישות של התחום למחקר, וכך נוצרות היררכיות מזויפות. לפיכך, נדרש זהירות רבה בשימוש בגודל אפקט כאמצעי לקביעת סדרי עדיפויות במערכת החינוך. גודל האפקט הוא כלי מחקרי חשוב אך לא כלי מדיניות אמין.

המאמר קורא לחשיבה מחודשת על השימוש בנתונים כמותיים בקביעת מדיניות חינוכית ומציע לחזור להקשרים האיכותיים והמעשיים של ההתערבויות כדי להבין את משמעותן האמיתית בשדה החינוך.

חשיבות המאמר להבנת כשלים במדיניות חינוכית מבוססת ראיות

המאמר של אדריאן סימפסון מהווה תרומה מרכזית לדיון הביקורתי על מדיניות חינוכית המתבססת על ראיות אמפיריות. חשיבותו נובעת מהחשיפה השיטתית של כשלים מהותיים בתהליך השוואה ושילוב של גדלי אפקט מתוקננים, אשר משמשים כבסיס להחלטות מדיניות רחבות היקף. סימפסון מציע קריאה מחודשת וזהירה של המנגנונים שבאמצעותם נבנים דירוגים של התערבויות חינוכיות, ומבהיר כי נתונים מספריים אינם בהכרח משקפים את ההשפעה האמיתית של תכניות הוראה. בכך, המאמר תורם להבנה מעמיקה של הפער בין מה שנראה כ"עדות מדעית מוצקה" לבין האופן שבו עיבודים סטטיסטיים עלולים להוביל להטעיה שיטתית של מקבלי ההחלטות. הוא מעודד חשיבה ביקורתית על האופן שבו משתמשים במדדים כמותיים, ומעמיד בספק את ההנחה הרווחת כי ניתן לדרג באופן אובייקטיבי את יעילותן של אסטרטגיות חינוכיות שונות. 

סטודנטים יכולים להפיק מהמאמר ערך משמעותי גם בהקשר פרקטי, שכן הוא מספק תובנות קריטיות שיכולות לשמש כבסיס איכותי לכתיבת עבודות אקדמיות, כמו גם למקורות עבור פתרון ממ"נים במדיניות ציבורית, תוך פיתוח חשיבה ביקורתית על השימוש בראיות מחקריות בקבלת החלטות. המאמר נלמד בקורס סוגיות במחקר על למידה והוראה בבית הספר באוניברסיטת בן גוריון, ובקורס מהי הוראה טובה? באוניברסיטה העברית. 

 

Simpson, A. (2017). The misdirection of public policy: Comparing and combining standardised effect sizes. Journal of Education Policy, 32(4), 450-466.