סקירה של ביצועי כלי זיהוי AI בהבחנה בין טקסטים שנוצרו על ידי AI לבין טקסטים שנכתבו על ידי בני אדם: סקירה ספרותית ובחינה אינטגרטיבית היברידית

מטרת המחקר

המאמר עוסק בהערכת היעילות והאמינות של כלי זיהוי תוכן שנוצר על ידי בינה מלאכותית בהשוואה לטקסטים שנכתבו על ידי בני אדם, בדגש על ההקשר של ההשכלה הגבוהה. החוקרים ביקשו לזהות אילו כלים מבין הקיימים בשוק מצליחים להבחין בצורה מדויקת בין סוגי הטקסטים, ועד כמה הממצאים הללו מהימנים לאורך זמן ובמגוון הקשרים.

רקע תאורטי

מאז השקת ChatGPT בנובמבר 2022, גבר העניין בכלי בינה מלאכותית לצרכים חינוכיים, אך גם עלו חששות כבדים בנוגע ליכולת לזהות תוכן שנוצר על ידם. תחומים כמו כתיבה אקדמית, למידת שפה, אסיסטנטים להוראה ועוד – כולם מושפעים מהשימוש בכלים אלו. יחד עם זאת, הסוגיה של פלגיאט ואי יושרה אקדמית העלתה דרישה דחופה לפיתוח כלים שיאפשרו הבחנה מדויקת בין טקסטים מקוריים לאלו שנוצרו על ידי בינה מלאכותית.

שאלות המחקר

המאמר הונחה על ידי שש שאלות מחקר מרכזיות:

  1. מהם סוגי המאמרים שנבדקו ולאילו דיסציפלינות הם שייכים?

  2. מה מטרת כל אחד מהמאמרים?

  3. אילו טקסטים (AI או אנושיים) נבחנו?

  4. כמה ואילו כלי זיהוי נבדקו, ואילו כלים נחשבו לטובים או גרועים ביותר?

  5. מהם שיעורי הדיוק שנמצאו ומה מידת מהימנותם?

  6. מהם הממצאים העיקריים והמסקנות המרכזיות של המאמרים?

מתודולוגיה

המחקר בוצע לפי מתודולוגיה היברידית ששילבה סקירה ספרותית עם אינטגרציה סינתטית. החוקרים השתמשו בגרסה מותאמת של פרוטוקול PRISMA ובכלי הערכת איכות המבוסס על AMSTAR. החיפוש נעשה בין 1 באוקטובר ל־30 בנובמבר 2023 ב־14 פלטפורמות שונות: מנועי חיפוש, מאגרי מידע אקדמיים ורשתות חברתיות מדעיות. מתוך יותר מ־7,500 תוצאות ראשוניות, לאחר סינונים קפדניים נבחרו 17 מאמרים שעמדו בכל קריטריוני ההתאמה.

מאפייני המאמרים שנבדקו

כותבי המאמרים הגיעו מ־12 מדינות שונות, ביניהן הודו, ארצות הברית, צרפת, דרום אפריקה ואוסטרליה. רוב המאמרים היו מאמרים מחקריים, אך נמצאו גם מאמרי דעה, דוחות וסקירות. תחומי הדעת שבהם פורסמו המאמרים כללו בעיקר מדעי הרפואה, מדעי הטבע ובלשנות אנגלית. הסיבה לכך היא שהתחומים הללו רגישים במיוחד לנושאי אמינות ויושרה אקדמית.

סוגי הטקסטים שנבדקו

מרבית המאמרים השתמשו בטקסטים שנוצרו הן על ידי בינה מלאכותית (בעיקר ChatGPT בגירסאות 3.5 ו־4) והן בטקסטים אנושיים. חלקם התייחסו לגרסאות שונות של טקסטים שנוצרו בידי AI: מקוריים, מתורגמים, משוכתבים או מעט ערוכים. מיעוט מהמאמרים התמקדו בטקסטים שנוצרו על ידי בינה מלאכותית בלבד.

הכלים שנבדקו והערכת הביצועים

במאמרים נבדקו בין שניים לשישה עשר כלים לזיהוי תוכן שנוצר על ידי בינה מלאכותית. בין הכלים שנחשבו לטובים ביותר נמנים Crossplag ו־Copyleaks. לעומתם, Duplichecker ו־Writer נחשבו לחלשים ביותר. עם זאת, המאמר מדגיש שהביצועים אינם עקביים: כלים שהפגינו תוצאות טובות בהקשרים מסוימים נכשלו באחרים. לדוגמה, OpenAI Text Classifier, שנחשב לכלי מרכזי, הראה תוצאות לא עקביות ואף הופסק לשימוש רשמי על ידי החברה שפיתחה אותו.

בעיית האמינות של כלי הזיהוי

אחד הממצאים המרכזיים היה חוסר העקביות של כל הכלים שנבדקו, הן בזיהוי טקסטים שנכתבו על ידי אדם והן בזיהוי תוכן שנוצר על ידי בינה מלאכותית. כלים רבים נטו לטעויות מסוג false positive או false negative. חלקם כשלו בזיהוי טקסטים שעברו מניפולציות פשוטות כמו שינוי סימני פיסוק, החלפת מילים נרדפות או תרגום. כמו כן, רוב הכלים מבוססים על אלגוריתמים חד־לשוניים, ולכן כושלים בזיהוי טקסטים שאינם באנגלית. מצב זה ממחיש את הקושי של הכלים הקיימים לספק תשובה מהימנה לשאלה הבסיסית אך המהותית: האם זה נכתב על ידי AI, במיוחד כאשר מתמודדים עם טקסטים שעברו עיבוד או תרגום.

ממצאים עיקריים

הממצאים המרכזיים כוללים את הזיהוי של כלים מסוימים כיעילים יותר מאחרים, אך גם את ההכרה בכך שאין כלי אחד שהוא מהימן לחלוטין. מחצית מהמאמרים הצביעו באופן ישיר על בעייתיות מהותית בכלי הזיהוי שנבחנו. בנוסף, עלה כי תוכנות מסורתיות לזיהוי פלגיאט, כגון Turnitin ו־Grammarly, אינן מצליחות לזהות טקסטים שנוצרו על ידי AI משום שהן מבוססות על חיפוש התאמות ולא על ניתוח סגנוני או תחבירי.

מסקנות עיקריות

המסקנה המרכזית של החוקרים היא שאין להסתמך על כלי אחד בלבד. מומלץ לשלב בין מספר כלי זיהוי, כולל כלים מסורתיים נגד פלגיאט וכלים ייעודיים לזיהוי טקסטים מבוססי AI, יחד עם שיפוט אנושי של מעריכים מוסמכים. יש צורך בפיתוחים טכנולוגיים מתקדמים יותר, בהדרכות דיגיטליות לאנשי סגל אקדמי ובהתאמת מדיניות הערכה אקדמית לעידן הבינה המלאכותית. בנוסף, נמצא כי הכלים הנוכחיים אינם מסוגלים להתמודד באופן עקבי עם טקסטים שאינם באנגלית.

סיכום

המאמר מציג תרומה חשובה להבנת המצב הנוכחי של כלי הזיהוי בתחום הבינה המלאכותית, במיוחד על רקע ההשלכות האפשריות על השכלה גבוהה. על אף ש־Crossplag ו־Copyleaks הראו ביצועים טובים יחסית, אף אחד מכלי הזיהוי שנבדקו לא נמצא מהימן לחלוטין. לפיכך, ההמלצה הברורה היא לשלב בין אמצעים טכנולוגיים שונים לבין בקרה אנושית כדי לשפר את יכולת ההבחנה בין טקסטים שנוצרו על ידי בינה מלאכותית לטקסטים שנכתבו על ידי בני אדם. המאמר מדגיש את הצורך בגישות חינוכיות חדשות ובהכשרה מתאימה להתמודדות עם האתגרים שהבינה המלאכותית מציבה בפני מוסדות ההשכלה הגבוהה.

 

Chaka, C. (2024). Reviewing the performance of AI detection tools in differentiating between AI-generated and human-written texts: A literature and integrative hybrid review. Journal of Applied Learning and Teaching, 7(1), 115-126.

ad