האם מודלים לשוניים גדולים (LLMs) פיתחו אישיות?: מידת ההתאמה של מבחני הערכה עצמית למדידת אישיות במודלים לשוניים
מבוא
המאמר עוסק בשאלה האם מודלים לשוניים גדולים (LLMs) מגלים דפוסי התנהגות קבועים שניתן לכנותם "אישיות". הכותבים אינם בוחנים את השאלה אם למודלים יש תודעה או רגשות, אלא האם הם מציגים תגובות עקביות שמאפיינות אישיות במובן הפסיכולוגי ההתנהגותי. בהשראת השימוש הנפוץ במבחני אישיות מבוססי הערכה עצמית בבני אדם, המאמר מסתמך על מבחנים לתרגול עצמי עבור הערכת אישיות של מכונות. תשובתם של החוקרים היא שלילית: אין בידי הקהילה המדעית כלים מהימנים למדוד אישיות במודלים לשוניים.
רקע תיאורטי
הערכת אישיות בבני אדם
ההערכה הפסיכולוגית מתבצעת באמצעות מבחנים המבוססים על מודל "חמשת הגדולים" (OCEAN): פתיחות, מצפוניות, מוחצנות, נעימות ונוירוטיות. כל שאלה במבחן מתארת סיטואציה, והנבחן מדרג את מידת ההזדהות איתה בסולם ליקרט (לדוגמה: מ"מאוד מדויק" עד "מאוד לא מדויק"). ציון הסולם מתואם באופן חיובי או שלילי עם כל תכונת אישיות.
אישיות במודלים לשוניים
בעוד שמודלים לשוניים שימשו לניבוי אישיות של בני אדם על בסיס טקסטים, מעטים חקרו אם למודלים עצמם יש אישיות. עבודות קודמות ניסו ליישם מבחני אישיות על מודלים כמו GPT-3, אך מבלי לבדוק את מהימנות הכלים שבהם השתמשו. מאמר זה מבקר את השיטה הזו וטוען שאינה מספקת.
שיטות מחקר
המודלים והנתונים
החוקרים בחרו חמישה מודלים פתוחים מהמשפחות GPT-2, GPT-Neo ו־OPT, בטווח גודל של 1.5B עד 30B פרמטרים. המבחן שנעשה למודלים התבסס על MPI-1K, אוסף של כ־1,000 שאלות הערכת אישיות מתוך מאגר השאלות הבינלאומי (IPIP).
תבניות השאלה (Prompt Templates)
החוקרים השתמשו בשתי שיטות לבניית תבניות השאלה:
- MCP-INDEXED – שבה האפשרויות מוצגות עם אינדקסים (כגון A, B, C).
- MCP-NON-INDEXED – שבה האופציות מוצגות ללא אינדקסים.
נבחרו תבניות שונות עבור כל מודל על סמך מדד אינפורמטיביות מרבית (Mutual Information).
ניסויים וממצאים
תכונת הסימטריה בסדר האפשרויות
המבחן המרכזי בו השתמשו החוקרים נקרא "סימטריית סדר האפשרויות". לפי תכונה זו, תשובת המודל צריכה להיות זהה גם כאשר משנים את סדר הצגת האופציות. בתגובה אנושית, הסדר לא משפיע על הבחירה, ולכן מודל שמגיב בצורה שונה לשאלה זהה עם סדר אופציות שונה נחשב ככזה שלא מגיב באופן מהימן.
תוצאות עם MCP-INDEXED
בכל המודלים, הסימטריה בסדר האפשרויות לא נשמרה. בנוסף, התגלה דפוס אחיד שבו המודל נוטה לבחור תמיד את אותה אפשרות ("Very Accurate" למשל) בלי קשר למצב המתואר. הדבר הביא לכך שגם אם התשובות יוצרות פרופיל אישיות דמוי אנושי, הן למעשה חסרות משמעות.
תוצאות עם MCP-NON-INDEXED
כאן דווקא נמצאה סימטריה מלאה בסדר האפשרויות, אך שוב עלתה בעיה אחרת: המודלים נבחרו כמעט תמיד באותה אפשרות בכל השאלות, ללא קשר לתוכן השאלה. בבדיקות נוספות, כאשר ניסחו שאלות ריקות (ללא תוכן מצבי), התקבלו אותן תשובות כמו בשאלות עם תוכן – מה שמוכיח שהמודלים כלל לא מגיבים למהות השאלה, אלא בוחרים על פי הטמפלייט בלבד.
הטיה מערכתית והכיול (Calibration)
החוקרים זיהו כי למודלים יש העדפה פנימית לאופציה מסוימת, שנובעת מהטיות שנרכשו בשלב האימון. כדי לנטרל הטיות אלו, הם ביצעו כיול סטטיסטי שבו חילקו את הסתברות התשובה עבור שאלה עם תוכן, לפי ההסתברות שקיבלו עבור שאלה ריקה. לאחר הכיול, נצפתה פיזור רחב יותר של תשובות. אולם, בכך נפגעה שוב תכונת הסימטריה בסדר האפשרויות. המשמעות היא שגם אחרי כיול, התגובות אינן מהימנות למדידת אישיות.
דיון
הכותבים מציעים שמבחני אישיות עצמיים אינם מתאימים למודלים לשוניים, מכיוון שהם מבוססים על הנחת introspection (הפנמה עצמית), יכולת שאינה קיימת במודלים אלו. לדעתם, הדרך הנכונה להעריך "אישיות" של מודל לשוני היא לבחון את תגובתו למצב נתון, ולא לשאול אותו מה הוא היה מרגיש במצב כזה. מאחר והמודלים בנויים להגיב לטקסט, זו הדרך הטבעית ביותר לאפיין את ההתנהגות שלהם.
בנוסף, החוקרים מעלים את השאלה האם בכלל נכון להשתמש בתכונות אישיות אנושיות כמו מוחצנות או פתיחות כדי למדוד אישיות של מכונות. ייתכן ויש לפתח תכונות מדידה חדשות, שמתאימות יותר לאינטראקציות ותגובות של מערכות בינה מלאכותית.
מסקנות
המאמר מדגיש כי מבחני אישיות שנבנו לבני אדם אינם כלים תקפים למדידת אישיות במודלים לשוניים. בין אם בשל העדר סימטריה, ובין אם בגלל חוסר תגובה לתוכן השאלות, התוצאות אינן מהימנות. יש צורך בפיתוח כלים ייעודיים למדידת דפוסי תגובה של מודלים, תוך מחשבה מחודשת על מהות "אישיות" במכונות.
Song, X., Gupta, A., Mohebbizadeh, K., Hu, S., & Singh, A. (2023). Have large language models developed a personality?: Applicability of self-assessment tests in measuring personality in llms. arXiv preprint arXiv:2305.14693.