|
משהו במחקר הזה נראה לי בכיוון לא נכון, ואף מאכזב. על פניו, פענוח סרקאזם הוא אחד האתגרים הקשים ביותר להבנה ממוחשבת של שפה טבעית. דווקא ברוב המקרים סרקאזם עובד על מנגנון שיטתי ודי "מכני": אומרים או כותבים משפט שאומר את ההפך ממה שמתכוונים, אבל כך שיהיה ברור לשומע או לקורא שלא יכול להיות שמתכוונים למה שכתוב, ואפילו לא בערך. ומכאן הקורא/שומע מסיק שמתכוונים להפך. (פרסום עצמי - דיון 2477). הבעיה היא שלרוב אחד הדברים שמבהירים שלא ייתכן שמתכוונים למה שכתוב הוא ההקשר. "הקשר" הוא דבר אבסרקטי לחלוטין. במקרה הקל אלו משפטים שמסביב למשפט הסרקאסטי. המקרים הקשים יותר הם אלו שבהם הכותב מסתמך על הכרות קודמת של הקורא עם דעותיו (כדוגמה מרהיבה, אצלנו באתר, בערך כל פתיל של טווידלדי נגד איציק ש.). אם נסתכל על המשפט הסרקאסטי לבדו, על-פי המתכון לעיל אותו משפט בדיוק יכול באותה מידה להיאמר בכנות, בהקשר אחר.
ואילו התוכנה שבמחקר עובדת על משפטים בודדים. מכאן, שהיא מראש מוותרת. לי נראה די ברור שצריך לפחות להסתכל גם על משפטים מסביב, וכנראה גם על אלגוריתמים שהולכים על *הבנה* ולא על למידה אוטומטית, כי במבט שטחי נראה לי שאין הרבה קשרים שטחיים וקלים לזיהוי בין המשפטים שמסביב לבין המשפט הסרקאסטי - רק ניתוח המשמעות יזהה את הקֶשר. גם זה יפספס את המקרים שבהם מסתמכים באופן דומיננטי על הכרות מוקדמת, אבל זה לפחות בכיוון. מאידך, אני מנחש שאלגוריתמי ההבנה עוד רחוקים מהיכולת המספיקה.
אז איך אני מסביר הצלחה של 77%? קודם כל, הייתי עושה מטא-בדיקה של המכוונים האנושיים - האנשים שלימדו את התוכנה, בכך שאמרו לה בשלב הלימוד שזה משפט סרקסטי, וזה משפט לא סרקסטי. אם הם נדרשו לעשות זאת בכמות רבה, ומבלי באמת להתעניין בטקסט, די סביר שבעצמם הם פספסו סרקאזם פה ושם. אם אכן חושדים בבעיה כזו, אפשר לדגום מעט מהמשפטים שהם סיווגו, ולקרוא אותם באופן מעמיק יותר.
אבל מה שלניחושי מסביר יותר את התוצאה הוא שהתוכנה (כמו גם המאמנים שלה, בעצם) הצליחה רק בזיהוי של סרקאזם "צעקני": משפטים שהכילו great, ו/או sure, ו/או סימני קריאה, כמו בדוגמה שבכתבה בפופיולר סיינס. ואולי אפילו, באופן מצער, בקורפוסים מסוימים של טקסט אלו רוב המשפטים הסרקאסטיים (אם מייעדים טקסט לקריאה שטחית, צריך להבהיר לקורא באופן יותר קל-לזיהוי ופחות מבוסס-הקשר שלא מתכוונים למה שכתוב). בכל אופן, אני מנחש שזה לא ש-77% הוא ניסיון ראשון ושיפורים נוספים יקרבו ל-100%, אלא שזה קרוב לגבול היכולת בגישה שננקטה.
מחקר שנראה לי יותר מעניין, ואולי כבר עשו אותו, הוא בתחום היותר אקזוטי של הבנת שפה טבעית - ניתוח קול: לזהות סרקאזם בדיבור ולא בכתיבה. כי כאן סרקאזם מתבטא לרוב בשינוי טון קליל. לכן זה נראה לי מצד אחד אפשרי, מצד שני מאתגר ומעניין.
|
|