בתשובה להאייל האחר, 11/02/25 16:27
Illusory truth effect 776869
נראה לי (הה) שזה מה שכהנמן וטברסקי(?) כינו "ניראות", ומה שפוליטיקאים אופורטוניסטים יודעים מזמן: חזור על דבר השקר לעתים קרובות מספיק, והוא יהפוך להיות האמת.

את העצה "A good way to survive in a “post-truth world,” say researchers, is to become your own fact checker" די קשה ליישם, ומה שיותר מטריד הוא שגם הגב. בינה לא בהכרח תעזור, לפחות בעתיד הקרוב, בו היא צפויה לסבול מאותם כשלים מאחר שהאימון שלה נעשה ע"י בני אדם. יהיה מעניין לראות איך ומתי היא תצליח להשתחרר מהכבלים האלה, אולי יהיה איזה מיזם אוניברסלי שיגיד לגב' בינה (ליתר דיוק: לקונסורציום של התוכנות המובילות) משהו בנוסח "עברי בבקשה על כל הקלט שהצגנו בפנייך וכל מה שלמדת מאז, בני מכל המידע תמונת עולם עם מינימום סתירות פנימיות, והעניקי ל"עובדות" חדשות ערך אמת לפי מידת התאמתן לאותה תמונה, והשתמשי בערך הזה גם כדי לשקלל את עדכון הפרמטרים שלך בקשר לאותן "עובדות". האם כך תצליח האנושות להתגבר בהדרגה על סינדרום ה-GIGO או שסיכויי ההצלחה הם כמו אלה של הברון מיכנהאוזן שמושך בשערות ראשו כדי להחלץ מהביצה? כרגיל, אין לי מושג.
Illusory truth effect 776876
מעניין.
אני משער שמודלים עתידיים יהיו חייבים להתאמן באופן דומה למה שתארת לאור הכמות הגדולה אקספוננציאלית של גארבג'.
Illusory truth effect 776881
להבנתי בינה מלאכותית לא סובלת מאותו כשל של חזרתיות על שקרים.
ליתר דיוק, ברור שמודל pretrained על next token prediction ישלים את הפרומט "מתוך המוח בני אדם משתמשים" עם ההמשך "ב 10%". אבל המודל "יודע" שזה מיתוס וכל מודל instruction tuned מודרני יסביר לך זאת עם כל פרומט שהוא.
זה נכון גם ב inference time, ולמודלים שמחפשים ברשת. למשל בדקתי את זה עם gpt4o על שקר ה border czar עם קמילה הריס שהופץ פה באתר.

כל זה בהנחת קיומו של מקור אמין המתאר את העובדות הנכונות.

בעיות הלוסינציה הן הרבה יותר טיפוסיות במקרים ש*אין* מידע סותר ו/או יש מעט מדי דוגמאות רלבנטיות לשני הכיוונים.
כדוגמא, בדקתי עם gpt4o את עניין הציטוט "הכי טוב שהערבים ישלטו פה" של הרב לנדו (אין מקור לכך, זה פייק כמעט בודאות). gpt4o טען שכן נאמר.

חזרה למאמר - בהקשר של עצות התחברתי יותר ל truth sandwich ו prebunking

חזרה לעמוד הראשי המאמר המלא

מערכת האייל הקורא אינה אחראית לתוכן תגובות שנכתבו בידי קוראים