בתשובה לאביב, 04/03/24 18:45
Training data collapse 767528
הטיעון של הוסנפלדר הוא גרסת הצהובון ביחס למה שכתוב במאמרים (לפחות אלו שהובא אליהם קישור). בקצרה, יש מקום לעוד מחקרים אבל לא רציני לטעון שה ai בסכנת קריסה.

המאמר הראשון קשור בצורה מאד קלושה. הוא מדבר על שיטת אימון רקורסיבית: מאמנים מודל 1 על בסיס מידע גולמי והוא מחולל דוגמאות סינתטיות עבור מודל 2 וכן הלאה. זוהי שיטת אימון מקובלת‏1 למודלים - זה לא באמת קשור לזיהום במידע המקורי.

המאמר השני מנסה באמת לסמלץ מצב של מידע גולמי "מזוהם" (תמונת מקוריות + תמונות שיוצרו על ידי ai) ולהשתמש בו כדי לאמן מודלים. אז אכן יש ירידה בביצועים של מודלים שאומנו ע"י מידע מזוהם, אבל המאמר בעצמו מכיל כמה כוכביות גדולות שלטעמי מוציאות את העוקץ מהטענה של הוסנפלדר.

א. כבר במסגרת המאמר הצליחו לפתור את רוב הירידה בביצועים בעזרת self supervised learning
ב. מדובר בניסוי על תמונות בלבד וכאלו שיוצרו ע"י מודל אחד בלבד.
ג. התמונות יוצרו בעזרת פרומפט סינטתי. זה שונה מאד ממצב מציאותי שבו בני אדם יכתבו פרומפט ואז (לפעמים?) יפרסמו את התוצר הזה במקום שיזהם את המידע הגולמי.

---
1 "מקובלת" זה ציטוט מהמאמר. אני לא מומחה ai והתגובה אינה מהווה המלצה לאף אחד.
Training data collapse 767531
יאפ.

חזרה לעמוד הראשי המאמר המלא

מערכת האייל הקורא אינה אחראית לתוכן תגובות שנכתבו בידי קוראים