|
||||
|
||||
אתה נשאר עם קושי אחד, אבל מז'ורי. הצעת מטריקה של ספירת מילים שונות בשימוש. איך אתה יודע אם הקהילה שעושה שימוש בפחות מילים לא מקיימת שפה עשירה באותה מידה בזכות שימוש עשיר יותר בצירופי מילים? |
|
||||
|
||||
מה זאת אומרת איך אני יודע? לחלק ניכר מהדוגמאות - אני לפחות יכול לשאול. בתור הנחת בסיס הייתי מניח שמספר המילים-כתוצאה-מצירופי-שתי-מילים-או-יותר מצומצם עד כדי כמעט זניח ברוב השפות האנושיות, בהסתמך על עשרות או מאות הדוגמאות שאנחנו כבר מכירים1. קל וחומר שזה כמעט לא רלוונטי באותה שפה לאורך דורות בודדים. והנה נפטרנו גם מהקושי המז'ורי הזה. 1 ואם אתה לא משוכנע, אני בטוח שמחקרון מקדים על התנ"ך, כתבי שייקספיר, הקוראן, הוולגאטה וספרי הארי פוטר בעשרות שפות יכול לבסס את הטענה הזו כמותית (האם אותן מכמשמא"י הן פרומיל או אחוז מהשפה). ואם מאד מטריד אותך שאלה שפות כתובות2, אז אתה מוזמן גם להשתמש בסרטים. 2 לא חייב להטריד, אידיומים מופיעים גם בשפה המדוברת וגם בכתובה3. 3 מראש הטענה שצירופי מילים נפוצים עד מאד היא די אנטי-תער-אוקהאמית, בשביל מה לסבך סתם? למה שתינוק יקרא לאימו "זאת-שנותנת-לי-אוכל-ומשכיבה-אותי-לישון" במקום המילה הפי-22-בחזקת-25 (או פי אלפיים-בחזקת-7) יותר פשוטה מזו? |
|
||||
|
||||
יש לי הרגשה שאתה מכיר את זה, אבל למי שלא מכיר: בעקבות הפוסטר ב־XKCD שתיאר את הטיל סאטורן 5 תוך שימוש רק ב־1000 המילים הנפוצות בשפה האנגלית (US Space Team's Up Goer Five, The only flying space car that's taken anyone to another world. Explained using the ten hundred words people most often use), החליט מישהו שזה אתגר מעניין. הוא הציב את האתגר וצבר לא מעט תוצאות. וכמובן, דוגמה פחות קיצונית: ויקיפדיה באנגלית פשוטה והדף המתבקש ממנה. |
|
||||
|
||||
אוצר מילים של אלף מילים (+ צירופים ניגזרים) זו מיטת סדום. אבל שפה בנויה היטב יכולה להסתפק באוצר (אמנם בדוחק) באוצר מילים של 3000 מילים (+ צירפי מילים ניגזרים). עשו על זה הרבה מחקר בנוגע לשפה האנגלית, לדוגמא 3000 מילות יסוד במילוני אוקספורד, 3000 מילות יסוד במילוני לונגמאן. מדובר כאן בשפה כתובה, בשפת דיבור מצטמצמים באוצר מילים של 1000 מילות יסוד (את החסר אפשר להשלים בדיבור חוץ מילולי, כגון שפת גוף ניפנופי ידיים וכדומה). |
|
||||
|
||||
האמת, מפתיע דוקא כמה התיאור הזה של סאטורן חמש הוא מדויק ופשוט להבנה יותר מתיאורים שרשאים להשתמש במילים יותר מקצועיות. ככה צריך לתאר אותו לילד בן ארבע. |
|
||||
|
||||
אהה! זה אחד הדברים שהייתי נותן ל-AI לעשות מיד! להפוך טקסטים מויקיפדיה, למשל, לצורה שתהיה נגישה לילדים ולבעלי אוצר מלים מוגבל בכלל. נראה לי שצריך להיות קל יחסית לבנות וריאנט של GPT3 שייתן משקל גבוה יותר למילה ככל שהיא שכיחה יותר. צריך להשקיע קצת מאמץ בבניית מאגר שייתן את השקלול האופטימלי שכן שכיחות בלבד (אותה קל לחשב) אולי אינה אידיאלית, אבל כדאי לנסות אפילו בלי זה ולראות מה מתקבל. אולי אפשר להפוך את ynet ודומיו ל"שער למתחיל" בלחיצת כפתור, לשמחתם של ריבואות1 העולים שיציפו את ארצנו עם התגברות האנטישמיות הצפוייה בארה"ב. בשלב הבא נוכל לבחור רמת השפה המועדפת עלינו כפי שאנחנו בוחרים היום את גודל הפונט. זה אומר שגם בעוד עשור אוכל להמשיך לקרוא באייל. __________ 1- "רבבות" תרגמה GPT3 לקהל הרחב, "עשרות אלפים" למצביעי הליכוד, "המון" לחברי מרכז הליכוד. לח"כים מטעם הליכוד התוכנה ויתרה על תרגום ונתנה במקומו את דף המסרים היומי ("האנרכיסטים משתוללים בהזיות מסוכנות" אם אתם מוכרחים לדעת). |
|
||||
|
||||
מי מדבר על מספר המילים שהם תוצאה של צירופי שתי מילים או יותר? אני אפילו לא יודע למה כוונתך במילים שהם תוצאה של צירופי מילים. אני לא דיברתי על מטבעות לשון, אני דיברתי על היכולת להביע רעיון או לתאר משהו בעזרת כמה מילים (כפי שעושים כל הזמן בשפה); ועל זה שבעזרת יותר מילים פר רעיון אתה יכול לפצות על מאגר מילים קטן יותר. (עדיין לא קראתי את הקישור ששלח אח של אייל, נראה רלוונטי, אשתדל מחר.) |
|
||||
|
||||
בויקיפדיה יש דף מעניין בנושא: https://en.m.wikipedia.org/wiki/Language_complexity |
חזרה לעמוד הראשי | המאמר המלא |
מערכת האייל הקורא אינה אחראית לתוכן תגובות שנכתבו בידי קוראים | |
RSS מאמרים | כתבו למערכת | אודות האתר | טרם התעדכנת | ארכיון | חיפוש | עזרה | תנאי שימוש | © כל הזכויות שמורות |