|
||||
|
||||
האם יש הצדקה מתמטית (או הצדקה חלקית) של העובדה התצפיתית הזו? האם, נניח, זה מה שיתקבל ממדגם אקראי של התפלגות נורמלית? אם לא, איך אתה יודע (או שבדקת איכשהו?) שזו התפלגות התגובות למאמרים באייל? |
|
||||
|
||||
ממדגם אקראי של התפלגות נורמלית תתקבל (כמה צפוי) התפלגות נורמלית. כמו כל המדענים הטובים, מתמטיקאים ניסויים1 מנסים להסביר את התוצאות התצפיתיות. את זה עושים על-ידי הצעת מודל, שאם הטבע היה מתנהג לפיו, היינו מקבלים (תאורטית) את מה שמתקבל בניסוי. בקישור שטל נתן למעלה ישנם כמה מאמרים המנסים להציע מודלים להתפלגות Zipf. למשל, נניח שסופרים היו משתמשים באלגוריתם הבא לכתיבת ספרים: לקראת כל מלה, זרוק קוביה. אם יצא 6, בחר באופן אקראי מלה מבין כל אלה שעדיין לא השתמשת בהן. אם לא, בחר באופן אקראי מלה בחלק הכתוב של הספר2, והעתק אותה פעם נוספת3. שכיחות המלים בספר שנכתב בשיטה הזו (ואני חושד שיש כמה כאלה) אמורה להתאים להתפלגות Zipf. את התפלגות מספר התגובות למאמרים באייל קיבלתי מאחד העורכים (לבקשתי); בכל מקרה מדובר במידע גלוי, שיכולתי לאסוף לו הייתי עובר על כל המאמרים. ההתאמה במקרה הזה אינה מרשימה במיוחד, אולי בגלל שקצב זרימת התגובות השתנה באופן משמעותי מאז הולדת האתר. 1 שאינני נמנה על שורותיהם, אגב. 2 ליתר דיוק, בוחרים *מקום* באקראי, כך שלמלים שהופיעו בשכיחות גבוהה יש סיכוי גבוה יותר להופיע שוב. 3 ההתפלגות אינה רגישה למלים עצמן, אלא רק לשכיחויות. לכן, כדי לטשטש את העקבות, הסופר האוטומטי יכול עם סיום הכתיבה להחליף את המלים שבחר (לפי שכיחותן בספר) במלים השכיחות ביותר בשפה העברית; כך, לפחות מבחינת התפלגות המלים, יהיה קשה להבדיל בין הספר שלו לספרים שנכתבו בשיטות פחות יצירתיות. |
|
||||
|
||||
מה שהתכוונתי במדגם אקראי מהתפלגות נורמלית הוא לסדר את תוצאות המדגם לפי סדר (מה שהופך את הניחוש שלי ללא *כל כך* מטופש, אני מקווה1). אבל בסדר, כבר הבנתי שזה לא נכון. 1 ואני מניח שהבנת את זה, אבל אני צריך להציל את כבודי בפני קוראים אחרים. לא חשוב. |
|
||||
|
||||
אפשר לחשב מה יקרה גם כשדוגמים מהתפלגות נורמלית. אם מדובר על ההתפלגות הרציפה אז לסידור מחדש אין כל-כך משמעות, כי בדגימה סופית כל ערך יתקבל רק פעם אחת. אפשר להניח שדוגמים ממרחב בן-מניה שלו התפלגות קרובה לנורמלית (למשל, חלוקה של הציר הממשי לקטעים רצופים שווי אורך, שההסתברות שלהם פרופורציונלית ל- (exp(-t^2/2 (כאשר t הוא אמצע הקטע)). במקרה כזה, מכיוון שנצטרך לקפל את הערכים השליליים והחיוביים, ההתפלגות תראה כמו המחצית הימנית של התפלגות נורמלית. לזה התכוונתי כשאמרתי שהתוצאה מדגימה נורמלית תהיה נורמלית - זה לא לגמרי טריוויאלי. |
|
||||
|
||||
אני ממש, אבל ממש, לא מבין. אולי אני צריך להפסיק להציק לך ולקוראים האחרים, אבל אם יורשה לי עוד נסיון אחד: מה זה משנה שכל ערך יתקבל רק פעם אחת? האם אתה לא מסדר אותם לפי סדר הגודל מ-1 ועד N? האם ב-zipf, כשאתה מסדר את הדגימות לפי סדר הגודל, זה מפריע לך אם יש או אם אין שני נתונים זהים? (גם את שאר התגובה שלך אני לא מבין, אבל אני מניח שהבלבול נובע מאותו מקור, אז נסתפק בזה). |
|
||||
|
||||
הנחת היסוד היא שאין סדר טבעי בין הגדלים שדוגמים (כמו מלים או אתרי אינטרנט), ואם יש אז מתעלמים ממנו. מסדרים את הערכים שקיבלנו לא לפי גודלם, אלא לפי *שכיחותם*, מהשכיח ביותר לנדיר ביותר. כל העניין הוא ההתפלגות הלא-אחידה של התוצאות, דהיינו החזרות על אותם ערכים (מלים, אתרים) שוב ושוב. |
חזרה לעמוד הראשי | המאמר המלא |
מערכת האייל הקורא אינה אחראית לתוכן תגובות שנכתבו בידי קוראים | |
RSS מאמרים | כתבו למערכת | אודות האתר | טרם התעדכנת | ארכיון | חיפוש | עזרה | תנאי שימוש | © כל הזכויות שמורות |