|
||||
|
||||
כן, אפשר לחשב רווח סמך (confidence interval בעברית) לפרמטר/ים של התפלגות אחידה. שתי הערות: 1. דומני שהתבלבלת, והתכוונת לכתוב 95% ולא 90%, אחרת המספרים לא מסתדרים לי. 2. הניסוח "יש 90% הסתברות שסיכוי הזכייה היה בין 0.56 ל-0.94" הוא בעצם חסר מובן. סיכוי הזכייה, שמסומן בד"כ ב-p, הוא קבוע שאין בו שום דבר אקראי, ולכן אין לו הסתברות של 90% (או 95%, או מה שזה לא יהיה) להיות בתחום זה או אחר. ניסוח מדויק יותר הוא "כשהפעלנו (פעם אחת) פרוצדורה המפיקה מרווחים אקראיים בעלי הסתברות של 95%, כל אחד, להכיל את p, קיבלנו את המרווח (0.56,0.94)". |
|
||||
|
||||
צודק. זה 95%. אני חושב על רווח הסמך כך: אם תשחק את המשחק שהוגדר למעלה הרבה מאוד פעמים עם p אקראי מתוך התפלגות אחידה ותתחשב רק במשחקי ה-16 זכיות, ואם תחזור על כך מספר מספיק של פעמים, ערך התצפית של מספר המשחקים שבהם p היה מחוץ לרווח הסמך הוא 5%. |
|
||||
|
||||
אם הבנתי אותך כהלכה, אז אין זה נכון לחשוב כך על רווחי סמך, והמשפט שרשמת הוא שגוי מתמטית. רווחי סמך "רגילים", מהסוג בו השתמשת בתגובה 355155, *לא* מדברים על מצב בו לפרמטר יש התפלגות (אחידה או אחרת). שוב - הפרמטר הוא מספר קבוע, אך לא ידוע לנו. בסטטיסטיקה בייסיאנית המצב שונה, אבל כאמור, בוא נעזוב את זה. הפרשנות שצריך לתת לרווחי סמך (במקרה הבינומי עם n = 20) היא כדלהלן: מישהו בחר, לא משנה איך, במספר p בין אפס לאחד; אתה צופה במספר רב של תצפיות בלתי תלויות מהתפלגות בינומית עם פרמטרים 20 ו-p, ועל בסיס כל תצפית, בונה רווח סמך של 95% ל-p ע"פ הנוסחה המתאימה (הרווחים יהיו שונים זה מזה, משום שהתצפיות הן שונות זו מזו). אז, בערך 95% מהרווחים שבנית יכילו את p, ובערך 5% לא. |
|
||||
|
||||
טוב, ברור שאנו חלוקים בנקודה זו. ברור שהפרמטר p אינו המשתנה האקראי, אבל אנו חלוקים אם יש משמעות ל"התפלגות" של בחירת הפרמטר. הדוגמה שהבאתי היא הדוגמה של מטלב לפונקציה mle. החישוב של ה-pci שם לא מסובך במיוחד, אבל אני כבר שכחתי את כל הסטטיסטיקה שלי. בכל אופן נראה לי שה"נוסחה המתאימה" שם היא בערך שימוש בהתפלגות F עבור הפרמטר (כאשר התפלגות F כמו התפלגות הסטודנט הידועה הן התפלגויות שבד"כ מייחסים לקומבינציות של פילוגים אקראיים עם פילוגים של הפרמטרים שלהם אאז"נ). אתה יכול להסתכל בקוד המקור ולבדוק אם החישוב מתיישב עם הפרשנות שלך (אני לא כל כך הבנתי אותה). אם תרצה אני יכול לשלוח לך את קוד החישוב. בכל אופן יהיה נחמד אם תרענן את זכרוני מהי התפלגות F, ואיך היא קשורה לפרמטרים של פילוג בינומי, אם בכלל. |
|
||||
|
||||
לפרמטר p אין התפלגות, וגם אין "התפלגות". שוב - הוא סתם מספר קבוע, ולא משנה איך הוא נבחר. אני אנסה להסביר טוב יותר למה התכוונתי בתגובה הקודמת, ואיך צריך לפרש רווחי סמך במקרה שלנו. ניקח לדוגמא את המספר 0.61 (סתם מספר שבחרתי). סיבוב ראשון: נגריל משתנה מקרי בינומי עם פרמטרים 20 ו- 0.61, ונניח שקיבלנו 9; נשלוף את הנוסחה (או פונקציית המטלב) המתאימה, ונחשב את רווח הסמך המתאים ל- p כאן, שהוא (0.23,0.68). סיבוב שני: נגריל משתנה מקרי בינומי נוסף עם פרמרטרים 20 ו- 0.61 (כן, שוב 0.61), ונניח שעכשיו קיבלנו 14; רווח הסמך השני יהיה (0.46,0.88). סיבוב שלישי: נגריל, נניח, 11, ונקבל ממנו רווח סמך (0.32,0.77). וכך הלאה וכך הלאה. תורת האמידה מוכיחה שאחרי מספר רב של סיבובים, בערך 95% מרווחי הסמך יכללו את המספר 0.61 ובערך 5% לא 1. אילו היינו חוזרים על כל הסיפור עם 0.289 במקום 0.61, אז שוב: בערך 95% מרווחי הסמך יכללו את המספר 0.289 ובערך 5% לא. וכן הלאה 2. פונקציית המטלב mle משתמשת בפונקציה binofit, והחישובים בזו האחרונה מתיישבים בדיוק עם הדברים שכתבתי לעיל. אפשר לקרוא על החישובים יותר בנוחות ב- http://www.statsresearch.co.nz/pdf/confint.pdf . תזכורת: לשיטת הנראות המירבית אין קשר לפרשנות של רווחי סמך. על התפלגות F אפשר לקרוא, למשל, ב- http://mathworld.wolfram.com/F-Distribution.html . הקשר היחיד שלה שאני מכיר להתפלגות הבינומית הוא דרך רווחי הסמך עליהם אנחנו מדברים, ואתה מוזמן לקרוא עליו בלינק הקודם שצירפתי. אם אני מבין נכון את מה שכתבת בתגובה 355401, אז אתה מציע את הנרטיב הבא: בכל סיבוב, אנחנו מגרילים p מתוך התפלגות אחידה על [0,1], ואז מגרילים משתנה מקרי בינומי עם פרמטרים 20 ו- p; אז, בטווח הארוך, ב-95% מהסיבובים בהם קיבלנו 16 (אנחנו מתעלמים מהסיבובים בהם לא קיבלנו 16), p היה בין 0.56 ל-0.94. זה פשוט לא נכון. חישבתי ומצאתי שבתנאים הנ"ל, פרופורציית הסיבובים בהם p היה בין 0.56 ל-0.94 (מתוך הסיבובים בהם קיבלנו 16) היא 98%, ולא 95% (מקווה שלא טעיתי בחישוב, יש שם כל מיני פונקציות בתא וכאלה). _______________ 1 ההתפלגות הבינומית היא התפלגות בדידה, דבר הגורר סיבוך טכני נוסף ב"פרשנות" של רווחי סמך, אבל בוא נעזוב את זה. העיקרון מאחורי מה שכתבתי הוא מדויק. 2 זה נכון שגם אם נבחר p חדש בכל סיבוב (לא משנה איך), אז בטווח הארוך, 95% מהרווחים יכללו את p של הסיבוב שלהם, אבל זה לא לב העניין. |
|
||||
|
||||
יובל, היות והלינק שצרפת http://www.statsresearch.co.nz/pdf/confint.pdf ממש מפתח את הקשר בין רווחי הסמך של פילוג בינומי לפונקציית F (כלומר מפתח את מה שקראת "הנוסחה המתאימה"), אני חושב שמוטב ששנינו נקבל את ההגדרה שלו לרווח הסמך (נוסחאות 1 ו-2): עבור פילוג בינומי עם n משחקים ו-x הצלחות ונניח שהסמך שלנו הוא 95%. רווח סמך של (Φ,Ψ) אומר שההסתברות שהמשתנה האקראי X (מספר ההצלחות) בפילוג של n משחקים עם סיכוי הצלחה p=Φ, יהיה גדול מ-x הוא 2.5% (ומשהו מקביל עבור Ψ). אני חושב שזה תואם את ההגדרות שלך (אין פילוג על הפרמטרים). לגבי ההגדרה שלי יש לי את האפשרות לחשב בעצמי או להאמין לך (98%). אני בוחר כמובן באפשרות הקלה ומרים ידיים (בפרט שאני חושב שהבנתי את ההגדרה שלמעלה). וחוב אחרון: יוסי השחור ואתה צדקתם בעניין חוסר המשמעות של ההסתברות של מספר הממתינים להיות כזה או אחר. כל העיסוק פה הוא סביב ההסתברות שהנשאל הראשון שלך יהיה מספר כזה או אחר בתור. |
|
||||
|
||||
שאלה ליובל נוב בדוגמת התור, או הפיסטוקים, או הטנקים: אם נאמוד את N כממוצע המדגם כפול שתיים, האם היעילות תקטן? |
|
||||
|
||||
לפני שאני עונה: למה אתה קורא "המדגם" (האם שואלים רק איש אחד בתור, או כמה?), ולמה בדיוק אתה מתכוון ב"יעילות"? |
|
||||
|
||||
אם שואלים רק איש אחד אז הוא המדגם, אבל נניח ששואלים מספר אנשים. וב'יעילות' אני מתכוון לשונות קטנה (ניסיתי להשתמש במונחים שלך). |
|
||||
|
||||
השונות (וכמובן גם סטיית התקן) של האמד "פעמיים הממוצע" היא גבוהה מזו של האמד "התצפית הגבוהה ביותר", ולכן במובן זה האמד השני עדיף. הנ"ל נכון גם אם המדגם הוא של ממתין/פיסטוק/טנק בודד, וגם אם "מתקנים" את האמד השני לאמד חסר הטייה על-ידי כפל ב- n+1 חלקי n (פה n זה גודל המדגם). במונחים של יעילות, אומרים במקרה זה כי *היעילות היחסית* של האמד "התצפית הגבוהה ביותר" היא גדולה מ-1, יחסית לאמד "פעמיים הממוצע" (יעילות יחסית זה סתם יחס שונויות). כשאומרים על אמד שהוא "יעיל" - לא ביחס לאמד אחר, אלא סתם, יעיל - מתכוונים שהשונות שלו משיגה את החסם התחתון על שונות אמדים שמציב אי-שוויון קרמר-ראו. הנקודה היא שמשפט קרמר-ראו לא חל על המקרה שלנו, משום שפונקצית הצפיפות של ההתפלגות האחידה לא עומדת בתנאי המשפט (היא לא "חלקה" מספיק), ונוצר מצב מבורך בו השונות של שני האמדים דנן היא *עוד יותר* נמוכה מהחסם התחתון. |
|
||||
|
||||
|
||||
|
||||
ההגדרה לרווח סמך שבלינק היא שקולה לתיאור שנתתי, והשקילות נובעת מהדואליות בין רווחי סמך לבין מה שנקרא "בחינת השערות". הופתעתי לגלות שקשה למצוא לינק פשוט שיסביר את השקילות (הרעיון הוא מאד יסודי בסטטיסטיקה, והסטודנטים בקורס המבוא שאני מלמד הסמסטר בדיוק נבחנו עליו, בין השאר, היום). הנה משהו לא אופטימלי: http://www.itl.nist.gov/div898/handbook/prc/section1... |
|
||||
|
||||
מעצבן, נכון? אתה מוזמן לכתוב את [[רווח סמך]] בויקיפדיה. |
חזרה לעמוד הראשי | המאמר המלא |
מערכת האייל הקורא אינה אחראית לתוכן תגובות שנכתבו בידי קוראים | |
RSS מאמרים | כתבו למערכת | אודות האתר | טרם התעדכנת | ארכיון | חיפוש | עזרה | תנאי שימוש | © כל הזכויות שמורות |