|
||||
|
||||
"אין לי הרבה ספק ש-12 ילדים אינם מספיקים להוכחה". חבל שאין לך ספק בנושא שאת מבינה בו כל-כך מעט. גודל האוכלוסיה נמצא נמוך מאד ברשימת הגורמים הרלוונטיים. |
|
||||
|
||||
האמנם? אתה יכול להסביר? |
|
||||
|
||||
איזה חלק? גודל האוכלוסיה (כמה אנשים חיים בעולם), להבדיל מגודל המדגם (על כמה אנשים נאספו נתונים), כמעט אינו רלוונטי בניסויים סטטיסטיים; כפי שהוא אינו רלוונטי בסקרי בחירות. חשוב רק לאסוף את הנבדקים באופן אקראי (או בעל התפלגות ידועה שאפשר להתחשב בה בניתוח הנתונים). הסיבה לזה היא אותה סיבה שמספר הירחים של אורנוס אינו רלוונטי: שני הנתונים אינם מופיעים בחישובים. |
|
||||
|
||||
יפה. אני מבינה שגם מדגם של 2 ילדים היה מספק אותך, לו נבחרו באופן אקראי. בעצם, אולי גם ילד אחד. |
|
||||
|
||||
יש רק שני סוגים של אנשים שאני מוצא טעם להסביר להם עניין סבוך: אלו שכבר מבינים בערך במה מדובר, ואלו שלא מבינים ומוכנים להאמין שהם שייכים לקבוצה השניה. |
|
||||
|
||||
ואתה חושב שאף אחד מהקוראים לא שייך לאחת משתי הקבוצות? |
|
||||
|
||||
אני, למשל, בסופרפוזיציה של שתיהן. חידה: בחר שנים עשר מספרים טבעיים באופן אקראי. מה ההסתברות שכולם מתחלקים בארבע? |
|
||||
|
||||
לא הבנתי. |
|
||||
|
||||
חרמפףףף. סליחה. זה לא יקרה שוב (אלא אם כן זה כן). |
|
||||
|
||||
בחר אקראית מספר טבעי אחד. 1) מה הסיכוי שהוא גדול מ 100? 2) כמה ספרות יש לו? |
|
||||
|
||||
1. אפס. 2. הרבה. 3. אל תתחכם איתי. אחרי מה שראיתי מארגנטינה ומברזיל אני לא במצב הרוח המתאים. |
|
||||
|
||||
סליחה, סליחה. תמשיך לחוד חידות ואז להתנפל על אנשים שמתייחסים אליהם. אני כבר אשב בחושך. |
|
||||
|
||||
מה אתה יושב לך בחושך בחיבוק ידים? אנחנו זקוקים למוחות הטובים ביותר כדי לפתור את הבעיה האימתנית הידועה כ"מבוי סתו"ם"1 שנראית בלתי פתירה לחלוטין, ואין לנו כמה שנים לחשוב עליה. מצידי, המספרים הטבעיים יכולים להבחר אקראית בין 1 לשישה מיליארד. _________________ 1- *ס*ביולה, *ת*בז *ומ*סי. |
|
||||
|
||||
מר ו. התעצבן על קוראת אחת מסויימת, זו שאינה מבינה וככל הנראה סבורה שהיא שייכת לקבוצה הראשונה. |
|
||||
|
||||
את זה גם אני הבנתי. |
|
||||
|
||||
מר ו. דיבר על גודל *האוכלוסיה*, לא על גודל *המדגם*. אגב, מדגם בגודל 1 גורם לבעיות מסויימות כשמנסים לחשב את סטיית התקן (חלוקה באפס). |
|
||||
|
||||
מר ו. אמר שאין ביניהם קשר. *אני* אומרת שיש. אם האוכלוסייה היא של מאה איש, למשל, נראה לי ששני אנשים יהיו די והותר למדגם (אני רוחשת כבוד רב לסטיות תקן). לעומת זאת, אוכלוסייה של מאה מיליון היא קצת שונה, ויש להביא בחשבון די הרבה גורמים שיכולים להשפיע. בעיקר על *גול* המדגם. |
|
||||
|
||||
*גול* שייך לדיון אחר. בלי להכנס לפרטים, אחת הפעיליוית המתסכלות ביותר היא להתווכח עם מר ו. על ענייני סטטיסטיקה, ולעומת זאת אחת הפעילויות המתגמלות היא לבקש ממנו הסברים. נסי ותהני. |
|
||||
|
||||
1) *ד"ר* ו. 2) את טועה. 3) השפעות המונדיאל? |
|
||||
|
||||
1. תודה. 2. מדוע? 3. אכן - והן מכוונות למונדיאליסט. |
|
||||
|
||||
1. למניעת טעויות: ד"ר למתמטיקה. |
|
||||
|
||||
אני יודעת. |
|
||||
|
||||
|
||||
|
||||
ועל-סמך מה *את* אומרת שיש קשר? אני, למשל, אומר שאין קשר משום שאני יכול לחסום מספרית את ההשפעה של גודל האוכלוסיה על האומדים השונים, ולהוכיח שהיא קטנה מאד כבר באוכלוסיה בגודל 100. אני תוהה מה משקל הראיות שאת יכולה להציג כנגד החישוב הזה. (שכ"ג: למרות שקצת מוגזם לבקש בקשות כאלה בעיתוי שכזה, נסה להתאפק בקשר לגול המדגם). |
|
||||
|
||||
מאוחר מדי. |
|
||||
|
||||
איך אתה חוסם מספרית את ההשפעה של גודל האוכלוסיה על האומדים השונים? (מהם בכלל האומדים השונים?) |
|
||||
|
||||
במקרה שלנו מנסים לאמוד את השכיחות של המחוסנים באוכלוסיה, או להעריך את ההסתברות לכך שכל החולים מחוסנים, כששכיחות המחוסנים באוכלוסיה ידועה (אלו שתי בעיות שונות). אם האוכלוסיה היתה אינסופית, אפשר היה [נניח] לבחור את המדגם באקראי, כאשר הסיכוי לבחור את אותו אדם פעמיים הוא אפס. בפועל המדגם סופי, ולכן צריך לבחור באחת מבין שתי אפשרויות: 1. לבחור את המדגם מתוך האילוץ שהוא כולל נדגמים שונים; 2. לבחור את המדגם ללא אילוצים, ולהסתכן בכך שאותו אדם יעלה בגורל פעמיים. חישובים כמו התוחלת והשונות תלויים בדרך בניית המדגם. למשל, בשיטה הראשונה (שמתאימה יותר להתנהלות המחקרית בפועל), הערך המספרי שמתקבל מן הדגימה השניה תלוי בערך של הדגימה הראשונה. אפשר לחשב דברים כמו התוחלת והשונות של הממוצע, ולראות שהמרחק ביניהם לבין מה שמתקבל מדגימה באוכלוסיה אינסופית, יורד בערך כמו אחד-חלקי גודל האוכלוסיה. |
|
||||
|
||||
תודה, אבל זה עדיין לא כל כך ברור (לי). אין סטטיסטיקה ידועה מראש על כמות (ומכאן השכיחות) המחוסנים באוכלוסיה (או שאתה מתכוון לאוכלוסיית החולים)? איך בניית המדגם משפיעה על החישובים? אתה יכול לתת מספרים לדוגמא (לחישובים)? |
|
||||
|
||||
מקרה א': אתה לוקח אוכלוסייה של מאה בני אדם, (יודע מה? קח אלף. כיוון שאחוז האוטיסטים "הנורמלי" הוא בסביבות חמישית, מציאת 12 אוטיסטים באוכלוסייה של מאה תעלה תהיות אחרות לגמרי). גם מתוך אלף בני אדם תתקשה, כמובן, למצוא 12 אוטיסטים, אבל ארבעה - במקרה קיצוני כלשהו - אולי תמצא. אוכלוסייה בת אלף אנשים קלה יחסית לסריקה. אתה לא חייב להיעזר רק במוסדות מתאימים. מקרה ב': קח אוכלוסייה של מאה מיליון בני אדם. איך אתה מגיע ל-12 האוטיסטים שלך? נניח, דרך מוסדות המטפלים בהם, לא? אתה לא יכול לסרוק אוכלוסייה כזו באופן פרטני. כעת, אתה לא צריך לדעת - או לפחות לקבל השערה טובה - כמה מן האוטיסטים בכלל מטופלים? והאם אתה יכול להניח שאין קשר בין האוכלוסייה השולחת אוטיסטים למוסדות רלוונטיים או משאירה רישום הולם שלהם למציאתך לבין אותו פלח באוכלוסייה הדואג לחיסונים? |
|
||||
|
||||
כלומר, את טוענת שמחקר שבו קבוצת המדגם כוללת רק 12 מטופלים עשוי שלא להיות ערוך כהלכה? אני חושב שזה ברור. העיקר שגם ההיפך1 יהיה ברור. כשמדברים על "אוכלוסיה בת אלף בני-אדם", אני מניח שאת לא מתכוונת למחקרים על שעור האוטיסטים במדינת הותיקן. אוכלוסיות בגודל כזה נוצרות מכיוון שהפרמטרים של המחקר מגבילות אותן, למשל, כשרוצים לבדוק את שעור האוטיסטים מבין הג'ינגי'ם שלמדו בכתה ד' אצל מורה בשם טובה. הסריקה במקרה כזה עלולה להיות קשה בדיוק כמו במקרה הכללי. 1 לא "במחקר שאינו ערוך כהלכה יכולים להיות 12 מטופלים"; היפך אחר. |
|
||||
|
||||
אני טוענת שמחקר על קבוצת מדגם הכוללת רק 12 נבדקים מתוך אוכלוסייה של מאה מיליון בני אדם, בתנאים שתיארת, לא יכול להיות ערוך כהלכה. כמובן, גם מחקרים מכל סדר גודל אחר יכולים להיות ערוכים שלא כהלכה, אבל לא בזה מדובר. |
|
||||
|
||||
אם כך, אין ספק שאת טועה. אפילו אם המחקר היה מבוצע על שנים-עשר המטופלים הראשונים שנכנסים למרפאה, אפשר לבקר את משתני הרקע ולקבל תוצאות לא רעות. במאמץ לא גדול אפשר לבחור את המטופלים באקראי מתוך מאגר מידע מתאים, ואז אין שום בעיה. בכל מקרה, אין הבדל בין אוכלוסיה בת מליון איש לאוכלוסיה גדולה פי מאה. |
|
||||
|
||||
את זה אתה באמת צריך להסביר. אתה מתכוון למצוא מרפאה שהאוכלוסייה המטופלת בה גם היא מתפלגת לרבע של מחוסנים והיתר לא? או למרפאה רנדומלית כלשהי? |
|
||||
|
||||
זו מרפאה שלישונית לאוטיסטים בלבד. איננו יודעים את שעור המחוסנים - בדקנו רק 12 נבדקים כי זה מספיק. |
|
||||
|
||||
יפה. למקרה שלא סתם שכחת את אייקון הסרקזם, אני תוהה: או.קיי. תפסת את שנים עשר הראשונים. גילית שכולם חוסנו. מה אתה מסיק מזה? האם אתה מגיע נשאר עם אותה מסקנה גם אם מתברר לך שכל הילדים בטווח ביקור מאותה מרפאה חוסנו גם הם? |
|
||||
|
||||
את שוב חוזרת לרעיון שהמחקר עצמו בוצע באופן רע (למשל, לא נלקח בחשבון שהאוכלוסיה בטווח ביקור מהמרפאה שונה מכלל האוכלוסיה), ומתעלמת מכך שמה שעוזי אומר הוא שאפשר, בתנאים אלמנטריים כלשהם, להוכיח את טענות המחקר גם עם מדגם של 12 איש. התנאי האלמנטרי הוא שהמדגם הוא אכן מקרי. כלומר, כדי להפריך את תוצאות המחקר, יכול להיות מספיק להוכיח את מה שאת אמרת - שהאוכלוסיה הנדגמת שונה מכלל האוכלוסיה בפרמטר חשוב. אבל אי אפשר לפסול את המחקר מראש רק על סמך גודל המדגם שלו. |
|
||||
|
||||
אני הגבתי לתגובה 391359 |
|
||||
|
||||
נ.ב. בשלב הזה דנון בטענתי ש"מחקר על קבוצת מדגם הכוללת רק 12 נבדקים מתוך אוכלוסייה של מאה מיליון בני אדם, *בתנאים שתיארת*, לא יכול להיות ערוך כהלכה". |
|
||||
|
||||
איזה תנאים הוא תיאר, ומדוע הם שוללים אפשרות למחקר שנערך כהלכה? |
|
||||
|
||||
התנאים: דגימה אקראית של 12 אוטיסטים ובדיקה כמה מהם חוסנו. ההתנגדות: החישוב הסטטיסטי שהציגו עוזי ו"מסביריו" יכול להיות תקף רק אם אין קשר בין פלח האוכלוסייה שחוסן (אותו רבע היפוטתי) לבין אופן הדגימה של הילדים וגם לא בין אותו פלח לבין הנטייה לאוטיזם. לטענתי, ייתכן מאוד שיש קשר כזה, ודאי באוכלוסייה גדולה. עקוב אחר הפתיל עד כה. |
|
||||
|
||||
את חוזרת וטוענת ש*אפשר* לערוך מחקר כזה עם שגיאות מתודולוגיות. עוזי טוען ש*אפשר* לערוך מחקר כזה בלי שגיאות מתודולוגיות. אין שום סתירה בין הטענות העכשוויות שלכם. הטענה המקורית שלך היתה אחרת: ש*אי אפשר* לערוך מחקר תקף על מדגם בגודל תריסר אם האוכלוסיה גדולה. לא יותר פשוט להודות בטעות? |
|
||||
|
||||
ממש לא. אני טוענת ש*אי אפשר* לערוך מחקר *כזה* באוכלוסייה גדולה בלי שגיאות מתודולוגיות. איפה ראית שטענתי אחרת? ההסתייגות היחידה שהוספתי - ואכן, אני מוסיפה אותה - היא שאפשר לערוך *ניסוי* בהתאם. אם יורשה לי לומר, גם עוזי הוסיף בדיעבד הסתייגויות לדבריו, ונסוג מעניין האוכלוסייה בת 100 בני אדם, למשל. |
|
||||
|
||||
מה זה "מחקר כזה"? אם מתוך מאה אלף אוטיסטים ידועים בוחרים אקראית שנים עשר, המחקר יכול להניב תוצאות משמעותיות או לא? |
|
||||
|
||||
כפי שאמרתי, זה תלוי. אם מדובר בניסוי, למשל - ייתכן שזה די והותר (אם כי אינני יודעת). בכל אופן, במקרה כזה אין קשר באמת לגודל האוכלוסייה. אם מדובר רק בגילוי בדיעבד אם ניתן חיסון מסוים - לא נראה לי. בכל אופן, לא ראיתי עד כה שמישהו הציע רעיון למחקר כזה שלא יהיה פגום מתודולוגית, ודאי לא הטענה האחרונה של עוזי (אם כי באמת יש להניח שהיא הייתה סרקסטית). |
|
||||
|
||||
ההבדל בין ניסוי לבין מחקר בדיעבד הוא טכני בלבד, ולא משפיע מבחינה סטטיסטית. |
|
||||
|
||||
הא? |
|
||||
|
||||
לא הבנתי מה זה "גילוי בדיעבד אם ניתן חיסון מסוים", וגם לא את ההבדל בין "ניסוי" ל"מחקר" בהקשר שלנו. האם הטענה שלך היא שאין דרך לבחור אקראית שנים עשר אנשים מאוכלוסיה ידועה? האם הטענה שלך היא שאחוז המחוסנים באוכלוסיה היה הרבה יותר גבוה ולכן ההסתברות אינה בסדרי הגודל שבדוגמא (במקרה זה את כנראה צודקת, ולכן אין מנוס מלקרוא את המחקר)? האם הטענה שלך אחרת? נא פרטי. |
|
||||
|
||||
"גילוי בדיעבד...וגו"' - מחקר המתבסס כל-כולו על אקראיות המדגם. בשונה מ*ניסוי* - קרי, יש קבוצה נבדקים, יש קבוצת ביקורת, יש מעקב... וכו'. ניסוי, בקיצור. הטענה שלי שבתנאים שפירט עוזי (חיסנו רבע מהאוכלוסייה, אבל כמובן לא מדובר ברבע *אקראי* שלה) - לא ברור איך אפשר לנטרל קשרים מסוימים בין הנבדקים שייבחרו לבין טיב האוכלוסייה המחוסנת ועדיין לקבל את המובהקות שהוא מצביע עליה. |
|
||||
|
||||
מה מונע מקבוצת הנבדקים וקבוצת הביקורת לא להיות מקריות? |
|
||||
|
||||
מה שיפה בקבוצות כאלה הוא שאין שום צורך שהן יהיו מקריות. |
|
||||
|
||||
אמממ... הסבר, בבקשה. (מקרה היפותטי שקרה באמת: רוצים לבדוק את ההבדל בהשפעת טיפול מסויים על ילדים עם ADHD לעומת ילדים בלי. מחלקים את קבוצת הילדים שנבחרו לילדים שיש להם ADHD ולילדים שאין להם. ההגדרה של ילדים שיש להם ADHD היא "ילדים שמקבלים ריטאלין". עכשיו בודקים את הטיפול החדש, וראי זה פלא: אין הבדל מובהק. הסבר א': הטיפול אינו משפיע בצורה מיוחדת על ילדים עם ADHD. הסבר ב': הטיפול כן משפיע בצורה מיוחדת על ילדים עם ADHD, אבל קבוצת הילדים עם ADHD כללה ילדים בלי ADHD שאובחנו בצורה שגויה, וקבוצת הילדים בלי ADHD כללה ילדים עם ADHD שלא אובחנו, או שכן אובחנו ולא נקבע להם טיפול תרופתי. מקרה היפותטי שלא קרה באמת (אני מקווה): רוצים לבדוק תרופה חדשה נגד סרטן השד. יוצרים שתי קבוצות לא מקריות, אחת עם נשים שאין להן הסטוריה משפחתית של סרטן השד, וקבוצת ביקורת של נשים שיש להן היסטוריה משפחתית של סרטן השד. לקבוצה הראשונה נותנים את התרופה, לקבוצה השניה נותנים פלציבו. התוצאות: הצלחה אדירה לתרופה הנבדקת לעומת קבוצת הביקורת. מה שווה המחקר?) |
|
||||
|
||||
נו, והרי הוכחת שהקבוצות *לא* אמורות להיות מקריות. נהפוך הוא. |
|
||||
|
||||
הן *כן* אמורות להיות מקריות. אם הן לא מקריות, יכולות להיות הטיות. איפה למדת מתודולוגיה, בדיוק? |
|
||||
|
||||
אז לדעתך לא היה צורך לבדוק היטב ש*כל* המטופלים אכן לוקים ב-ADHD וש*כל* אלה מקבוצת הביקורת אינם לוקים בכך? |
|
||||
|
||||
אהם. צודקת, דוגמא גרועה. אבל זה רק מראה שזה תלוי במערך הניסוי ובמה שמנסים לבדוק (האם יש הבדל או האם אין הבדל). |
|
||||
|
||||
יש מצב. הידד האח! |
|
||||
|
||||
זה שאין קשר בין פלח האוכלוסיה שחוסן לבין אופי הדגימה של הילדים נובע מהמילה "אקראי". נכון, אם נדגום את "12 הילדים הראשונים שנכנסים לקליניקה", יש סיכוי גדול להטייה. אבל אם ניקח את "רשימת כל הילדים האוטיסטים במדינה ונדגום 12 מתוכם באופן אקראי", אז אין. והשאלה אם יש או אין קשר בין חיסונים לבין אוטיזם היא בדיוק מה שאנחנו מנסים לבדוק. מה הקשר בין הקשר בין אוטיזם לחיסונים, לבין גודל האוכלוסיה? למה שבאוכלוסיה גדולה יותר יהיה יותר קשר בין אוטיזם לחיסונים, לעומת אוכלוסיה קטנה יותר? |
|
||||
|
||||
חבל שלא עקבת אחרי הפתיל. בקצרה, אחזור על עיקר טיעוניי: א. דגימה של אוטיסטים - אקראית או אחרת - באוכלוסייה גדולה יכולה להיערך רק באמצעות מוסדות רלוונטיים. קרי, מדובר רק באוטיסטים מאובחנים ומטופלים. האם אין סיכוי טוב שאוטיסטים כאלה באים, בחלקם הגדול, מאוכלוסייה שטרחה גם לחסן את ילדיה? ב. כאשר רק רבע מהאוכלוסייה מחוסן, יש לצפות שמדובר באוכלוסייה אמידה יחסית. כיוון שאחוד האוטיסטים גדול יותר בקרב לבנים, וייתכן אף שבעיקר להורים בעלי נטייה לתחומים הריאליים, סביר להניח שיהיה מתאם מסוים בין האוכלוסיות. |
|
||||
|
||||
א. לא נראה לי. כפי שציינתי מקודם, אני לא חושב שקל לפספס אוטיזם, או לאפשר שילד יגדל בלי שום טיפול או לפחות מודעות של הרשויות לגבי מצבו. ב. כמו שאמרתי, במקרה כזה אכן יש קשר, עקיף, או אולי אף כוזב. אבל קשר. הסבר אלטרנטיבי לקשר אינו שולל את עצם קיומו של הקשר. |
|
||||
|
||||
א. לא אתפלא אם בקרב אוכלוסיות רבות (בארץ, למשל - חרדים או ערבים) ילדים כאלה לא תמיד מאובחנים ולא בהכרח מטופלים דרך הרשויות. ב. ממש לא ברור לי מה זה רלוונטי אם יש קשר או לא. המחקר שעוזי מגן עליו לא נועד להוכיח קשר כלשהו, אלא קשר של גרירה. |
|
||||
|
||||
א. אפשר לנטרל את זה בקלות (למשל, על-ידי התחשבות באחוז המחוסנים לא בכלל האוכלוסיה, אלא רק באוכלוסיה היהודית החילונית, ובאותה מידה לבחור את המדגם של האוטיסטים רק מתוך האוכלוסיה הזו). ב. לא, הוא נועד להוכיח קשר. אחרי שנוכיח קשר, אפשר להתחיל לבדוק מה הכיוון שלו והאם יש גורמים עקיפים שמשפיעים עליו ולא חושבו במחקר המקורי. |
|
||||
|
||||
א. אפשר כמובן, אבל אז ייתכן מאוד שהחישוב של *רבע* מהאוכלוסייה יילך לאיבוד, ויחד אתו גם מובהקות התוצאה. ב. אם על המחקר שממנו התחיל הדיון הסתמכו הורים כדי שלא לחסן את ילדיהם, והרופא "החוקר" הסתמך עליו כדי להזהיר מפני החיסון, אין ספק שמדובר בקשר של גרירה. |
|
||||
|
||||
א. אין לי כוח לבצע את החישוב (הפשוט, אבל אני עצלן), אבל אני מעריך שגם אם האחוז יעלה ל-33, עדיין תוצאות כאלו תהיינה משמעותיות סטטיסטית. ב. מה שההורים עשו לא באחריות החוקר. למיטב הבנתי החוקר עצמו לא טען שהמחקר שלו מוכיח את הטענה באופן מוחלט, אלא רק הצביע על קשר שיש לחקור יותר לעומק. ככה עובד המדע. |
|
||||
|
||||
א. ואם הוא יעלה ל-90 אחוז? ב. אני התרשמתי מהכתבה שהחוקר בהחלט הזהיר מפני חיסונים. |
|
||||
|
||||
א. הוא לא יכול לעלות ל-90 אחוז, כי הערבים והחרדים לא מהווים חלק מספיק גדול מהאוכלוסיה, גם אם אחוז החיסון שם הוא אפס מוחלט. ב. קראת את המחקר? |
|
||||
|
||||
א. המחקר לא נערך בארץ. הערבים וגו' היו דוגמא בלבד. אין לי מושג מה אחוז השחורים/הזרים/העניים/הניו-אייג'ים וכיו"ב בבריטניה. ב. לא קראתי את המחקר, גם לא התייחסתי אליו, גם עוזי לא התייחס אליו. התייחסתי למחקר ההיפותטי של ד"ר וישנה. למיטב הבנתי (אלא אם *הוא* יגיד אחרת) - המחקר בא להוכיח קשר גרירה. |
|
||||
|
||||
א. המחקר ההיפותטי דווקא כן. ב. אני מבטיח לך שעוזי יגיד אחרת. |
|
||||
|
||||
א. למה אתה חושב? ב. עם "קשר" אחר אין לי בעיה. |
|
||||
|
||||
א. ככה החלטתי. ב. תודה באמת. (נו, עוד מאמץ קטן ונצליח לצמצם כל תגובה שלנו לשתי מילים בלבד!) |
|
||||
|
||||
טוב מאוד. |
|
||||
|
||||
הידד! |
|
||||
|
||||
! |
|
||||
|
||||
אני חושב שאני יכול לנסות להסביר מה צורם במדגם בגודל כזה. נניח שבחרת באופן אקראי לחלוטין את אותם 12 איש, והסיכוי הוא אמנם רבע שהם יהיו מחוסנים. אמנם קיבלת תוצאה בעלת מובהקות סטטיסטית, אבל אתה צריך להסביר למה בעצם נעצרת ב 12, או במילים אחרות - למה אתה בוחר להאמין שבחרת באקראי לחלוטין את אותו תריסר. דווקא1 בגלל שהתוצאה כל כך מובהקת אתה צריך לפקפק בניסוי שערכת. אודה מאוד לתגובה! 1 אני לא בטוח אם אפשר לכמת את ה"דווקא" הזה, אבל אינטואיטיבית נראה לי שהוא גדל עם המובהקות. |
|
||||
|
||||
למה אני בוחר להאמין שבחרתי לחלוטין באקראי את אותו תריסר? בגלל שלקחתי את הקוביות שלי, שאותן בחנתי מראש לוודא שהן חסרות הטיה, ובעזרתן הגרלתי 12 מספרים בין 1 ל10000 ואז שלפתי את האוטיסטים המתאימים למספרים הללו מתוך רשימת 10000 האוטיסטים שבידי. במילים אחרות: מה? |
|
||||
|
||||
בכלל לא בטוח שככה נבחרו התריסר, אבל אני מסכים שצריך "להאמין" באקראיות של קוביות. השאלה מתעוררת כאשר הבחירה לא עברה רדוקציה כל כך ברורה אל אקראיות. נניח למשל שאתה בודק את 12 הילדים הראשונים שהגיעו למרפאה החל מ 01.01.2006, וקיבלת את התוצאה המדוברת. במקרה כזה ניתן לדמיין מתאם מסויים שיטה את התוצאה (נניח "הורים בליינים ישנים אחרי הסילווסטר"), וגם אם לא - למה שלא תבחר עוד תריסר, בשיטה אחרת? הפעם תבחר ילדים לפי סדר א' ב' (עדה? ואולי יש קשר בין עדה לבליינות?). ברור שהדוגמאות שנתתי מופרכות אבל העקרון הוא שלמעט מקרים מובהקים כמו הטלת קוביה ובחירה מתוך רשימה (גם אז תיאורטית אפשר לשאול "מי כתב את הרשימה ומי בדיוק נכלל בה?") קשה לבסס את תהליך הבחירה באופן שינטרל לחלוטין מתאמים נסיבתיים כלשהם, ובמקרה שהאוכלוסיה מספיק גדולה - למה שלא תמשיך את הניסוי כדי לנסות לחזק את האמונה שלך (ושל קוראי מאמרך) בנכונות הניסוי (קרי באקראיותו)? במילים אחרות (וחובבניות) - הניסוי העלה תוצאות מובהקות, אבל האם הניסוי מובהק? והתהיה המתמטית המקורית שלי - האם הגדלת (+ שינוי אופן הבחירה) המדגם יכולה ללמד משהו על ה*ניסוי*, להבדיל מללמד משהו (מיותר מבחינה סטטיסטית בתיאור של עוזי) על ה*תוצאה*? |
|
||||
|
||||
כל אלה שאלות יפות, אבל הן לא קשורות לגודל המדגם או להערה המקורית של עוזי (שאפשר לבצע מחקר בעל משמעות סטטיסטית גם על 12 מקרים). >ברור שהדוגמאות שנתתי מופרכות אבל העקרון הוא שלמעט מקרים מובהקים כמו הטלת קוביה ובחירה מתוך רשימה (גם אז תיאורטית אפשר לשאול "מי כתב את הרשימה ומי בדיוק נכלל בה?") זו באמת הדרך בה ראוי לערוך מחקרים כאלה. ד"א, אם הרשימה מספיק גדולה (נניח, 90% מהאוטיסטים, להערכתנו) זה לא חשוב מי כתב אותה. >למה שלא תמשיך את הניסוי כדי לנסות לחזק את האמונה שלך (ושל קוראי מאמרך) בנכונות הניסוי (קרי באקראיותו)? למה כן? כמה אוטיסטים יספקו אותך? 50? 500? את שאלותיך האחרונות פשוט לא הבנתי. מה ההבדל בין ניסוי מובהק לניסוי בעל תוצאות מובהקות? |
|
||||
|
||||
האם נראה לך שתגובה 391359 כתובה בנימה סרקסטית? אם לא - האם אתה יכול להסביר? |
|
||||
|
||||
לא. התגובה נועדה להבהיר שמדובר במרפאה לאוטיסטים בלבד ואין משמעות לשאלה: "אתה מתכוון למצוא מרפאה שהאוכלוסייה המטופלת בה גם היא מתפלגת לרבע של מחוסנים והיתר לא?" |
|
||||
|
||||
מוזר מאוד. חשבתי שברור ש"האוכלוסייה המטופלת בה" היא האוכלוסייה הגרה בטווח הרלוונטי ושולחת את ילדיה האוטיסטים למרפאה זו דווקא. יש להניח שיש יותר ממרםאת אוטיסטים אחת באוכלוסיה של עשרות מיליונים. אשר על כן יש משמעות לשאלה: לא בטוח שבכל טווח מטופלים האוכלוסייה הרלוונטית מתפלגת ביחס לחיסון באותו אופן כמו האוכלוסייה הכללית. |
|
||||
|
||||
אנחנו לא באותו ראש... אני לגמרי לא מפקפק במה שעוזי אמר, אלא רק מנסה לברר נכונות דבר נוסף: כאשר המדגם קטן והאוכלוסיה גדולה, ואתה נתקל בממצאים (גם אם מובהקים במיוחד), יש לך את הפריוילגיה כמדען לבחון גם את הניסוי שלך ולא רק את מה שהניסוי עצמו בודק. מתוך אוכלוסיה של 100,000, יותר קל לטעות *בבחירה* של תריסר מאשר בבחירה של 100 או 1,000. יכול להיות שבניסוי ההיפותטי עוזי מניח שהבחירה אקראית לחלוטין, אבל זוהי כמובן הפשטה, שבעולם האמיתי לא תמיד תופסת - והתהיה שלי נוגעת בדיוק למידת האקראיות בבחירה בניסוי בעולם האמיתי וליתר דיוק הדרך להתמודד איתה אם אנחנו לא בטוחים בה. את אותו אפקט של חיזוק האמון בניסוי ניתן להשיג גם ע"י מתודה אחרת לבחירה, אבל אם אתה מאמין שבחרת באקראי ואין לך שום דרך לשפר את האקראיות גם הגדלת המדגם יכולה לעזור. |
|
||||
|
||||
אם המטרה היא לשפר את אקראיות הבחירה, הגדלת המדגם (ללא שינוי אחר) היא לא הדרך. לדוגמא: נניח שהרשימה ממנה בחרנו באקראי היא של מבוטחי קופת חולים בית"ר שנותנת חופשה משפחתית מתנה על כל חיסון ולכן שיעור המחוסנים בה הוא 90%. מובן שזה הופך את התוצאות שלנו (12 אוטיסטים מחוסנים) ללא מובהקות כלל (אבל אנחנו לא יודעים זאת). נניח שהגדלנו (בעצת מ.ג. מתודולוגיות בע"מ) את המדגם ל-100 וקיבלנו שמתוכם 92 מחוסנים. מה עכשיו? איך מצבנו השתפר? ככלל, הגדלת המדגם טובה בעיקר למצוא תופעות *חלשות* יותר ולא כהגנה מתודולוגית. |
|
||||
|
||||
מי אמר לך שאני אומר שצריך להמשיך לבדוק רק חולים של קופת חולים בית"ר? הרי אם נגדיל את המדגם מספיק נתחיל בלית ברירה לבדוק חולים אחרים. בכל מקרה ראה תגובה 392171 שלי לעוזי. |
|
||||
|
||||
>מי אמר לך שאני אומר שצריך להמשיך לבדוק רק חולים של קופת חולים בית"ר? אם יש לי רשימה מקיפה יותר אני אשתמש בה מלכתחילה. > הרי אם נגדיל את המדגם מספיק נתחיל בלית ברירה לבדוק חולים אחרים. בלית ברירה? יש 11738 אוטיסטים ברשימה של בית"ר, ל-"בלית ברירה" נגיע רק באוטיסט ה-11739 . |
|
||||
|
||||
ניסיתי למקד את השאלה בתגובה 392202 |
|
||||
|
||||
ככלל, מבצעים מחקר במדגם קטן רק כאשר אין ברירה (המדידות הנלוות יקרות; האוכלוסיה מפוזרת וקשה לאיתור; גיוס החולים יקר ומסובך), וניתוח מוקדם מראה שגם המדגם הזה מספיק מבחינה סטטיסטית. למעשה, "ועדת הלסינקי" המקומית לא אמורה לאשר את הניסוי, אלא אם תשכנע אותה (מראש) שגודל המדגם אמור להספיק כדי לקבל תוצאות מבוהקות. |
|
||||
|
||||
תגובה 392018 |
|
||||
|
||||
נו, אז מותר למצוא פגם בניסוי שבדק 12 אוטיסטים? אבל זו לא השאלה שלי - השאלה שלי היא שאלה בסטטיסטיקה, או למעשה *על* סטטיסטיקה: האם יש פרמטר שמכמת את האקראיות שבבחירה? אם יש כזה, האם הגדלת המדגם משפיעה עליו? |
|
||||
|
||||
הבהרת כוונתי: הפרמטר שמכמת את האקראיות צריך כמובן להיות בלתי ידוע לחוקר, ולמעשה הוא מקביל ל"מידת האמון" בניסוי שהוא מציע. כלומר ההשערה/שאלה שלי היא כזאת: ברור שאם נבדוק את כל החולים נקבל ניסוי מאוד "אמין" ומאוד מובהק. אבל בניסויים עם מדגם קטן יחסית יש להשפעות לא ידועות מקום גדול יותר, ואפילו אם הניסוי מאוד מובהק סטטיסטית (כמו הניסוי ההיפותטי שהצעת), מידת האמון בבחירה האקראית לכאורה יכולה לרדת. |
|
||||
|
||||
יש בכל ניסוי ''משתנים בלתי תלויים'', שאפשר להעזר בהם כדי לבדוק שהמדגם אקראי ושהחלוקה שלו לתת-קבוצות (אם יש כזו) תלויה רק בגורמים הרלוונטיים. לדוגמא, אם רוצים לבדוק השפעה של שיטת חינוך מסויימת על ילדים בני שנתיים, כדאי לבדוק שבשתי הקבוצות יש לילדים (בערך) אותו מספר אחים - אחרת יהיו גורמים נוספים שעלולים להסביר הבדלים בין הקבוצות. ברור שבניסויים עם מדגם קטן יש יותר מקום להשפעות לא ידועות - בדיוק בגלל זה המובהקות תלויה בגודל המדגם. אלא אם כוונתך היא שהחוקר יכול לרמות עשר פעמים בכל ניסוי, ואז כדאי לקבוע מדגם של ארבעים לפחות, כדי שהרמאויות לא יקבלו משקל גדול. כל הגישה הזו (לתפוס את החוקר ברמאות דרך המספרים שלו) קצת בעייתית, כי בשלבים מכריעים של התהליך המספרים כולם יושבים בקובץ אחד על המחשב שלו (או של הסטטיסטיקאי שלו), ואפשר, עקרונית, לתפור אילו תוצאות שרוצים. |
|
||||
|
||||
אני לא מדבר על חוקר שמרמה. אני אעזר בדוגמאות שנתת כדי להסביר: נוסיף משתנה לעולם הניסוי שהצעת - מגורים ליד קו מתח גבוה, בסיכוי של 50%. נסתכל על שני מקרים: 1. החוקר בדק אקראית (מבחינתו ומבחינת כל שאר העולם) 12 ילדים אוטיסטים, כולם קיבלו חיסון, כך שהוא קיבל תוצאות מובהקות סטטיסטית. שנה לאחר מכן הסתבר ש 11 מהילדים גרים ליד קו מתח גבוה. 2. החוקר בדק אקראית (מבחינתו ומבחינת כל שאר העולם) 120 ילדים אוטיסטים, וחלק מהם קיבל חיסון, כך שהוא קיבל תוצאות מובהקות סטטיסטית בדיוק באותה מידת מובהקות של הניסוי הקודם. שנה לאחר מכן הסתבר ש 110 מהילדים גרים ליד קו מתח גבוה. בשני המקרים סביר שהחוקר טעה והבחירה שלו לא הייתה אקראית, אפילו אם קשה למצוא קשר בין דרך הבחירה לבין מגורים ליד קווי מתח גבוה. השאלה שלי היא לאיזה משני המקרים יש סיכוי גדול יותר להתרחש מנקודת מבטנו *שישה חודשים* לאחר הניסוי המקורי. השאלה שלי מנסה לכמת את הסיכוי לטעות של החוקר בעריכת הניסוי, לא את המובהקות הסטטיסטית של הניסוי המקורי. |
|
||||
|
||||
כל פרמטר שתרצה לנסח יהיה תלוי במודל - בלי הבנה של המציאות, אין הרבה טעם לערוך מחקרים. בעקרון, הסיכוי לתופעות מוזרות (כמו נפילת חלק משמעותי מן המדגם לקבוצה קטנה באוכלוסיה, במשתנים לא מבוקרים) יורד אקספוננציאלית עם גודל המדגם. המסקנה היא שעדיף לקחת מדגמים כמה שיותר גדולים. עדיף גם להיות חכם, בריא ועשיר. |
|
||||
|
||||
הסיכוי יורד אקספוננציאלית עם גודל המדגם בהנחה שהמדגם אקראי. מה שמעניין אותי זה הרצף שמדגמים אקראיים לחלוטין הם רק הקצה שלו. החוקר של שני המקרים בתגובתי הקודמת חשב שהמדגם אקראי אבל לאחר שנה הסתבר שהוא טעה. אני לא מצפה למספר שיתאר את הסיכוי לטעות כזו של החוקר, אבל אני חושב שמדגם גדול יותר משפיע על טעויות כאלו ועשוי לסנן ניסויים, וזה בלי קשר להשפעת הילד ה 13 על תוצאת הניסוי עצמו. |
|
||||
|
||||
לא צריך אקראיות מלאה - מספיק שהמדגם אינו דטרמיניסטי. ברגע שיש אנטרופיה, היא משפיעה בקצב אקספוננציאלי. מעשית, בחישובים של מובהקות גודל המדגם משפיע בדיוק דרך היכולת של מדגם גדול להתגבר על תופעות אקראיות (וזה בדיוק מה שאתה מחפש). מצד שני, נכון שההשוואה תלויה במודל (שכן מניח אקראיות במקומות מוגדרים), ואפשר לתהות מה קורה אם המודל אינו מדויק ויש תלויות נוספות. כוחה של הסטטיסטיקה מגיע עד היכן שהחוקר מסוגל לנסח מודלים להשוואה; אחר-כך נשאר רק "זה לא נראה לי". |
|
||||
|
||||
תגובה 392018 |
|
||||
|
||||
תודה, אבל כבר התעלמתי בפעם הראשונה. |
|
||||
|
||||
התעלמת בפעמיים הראשונות. אבל תהיתי מדוע. |
|
||||
|
||||
או קיי, תודה. |
|
||||
|
||||
מאי משמע "נו, אז"? לא ברור לי מה אמור לעשות הפרמטר שלך; יש כל מיני פרמטרים שמודדים כל מיני היבטים של המדגם. חלקם תלויים בגודל המדגם, וחלקם (אלו שנרמלו אותם), לא תלויים. אם תשאל שאלה יותר ברורה, אולי אצליח יותר. |
|
||||
|
||||
תגובה 392018 |
|
||||
|
||||
לא משנה, אבל כוונתי הייתה "האם בהתחשב במה שכתבת היו מסתפקים בתריסר נבדקים למרות שניתן לבדוק בלי יותר מדי השקעה מספר גדול בהרבה". כאמור - לא משנה. בכל מקרה ניסיתי לנסח את השאלה בתגובה 392202. |
חזרה לעמוד הראשי | המאמר המלא |
מערכת האייל הקורא אינה אחראית לתוכן תגובות שנכתבו בידי קוראים | |
RSS מאמרים | כתבו למערכת | אודות האתר | טרם התעדכנת | ארכיון | חיפוש | עזרה | תנאי שימוש | © כל הזכויות שמורות |