![]() |
|
![]() |
||
|
||||
![]() |
כתבה ב"אטלנטיק" (תרגום ב"הארץ") מספרת על התפרצות של מקרים רבים של ALS בכפר באלפים, שגורמת לחוקרים לחפש גורם סביבתי למחלה (מסורתית חיפשו הסברים גנטיים). ידועים גם מקרים קודמים של התפרצויות מקומיות. לעומת זאת, חוקרים אחרים אומרים שהתפרצויות מקומיות הן רק רעש סטטיסטי. כמה קשה להכריע האם ריבוי מקרים מקומי הוא רעש סטטיסטי או תופעה מובהקת? הייתי חושב שזה תרגיל בסטטיסטיקה 101. |
![]() |
![]() |
![]() |
![]() |
|
![]() |
||
|
||||
![]() |
בדיוק קראתי את הכתבה הזאת הבוקר, ותוך כדי הקריאה חשבתי "רגע, אבל האם בדקו אולי זאת סתם מקריות?", ואז הגעתי ל"אולי, כפי שאמר ג'פרי רותסטיין, נוירולוג מבית הספר לרפואה באוניברסיטת ג'ונס הופקינס, ההתפרצויות כלל אינן משמעותיות, הן פשוט סטיות סטטיסטיות נדירות. 'חולים תמיד מחפשים סיבה למחלה הנוראה שלהם', אמר. 'היו כבר הרבה 'מוקדים' כאלה של ALS לאורך השנים. לכל מומחה היה הסבר משלו, ואף אחד מהם לא הוביל לשום מקום'." אני לא יודע אם ואיך בדקו את העניין במקרה הספציפי הזה ("התפרצויות" ALS), אבל תחת הנחות שנראות לי סבירות, הבדיקה לא אמורה להיות קשה. שכיחות המחלה, ע"פ הכתבה, היא כ-3 ל-100,000 בני אדם. אם חושבים על אוכלוסיית המדינה כמורכבת מ-K קהילות קטנות, כל אחת עם n תושבים, ומגדירים "התפרצות" כהופעה של 5 מקרי ALS או יותר, אז קל לחשב את ההסתברות להתפרצות בקהילה בודדת, ואז את ההסתברות שמבין K הקהילות תהיה לפחות קהילה אחת עם התפרצות. למשל, עבור K = 7,000 ו- n = 10,000 (כך שבמדינה יש 70 מיליון תושבים, בדומה לאוכלוסיית צרפת) מקבלים שההסתברות להתפרצות בקהילה בודדת היא 0.0000157, אבל ההסתברות לקהילה אחת לפחות עם התפרצות היא יותר מ-0.1, כלומר זה לא מאורע עם הסתברות זעירה. אבל לא ברור לי מהם ה-n וה-K ה"נכונים". בכתבה נאמר "... ההתפרצות באלפים, שצמחה בסופו של דבר ל–16 חולים — מספר הגדול פי עשרה ממה שניתן היה לצפות באוכלוסייה כה קטנה." בחישוב נאיבי יוצא שהאוכלוסייה הזו היא בת כ-53,000 תושבים (n), ואז אפשר לחלק את צרפת לכ-1320 קהילות כאלה (K). ההסתברות שתהיה לפחות קהילה אחת עם התפרצות היא עכשיו תכל'ס 1. אבל אם משנים את ההגדרה של התפרצות ל-10 מקרים או יותר, ההסתברות למציאת לפחות קהילה אחת עם התפרצות יורדת לקצת פחות מ-1%, וכשמעלים עוד את סף ההתפרצות, מ-10 ל-16, ההסתברות נהיית כמעט 0. |
![]() |
![]() |
![]() |
![]() |
|
![]() |
||
|
||||
![]() |
תודה. אבל כשם שאתה לא בודק את ההסתברות להתפרצות דווקא במונשבאן אלא בקהילה כלשהי בצרפת, נדמה לי שראוי לבדוק את ההסתברות לקהילה כלשהי בעולם, וזה מן הסתם מעלה את ההסתברות. | ![]() |
![]() |
![]() |
![]() |
|
![]() |
||
|
||||
![]() |
כמובן, אבל בכתבה נאמר: "שיעורים גבוהים של ALS נצפו סביב לגונה בצרפת, ליד אגם בניו המפשייר, בבניין מגורים בודד במונטריאול ובמדרון המזרחי — אך לא המערבי — של הר אטנה באיטליה." כלומר יש יותר מ"התפרצות" אחת בעולם. | ![]() |
![]() |
![]() |
![]() |
|
![]() |
||
|
||||
![]() |
נכון - ולכן חשבתי שהדבר הנכון לבדוק הוא כמה "מקומות" או "קהילות" יש בעולם ומה הסיכוי ל"התפרצות" בכל אחד מהם. למה מעניין לבדוק מדינה אחת (אחת מהמעטות שהיתה בהן התפרצות (אמיתית או מדומה))? | ![]() |
![]() |
![]() |
![]() |
|
![]() |
||
|
||||
![]() |
זה סתם יותר קל לבדוק מדינה אחת (או אזור מאד גדול אחד) עם התפרצות אחת, אחרת נוסף הסיבוך של גדלי ''קהילות'' שונים - למשל כפר באלפים לצד בניין מגורים בודד וכו'. | ![]() |
![]() |
![]() |
![]() |
|
![]() |
||
|
||||
![]() |
לא קראתי את הכתבה, אך האם שכיחות המחלה נמדדה בצורה הכוללת את ההתפרצויות (או את צירופי המקרים)? אם כן, האם אחוז החולים בהתפרציות מכלל החולים גדול מספיק להשפיע על אומדן הסיכוי לחלות בצורה ״ספונטנית״ בצורה משמעותית? |
![]() |
![]() |
![]() |
![]() |
|
![]() |
||
|
||||
![]() |
בכתבה לא מפרטים, אבל אני משוכנע בכמעט 100% שגם אם השכיחות נאמדה כולל ה"התפרצויות", ההשפעה של נתוני ההתפרצויות על התוצאה היא זניחה. | ![]() |
![]() |
![]() |
![]() |
|
![]() |
||
|
||||
![]() |
שאלה מהדיוט: איך עבור K/N 7000/10000 קיבלת הסתברות של 0.1, אבל עבור 1320/53000 קיבלת כמעט 1? לי זה לא הסתדר באינטואיציה, אבל אני בטח טועה. |
![]() |
![]() |
![]() |
![]() |
|
![]() |
||
|
||||
![]() |
ההסתברות שאדם נתון יהיה חולה היא p = 0.00003. ההתפלגות של מספר החולים בקהילה בת n = 10,000 חברים היא בינומית עם פרמטרים n, p, ויוצא שההסתברות להתפרצות בקהילה (5 חולים או יותר) היא 0.0000157 (קיבלתי מהפקודה pbinom(4, n, p, lower.tail = F) ב-R). נקרא להסתברות האחרונה a, ואז ההסתברות לקהילה אחת לפחות עם התפרצות היא 1 פחות [(1 פחות a) בחזקת 7000], וזה יוצא 0.1045. תחזור על זה עם זוג הפרמטרים האחרים, ותקבל כמעט 1. | ![]() |
![]() |
![]() |
![]() |
|
![]() |
||
|
||||
![]() |
נהדר. החזקה עושה את זה לא אינטואיטיבי, ולכן הכשל לחשוב שהתפרצות היא לא מקרית. |
![]() |
![]() |
![]() |
![]() |
|
![]() |
||
|
||||
![]() |
אאז"נ כהנמן דיבר על זה ב"לחשוב מהר, לחשוב לאט". בהינתן התפלגות נורמלית, כמו תוחלת חיים בדוגמה שלו, תמיד יהיו ישובים קטנים שבהם תוחלת חיים גבוהה במיוחד וכאלה עם תוחלת חיים נמוכה במיוחד. יובל, תעזור לנו איך מסננים את הרעש הזה? |
![]() |
![]() |
![]() |
![]() |
|
![]() |
||
|
||||
![]() |
הכתבה הסתיימה בכך שמאז 2019 לא התגלה מקרה חדש. נראה לי שהבדיקה הבסיסית היא להתעלם מכל הסטטיסטיקה הקודמת ולהתחשב רק במה שהגיע החל מהזמן שהתחלנו להתייחס למקום כמיוחד. אם זו סתם סטטיסטיקה, יש סיכוי טוב לחזרה לממוצע. | ![]() |
![]() |
![]() |
![]() |
|
![]() |
||
|
||||
![]() |
כזכור, לא פעם מציבים רמזור, מוסיפים באמפר או מחייבים לרכוש אפוד זוהר בגלל עניינים דומים. מישהו (אתה?) כבר הזכיר שאחרי שהרגרסיה לממוצע עושה את שלה מתגאים בהצלחת האמצעי שננקט. אם במקום שר המורשת, שר הטפשת, שר הקשקשת או שר הלשלשת היו ממנים שר לענייני סטטיסטיקה (ויש לי מועמד!) חיינו היו קצת יפים יותר. |
![]() |
![]() |
![]() |
![]() |
|
![]() |
||
|
||||
![]() |
אני כנראה מבין אתכם לא נכון, כי נשמע לי למשל שלשיטתכם אין עדות לכך שאי פעם התרחשה הרעלת מזון בעולם. | ![]() |
![]() |
![]() |
![]() |
|
![]() |
||
|
||||
![]() |
זה לא מדויק. הטענה היא שאם בבניין מסויים ארבעה אנשים לוקים בכאבי בטן זה לא בהכרח ארוע משמעותי. אם ארבעתם אכלו מאותה צלחת בליל הסדר ורצו לשלשל מיד אחרי הארוחה סביר שזה לא מקרי, אבל הנטיה להשליך את הסברה הזאת באופן גורף נופלת הרבה פעמים על אינטואיציה שגויה (אני לא צריך לספר לך מה ההסתברות לכך שכמה אנשים בקבוצה של 23 חוגגים יומולדת באותו יום בלי התערבותו של אורי גלר). אני מכיר סיפורים על בניינים מקוללים עם ריבוי מקרי סרטן, למשל, וייתכן שיש שם באמת איזו בעיה סביבתית אבל ייתכן גם שזאת תנודה סטטיסטית. דומני שזאת הנקודה של יובל. את החישובים המדוייקים (ואולי גם תשובה טובה יותר לך) אני משאיר לאלה שמסוגלים לעשות 2+2 ולקבל 4, מה שפעם גם אני ידעתי לעשות בלי עזרת ג'פטו. |
![]() |
![]() |
![]() |
![]() |
|
![]() |
||
|
||||
![]() |
אני כמובן מסכים שלעיתים ההסבר לאירועים כאלה הוא "סתם ככה" (כי גם אירועים שהסתברותם נמוכה מתרחשים לפעמים, בהסתברות נמוכה) או איזושהי וריאציה של חוק המספרים הקטנים. אבל מצד שני: לעיתים לא. אני מוסיף שגם אם יש גורם סיבתי שגורם להתפרצות כזו, הוא עלול להראות נקודתית כמו אירוע מיקרי ואחריו רגרסיה לממוצע. אז האבחנה ברגרסיה כזו לבדה לא מספיקה כדי להבדיל בין המקרים. |
![]() |
![]() |
![]() |
![]() |
|
![]() |
||
|
||||
![]() |
וכמובן אם המקרים קורים בסמיכות זמנים, החישוב לא צריך לקחת בחשבון את מס' החולים הכללי באוכלוסיה אלא את מס' הדיאגנוזות החדשות לתקופת זמן (עם הסיבוך הנוסף שלאחר כמה מקרים כאלה ייתכן שהאוכלוסיה המקומית נבדקת יותר). החיים קשים, ולכן תביעתי למנות שר לנושא מקבלת משנה תוקף. |
![]() |
![]() |
![]() |
![]() |
|
![]() |
||
|
||||
![]() |
גם שר וגם משנה1? הרבה דרישות יש לך היום. 1 ועוד תוקפני |
![]() |
![]() |
![]() |
![]() |
|
![]() |
||
|
||||
![]() |
גמני השתעשעתי ברעיון הזה. | ![]() |
![]() |
![]() |
![]() |
|
![]() |
||
|
||||
![]() |
אבל להבנתי לפי הכתבה היו מקרים מדווחים חדשים לאחר ההכרזה על האזור כאזור מסוכן. כלומר: זה לא היה הדפוס הרגיל של רגרסיה. | ![]() |
![]() |
![]() |
![]() |
|
![]() |
||
|
||||
![]() |
בחישוב צריך, כמובן, לקחת בחשבון גם את המקרים הנוספים, אבל זה שהם התגלו לאחר החשד הראשוני לא מעלה ולא מוריד (אם כי את האינטואיציה זה משבש עוד קצת). | ![]() |
![]() |
![]() |
![]() |
|
![]() |
||
|
||||
![]() |
מה רע עשתה לך הססטיסטיקה שאתה רוצה למנות לה שר? אתה רוצה שהיא תלך בדרכם של התחבורה, הביטחון, ביטחון הפנים והחינוך? | ![]() |
![]() |
![]() |
![]() |
|
![]() |
||
|
||||
![]() |
לענייני סטטיסטיקה נדרש מדינאי. | ![]() |
![]() |
![]() |
![]() |
|
![]() |
||
|
||||
![]() |
יפה! | ![]() |
![]() |
![]() |
חזרה לעמוד הראשי | המאמר המלא |
מערכת האייל הקורא אינה אחראית לתוכן תגובות שנכתבו בידי קוראים | |
![]() |
© כל הזכויות שמורות |