|
||||
|
||||
א. השאלה ה'עניינית' שלך לא רלוונטית מאחר ולמקרה שעוד לא הבנת את זה, היא מקדימה את זמנה. בינתיים, בניגוד למה ש'אתה חושב', לא עובדים גם עם החלופות - מתבססים רק על שימוש בבע"ח כמעט בכל מכוני המחקר (למה שישלבו ויבזבזו עוד כסף אם הם לא חייבים?). האינטואיציה שלך, גם היא לא רלוונטית. השורה התחתונה היא שמודל התחלתי הצליח להיות אמין בקרוב ל- 30% יותר מניסויים בבע"ח עם תקציב שעומד על הרבה פחות מ- 30% ממה שמוקצה למחקר מבוסס בע"ח. ב. לא ברור מה קשה להבין - מטבע אמין סטטיסטית ב- 50% מהמקרים. ניסויים בבע"ח 65% בממוצע. אגב, הדוגמא שהצעת מגוחכת ולא משקפת את המציאות - כימות מספרי אבסולוטי לא משקף טעויות לכאן ולכאן (חיברת את הרעילים הנכונים והשגויים, וכנ"ל את הלא רעילים האמיתיים והשגויים). עדיף אם תמשיך לדבוק בפילוסופיה. |
|
||||
|
||||
ב. אני מודה לך על ההמלצה, (ואתה חושב שתוכל לספר לעיגול פעם באה שאתם נפגשים? הוא דווקא לא כל כך חושב שזה התחום שלי) אבל אם יש לך חומר בלתי מזוהה מולך, מטבע אמין סטטיסטית ב0% מהמקרים, וזאת כי אין קשר בין ההטלה והחומר. אתה בטוח שאתה מבין את המשמעות של אמינות סטטיסטית? אולי עדיף שתשאר עם ביולוגיה. א. תראה, אם יש מישהו עם אינטרס ברור להצליח לזהות בזמן את המינון הרעיל, הרי שזה לחברות המייצרות תרופות. מבדקים קליניים עולים המון כסף, ואם פסלת את התרופה לפני שהיא תפסל במבדקים הקליניים, חסכת. אם אכן חברות התרופות לא משתמשות במודלים ממוחשבים ותרביות תאים (שעלותן זניחה ביחס) הרי שהן פועלות בניגוד לאינטרסים שלהן עצמן, והחברה הראשונה להבין זאת תרוויח, ובגדול. אם כבר ממליצים אחד לשני באיזה תחום לדבוק - לך להקים אחת כזו, ועכשיו. תקבל המון כסף. |
|
||||
|
||||
אני מסיים כעת להגיב על המאמר שתמיר לוסקי הפנה אליו, אבל התגובה מתארכת, ויש נתון אחד שאולי כדאי להפנות אליו תשומת לב: המודל החייתי אינו עונה רק על השאלה של רעיל-או-לא-רעיל (שאז הצלחה של 65% באמת אינה הרבה יותר טובה מהטלת מטבע) - החיזוי הוא של *המינון* שבו החומר הרעיל. זהו משתנה מסובך יותר (עם טווח של מיליגרמים בודדים לק"ג משקל גוף, עד לעשרות אלפי מיליגרמים). המספר 65% הוא לא "אחוז ההצלחה" אלא מקדם המתאם של שני המשתנים המסבירים (LD50 בחולדות ובעכברים1) והמשתנה המוסבר שהוא מינון קטלני ממוצע בבני-אדם2. ההסתברות לקבל תוצאה כזו (0.65) אם לא היה קשר בין המשתנים המסבירים למוסבר, היא פחות מקלושה: 3 כפול 10 בחזקת 17-. במחקרים רגילים במדעי החיים מקובל לדרוש הסתברות של 1% או 5%. אני מקווה שזה עונה אחת ולתמיד על הטענה ש"המודל החייתי לא הוכח". הערות נוספות: * אם היו משתמשים בנתונים חייתיים נוספים (כלבים, חתולים, ארנבות), יכולת החיזוי היתה כמובן משתפרת. * למרות שמקדם המתאם של ארבעת מבדקי המעבדה טוב יותר (77% לעומת 65%), ההסתברות לקבל תוצאה *כזו* באקראי היא רק 4 כפול 10 בחזקת 17- (דהיינו, זה קצת יותר סביר3). בנסיון נואש לדחוס קורס בזק בסטטיסטיקה לשלוש שורות, הסיבה היא שאפילו הוספת משתנים מסבירים *אקראיים* תשפר את יכולת החיזוי, או ליתר דיוק תתן אשליה של שיפור. ההסתברות מתחשבת לא רק במקדם המתאם, אלא גם במספר המשתנים המסבירים, ובמקרה, הסיכוי ל- 65% עם שני משתנים נמוך יותר מ- 77% עם ארבעה. כל זה בהנחה שהיו קובעים את ארבעת המבחנים האלה מראש - למרות שבפועל הם נבחרו בדיעבד מתוך מספר גדול בהרבה של משתנים מסבירים. בתגובה הארוכה אפרט גם בעניין זה. 1 LD50 הוא המינון שהורג 50% מן הנבדקים. 2 למעשה בשני המקרים המשתנה הוא הלוגריתם הטבעי של המינון, ולא המינון עצמו. המודל הכפלי סביר יותר מן המודל הליניארי בגלל הטווחים בהם מדובר. 3 עוד הבהרה: ההסתברויות המחושבות להלן הן משמעותיות בטווח ה"סטנדרטי", נגיד מעל מליונית. מתחת זה הן לא מדויקות, וה"יתרון" של 3 חלקי 10 בחזקת 17 על 4 חלקי 10 בחזקת 17 הוא לא משמעותי. |
|
||||
|
||||
אה, חשבתי שבודקים מינון מסויים, ולו יש ערך בינארי של רעיל / לא רעיל, כשמודל חייתי מזהה ב65% רעיל, אבל ב100% לא רעיל. (ואז הוא בטח יעיל יותר ממטבע, שמזהה 50% בכל מקרה, בלי שום תאימות). האמת, כפי שהצגת אותה, כמובן הרבה יותר חזקה, ומדגימה הרבה יותר טוב מדוע "יעיל כהטלת מטבע" זו דמגוגיה פשוטה המסתמכת על אי הבנת הקורא בניסוי שבוצע, ובהסתברות. |
|
||||
|
||||
אני לא בטוחה שברור לי המושג. אשמח להסבר. |
|
||||
|
||||
מה שכיוונתי אליו, ולא דייקתי (להסבר מדוייק קראי את עוזי, אבל לאט), הוא כזה: נאמר שיש לך 100 חומרים, 50 מסוג A ו50 מסוג B. עכשיו את מחליטה איזה חומר הוא מה ע"ס זריקת מטבע. אחרי שזרקת, התוצאות שלך (בממוצע) יהיו: 25 חומרים סוג A שזיהית כסוג A 25 חומרים סוג A שזיהית כסוג B 25 חומרים סוג B שזיהית כסוג A 25 חומרים סוג B שזיהית כסוג B עכשיו נאמר שאני רוצה לבנות מדד שאומר לי מה האמינות של הטלת המטבע. אני מחליט לתת נקודה על כל זיהוי נכון, ולחסר נקודה על זיהו שגוי. מדד כזה, במקרה הזה, יתן לי אפס נקודות אמינות עבור הטלת המטבע (זיהית נכון 50 וטעית ב50), וזאת כי אין קשר בין הטלת המטבע והחומר. אם היה קשר, נאמר שהתשמשנו במבחן אחר, יותר אמין, אז היו לי פחות false positives וגם פחות false negatives, והיית מקבלת מספר חיובי של נקודות. (או שלילי, זה לא משנה. הרי מבחן שתמיד טועה בזיהוי חומר B למעשה מזהה לי אותו... הערך המוחלט חשוב). מבחן של 100 או 100- נקודות במקרה זה, יהיה מבחן אמין להבדלה בין החומרים. (זה הסבר אינטואיטיבי. בדרך כלל שמדברים על אמינות סטטיסטית מדברים על עוד דברים, אבל אז ההסבר צריך לכלול את המילה coefficient, וגם אני הייתי מתחיל להסתבך) |
|
||||
|
||||
כן, למרות שכתבתי משהו שונה לגמרי, התכוונתי לכל מה שעוזי אמר מתחתי. (כן, בטח...) |
|
||||
|
||||
אני רוצה לקשר את ההסבר (הנכון) של גלעד להסבר שנתתי למטה לאותה שאלה (תגובה תגובה 94662 ). מטבע רגיל הוא "נביא של 0%" (כי הוא תמיד עונה תשובה אקראית). נביא-אמת הוא "נביא של 100%" (כי הוא תמיד עונה את התשובה הנכונה. אפשר גם לדמיין לעצמנו "נביא של 40%", ש- 40% מהזמן נותן תשובה אמיתית, ובשאר הזמן כדור הבדולח שלו מתערפל, והוא עונה תשובה אקראית. כעת, מגיע אלינו אדם שטוען ליכולות נבואה (בפתיל הזה, מדובר נניח בשיטת ניבוי רעילות מסויימת). ערכנו ניסוי, והוא ענה נכונה על 70 שאלות כן/לא מתוך מאה (כאשר התשובות הנכונות התפלגו 50/50). במקרה, זוהי התוצאה שנצפה לקבל מנביא-של-40% (כי הוא יענה נכון על 40 שאלות, ויקלע במקרה ל- 30 משאר הששים). יש כמה השערות מחקר שאנחנו עשויים לרצות לבדוק. למשל "זהו נביא של 40%", או "זהו נביא של יותר מ- 20%", או "הנביא הזה עדיף על הטלת מטבע". בכל המקרים ה*סטטיסטי* יכול להיות, בדומה למה שגלעד הציע, מספר ההצלחות. ההתפלגות שלו היא (גם כאן) התפלגות נורמלית, שהממוצע שלה תלוי בהשערה שאנחנו מנסים להוכיח. לא בדקתי את המספרים, אבל ברור שאת ההשערה הראשונה (נביא של 40%) לא נצליח להוכיח, כי נביא-של-35%-שהיה-לו-מזל יכול להצליח כמו נביא-של-40%, ולכן משיעור הצלחה של 40% לא ניתן להוכיח נביאות-של-40%. את ההשערה השניה אפשר יהיה כנראה להוכיח (כי נביאים של 20% אמורים לקבל רק 60 תשובות נכונות, או קצת יותר, אבל לא 70). מעניין לשים לב שאם גודל המדגם (מספר השאלות, 100 במקרה שלנו) היה קטן יותר, אולי לא היינו משתכנעים שההשערה השניה נכונה (במדגם של 20 שאלות, נביא-של-40% אמור להצליח 14 פעם, ונביא-של-20%, רק 12; אבל גם הוא יכול להצליח 14 פעמים ביום טוב...). לעומת זאת במדגם ממש גדול (40000 שאלות למשל), היינו מן-הסתם משתכנעים אפילו שמדובר בנביא-של-לפחות-39%. את ההשערה השלישית (נביא-עדיף-ממטבע) נוכל מן הסתם להוכיח אפילו אם *באמת* היה מדובר רק בנביא-של-20%. |
|
||||
|
||||
להן הסבר (קצר) על המבנה המקובל של מחקר, הכולל ניתוח סטטיסטי. החוקר מעלה השערה (למשל: הציונים של בנים ובנות בחשבון שונים אלו מאלו), מברר לעצמו מה יפריך את ההשערה (אם הם מצליחים במדה שווה), וקורא להשערה הנגדית הזאת H0. כעת החוקר משנס מותניו ומנסה *להפריך את H0* (זה הרי יוכיח שהוא צדק מלכתחילה). 1 החוקר שולח מאסטרנטים לאסוף נתונים (30 ציונים של בנים, 30 ציונים של בנות). כעת בונים "סטטיסטי", שהוא מספר המחושב מתוך הנתונים הגולמיים (בדוגמא, זה יהיה ההפרש בין ממוצעי הציונים, מחולק בסטיית התקן המשותפת). במקביל (או מראש), מוצאים את ההתפלגות של הסטטיסטי בהנחת ההשערה H0 (בדוגמא, ההתפלגות היא זו המכונה "התפלגות נורמלית" 2). (מהי ההתפלגות הזאת, בכלל? חישוב ההתפלגות שקול לעריכה וירטואלית של המון ניסויים מאותו סוג, שבהם ההשערה H0 *נכונה*, למשל איסוף של 60 ציונים וחלוקתם לקבוצות לפי שם המשפחה ולא לפי המין. מתוך מליון ניסויים כאלה, 39800 יהיו בין 0 ל- 0.1; 39400 יהיו בין 0.1 ל- 0.2; ... 380 יפלו בין 3 ל- 3.1, וכן הלאה) 3. השלב האחרון הוא לחפש את הציון שקיבלנו (בפועל, במחקר הנוכחי) על עקומת ההתפלגות (שמצאנו בספר). למשל, נניח שקיבלנו את המספר 2.05. לפי ההתפלגות שבספר, מספר כזה יופיע באקראי (כזכור, בהנחה ש- H0 היא ההשערה הנכונה) בהסתברות 4%. החוקר די מרוצה - המשמעות של תוצאה כזו היא שאם באמת H0 נכונה (והחוקר מקווה שלא כך), המספר 2.05 יופיע רק בסיכוי של 4%. אבל במציאות, בניסוי שהחוקר ערך, הוא *באמת* קיבל את המספר הזה - אז נראה לו לא סביר להניח ש- H0 נכונה (כי אחרת דברים כך-כך לא סבירים כמו 2.05 לא היו קורים דוקא לו). לעומת זאת, אם החוקר היה מקבל שהסטטיסטי הוא 0.9, דבר שהסתברותו 36%, זו לא תהיה עדות משכנעת ש- H0 שגויה, שהרי דברים בעלי סיכוי גבוה כל-כך קורים לנו כל הזמן. מקובל במדעי החברה לדרוש שההסתברות לקבל את הסטטיסטי המסוים שהתקבל בפועל, תהיה מתחת 5%. אם זה כך, ההשערה H0 נחשבת למופרכת (ולכן השערת הנגד שממנה יצאנו - נכונה). המספר הזה (5%) נקרא "המובהקות הססטיסטית של המחקר". הערה: אם חוזרים על ניסוי הרבה פעמים, זה דוקא *כן* סביר שיקרו דברים "לא סבירים" (שהסתברותם למשל 5%). בפרט, אחת מכל 20 טענות ש"הוכחו סטטיסטית" (ברמת מובהקות של 5%) צריכה להיות שגויה... בתחומים מסויימים במדעי הטבע מקובל לדרוש רמת מובהקות של 1%, מה שמצד אחד מגדיל את האמינות של התוצאות, ומצד שני שולח יותר חוקרים מאוכזבים לתכנן את הפרוייקט הבא. אם משהו לא ברור - נא להצביע. 1 למעשה, לשלב הזה קודם משהו בסיסי יותר, שבו החוקר מנסח את המודל שלו (בדוגמא: שציוני בנים וציוני בנות הם בעלי התפלגות נורמלית עם אותה סטיית תקן). 2 איך יודעים מה ההתפלגות? זו שאלה שאני *באמת* אשמח לענות עליה - אבל מומלץ לשאול רק אם את באמת רוצה לדעת... 3 מאיפה לוקחים את המספרים האלה? אותה תשובה כמו 2. |
|
||||
|
||||
בתור מי שבא מעולם של הסתברות ולא מעולם של סטטיסטיקה, להבנתי, כשהחוקר מפריך את H0 הוא בעצם אומר שהניסויים (בדיקת הציון של הבנים והבנות) הם לא i.i.d (*), וזה מה שרצינו להראות. אבל, ייתכן שH0 נכונה ו*עדיין* הניסויים הם לא i.i.d, פשוט כי המדגם קטן מידי. ולמיטב זכרוני, מה שמבטיח התפלגות גאוסיינית זה WLLN (**), שבעצמו מתקיים רק בשאיפה לאינסוף, לא? (*) Indipendent Identical Distribution
(**) Weak Law of Large Numbers |
|
||||
|
||||
חלילה לחוקר מלהוכיח שהדגימות שלו אינן IID... בדוגמא שלי המודל הוא ששתי האוכלוסיות מתפלגות נורמלית, ו-H0 היא ההשערה שלשתי האוכלוסיות יש אותה תוחלת. הפרכת ההשערה מראה שזה לא כך, אבל עדיין (יש לקוות) הדגימות בכל אוכלוסיה *בפני עצמה* הן IID. לעניין גודל המדגם - כל שתי דגימות אמורות להיות IID (שיטת הדגימה אמורה להבטיח זאת). נכון שגם בהנחה הזו, הסטטיסטי יתפלג נורמלית רק אם האוכלוסיות באמת מתפלגות נורמלית (ואז גודל המדגם *לא משנה*), או שהדגימה גדולה מספיק. |
חזרה לעמוד הראשי | המאמר המלא |
מערכת האייל הקורא אינה אחראית לתוכן תגובות שנכתבו בידי קוראים | |
RSS מאמרים | כתבו למערכת | אודות האתר | טרם התעדכנת | ארכיון | חיפוש | עזרה | תנאי שימוש | © כל הזכויות שמורות |