|
הבעיה העיקרית שלי היא לא עם יושר של מדענים (למרות שלעיתים גם זו סוגיה). אם קיים אוסף נתונים X, אפשר לחלק אותו (training set, data set) אבל מנסיוני הדל, תוצאות על אותו סט בד"כ יהיו טובות יותר מעל סט בלתי תלוי (אולי זה קשור לשיטות הפקת המידע בתחום שלי). אבל יותר מזה, נגיד שאני מנסה ונכשל, הולך הביתה ושותק. עוד אלף מדענים מנסים, אחד מצליח במקרה. צריך לתקן כאן לריבוי המדידות שנעשו ע"י כל הקהילה המדעית. אבל זה כמובן לא קורה, כי המדען שהצליח לא מייחס שום חלק בתוצאה שלו למזל ולא מודע לכמות הנסיונות שנעשו.
בעולם אידאלי אפשר באמת היה לבדוק הכל על מידע אחר, אבל כמות המידע הקיים מוגבלת ואותו המידע נגיש גם לכותב המודל. יתרה מזאת, המידע הוא בד"כ חלקי בהתייחס להרבה פרמטרים שהמודל עלול להזדקק להם. בנוסף, לעיתים קרובות מידע גולמי לא מפורסם, כמו גם קוד מקור ותיאור ברמה שתאפשר שיחזור מלא של התוצאות. זו בעיה כללית, לצערי היא קיימת גם מחוץ לתחום האקלים1.
1 זכור לי מחקר שניסה לשחזר את התוצאות של כמה עשרות ניסויים בהם נדרשו החוקרים להפקיד את המידע (ביולוגי) כדרישת סף לפירסום. למרות זאת ברוב המוחלט של המקרים לא צלח בידי החוקרים לשחזר את התוצאות מהפירסומים.
|
|