|
מחקר חדש מגלה כי כ-20% מהמאמרים בגנטיקה מכילים טעויות שנגרמו בשל הפירמוט האוטומטי של אקסל. למשל, המחרוזת SEPT2, שהיא קיצור מקובל לגן Septin-2, מומרת אוטומטית לתאריך 2 בספטמבר. (דרך הטוויטר של גדי אלכסנדרוביץ'.)
זכור גם המקרה של רייהארט ורוגוף, שני כלכלנים ידועי שם מהרווארד, שפרסמו ב-2010 מאמר עם מסקנה מקרו-כלכלית שצוטטה רבות בתקשורת ובוויכוחים פוליטיים. דוקטורנט באוניברסיטה אחרת ניסה לשחזר את החישובים, לא הצליח, השיג את קובץ האקסל עם הניתוח המקורי, וגילה שהחוקרים לא בחרו את כל שורת הנתונים כשערכו את החישוב שלהם, אלא רק חלק מהערכים שבה (העכבר התחלק או משהו). כשמרחיבים את הבחירה לכל השורה, המסקנה מתהפכת - במקום ירידה של 0.1% מקבלים עלייה של 2.2%.
ואני אומר: מי שמשתמש באקסל למחקר מדעי, שלא יתפלא אם הוא קם עם פרעושים.
זאת אולי לא הבמה המתאימה, אבל בכל זאת אמליץ כאן על החבילה dplyr של שפת R, בשביל עיבוד נתונים. יחסית לאחרונה התחלתי להשתמש בה באופן מסיבי, על פרויקט בגנטיקה שמכיל קבצי נתונים גדולים (עשרות ומאות מגה-בייטים בכל קובץ), והיא אוכלת את הנתונים בלי מלח - יש לה תחביר גאוני בפשטותו ובגמישותו, והיא רצה בזריזות מרשימה גם על PC ישן. אני מסיר את הכובע בפני האדלי ויקהאם על כל הממתקים המשובחים שהוא מחלק לכולנו בחינם.
|
|