תרופות ההרזיה - הזהב החדש של תעשיית התרופות

בתשובה לאריק, 30/01/25 14:32

עוילם גוילם

776508

האייל האחר • בתשובה לאריק

יום ו', 31/1/2025, 11:19

הנה הניתוח שלי לגבי deepseek.

המידע שלי הוא ברובו מה tech report של deepseek.

1. הpretraining בוצע על h800 של nvidia.
2. הטענות לגבי עלויות pretraining נמוכות מאד הן קשקוש. מדובר באותו סדר גודל שהושקע ב gpt4 (לפי הדלפות), אם לוקחים בחשבון את ההבדל בgpus.
בשני המקרים 1e25 tflops, וגם זמני הריצה מסתדרים.
הסכום המצוטט להכביר של 6 מיליון דולר זה רק על זמן gpu נטו. כל ההערכות על המיליארדים שהושקעו בחברות הגדולות זה מן הסתם כולל חומרה, משכורות, הכנת דאטה וכדומה.
תאורטית יתכן שהאימון יעיל יותר פי 2, אבל זה כבר קשה לי מדי לבדוק.
ה caveat העיקרי פה: טוענים שהאימון הוא הרבה יותר יעיל (מבחינת ניצול compute ותקשורת) מאשר מודלים פתוחים אחרים כמו llama. לא בדקתי את זה, אבל נשמע לי סביר.
3. הטענות לגבי inference הרבה יותר זול (מצריך פחות gpus) ביחס לgpt4/gemini הן *נכונות*. סד"ג של פי 5. יש מספר חידושים ארכיטקטוניים שתורמים לזה.
4. ה evals של deepseek על datasets של reasoning (קידוד, מתמטיקה) הם מרשימים מאד, בחלק מהם הם מקדימים את התחרות, לעיתים בהרבה.
5. מתוך שימוש אנקדוטלי ב deepseek עצמו:
א. הניסוחים של חלק גדול מהתשובות דומים מאד ל gpt 4o. אני חושד שהיתה כמות לא זניחה של scraping
ב. במשימות קוד "יומ-יומית" הוא נותן תשובות טובות כמו gpt 4o. בשאלת קידוד/אלגו יותר טריקית, התשובה היתה רעה.
ג. השוותי את מוד reasoning בין deepseek ל gpt4o על חידת הושבה עם אילוצים. קיבלתי תשובה נכונה משניהם, אבל אצל deepseek היה chain of thought מאד ארוך שנמשך 3 דקות (לgpt4o זה לקח 25 שניות).

6. פחות מעניין, אבל סתם לידיעה: נכון לאתמול ניתן לעשות sign up מישראל. השרת שלהם תפקד 20 דקות כן 20 דקות לא לסירוגין.

עוילם גוילם

776509

שוטה הכפר הגלובלי • בתשובה להאייל האחר

יום ו', 31/1/2025, 11:25

3. עם או בלי קשר: תגובה 776190

חזרה לעמוד הראשי

המאמר המלא

מערכת האייל הקורא אינה אחראית לתוכן תגובות שנכתבו בידי קוראים
RSS מאמרים \| כתבו למערכת \| אודות האתר \| טרם התעדכנת \| ארכיון \| חיפוש \| עזרה \| תנאי שימוש והצהרת נגישות	© כל הזכויות שמורות