בתשובה לאריק, 30/01/25 14:32
עוילם גוילם 776508
הנה הניתוח שלי לגבי deepseek.

המידע שלי הוא ברובו מה tech report של deepseek.

1. הpretraining בוצע על h800 של nvidia.
2. הטענות לגבי עלויות pretraining נמוכות מאד הן קשקוש. מדובר באותו סדר גודל שהושקע ב gpt4 (לפי הדלפות), אם לוקחים בחשבון את ההבדל בgpus.
בשני המקרים 1e25 tflops, וגם זמני הריצה מסתדרים.
הסכום המצוטט להכביר של 6 מיליון דולר זה רק על זמן gpu נטו. כל ההערכות על המיליארדים שהושקעו בחברות הגדולות זה מן הסתם כולל חומרה, משכורות, הכנת דאטה וכדומה.
תאורטית יתכן שהאימון יעיל יותר פי 2, אבל זה כבר קשה לי מדי לבדוק.
ה caveat העיקרי פה: טוענים שהאימון הוא הרבה יותר יעיל (מבחינת ניצול compute ותקשורת) מאשר מודלים פתוחים אחרים כמו llama. לא בדקתי את זה, אבל נשמע לי סביר.
3. הטענות לגבי inference הרבה יותר זול (מצריך פחות gpus) ביחס לgpt4/gemini הן *נכונות*. סד"ג של פי 5. יש מספר חידושים ארכיטקטוניים שתורמים לזה.
4. ה evals של deepseek על datasets של reasoning (קידוד, מתמטיקה) הם מרשימים מאד, בחלק מהם הם מקדימים את התחרות, לעיתים בהרבה.
5. מתוך שימוש אנקדוטלי ב deepseek עצמו:
א. הניסוחים של חלק גדול מהתשובות דומים מאד ל gpt 4o. אני חושד שהיתה כמות לא זניחה של scraping
ב. במשימות קוד "יומ-יומית" הוא נותן תשובות טובות כמו gpt 4o. בשאלת קידוד/אלגו יותר טריקית, התשובה היתה רעה.
ג. השוותי את מוד reasoning בין deepseek ל gpt4o על חידת הושבה עם אילוצים. קיבלתי תשובה נכונה משניהם, אבל אצל deepseek היה chain of thought מאד ארוך שנמשך 3 דקות (לgpt4o זה לקח 25 שניות).

6. פחות מעניין, אבל סתם לידיעה: נכון לאתמול ניתן לעשות sign up מישראל. השרת שלהם תפקד 20 דקות כן 20 דקות לא לסירוגין.
עוילם גוילם 776509
3. עם או בלי קשר: תגובה 776190

חזרה לעמוד הראשי המאמר המלא

מערכת האייל הקורא אינה אחראית לתוכן תגובות שנכתבו בידי קוראים