![]() |
|
![]() |
||
|
||||
![]() |
הנה הניתוח שלי לגבי deepseek. המידע שלי הוא ברובו מה tech report של deepseek. 1. הpretraining בוצע על h800 של nvidia. 2. הטענות לגבי עלויות pretraining נמוכות מאד הן קשקוש. מדובר באותו סדר גודל שהושקע ב gpt4 (לפי הדלפות), אם לוקחים בחשבון את ההבדל בgpus. בשני המקרים 1e25 tflops, וגם זמני הריצה מסתדרים. הסכום המצוטט להכביר של 6 מיליון דולר זה רק על זמן gpu נטו. כל ההערכות על המיליארדים שהושקעו בחברות הגדולות זה מן הסתם כולל חומרה, משכורות, הכנת דאטה וכדומה. תאורטית יתכן שהאימון יעיל יותר פי 2, אבל זה כבר קשה לי מדי לבדוק. ה caveat העיקרי פה: טוענים שהאימון הוא הרבה יותר יעיל (מבחינת ניצול compute ותקשורת) מאשר מודלים פתוחים אחרים כמו llama. לא בדקתי את זה, אבל נשמע לי סביר. 3. הטענות לגבי inference הרבה יותר זול (מצריך פחות gpus) ביחס לgpt4/gemini הן *נכונות*. סד"ג של פי 5. יש מספר חידושים ארכיטקטוניים שתורמים לזה. 4. ה evals של deepseek על datasets של reasoning (קידוד, מתמטיקה) הם מרשימים מאד, בחלק מהם הם מקדימים את התחרות, לעיתים בהרבה. 5. מתוך שימוש אנקדוטלי ב deepseek עצמו: א. הניסוחים של חלק גדול מהתשובות דומים מאד ל gpt 4o. אני חושד שהיתה כמות לא זניחה של scraping ב. במשימות קוד "יומ-יומית" הוא נותן תשובות טובות כמו gpt 4o. בשאלת קידוד/אלגו יותר טריקית, התשובה היתה רעה. ג. השוותי את מוד reasoning בין deepseek ל gpt4o על חידת הושבה עם אילוצים. קיבלתי תשובה נכונה משניהם, אבל אצל deepseek היה chain of thought מאד ארוך שנמשך 3 דקות (לgpt4o זה לקח 25 שניות). 6. פחות מעניין, אבל סתם לידיעה: נכון לאתמול ניתן לעשות sign up מישראל. השרת שלהם תפקד 20 דקות כן 20 דקות לא לסירוגין. |
![]() |
![]() |
![]() |
![]() |
|
![]() |
||
|
||||
![]() |
3. עם או בלי קשר: תגובה 776190 | ![]() |
![]() |
![]() |
חזרה לעמוד הראשי | המאמר המלא |
מערכת האייל הקורא אינה אחראית לתוכן תגובות שנכתבו בידי קוראים | |
![]() |
© כל הזכויות שמורות |