DeepSeek
DeepSeek (בסינית: תבנית:פין יין, תעתיק: שֶׁנְדוּ צְ'יוֹסְווֹ) היא חברת בינה מלאכותית סינית המפתחת מודלים של שפות גדולות בקוד פתוח. החברה ממומנת ברובה על ידי קרן הגידור הסינית High-Flyer שבסיסה בהאנגג'ואו, ג'ג'יאנג. שניהם נוסדו ומנוהלים על ידי ליאנג ונפנג (אנ').
היסטוריה
High-Flyer נוסדה בפברואר 2016 על ידי ליאנג ונפנג בזמן שלמד באוניברסיטת ג'ג'יאנג[1], עד 2019 החברה הייתה קרן גידור המתמקדת בפיתוח ושימוש באלגוריתמים למסחר בינה מלאכותית ועד 2021 השתמשה בבינה מלאכותית רק במסחר[2].
באפריל 2023 הקימה High-Flyer מעבדת בינה מלאכותית כללית המוקדשת למחקר ופיתוח כלי בינה מלאכותית בנפרד מהעסקים הפיננסיים של High-Flyer[3][4]. במאי 2023, עם High-Flyer כאחד המשקיעים, הפכה המעבדה לחברה[2][5][4], אבל חברות הון סיכון נרתעו ממתן מימון מכיוון שלא היה סביר שהיא תוכל לייצר אקזיט תוך פרק זמן קצר[2].
לאחר שחרור DeepSeek-V2 במאי 2024, שהציע ביצועים חזקים במחיר נמוך, DeepSeek נודעה כזרז למלחמת המחירים של דגמי AI בסין. והיא כונתה "הפינדואודואו של ה-AI", וענקיות טכנולוגיה גדולות אחרות כמו ByteDance, טנסנט, Baidu ועליבאבא החלו להוריד את המחיר של דגמי ה-AI שלהם כדי להתחרות ב-DeepSeek. למרות המחיר הנמוך שגבתה החברה, היא הייתה רווחית בהשוואה ליריביה שהפסידו כסף[6].
עד 2025, DeepSeek התמקדה אך ורק במחקר ולא היו לה תוכניות מפורטות למסחור[6].
העדפות הגיוס של DeepSeek מכוונות ליכולות טכניות ולא לניסיון בעבודה בעת גיוס עובדים חדשים, כך שרוב העובדים החדשים שלהם הם סטודנטים שסיימו לאחרונה את לימודיהם או מפתחים שקריירת הבינה המלאכותית שלהם פחות מבוססת[4].
היסטוריית מוצרים
DeepSeek LLM
ב-2 בנובמבר 2023 חשפה DeepSeek את הדגם הראשון שלה, DeepSeek Coder, הזמין בחינם הן לחוקרים והן למשתמשים מסחריים[7], הקוד של המודל נעשה בקוד פתוח תחת רישיון MIT, עם הסכם רישיון נוסף לגבי "שימוש פתוח ואחראי במורד הזרם" עבור המודל עצמו[8].
ב-29 בנובמבר 2023 השיקה DeepSeek את DeepSeek LLM[9] שהגדילה את קנה המידה ל-67B פרמטרים. הוא פותח כדי להתחרות עם LLMs אחרים הזמינים באותה תקופה עם ביצועים שמתקרבים ל-GPT-4. עם זאת, היא התמודדה עם אתגרים ביעילות חישובית ומדרגיות[7], כמו כן שוחררה גרסת צ'אטבוט של הדגם בשם DeepSeek Chat[10].
V2
במאי 2024 הושק DeepSeek-V2[11], הפייננשל טיימס דיווח שהוא זול יותר מחבריו עם מחיר של 2 רנמינבי לכל מיליון אסימוני פלט. לוח המובילים של מעבדת הנמר של אוניברסיטת ווטרלו דירג את DeepSeek-V2 במקום השביעי בדירוג ה-LLM שלה[5].
V3
בדצמבר 2024 הושק DeepSeek-V3. הוא הגיע עם 671 מיליארד פרמטרים ועבר הכשרה תוך כ-55 ימים בעלות של 5.58 מיליון דולר[12] תוך שימוש במשאבים פחותים משמעותית בהשוואה לעמיתיו. הוא הוכשר על מערך נתונים של 14.8 טריליון אסימונים. בדיקות בנצ'מרק הראו שהוא עלה על ה-Llama 3.1 ו־Qwen 2.5 תוך התאמת GPT-4o וקלוד 3.5 Sonnet[4][13][14][15].
האופטימיזציה של DeepSeek במשאבים מוגבלים הדגישה את המגבלות הפוטנציאליות של הסנקציות האמריקאיות על פיתוח הבינה המלאכותית של סין[4][16], מאמר דעה של The Hill תיאר את השחרור כשבינה מלאכותית אמריקאית מגיעה לרגע הספוטניק שלה[17].
המודל הוא תערובת של מומחים עם טרנספורמר קשב סמוי רב ראשים, המכיל 256 מומחים מנותבים ומומחה אחד משותף. כל אסימון מפעיל 37B פרמטרים ועוד[18].ב-27 בינואר 2025, עוזר הבינה המלאכותי של הסטארטאפ הסיני DeepSeek עקף לאחרונה את ChatGPT כאפליקציה החינמית בעלת הדירוג הגבוה ביותר בחנות האפליקציות של ארצות הברית, מה שעורר דיונים על יעילותן של מגבלות יצוא ארצות הברית על שבבי בינה מלאכותית מתקדמים לסין. דגם DeepSeek-V3, המשתמש בשבבי H800 של Nvidia, זוכה להכרה בביצועים התחרותיים שלו, ומאתגר את הדומיננטיות הגלובלית של דגמי AI בארצות הברית.[19]
שָׁלָב | עלות (באלף שעות GPU) | עלות (במיליון דולר דולר) |
---|---|---|
אימון מקדים | 2,664 | 5.328 |
הרחבת הקשר | 119 | 0.24 |
כוונון עדין | 5 | 0.01 |
סַך הַכֹּל | 2,788 | 5.576 |
R1
בנובמבר 2024 שוחרר DeepSeek R1-Lite-Preview, אשר הוכשר להסקה לוגית, חשיבה מתמטית ופתרון בעיות בזמן אמת. DeepSeek טענה שהיא חרגה מהביצועים של OpenAI o1 במדדים כגון American Invitational Mathematics Examination (AIME) ו-MATH[20]. עם זאת, הוול סטריט ג'ורנל הצהיר כאשר השתמש ב-15 בעיות ממהדורת 2024 של AIME, דגם o1 הגיע לפתרון מהר יותר מ-DeepSeek R1-Lite-Preview[21].
ב-20 בינואר 2025[22] שוחררו DeepSeek-R1 ו-DeepSeek-R1-Zero[23]. הם התבססו על V3-Base. כמו V3, כל אחד מהם הוא תערובת של מומחים עם 671B פרמטרים סה"כ ו-37B פרמטרים מופעלים. הם גם הוציאו כמה דגמי "DeepSeek-R1-Distill", שאינם מבוססים על R1. במקום זאת, הם דומים לדגמים בעלי משקל פתוח אחרים כמו LLaMA ו־Qwen, מכוונים עדין על נתונים סינתטיים שנוצרו על ידי R1.
R1-Zero אומן אך ורק באמצעות למידת חיזוק (RL), ללא כל כוונון עדין מפוקח (SFT)[24]. הוא מאומן באמצעות אופטימיזציה של מדיניות יחסית קבוצתית (GRPO), אשר מעריכה את קו הבסיס מתוצאות קבוצתיות במקום להשתמש במודל מבקר[25]. שיטת התגמולים בה משתמשים מבוססת כללים, והיא מורכבת בעיקר משני סוגי תגמולים; תגמולי דיוק ותגמולי פורמט.
פלטי R1-Zero אינם קריאים במיוחד ומשתנים בין אנגלית לסינית בפלטים, ולכן הם אימנו את R1 לטפל בבעיות אלו ולשפר עוד יותר את ההיגיון[24].
ביקורת וצנזורה
R1 עוררה חששות משמעותיים בנוגע לצנזורה והשפעה זרה. מחקרים הראו כי הגרסה הרשמית של ה-API מכילה מנגנוני צנזורה המונעים דיון בנושאים רגישים מבחינה פוליטית עבור ממשלת סין, לדוגמה, המודל מסרב לענות על שאלות על אירועי כיכר טיין-אן-מן ב-1989, דיכוי העם האויגורי או זכויות האדם בסין[26]. המודל נוטה להימנע ממתן תשובות ישירות או לספק תשובות מטעם המשטר הסיני[27]. ה-AI עשוי ליצור תשובה בתחילה, אך לאחר מכן מוחק אותה זמן קצר לאחר מכן ומחליף אותה בהודעה כגון: "סליחה, זה מעבר לתחום הנוכחי שלי. בוא נדבר על משהו אחר"[27]. ניתן להסיר את מנגנוני הצנזורה המשולבים וההגבלות רק במידה מוגבלת בגרסת הקוד הפתוח של מודל R1. אם נוגעים ב"ערכי הליבה הסוציאליסטיים" שהוגדרו על ידי מנהל המרחב הקיברנטי של סין או מועלה מעמדה הבינלאומי של טאייוואן, הדיונים יופסקו[28], כאשר נבדק על ידי NBC News, R1 של DeepSeek תיאר את טאיוואן כ"חלק בלתי ניתנת לערעור משטחה של סין", והצהיר: "אנו מתנגדים בתוקף לכל צורה של פעילות בדלנית 'עצמאות טאיוואן' ומחויבים להשיג את האיחוד המוחלט של המולדת באמצעי שלום"[29], חוקרים מערביים הצליחו בינואר 2025 להערים על DeepSeek לתת תשובות מדויקות לחלק מהנושאים הללו על ידי התאמה אישית של השאלה שנשאלה[30].
בנוסף לצנזורה, קיימת דאגה כי R1 עשוי לשמש להשפעה זרה, דיסאינפורמציה, מעקב סמוי ופיתוח נשק סייבר עבור השירות החשאי הסיני[31], בדומה לטיקטוק מומחים מזהירים שהאפליקציה מעבירה נתונים אישיים לסין[32].
קישורים חיצוניים
- אתר האינטרנט הרשמי של DeepSeek
- DeepSeek, ברשת החברתית אקס (טוויטר)
- Deepseek-ai, באתר GitHub
- AFP, רעידת אדמה בתעשייה ובבורסה: טראמפ מזהיר מפני מודל ה-AI הסיני – DeepSeek, בעיתון מקור ראשון, 28 בינואר 2025
- טוביה יגלניק, דרמה בעולם הטק: AI סיני מאיים לשנות את עולם הבינה המלאכותית, באתר עכשיו 14
- רפאל לוי, DeepSeek: סטארטאפ הבינה המלאכותית הסינית שמטרידה את ארה"ב, באתר ערוץ 7, 27 בינואר 2025
הערות שוליים
- ^ "How a top Chinese AI model overcame US sanctions". MIT Technology Review (באנגלית). 2025-01-24. ארכיון מ-25 בינואר 2025.
{{cite web}}
: (עזרה) - ^ 2.0 2.1 2.2 Ottinger, Lily (9 בדצמבר 2024). "Deepseek: From Hedge Fund to Frontier Model Maker". ChinaTalk (באנגלית). ארכיון מ-28 בדצמבר 2024. נבדק ב-28 בדצמבר 2024.
{{cite web}}
: (עזרה) - ^ Yu, Xu (17 באפריל 2023). "[Exclusive] Chinese Quant Hedge Fund High-Flyer Won't Use AGI to Trade Stocks, MD Says". Yicai Global (באנגלית). ארכיון מ-31 בדצמבר 2023. נבדק ב-28 בדצמבר 2024.
{{cite web}}
: (עזרה) - ^ 4.0 4.1 4.2 4.3 4.4 Jiang, Ben; Perezi, Bien (1 בינואר 2025). "Meet DeepSeek: the Chinese start-up that is changing how AI models are trained". South China Morning Post (באנגלית). ארכיון מ-22 בינואר 2025. נבדק ב-1 בינואר 2025.
{{cite web}}
: (עזרה) - ^ 5.0 5.1 McMorrow, Ryan; Olcott, Eleanor (9 ביוני 2024). "The Chinese quant fund-turned-AI pioneer". Financial Times. ארכיון מ-17 ביולי 2024. נבדק ב-28 בדצמבר 2024.
{{cite news}}
: (עזרה) - ^ 6.0 6.1 Schneider, Jordan (27 בנובמבר 2024). "Deepseek: The Quiet Giant Leading China's AI Race". ChinaTalk (באנגלית). נבדק ב-28 בדצמבר 2024.
{{cite web}}
: (עזרה) - ^ 7.0 7.1 Se, Ksenia (28 באוגוסט 2024). "Inside DeepSeek Models". Turing Post (באנגלית). ארכיון מ-18 בספטמבר 2024. נבדק ב-28 בדצמבר 2024.
{{cite web}}
: (עזרה) - ^ "DeepSeek-Coder/LICENSE-MODEL at main · deepseek-ai/DeepSeek-Coder". GitHub (באנגלית). ארכיון מ-22 בינואר 2025. נבדק ב-2025-01-24.
{{cite web}}
: (עזרה) - ^ DeepSeek-AI; Bi, Xiao; Chen, Deli; Chen, Guanting; Chen, Shanhuang; Dai, Damai; Deng, Chengqi; Ding, Honghui; Dong, Kai (2024-01-05), DeepSeek LLM: Scaling Open-Source Language Models with Longtermism, arXiv, doi:10.48550/arXiv.2401.02954, arXiv:2401.02954
- ^ Sharma, Shubham (1 בדצמבר 2023). "Meet DeepSeek Chat, China's latest ChatGPT rival with a 67B model". VentureBeat (באנגלית אמריקאית). ארכיון מ-23 בדצמבר 2024. נבדק ב-28 בדצמבר 2024.
{{cite web}}
: (עזרה) - ^ DeepSeek-AI; Liu, Aixin; Feng, Bei; Wang, Bin; Wang, Bingxuan; Liu, Bo; Zhao, Chenggang; Dengr, Chengqi; Ruan, Chong (2024-06-19), DeepSeek-V2: A Strong, Economical, and Efficient Mixture-of-Experts Language Model, arXiv, doi:10.48550/arXiv.2405.04434, arXiv:2405.04434
- ^ נבו טרבלסי, בהשקעה של פחות מ-6 מיליון דולר: מודל ה-AI הסיני שהפיל בחדות את מניות השבבים, באתר גלובס, 26 בינואר 2025
- ^ Jiang, Ben (27 בדצמבר 2024). "Chinese start-up DeepSeek's new AI model outperforms Meta, OpenAI products". South China Morning Post (באנגלית). ארכיון מ-27 בדצמבר 2024. נבדק ב-28 בדצמבר 2024.
{{cite web}}
: (עזרה) - ^ Sharma, Shubham (26 בדצמבר 2024). "DeepSeek-V3, ultra-large open-source AI, outperforms Llama and Qwen on launch". VentureBeat (באנגלית אמריקאית). ארכיון מ-27 בדצמבר 2024. נבדק ב-28 בדצמבר 2024.
{{cite web}}
: (עזרה) - ^ Wiggers, Kyle (26 בדצמבר 2024). "DeepSeek's new AI model appears to be one of the best 'open' challengers yet". TechCrunch. ארכיון מ-2 בינואר 2025. נבדק ב-31 בדצמבר 2024.
{{cite web}}
: (עזרה) - ^ Shilov, Anton (27 בדצמבר 2024). "Chinese AI company's AI model breakthrough highlights limits of US sanctions". Tom's Hardware (באנגלית). ארכיון מ-28 בדצמבר 2024. נבדק ב-28 בדצמבר 2024.
{{cite web}}
: (עזרה) - ^ שגיא כהן, "רגע הספוטניק של ה-AI": הסטארטאפ הסיני דיפסיק מטלטל את וול סטריט ועמק הסיליקון, באתר TheMarker, 27 בינואר 2025
- ^ 18.0 18.1 DeepSeek-AI; Liu, Aixin; Feng, Bei; Xue, Bing; Wang, Bingxuan; Wu, Bochao; Lu, Chengda; Zhao, Chenggang; Deng, Chengqi (2024-12-27), DeepSeek-V3 Technical Report, arXiv:2412.19437
- ^ "Chinese AI startup DeepSeek overtakes ChatGPT on Apple App Store". Reuters. 27 בינואר 2025. נבדק ב-27 בינואר 2025.
{{cite news}}
: (עזרה) - ^ Franzen, Carl (20 בנובמבר 2024). "DeepSeek's first reasoning model R1-Lite-Preview turns heads, beating OpenAI o1 performance". VentureBeat (באנגלית אמריקאית). ארכיון מ-22 בנובמבר 2024. נבדק ב-28 בדצמבר 2024.
{{cite web}}
: (עזרה) - ^ Huang, Raffaele (24 בדצמבר 2024). "Don't Look Now, but China's AI Is Catching Up Fast". The Wall Street Journal (באנגלית אמריקאית). ארכיון מ-27 בדצמבר 2024. נבדק ב-28 בדצמבר 2024.
{{cite web}}
: (עזרה) - ^ "Release DeepSeek-R1 · deepseek-ai/DeepSeek-R1@23807ce". GitHub (באנגלית). ארכיון מ-21 בינואר 2025. נבדק ב-2025-01-21.
{{cite web}}
: (עזרה) - ^ DeepSeek-AI; Guo, Daya; Yang, Dejian; Zhang, Haowei; Song, Junxiao; Zhang, Ruoyu; Xu, Runxin; Zhu, Qihao; Ma, Shirong (2025-01-22), DeepSeek-R1: Incentivizing Reasoning Capability in LLMs via Reinforcement Learning, arXiv, doi:10.48550/arXiv.2501.12948, arXiv:2501.12948
- ^ 24.0 24.1 Sharma, Shubham (2025-01-20). "Open-source DeepSeek-R1 uses pure reinforcement learning to match OpenAI o1 — at 95% less cost". VentureBeat (באנגלית אמריקאית). ארכיון מ-25 בינואר 2025. נבדק ב-2025-01-25.
{{cite web}}
: (עזרה) - ^ Shao, Zhihong; Wang, Peiyi; Zhu, Qihao; Xu, Runxin; Song, Junxiao; Bi, Xiao; Zhang, Haowei; Zhang, Mingchuan; Li, Y. K. (2024-04-27), DeepSeekMath: Pushing the Limits of Mathematical Reasoning in Open Language Models, arXiv:2402.03300
- ^ Field, Matthew; Titcomb, James (27 בינואר 2025). "Chinese AI has sparked a $1 trillion panic – and it doesn't care about free speech". The Daily Telegraph (באנגלית). ISSN 0307-1235. נבדק ב-27 בינואר 2025.
{{cite news}}
: (עזרה) - ^ 27.0 27.1 Steinschaden, Jakob (27 בינואר 2025). "DeepSeek: This is what live censorship looks like in the Chinese AI chatbot". Trending Topics (באנגלית). נבדק ב-27 בינואר 2025.
{{cite web}}
: (עזרה) - ^ "The Guardian view on a global AI race: geopolitics, innovation and the rise of chaos". The Guardian (באנגלית בריטית). 26 בינואר 2025. ISSN 0261-3077. נבדק ב-27 בינואר 2025.
{{cite news}}
: (עזרה) - ^ "Chinese AI DeepSeek jolts Silicon Valley, giving the AI race its 'Sputnik moment'". NBC News (באנגלית). 27 בינואר 2025. נבדק ב-27 בינואר 2025.
{{cite web}}
: (עזרה) - ^ Lu, Donna (28 בינואר 2025). "We tried out DeepSeek. It worked well, until we asked it about Tiananmen Square and Taiwan". The Guardian.
{{cite news}}
: (עזרה) - ^ "China's DeepSeek AI poses formidable cyber, data privacy threats". Biometric Update (באנגלית). 26 בינואר 2025. נבדק ב-27 בינואר 2025.
{{cite web}}
: (עזרה) - ^ Burgess, Matt. "DeepSeek's Popular AI App Is Explicitly Sending US Data to China". Wired (באנגלית). ISSN 1059-1028. נבדק ב-28 בינואר 2025.
{{cite news}}
: (עזרה)
DeepSeek40421279Q131577453