إليك ما يقوله Sellside عن Deepseek

إليك ما يقوله Sellside عن Deepseek

[ad_1]

فتح Digest محرر مجانًا

لأي شخص يرغب في تدريب LLM على ردود المحللين لـ Deepseek ، Temu of ChatGpts ، هذا المنشور هو متجر واحد. لقد أمسكنا بجميع رسائل البريد الإلكتروني ذات الصلة في صندوق الوارد الخاص بنا ونسخها مع الحد الأدنى من التدخل.

Deepseek ، يبلغ من العمر عامين ، ومقرها هانغتشو ، وشركة جامعة تشجيانغ ، والتي استخدمت التعلم الآلي لتجارة الأسهم. هدفها المعلن هو جعل ذكاء عام مصطنع للمتعة ، وليس من أجل المال. هناك مقابلة جيدة على Chinatalk مع المؤسس Liang Wenfeng.

إليكم جوردان روتشستر من ميزوهو لتولي القصة. . .

(O) N 20 يناير ، (Deepseek) أصدر نموذجًا مفتوح المصدر (DeepSeek-R1) يتفوق على النماذج الرائدة في الصناعة على بعض المعايير الرياضية والتفكير بما في ذلك القدرة والتكلفة والانفتاح وما إلى ذلك. متاجر تطبيقات Apple في الصين والولايات المتحدة ، متجاوزة ChatGPT في قائمة تنزيل الولايات المتحدة.

ما الذي برز حقا؟ قال ديبسيك إن الأمر استغرق شهرين وأقل من 6 ملايين دولار لتطوير النموذج – بناء على التكنولوجيا الموجودة بالفعل والاستفادة من النماذج الحالية. بالمقارنة ، تنفق Open AI أكثر من 5 مليارات دولار في السنة. من الواضح أن Deepseek اشترى 10000 رقائق Nvidia بينما اشترى فرط الأرقام العديد من المضاعفات من هذا الرقم. إنه يكسر بشكل أساسي سرد ​​AI Capex إذا كان صحيحًا.

يبدو سيئا ، ولكن لماذا؟ هنا جيفريز غراهام هانت وما إلى ذلك:

مع تقدم Deepseek للأداء المشابه لـ GPT-40 مقابل جزء صغير من قوة الحوسبة ، هناك تداعيات سلبية محتملة على البناة ، حيث أن الضغط على اللاعبين AL لتبرير خطط Capex المتزايدة قد يؤدي في النهاية إلى انخفاض مسار إيرادات مركز البيانات والربح نمو.

نموذج Deepseek R1 مجاني في اللعب مع هنا ، ويقوم بكل الأشياء المعتادة مثل تلخيص الأوراق البحثية في الخماسي Iambic ومشاكل المنطق بشكل خاطئ. يقول ديبسيك إن نموذج R1-Zero تم تدريبه بالكامل دون ضبط جيد.

إليكم Damindu Jayaweera وفريق في Peel Hunt على التفاصيل.

أولاً ، تم تدريبه في أقل من 3 ملايين ساعة GPU ، أي ما يعادل تكلفة تدريب ما يزيد قليلاً عن 5 ملايين دولار. بالنسبة للسياق ، يقدر المحللون آخر نموذج من الذكاء الاصطناعي الرئيسي لـ META 60-70 مليون دولار للتدريب. ثانياً ، لقد رأينا أشخاصًا يديرون نموذج Deepseek الكامل على أجهزة Mac Commodity بطريقة قابلة للاستخدام ، مما يؤكد كفاءته الاستنتاجية (باستخدام التدريب). نعتقد أنه لن يمر وقت طويل قبل أن نرى وحدات Raspberry Pi تعمل على تشغيل إصدارات قطع Deepseek. تترجم هذه الكفاءة إلى إصدارات مستضافة من هذا النموذج تكلف 5 ٪ فقط من سعر Openai المكافئ. أخيرًا ، يتم إصداره بموجب ترخيص معهد ماساتشوستس للتكنولوجيا ، وهو ترخيص للبرمجيات المسموح به يسمح بحريات شبه محددة ، بما في ذلك تعديله للاستخدام التجاري الخاص

ديبسيك ليس تهديدًا غير متوقع لمجمع Openai الصناعي. حتى أن الاقتصادي قد اكتشفها منذ أشهر ، وكانت أكواب الصناعة مثل الحلول شبه الدقيقة تتحدث منذ العصور حول خطر الالتهاب في الذكاء الاصطناعى.

إليكم جوشوا مايرز ، شخص مبيعات متخصص في JPMorgan:

من غير الواضح إلى أي مدى يقوم Deepseek بالاستفادة من وحدات معالجة الرسومات Hopper Hopper ذات 50 ألفًا (على غرار الحجم مع الكتلة التي يُعتقد أن Openai تدرب GPT-5) ، ولكن ما يبدو أنه يشبه أنها تقلل بشكل كبير من التكاليف (تكاليف الاستدلال بالنسبة لنموذج V2 الخاص بهم ، على سبيل المثال ، يُزعم أنه 1/7 من GPT-4 Turbo). إن مطالبةهم التخريبية (وإن لم تكن جديدة) – التي بدأت تضرب أسماء الذكاء الاصطناعي في الولايات المتحدة هذا الأسبوع – هي أن “المزيد من الاستثمارات لا تساوي المزيد من الابتكار”. ليانغ: “الآن لا أرى أي أساليب جديدة ، لكن الشركات الكبيرة لا تتمتع بيد علوية واضحة. الشركات الكبرى لديها عملاء حاليين ، لكن شركات التدفق النقدي لها هي أيضًا عبءها ، وهذا يجعلها عرضة للتعطيل في أي وقت. ” وعندما سئل عن حقيقة أن GPT5 لم يتم إطلاق سراحه: “Openai ليس إلهًا ، فلن يكونوا دائمًا في المقدمة”.

oof. العودة إلى ميزوهو:

لماذا يأتي هذا في لحظة مؤلمة؟ هذا يحدث بعد أن رأينا للتو دفعة من Texas Hold’em ‘All In “فيما يتعلق بإعلان Stargate (حوالي 500 مليار دولار بحلول عام 2028E) و META يأخذ Capex رسميًا إلى حدود 60 دولارًا إلى 65 مليار دولار لتوسيع نطاق لاما وبالطبع إعلان MSFT 80 مليار دولار … … كانت الأسواق تحاول حرفيًا تصميم الطلب المعلن لـ Stargate فقط على ~ 2 مل في NVDA عندما يكون إجمالي إنتاجها 6 مللي ثانية فقط … انخفض 7 ٪). تتساءل الأسواق الآن عما إذا كانت هذه لحظة تفرق عن فقاعة الذكاء الاصطناعي للأسواق أم لا (أي فقاعة Dot-Com لـ Cisco). NVIDIA هي أكبر وزن شركة فردية من S&P500 بنسبة 7 ٪.

و Jefferies مرة أخرى.

1) نرى اثنين على الأقل من استراتيجيات الصناعة المحتملة. من المرجح أن يزيد نماذج التدريب الأكثر كفاءة من الصين ، والتي تم دفعها للابتكار بسبب قيود توريد الرقائق ، من سباق السيطرة على منظمة العفو الدولية بين الولايات المتحدة والصين. والسؤال الرئيسي لبناة مركز البيانات ، هو ما إذا كانت لا تزال استراتيجية “بناء بأي ثمن” من خلال تحسينات نموذجية متسارعة ، أو ما إذا كان التركيز يتحول الآن نحو كفاءة رأس المال الأعلى ، مما يؤدي إلى الضغط على الطلب على الطاقة وميزانيات CAPEX من الذكاء الاصطناعي الرئيسي اللاعبون. على المدى القريب ، سوف يفترض السوق الأخير.

2) المشتركة المخاطر على المدى القريب ، والأرباح أقل تأثرا. على الرغم من أن الأسماء المكشوفة لمركز البيانات معرضة للاندفاع على المشاعر ، لا يوجد تأثير فوري على الأرباح لتغطيةنا. تنطبق أي تغييرات على خطط Capex مع تأثير التأخير المعطى (> 12 مترًا) والتعرض في كتب الطلبات (حوالي 10 ٪ للساخن). نرى مخاطر محدودة من التعديلات أو الإلغاء على الطلبات الحالية ونتوقع في هذه المرحلة تحولًا في توقعات العائد على الاستثمار الأعلى على الاستثمارات الحالية التي تحركها نماذج أكثر كفاءة. بشكل عام ، ما زلنا صعوديًا في القطاع حيث يستفيد قادة الحجم من الخندق المتسع وقوة التسعير الأعلى.

على الرغم من أنها الصينية. الناس مشبوهة. هنا Citi’s Atif Malik:

على الرغم من أن إنجاز Deepseek قد يكون من الرائد ، فإننا نتساءل عن فكرة أن مآثرها قد تم ذلك دون استخدام وحدات معالجة الرسومات المتقدمة لضبطها و/أو بناء LLMs الأساسي يعتمد النموذج النهائي من خلال تقنية التقطير. في حين أن هيمنة الشركات الأمريكية على نماذج الذكاء الاصطناعى الأكثر تقدماً يمكن أن تواجه تحديًا ، فإننا نقدر أنه في بيئة أكثر تقييدًا حتماً ، فإن الوصول إلى الرقائق الأكثر تقدماً هو ميزة. وبالتالي ، لا نتوقع أن تبتعد شركات AI القيادية عن وحدات معالجة الرسومات الأكثر تقدماً والتي توفر أكثر جاذبية/TFLOPs على نطاق واسع. نرى إعلانات AI Capex الحديثة مثل Stargate كإشارة إلى الحاجة إلى رقائق متقدمة.

و Mayers في JPMorgan:

قبل كل شيء ، يتم صنع الكثير من أوراق بحث Deepseek ، وكفاءة نماذجها. من غير الواضح إلى أي مدى يقوم Deepseek بالاستفادة من وحدات معالجة الرسومات Hopper Hopper ذات 50 ألفًا (على غرار الحجم مع الكتلة التي يُعتقد أن Openai تدرب GPT-5) ، ولكن ما يبدو أنه يشبه أنها تقلل بشكل كبير من التكاليف (تكاليف الاستدلال بالنسبة لنموذج V2 الخاص بهم ، على سبيل المثال ، يُزعم أنه 1/7 من GPT-4 Turbo).

أشياء عصبية لـ MAG7 ، بالطبع ، ولكن هل هذا سبب وجيه لبيع سوق Wiider؟ الذكاء الاصطناعى الصيني الرخيصة يعني المزيد من فوائد الإنتاجية ، وانخفاض تكاليف البناء والتسارع نحو نظرية Andreesen للطفور ، لذلك ربما. . . أخبار جيدة على المدى الطويل؟ Meyers JPMorgan مرة أخرى:

هذا لا يذهلني عن نهاية التحجيم أو عن عدم وجود حاجة لمزيد AI Capex ماديًا). بدلاً من ذلك ، يبدو أنه يتعلق بحظر التصدير الذي يجبر المنافسين في جميع أنحاء المحيط الهادئ على قيادة الكفاءة: “كان Deepseek V2 قادرًا على تحقيق كفاءة تدريب لا تصدق مع أداء نموذج أفضل من النماذج المفتوحة الأخرى في 1/5 حساب LLAMA 3 70B Meta. بالنسبة لأولئك الذين يتابعون ، يتطلب تدريب Deepseek V2 1/20 من زحف GPT-4 بينما لم يكن بعيدًا عن الأداء. ” إذا تمكنت Deepseek من تقليل تكلفة الاستدلال ، فسيتعين على الآخرين أيضًا ذلك ، ونأمل أن يكون الطلب أكثر من تعويض ذلك بمرور الوقت.

هذا أيضًا وجهة نظر المحلل في نصف قيمتي تيتسويا واداكي في مورغان ستانلي ، وهو أكثر من حماية البنوك الكبرى.

لم نؤكد على صحة هذه التقارير ، ولكن إذا كانت دقيقة ، ومن ثم يمكن تطوير LLM المتقدم لجزء صغير من الاستثمار السابق ، يمكن أن نرى في نهاية المطاف AI على أجهزة كمبيوتر أصغر وأصغر (تقليص من الحاسبات الفائقة إلى محطات العمل ، يمكن لأجهزة الكمبيوتر المكتبية ، وأخيراً أجهزة الكمبيوتر الشخصية) وصناعة SPE الاستفادة من الزيادة المصاحبة في الطلب على المنتجات ذات الصلة (الرقائق و SPE) كطلب على فروق الذكاء الاصطناعي.

وقشر مطاردة مرة أخرى:

نحن نعتقد أن تأثير تلك المزايا سيكون ذو شقين. على المدى المتوسط ​​إلى الطويل ، نتوقع أن تسير البنية التحتية LLM في طريق البنية التحتية لشركة Telco وتصبح “تكنولوجيا سلعة”. يعتمد التأثير المالي على أولئك الذين ينشرون AI Capex اليوم على التدخل التنظيمي – الذي كان له تأثير كبير على شركات الاتصالات. إذا فكرنا في منظمة العفو الدولية “طبقة بنية تحتية تقنية أخرى” ، مثل الإنترنت والهاتف المحمول والسحابة ، من الناحية النظرية ، يجب أن يكون المستفيدون من الشركات التي تستفيد من تلك البنية التحتية. على الرغم من أننا نفكر في Amazon و Google و Microsoft كبنية تحتية سحابة ، فقد ظهر ذلك بدافع من الحاجة إلى دعم نماذج أعمالهم الحالية: التجارة الإلكترونية والإعلان وبرامج العامل في المعلومات. تختلف البنية التحتية LLM في ذلك ، مثل البنية التحتية للسكك الحديدية والسكك الحديدية ، ويتم تصميمها قبل المنتج الحقيقي/السوق.

سنستمر في الإضافة إلى هذا المنشور حيث تستمر رسائل البريد الإلكتروني في الهبوط.

مزيد من القراءة:
-الشركات الناشئة الصينية مثل Deepseek تتحدى عمالقة الذكاء الاصطناعي العالمي (FT)
-كيف صدمت ديبسيك صينية صينية صينية وادي السيليكون (FT)

[ad_2]

المصدر