الإعدادات

اللغة

Mac Studio M5 Ultra: تشغيل نماذج 671B محلياً وبناء AI Infrastructure الخاصة بك مع LemonClaw

L
LemonData
·٨ أبريل ٢٠٢٦·140 مشاهدة
Mac Studio M5 Ultra: تشغيل نماذج 671B محلياً وبناء AI Infrastructure الخاصة بك مع LemonClaw

أول جهاز استهلاكي يتسع لمعلمات DeepSeek R1 الكاملة البالغة 671B في الذاكرة، وما يمكنك فعله به حقاً.


يُعد Mac Studio M5 Ultra بذاكرة موحدة (unified memory) سعة 512GB أول جهاز من الفئة الاستهلاكية يمكنه تشغيل DeepSeek R1 671B (أكبر نموذج مفتوح المصدر) بالكامل في RAM. لا حاجة لترحيل البيانات (offloading)، ولا لمنصات متعددة الـ GPU، ولا للتبريد المائي. مجرد صندوق يوضع على مكتبك ويستهلك طاقة أقل من مجفف الشعر.

هذا يغير قواعد اللعبة في الذكاء الاصطناعي المحلي. عندما يمكنك تشغيل نماذج من فئة الرائد (frontier-class) في المنزل، ينتقل السؤال من "هل يمكنني؟" إلى "هل يجب عليّ؟". بالنسبة لعدد متزايد من المطورين، الإجابة هي نعم.

فيما يلي: ما يقدمه M5 Ultra لاستنتاج LLM، وكيفية ربطه مع LemonClaw للحصول على مساعد ذكاء اصطناعي شخصي يعمل على مدار الساعة 24/7، ومتى يكون ذلك منطقياً من الناحية المالية مقارنة بـ APIs السحابية.


ما يقدمه M5 Ultra

جهاز M5 Ultra عبارة عن شريحتين M5 Max مدمجتين عبر تقنية UltraFusion من Apple. إليك ما يهم لاستنتاج LLM:

المواصفات M3 Ultra M5 Ultra (متوقع) لماذا يهم؟
Memory bandwidth 819 GB/s ~1,100–1,400 GB/s سرعة توليد الـ token مقيدة بعرض النطاق (bandwidth)
Unified memory حتى 512GB حتى +512GB يحدد أقصى حجم للنموذج
نويات GPU 80 ~80 الحوسبة المتوازية لعملية prefill
Neural Accelerator لا يوجد لكل نواة GPU زمن استجابة أسرع بـ 3-4 مرات لأول token
عقدة التصنيع (Process node) 3nm 3nm (N3P) أداء أفضل لكل واط
TDP ~200W ~190W يعمل بصمت، وقادر على العمل 24/7

أكبر تحسين منفرد لأعباء عمل الذكاء الاصطناعي: يدمج M5 مسرعاً عصبياً (Neural Accelerator) داخل كل نواة GPU. تظهر اختبارات MLX الخاصة بشركة Apple تحسناً بنسبة 3.3–4.1x في زمن الوصول لأول token (TTFT) مقارنة بـ M4. يتحسن توليد الـ token بنسبة ~25%، ولا يزال مقيداً بعرض النطاق، لكن سقف عرض النطاق أصبح أعلى.

بالنسبة لأعباء عمل الوكلاء (agents) التي تتضمن تبديل السياق المتكرر ومطالبات النظام الطويلة، فإن هذا هو الأهم. يستغرق M3 Ultra حوالي 2.3 ثانية لمعالجة سياق مكون من 120K token (تقديرياً من اختبارات prefill)؛ بينما يتوقع أن يفعل M5 Ultra ذلك في أقل من 0.7 ثانية.


ما الذي يمكن لذاكرة موحدة سعة 512GB تشغيله فعلياً؟

هذا هو الجدول الأهم. الذاكرة الموحدة تعني أن GPU و CPU يتشاركان نفس RAM، لا يوجد عنق زجاجة PCIe، ولا حدود لـ VRAM.

النموذج التكميم (Quantization) الذاكرة المطلوبة M3 Ultra 512GB M5 Ultra (متوقع)
DeepSeek R1 671B (MoE) Q4 ~336 GB 17–20 tok/s ~25–35 tok/s
Llama 3.1 405B Q4 ~203 GB ~2 tok/s ~3–5 tok/s
Qwen3-VL 235B Q4 ~118 GB ~30 tok/s ~40–55 tok/s
GLM-4.7 358B Q3 ~180 GB ~15 tok/s ~20–28 tok/s
Qwen3 30B (MoE) 4-bit ~17 GB ~45 tok/s ~60+ tok/s
Mistral Small 24B BF16 ~48 GB 95 tok/s ~130+ tok/s

المصادر: geerlingguy/ai-benchmarks، Apple MLX Research، HN community benchmarks

للتوضيح: 20–30 tok/s مريحة للدردشة التفاعلية. 15 tok/s قابلة للاستخدام. أقل من 5 tok/s تبدو بطيئة ولكنها تعمل للمهام المجمعة (batch tasks).

تكوين 512GB يعني أنه يمكنك تشغيل DeepSeek R1 671B Q4 (~336GB) ولا يزال لديك ~176GB متبقية لـ KV cache والسياق. هذا كافٍ للمحادثات متعددة الأدوار مع سياقات تزيد عن 100K token.

لماذا لا نستخدم NVIDIA ببساطة؟

Mac Studio M5 Ultra NVIDIA RTX 5090 4x RTX 5090
الذاكرة 512GB موحدة 32GB VRAM 128GB VRAM
عرض النطاق (Bandwidth) ~1,200 GB/s 1,792 GB/s 7,168 GB/s
DeepSeek R1 671B ✅ يعمل في الذاكرة ❌ لا يتسع ❌ لا يزال لا يتسع
سرعة Llama 70B ~18 tok/s ~80 tok/s ~240 tok/s
استهلاك الطاقة ~190W ~450W ~1,800W
الضجيج صامت مرتفع مركز بيانات
السعر ~$10,000 ~$2,000 ~$8,000 + اللوحة الأم

تتفوق NVIDIA في السرعة الخام عندما يتسع النموذج في VRAM. ولكن بمجرد أن يتجاوز النموذج 32GB، يسقط أداء NVIDIA بشكل حاد: ترحيل البيانات إلى RAM النظام يخفض الإنتاجية من 100+ tok/s إلى ~3 tok/s. بنية الذاكرة الموحدة في Mac تعني عدم وجود هذا السقوط. نموذج بحجم 400GB يعمل بنفس عرض النطاق الذي يعمل به نموذج بحجم 40GB.

بالنسبة للنماذج التي يقل حجمها عن 70B، اشترِ GPU. بالنسبة للنماذج التي تزيد عن 200B، يعد Mac Studio حالياً الخيار الاستهلاكي العملي الوحيد.


دخول LemonClaw: تحويل العتاد إلى مساعد ذكاء اصطناعي

تشغيل نموذج محلياً هو الخطوة الأولى. جعله مفيداً على مدار الساعة 24/7 هو الخطوة الثانية.

LemonClaw هي منصة وكلاء ذكاء اصطناعي مفتوحة المصدر وذاتية الاستضافة. إنها تحول جهاز Mac الخاص بك إلى مساعد ذكاء اصطناعي دائم تتفاعل معه من خلال تطبيقات المراسلة الحالية — Telegram، Slack، Discord، WhatsApp، وحتى iMessage.

لماذا LemonClaw + Mac Studio؟

يتفاعل معظم الناس مع الذكاء الاصطناعي من خلال علامة تبويب في المتصفح. يضعه LemonClaw في تطبيق المراسلة الخاص بك بدلاً من ذلك: يعمل مساعدك على عتادك الخاص، ويتذكر سياقك عبر المحادثات، ويعمل أثناء نومك.

ماذا يفعل LemonClaw

  • ذاكرة دائمة: ملفات ذاكرة تعتمد على Markdown مع بحث دلالي (semantic search). يتذكر مساعدك ما ناقشته الأسبوع الماضي.
  • صندوق وارد متعدد القنوات: تحدث إليه عبر Telegram أو Slack أو Discord أو WhatsApp أو أي منصة مدعومة. نفس السياق، من أي جهاز.
  • مهام ذاتية: جدولة مهام cron، إعداد webhooks، تركه يعمل طوال الليل على مهام البحث أو البرمجة.
  • أتمتة المتصفح: تصفح ويب يعتمد على CDP للبحث، واستخراج البيانات، وملء النماذج.
  • نظام المهارات: تثبيت مهارات المجتمع من ClawHub، أو كتابة مهاراتك الخاصة.
  • دعم خادم MCP: الاتصال بالأدوات الخارجية و APIs.

ميزة النموذج المحلي

عند تشغيل LemonClaw على Mac Studio مع نماذج محلية عبر Ollama أو MLX:

  1. تكاليف API صفرية. لا توجد فوترة لكل token. قم بتشغيل DeepSeek R1 671B طوال اليوم، كل يوم، بتكلفة الكهرباء فقط (~3 دولار شهرياً).
  2. خصوصية كاملة. مطالباتك ومستنداتك وأكوادك لا تغادر جهازك أبداً. قم بمعالجة العقود الحساسة، الأكواد المملوكة للشركة، السجلات الطبية، دون معالجة بيانات من طرف ثالث.
  3. لا توجد حدود لمعدل الاستخدام (rate limits). تقيدك APIs السحابية بـ 1,000–10,000 طلب في الدقيقة. الاستنتاج المحلي ليس له حدود سوى عتادك.
  4. لا يوجد اعتماد على وقت التوقف. هل توقفت OpenAI؟ هل تعاني Anthropic من انقطاع؟ يظل إعدادك المحلي يعمل.
  5. زمن الاستجابة (Latency). لا توجد رحلة ذهاب وإياب عبر الشبكة. يظهر أول token في أجزاء من الثانية للنماذج الصغيرة.

إعداد سريع: Mac Studio + Ollama + LemonClaw

# 1. تثبيت Ollama
brew install ollama

# 2. سحب نموذج (ابدأ بشيء سريع)
ollama pull qwen3:30b

# 3. تثبيت LemonClaw
npm install -g lemonclaw@latest
lemonclaw onboard --install-daemon

# 4. تهيئة LemonClaw لاستخدام Ollama المحلي
# في ~/.lemonclaw/config.json، قم بتعيين:
# "defaultModel": "ollama/qwen3:30b"
# "providers": [{ "type": "ollama", "baseUrl": "http://127.0.0.1:11434" }]

يعمل LemonClaw كخدمة launchd على macOS. يبدأ عند الإقلاع ويعمل 24/7 في الخلفية. اربط حسابك في Telegram أو Slack، وسيكون لديك مساعد ذكاء اصطناعي دائم متاح دائماً.

بالنسبة لـ M5 Ultra بذاكرة 512GB، يمكنك اختيار نماذج أكبر:

# سحب DeepSeek R1 671B (يتطلب ~336GB RAM)
ollama pull deepseek-r1:671b-q4

# أو Qwen3-VL 235B الممتاز للمهام متعددة الوسائط
ollama pull qwen3-vl:235b-q4

الجانب الاقتصادي: متى يتفوق المحلي على السحابي؟

دعونا نجري الحسابات.

تكاليف API السحابية (مستخدم كثيف)

نمط الاستخدام التكلفة الشهرية
LemonClaw مع Claude Sonnet 4.6 (استخدام كثيف) 200–400 دولار شهرياً
مساعد تطوير وبرمجة 50–100 دولار شهرياً
بحث وتحليل مستندات 50–100 دولار شهرياً
الإجمالي 300–600 دولار شهرياً

Mac Studio M5 Ultra (تكلفة لمرة واحدة + تشغيل)

البند التكلفة
Mac Studio M5 Ultra 512GB (متوقع) ~10,000 دولار
الكهرباء (~200W، 24/7) ~3 دولار شهرياً
الإنترنت (موجود بالفعل) 0 دولار
نقطة التعادل مقابل 400 دولار شهرياً سحابياً ~25 شهراً

بعد 25 شهراً، ستقوم بتشغيل ذكاء اصطناعي من فئة الرائد مقابل 3 دولارات شهرياً. ولا يزال لديك محطة عمل بقيمة 10,000 دولار لكل شيء آخر.

النهج الهجين (موصى به)

ليس عليك اختيار المحلي بالكامل أو السحابي بالكامل. الإعداد الأذكى:

  • نماذج محلية للمهام ذات الحجم الكبير، أو الحساسة للخصوصية، أو الحرجة لزمن الاستجابة (البرمجة، تحليل المستندات، العصف الذهني).
  • APIs سحابية للقدرات الرائدة التي لا يمكنك تشغيلها محلياً (GPT-5، Claude Opus 4.6 مع سياق 200K بالسرعة الكاملة).

يدعم LemonClaw هذا بشكل أصلي: قم بتهيئة عدة مزودي نماذج والتبديل بين Ollama المحلي و APIs السحابية لكل محادثة أو لكل مهمة.

وللوصول إلى APIs السحابية، تمنحك LemonData أكثر من 300 نموذج من خلال مفتاح API واحد مع تسعير حسب الاستخدام، بدون اشتراكات، وبدون حد أدنى. استخدمها كخيار احتياطي سحابي عندما لا تكون النماذج المحلية كافية.


دليل الإعداد: ثلاث فئات

الفئة 1: المبتدئ (4,000–5,000 دولار)

Mac Studio M3/M5 Ultra 96GB

  • يشغل: Qwen3 30B، Llama 70B (Q4)، DeepSeek R1 14B
  • السرعة: 30–50 tok/s على نماذج 30B
  • الأفضل لـ: مساعد شخصي، مساعدة في البرمجة، بحث خفيف
  • تهيئة LemonClaw: qwen3:30b كافتراضي، مع خيار احتياطي سحابي للمهام المعقدة

الفئة 2: المستخدم المتقدم (7,000–9,000 دولار)

Mac Studio M5 Ultra 256GB

  • يشغل: Qwen3-VL 235B، GLM-4.7 358B (Q3)، Llama 405B (Q4)
  • السرعة: 15–30 tok/s على نماذج +200B
  • الأفضل لـ: تطوير احترافي، مهام متعددة الوسائط، خادم ذكاء اصطناعي للفريق
  • تهيئة LemonClaw: qwen3-vl:235b للرؤية، deepseek-r1:70b للاستنتاج

الفئة 3: محطة عمل الذكاء الاصطناعي (10,000–14,000 دولار)

Mac Studio M5 Ultra 512GB

  • يشغل: DeepSeek R1 671B (Q4)، وكل ما هو أدناه
  • السرعة: 25–35 tok/s على 671B
  • الأفضل لـ: تشغيل أكبر النماذج مفتوحة المصدر، خادم متعدد المستخدمين، البحث
  • تهيئة LemonClaw: deepseek-r1:671b للاستنتاج العميق، ونماذج أصغر للمهام السريعة

تشغيله كخادم ذكاء اصطناعي 24/7

تم تصميم Mac Studio للعمل الدائم. إليك كيفية إعداده كخادم ذكاء اصطناعي بدون شاشة (headless):

إذا كنت تقرر ما إذا كان الاستنتاج المحلي يستحق هذا التعقيد، فاقرن هذه الصفحة مع دليل LemonClaw للاستضافة الذاتية و دليل DeepSeek R1. أحدهما يجيب على سؤال وقت التشغيل، والآخر يجيب على سؤال ملاءمة النموذج.

الطاقة والحرارة

  • 190W TDP تعني مقبس طاقة قياسياً، لا حاجة لتوصيلات خاصة
  • بدون مراوح عند الخمول، وهادئ جداً تحت الضغط
  • لا يوجد اختناق حراري (thermal throttling) في أعباء العمل المستمرة (تصميم Apple الحراري يتعامل مع ذلك)

الوصول عن بعد

  • SSH للوصول إلى الطرفية (terminal)
  • Tailscale للوصول الآمن عن بعد من أي مكان
  • تكامل المراسلة في LemonClaw يعني أنك لست بحاجة للوصول المباشر للجهاز. فقط راسل ذكاءك الاصطناعي عبر Telegram.

الموثوقية

  • يقوم macOS launchd بإعادة تشغيل LemonClaw تلقائياً إذا تعطل
  • يعمل Ollama كخدمة خلفية
  • يوصى بـ UPS لانقطاع التيار الكهربائي (يقوم Mac Studio بالإقلاع واستئناف الخدمات تلقائياً)
# تمكين SSH
sudo systemsetup -setremotelogin on

# تثبيت Tailscale للوصول عن بعد
brew install tailscale
sudo tailscale up

# يعمل LemonClaw بالفعل كخدمة launchd بعد الإعداد
# تحقق من الحالة:
launchctl list | grep lemonclaw

ما هو قادم: خارطة طريق M5 Ultra

من المتوقع صدور Mac Studio M5 Ultra في النصف الثاني من عام 2026. إليك الجدول الزمني:

  • 4 مارس 2026: حدث Apple "Experience"، المتوقع فيه M5 Pro/Max MacBook Pro
  • النصف الثاني من 2026: Mac Studio مع M5 Ultra
  • التحسينات الرئيسية عن M3 Ultra: مسرعات عصبية في GPU (3–4x TTFT)، عرض نطاق ذاكرة أعلى (~1.1–1.4 TB/s)، نفس الذاكرة القصوى أو أعلى

هل تنتظر أم تشتري الآن؟

اشترِ M3 Ultra 512GB الآن إذا:

  • كنت بحاجة لاستنتاج ذكاء اصطناعي محلي اليوم
  • كنت تنفق +300 دولار شهرياً على APIs السحابية
  • كانت سرعة 17–20 tok/s على DeepSeek R1 671B كافية لحالة استخدامك

انتظر M5 Ultra إذا:

  • كان بإمكانك تحمل APIs السحابية لمدة 6-9 أشهر أخرى
  • كنت تريد تحسين 3-4x في TTFT (ضروري لأعباء عمل الوكلاء)
  • كنت تريد رؤية اختبارات الأداء الفعلية قبل دفع +10 آلاف دولار

في كلتا الحالتين، يمكنك البدء مع LemonClaw اليوم باستخدام APIs السحابية عبر LemonData. رصيد مجاني بقيمة 1 دولار عند التسجيل، أكثر من 300 نموذج، وادفع فقط مقابل ما تستخدمه. عندما يصل Mac Studio الخاص بك، ما عليك سوى توجيه LemonClaw إلى نسخة Ollama المحلية وستنخفض تكاليفك إلى الصفر تقريباً.


ملخص (TL;DR)

APIs السحابية Mac Studio M5 Ultra + LemonClaw
أقصى حجم للنموذج غير محدود (المزود يتولى ذلك) 671B Q4 (تكوين 512GB)
التكلفة الشهرية 300–600 دولار (استخدام كثيف) ~3 دولار كهرباء
الخصوصية البيانات تُرسل لأطراف ثالثة كل شيء يبقى محلياً
زمن الاستجابة (Latency) 200–500ms شبكة + استنتاج استنتاج فقط
حدود الاستخدام نعم لا
التكلفة المبدئية 0 دولار ~10,000 دولار
نقطة التعادل ~25 شهراً

جهاز Mac Studio M5 Ultra هو بنية تحتية شخصية للذكاء الاصطناعي. اربطه مع LemonClaw، وسيكون لديك مساعد ذكاء اصطناعي يعمل 24/7، يشغل نماذج من فئة الرائد، يحترم خصوصيتك، ويكلف 3 دولارات شهرياً لتشغيله.

انتهى عصر "الذكاء الاصطناعي المحلي هو مجرد لعبة". ذاكرة موحدة سعة 512GB وعرض نطاق 1.2+ TB/s يعني أنه يمكنك تشغيل نماذج تضاهي العروض السحابية. السؤال الوحيد هو ما إذا كنت مستعداً لامتلاك حزمة الذكاء الاصطناعي الخاصة بك.


هل أنت مستعد للبدء في بناء بنيتك التحتية للذكاء الاصطناعي؟ جرب LemonClaw مع LemonData: أكثر من 300 نموذج سحابي مع رصيد مجاني بقيمة 1 دولار. عندما يصل Mac Studio الخاص بك، انتقل إلى النماذج المحلية دون أي تغيير في الكود.

Share: