Mac Studio M5 Ultra: تشغيل Models 671B محلياً وبناء الـ AI Infrastructure الخاصة بك باستخدام LemonClaw

أول جهاز استهلاكي يتسع لمعلمات DeepSeek R1 الكاملة البالغة 671B في الذاكرة، وما يمكنك فعله به حقاً.

يُعد Mac Studio M5 Ultra بذاكرة موحدة (unified memory) سعة 512GB أول جهاز من الفئة الاستهلاكية يمكنه تشغيل DeepSeek R1 671B (أكبر نموذج مفتوح المصدر) بالكامل في RAM. لا حاجة لترحيل البيانات (offloading)، ولا لمنصات متعددة الـ GPU، ولا للتبريد المائي. مجرد صندوق يوضع على مكتبك ويستهلك طاقة أقل من مجفف الشعر.

هذا يغير قواعد اللعبة في الذكاء الاصطناعي المحلي. عندما يمكنك تشغيل نماذج من فئة الرائد (frontier-class) في المنزل، ينتقل السؤال من "هل يمكنني؟" إلى "هل يجب عليّ؟". بالنسبة لعدد متزايد من المطورين، الإجابة هي نعم.

فيما يلي: ما يقدمه M5 Ultra لاستنتاج LLM، وكيفية ربطه مع LemonClaw للحصول على مساعد ذكاء اصطناعي شخصي يعمل على مدار الساعة 24/7، ومتى يكون ذلك منطقياً من الناحية المالية مقارنة بـ APIs السحابية.

ما يقدمه M5 Ultra

جهاز M5 Ultra عبارة عن شريحتين M5 Max مدمجتين عبر تقنية UltraFusion من Apple. إليك ما يهم لاستنتاج LLM:

المواصفات	M3 Ultra	M5 Ultra (متوقع)	لماذا يهم؟
Memory bandwidth	819 GB/s	~1,100–1,400 GB/s	سرعة توليد الـ token مقيدة بعرض النطاق (bandwidth)
Unified memory	حتى 512GB	حتى +512GB	يحدد أقصى حجم للنموذج
نويات GPU	80	~80	الحوسبة المتوازية لعملية prefill
Neural Accelerator	لا يوجد	لكل نواة GPU	زمن استجابة أسرع بـ 3-4 مرات لأول token
عقدة التصنيع (Process node)	3nm	3nm (N3P)	أداء أفضل لكل واط
TDP	~200W	~190W	يعمل بصمت، وقادر على العمل 24/7

أكبر تحسين منفرد لأعباء عمل الذكاء الاصطناعي: يدمج M5 مسرعاً عصبياً (Neural Accelerator) داخل كل نواة GPU. تظهر اختبارات MLX الخاصة بشركة Apple تحسناً بنسبة 3.3–4.1x في زمن الوصول لأول token (TTFT) مقارنة بـ M4. يتحسن توليد الـ token بنسبة ~25%، ولا يزال مقيداً بعرض النطاق، لكن سقف عرض النطاق أصبح أعلى.

بالنسبة لأعباء عمل الوكلاء (agents) التي تتضمن تبديل السياق المتكرر ومطالبات النظام الطويلة، فإن هذا هو الأهم. يستغرق M3 Ultra حوالي 2.3 ثانية لمعالجة سياق مكون من 120K token (تقديرياً من اختبارات prefill)؛ بينما يتوقع أن يفعل M5 Ultra ذلك في أقل من 0.7 ثانية.

ما الذي يمكن لذاكرة موحدة سعة 512GB تشغيله فعلياً؟

هذا هو الجدول الأهم. الذاكرة الموحدة تعني أن GPU و CPU يتشاركان نفس RAM، لا يوجد عنق زجاجة PCIe، ولا حدود لـ VRAM.

النموذج	التكميم (Quantization)	الذاكرة المطلوبة	M3 Ultra 512GB	M5 Ultra (متوقع)
DeepSeek R1 671B (MoE)	Q4	~336 GB	17–20 tok/s	~25–35 tok/s
Llama 3.1 405B	Q4	~203 GB	~2 tok/s	~3–5 tok/s
Qwen3-VL 235B	Q4	~118 GB	~30 tok/s	~40–55 tok/s
GLM-4.7 358B	Q3	~180 GB	~15 tok/s	~20–28 tok/s
Qwen3 30B (MoE)	4-bit	~17 GB	~45 tok/s	~60+ tok/s
Mistral Small 24B	BF16	~48 GB	95 tok/s	~130+ tok/s

المصادر: geerlingguy/ai-benchmarks، Apple MLX Research، HN community benchmarks

للتوضيح: 20–30 tok/s مريحة للدردشة التفاعلية. 15 tok/s قابلة للاستخدام. أقل من 5 tok/s تبدو بطيئة ولكنها تعمل للمهام المجمعة (batch tasks).

تكوين 512GB يعني أنه يمكنك تشغيل DeepSeek R1 671B Q4 (~336GB) ولا يزال لديك ~176GB متبقية لـ KV cache والسياق. هذا كافٍ للمحادثات متعددة الأدوار مع سياقات تزيد عن 100K token.

لماذا لا نستخدم NVIDIA ببساطة؟

	Mac Studio M5 Ultra	NVIDIA RTX 5090	4x RTX 5090
الذاكرة	512GB موحدة	32GB VRAM	128GB VRAM
عرض النطاق (Bandwidth)	~1,200 GB/s	1,792 GB/s	7,168 GB/s
DeepSeek R1 671B	✅ يعمل في الذاكرة	❌ لا يتسع	❌ لا يزال لا يتسع
سرعة Llama 70B	~18 tok/s	~80 tok/s	~240 tok/s
استهلاك الطاقة	~190W	~450W	~1,800W
الضجيج	صامت	مرتفع	مركز بيانات
السعر	~$10,000	~$2,000	~$8,000 + اللوحة الأم

تتفوق NVIDIA في السرعة الخام عندما يتسع النموذج في VRAM. ولكن بمجرد أن يتجاوز النموذج 32GB، يسقط أداء NVIDIA بشكل حاد: ترحيل البيانات إلى RAM النظام يخفض الإنتاجية من 100+ tok/s إلى ~3 tok/s. بنية الذاكرة الموحدة في Mac تعني عدم وجود هذا السقوط. نموذج بحجم 400GB يعمل بنفس عرض النطاق الذي يعمل به نموذج بحجم 40GB.

بالنسبة للنماذج التي يقل حجمها عن 70B، اشترِ GPU. بالنسبة للنماذج التي تزيد عن 200B، يعد Mac Studio حالياً الخيار الاستهلاكي العملي الوحيد.

دخول LemonClaw: تحويل العتاد إلى مساعد ذكاء اصطناعي

تشغيل نموذج محلياً هو الخطوة الأولى. جعله مفيداً على مدار الساعة 24/7 هو الخطوة الثانية.

LemonClaw هي منصة وكلاء ذكاء اصطناعي مفتوحة المصدر وذاتية الاستضافة. إنها تحول جهاز Mac الخاص بك إلى مساعد ذكاء اصطناعي دائم تتفاعل معه من خلال تطبيقات المراسلة الحالية — Telegram، Slack، Discord، WhatsApp، وحتى iMessage.

لماذا LemonClaw + Mac Studio؟

يتفاعل معظم الناس مع الذكاء الاصطناعي من خلال علامة تبويب في المتصفح. يضعه LemonClaw في تطبيق المراسلة الخاص بك بدلاً من ذلك: يعمل مساعدك على عتادك الخاص، ويتذكر سياقك عبر المحادثات، ويعمل أثناء نومك.

ماذا يفعل LemonClaw

ذاكرة دائمة: ملفات ذاكرة تعتمد على Markdown مع بحث دلالي (semantic search). يتذكر مساعدك ما ناقشته الأسبوع الماضي.
صندوق وارد متعدد القنوات: تحدث إليه عبر Telegram أو Slack أو Discord أو WhatsApp أو أي منصة مدعومة. نفس السياق، من أي جهاز.
مهام ذاتية: جدولة مهام cron، إعداد webhooks، تركه يعمل طوال الليل على مهام البحث أو البرمجة.
أتمتة المتصفح: تصفح ويب يعتمد على CDP للبحث، واستخراج البيانات، وملء النماذج.
نظام المهارات: تثبيت مهارات المجتمع من ClawHub، أو كتابة مهاراتك الخاصة.
دعم خادم MCP: الاتصال بالأدوات الخارجية و APIs.

ميزة النموذج المحلي

عند تشغيل LemonClaw على Mac Studio مع نماذج محلية عبر Ollama أو MLX:

تكاليف API صفرية. لا توجد فوترة لكل token. قم بتشغيل DeepSeek R1 671B طوال اليوم، كل يوم، بتكلفة الكهرباء فقط (~3 دولار شهرياً).
خصوصية كاملة. مطالباتك ومستنداتك وأكوادك لا تغادر جهازك أبداً. قم بمعالجة العقود الحساسة، الأكواد المملوكة للشركة، السجلات الطبية، دون معالجة بيانات من طرف ثالث.
لا توجد حدود لمعدل الاستخدام (rate limits). تقيدك APIs السحابية بـ 1,000–10,000 طلب في الدقيقة. الاستنتاج المحلي ليس له حدود سوى عتادك.
لا يوجد اعتماد على وقت التوقف. هل توقفت OpenAI؟ هل تعاني Anthropic من انقطاع؟ يظل إعدادك المحلي يعمل.
زمن الاستجابة (Latency). لا توجد رحلة ذهاب وإياب عبر الشبكة. يظهر أول token في أجزاء من الثانية للنماذج الصغيرة.

إعداد سريع: Mac Studio + Ollama + LemonClaw

# 1. تثبيت Ollama
brew install ollama

# 2. سحب نموذج (ابدأ بشيء سريع)
ollama pull qwen3:30b

# 3. تثبيت LemonClaw
npm install -g lemonclaw@latest
lemonclaw onboard --install-daemon

# 4. تهيئة LemonClaw لاستخدام Ollama المحلي
# في ~/.lemonclaw/config.json، قم بتعيين:
# "defaultModel": "ollama/qwen3:30b"
# "providers": [{ "type": "ollama", "baseUrl": "http://127.0.0.1:11434" }]

يعمل LemonClaw كخدمة launchd على macOS. يبدأ عند الإقلاع ويعمل 24/7 في الخلفية. اربط حسابك في Telegram أو Slack، وسيكون لديك مساعد ذكاء اصطناعي دائم متاح دائماً.

بالنسبة لـ M5 Ultra بذاكرة 512GB، يمكنك اختيار نماذج أكبر:

# سحب DeepSeek R1 671B (يتطلب ~336GB RAM)
ollama pull deepseek-r1:671b-q4

# أو Qwen3-VL 235B الممتاز للمهام متعددة الوسائط
ollama pull qwen3-vl:235b-q4

الجانب الاقتصادي: متى يتفوق المحلي على السحابي؟

دعونا نجري الحسابات.

تكاليف API السحابية (مستخدم كثيف)

نمط الاستخدام	التكلفة الشهرية
LemonClaw مع Claude Sonnet 4.6 (استخدام كثيف)	200–400 دولار شهرياً
مساعد تطوير وبرمجة	50–100 دولار شهرياً
بحث وتحليل مستندات	50–100 دولار شهرياً
الإجمالي	300–600 دولار شهرياً

Mac Studio M5 Ultra (تكلفة لمرة واحدة + تشغيل)

البند	التكلفة
Mac Studio M5 Ultra 512GB (متوقع)	~10,000 دولار
الكهرباء (~200W، 24/7)	~3 دولار شهرياً
الإنترنت (موجود بالفعل)	0 دولار
نقطة التعادل مقابل 400 دولار شهرياً سحابياً	~25 شهراً

بعد 25 شهراً، ستقوم بتشغيل ذكاء اصطناعي من فئة الرائد مقابل 3 دولارات شهرياً. ولا يزال لديك محطة عمل بقيمة 10,000 دولار لكل شيء آخر.

النهج الهجين (موصى به)

ليس عليك اختيار المحلي بالكامل أو السحابي بالكامل. الإعداد الأذكى:

نماذج محلية للمهام ذات الحجم الكبير، أو الحساسة للخصوصية، أو الحرجة لزمن الاستجابة (البرمجة، تحليل المستندات، العصف الذهني).
APIs سحابية للقدرات الرائدة التي لا يمكنك تشغيلها محلياً (GPT-5، Claude Opus 4.6 مع سياق 200K بالسرعة الكاملة).

يدعم LemonClaw هذا بشكل أصلي: قم بتهيئة عدة مزودي نماذج والتبديل بين Ollama المحلي و APIs السحابية لكل محادثة أو لكل مهمة.

وللوصول إلى APIs السحابية، تمنحك LemonData أكثر من 300 نموذج من خلال مفتاح API واحد مع تسعير حسب الاستخدام، بدون اشتراكات، وبدون حد أدنى. استخدمها كخيار احتياطي سحابي عندما لا تكون النماذج المحلية كافية.

دليل الإعداد: ثلاث فئات

الفئة 1: المبتدئ (4,000–5,000 دولار)

Mac Studio M3/M5 Ultra 96GB

يشغل: Qwen3 30B، Llama 70B (Q4)، DeepSeek R1 14B
السرعة: 30–50 tok/s على نماذج 30B
الأفضل لـ: مساعد شخصي، مساعدة في البرمجة، بحث خفيف
تهيئة LemonClaw: qwen3:30b كافتراضي، مع خيار احتياطي سحابي للمهام المعقدة

الفئة 2: المستخدم المتقدم (7,000–9,000 دولار)

Mac Studio M5 Ultra 256GB

يشغل: Qwen3-VL 235B، GLM-4.7 358B (Q3)، Llama 405B (Q4)
السرعة: 15–30 tok/s على نماذج +200B
الأفضل لـ: تطوير احترافي، مهام متعددة الوسائط، خادم ذكاء اصطناعي للفريق
تهيئة LemonClaw: qwen3-vl:235b للرؤية، deepseek-r1:70b للاستنتاج

الفئة 3: محطة عمل الذكاء الاصطناعي (10,000–14,000 دولار)

Mac Studio M5 Ultra 512GB

يشغل: DeepSeek R1 671B (Q4)، وكل ما هو أدناه
السرعة: 25–35 tok/s على 671B
الأفضل لـ: تشغيل أكبر النماذج مفتوحة المصدر، خادم متعدد المستخدمين، البحث
تهيئة LemonClaw: deepseek-r1:671b للاستنتاج العميق، ونماذج أصغر للمهام السريعة

تشغيله كخادم ذكاء اصطناعي 24/7

تم تصميم Mac Studio للعمل الدائم. إليك كيفية إعداده كخادم ذكاء اصطناعي بدون شاشة (headless):

إذا كنت تقرر ما إذا كان الاستنتاج المحلي يستحق هذا التعقيد، فاقرن هذه الصفحة مع دليل LemonClaw للاستضافة الذاتية و دليل DeepSeek R1. أحدهما يجيب على سؤال وقت التشغيل، والآخر يجيب على سؤال ملاءمة النموذج.

الطاقة والحرارة

190W TDP تعني مقبس طاقة قياسياً، لا حاجة لتوصيلات خاصة
بدون مراوح عند الخمول، وهادئ جداً تحت الضغط
لا يوجد اختناق حراري (thermal throttling) في أعباء العمل المستمرة (تصميم Apple الحراري يتعامل مع ذلك)

الوصول عن بعد

SSH للوصول إلى الطرفية (terminal)
Tailscale للوصول الآمن عن بعد من أي مكان
تكامل المراسلة في LemonClaw يعني أنك لست بحاجة للوصول المباشر للجهاز. فقط راسل ذكاءك الاصطناعي عبر Telegram.

الموثوقية

يقوم macOS launchd بإعادة تشغيل LemonClaw تلقائياً إذا تعطل
يعمل Ollama كخدمة خلفية
يوصى بـ UPS لانقطاع التيار الكهربائي (يقوم Mac Studio بالإقلاع واستئناف الخدمات تلقائياً)

# تمكين SSH
sudo systemsetup -setremotelogin on

# تثبيت Tailscale للوصول عن بعد
brew install tailscale
sudo tailscale up

# يعمل LemonClaw بالفعل كخدمة launchd بعد الإعداد
# تحقق من الحالة:
launchctl list | grep lemonclaw

ما هو قادم: خارطة طريق M5 Ultra

من المتوقع صدور Mac Studio M5 Ultra في النصف الثاني من عام 2026. إليك الجدول الزمني:

4 مارس 2026: حدث Apple "Experience"، المتوقع فيه M5 Pro/Max MacBook Pro
النصف الثاني من 2026: Mac Studio مع M5 Ultra
التحسينات الرئيسية عن M3 Ultra: مسرعات عصبية في GPU (3–4x TTFT)، عرض نطاق ذاكرة أعلى (~1.1–1.4 TB/s)، نفس الذاكرة القصوى أو أعلى

هل تنتظر أم تشتري الآن؟

اشترِ M3 Ultra 512GB الآن إذا:

كنت بحاجة لاستنتاج ذكاء اصطناعي محلي اليوم
كنت تنفق +300 دولار شهرياً على APIs السحابية
كانت سرعة 17–20 tok/s على DeepSeek R1 671B كافية لحالة استخدامك

انتظر M5 Ultra إذا:

كان بإمكانك تحمل APIs السحابية لمدة 6-9 أشهر أخرى
كنت تريد تحسين 3-4x في TTFT (ضروري لأعباء عمل الوكلاء)
كنت تريد رؤية اختبارات الأداء الفعلية قبل دفع +10 آلاف دولار

في كلتا الحالتين، يمكنك البدء مع LemonClaw اليوم باستخدام APIs السحابية عبر LemonData. رصيد مجاني بقيمة 1 دولار عند التسجيل، أكثر من 300 نموذج، وادفع فقط مقابل ما تستخدمه. عندما يصل Mac Studio الخاص بك، ما عليك سوى توجيه LemonClaw إلى نسخة Ollama المحلية وستنخفض تكاليفك إلى الصفر تقريباً.

ملخص (TL;DR)

	APIs السحابية	Mac Studio M5 Ultra + LemonClaw
أقصى حجم للنموذج	غير محدود (المزود يتولى ذلك)	671B Q4 (تكوين 512GB)
التكلفة الشهرية	300–600 دولار (استخدام كثيف)	~3 دولار كهرباء
الخصوصية	البيانات تُرسل لأطراف ثالثة	كل شيء يبقى محلياً
زمن الاستجابة (Latency)	200–500ms شبكة + استنتاج	استنتاج فقط
حدود الاستخدام	نعم	لا
التكلفة المبدئية	0 دولار	~10,000 دولار
نقطة التعادل	—	~25 شهراً

جهاز Mac Studio M5 Ultra هو بنية تحتية شخصية للذكاء الاصطناعي. اربطه مع LemonClaw، وسيكون لديك مساعد ذكاء اصطناعي يعمل 24/7، يشغل نماذج من فئة الرائد، يحترم خصوصيتك، ويكلف 3 دولارات شهرياً لتشغيله.

انتهى عصر "الذكاء الاصطناعي المحلي هو مجرد لعبة". ذاكرة موحدة سعة 512GB وعرض نطاق 1.2+ TB/s يعني أنه يمكنك تشغيل نماذج تضاهي العروض السحابية. السؤال الوحيد هو ما إذا كنت مستعداً لامتلاك حزمة الذكاء الاصطناعي الخاصة بك.

هل أنت مستعد للبدء في بناء بنيتك التحتية للذكاء الاصطناعي؟ جرب LemonClaw مع LemonData: أكثر من 300 نموذج سحابي مع رصيد مجاني بقيمة 1 دولار. عندما يصل Mac Studio الخاص بك، انتقل إلى النماذج المحلية دون أي تغيير في الكود.

Mac Studio M5 Ultra: تشغيل نماذج 671B محلياً وبناء AI Infrastructure الخاصة بك مع LemonClaw