جريدة الإتحاد - 4/13/2026 11:32:58 PM - GMT (+4 )
يُعد تدريب نماذج الذكاء الاصطناعي الكبيرة مكلفًا، ليس فقط من حيث المال، بل أيضًا من حيث الوقت والطاقة والموارد الحاسوبية. تقليديًا، يتطلب الحصول على نموذج أصغر وأسرع إما تدريب نموذج ضخم أولًا ثم تقليصه، أو تدريب نموذج صغير من البداية مع القبول بأداء أضعف.
لكن باحثين من معهد ماساتشوستس للتكنولوجيا (MIT) ومختبر علوم الحاسوب والذكاء الاصطناعي (CSAIL)، ومعهد ماكس بلانك للأنظمة الذكية، والمختبر الأوروبي للتعلم والأنظمة الذكية، ومعهد ETH، وشركة Liquid AI، طوروا طريقة جديدة تتجاوز هذه المفاضلة بالكامل، عبر ضغط النماذج أثناء التدريب بدلًا من بعده.
التقنية الجديدة، التي تحمل اسم CompreSSM، تستهدف فئة من معماريات الذكاء الاصطناعي تُعرف بـ«نماذج فضاء الحالة» (State-Space Models)، والتي تُستخدم في تطبيقات متعددة تشمل معالجة اللغة، وتوليد الصوت، والروبوتات. ومن خلال الاستفادة من أدوات رياضية مستمدة من نظرية التحكم، يستطيع الباحثون تحديد الأجزاء الفعالة داخل النموذج وتمييزها عن الأجزاء غير الضرورية، ليتم حذف الأخيرة مبكرًا خلال عملية التدريب.
وقال مكْرم شاهين، الباحث الرئيسي للدراسة: «إنها تقنية تُمكّن النماذج من أن تصبح أصغر وأسرع أثناء التدريب ذاته، إذ تتخلص خلال التعلم من الأجزاء غير المفيدة لتطورها».
وتكمن الفكرة الأساسية في أن أهمية مكونات النموذج المختلفة تستقر في مرحلة مبكرة بشكل مفاجئ. باستخدام مقياس رياضي يُعرف باسم «قيم هانكل المفردة» (Hankel Singular Values)، والتي تقيس مدى مساهمة كل حالة داخلية في السلوك العام للنموذج، تمكن الفريق من ترتيب أهمية هذه المكونات بعد نحو 10% فقط من عملية التدريب. وبعد ذلك، يمكن حذف الأجزاء الأقل أهمية بأمان، لتستمر بقية عملية التدريب—التي تمثل 90%—بسرعة نموذج أصغر بكثير.
من جانبها، قالت دانييلا روس، أستاذة في MIT ومديرة CSAIL: «المثير في هذا العمل أنه يحوّل الضغط من خطوة لاحقة إلى جزء من عملية التعلم نفسها. بدلًا من تدريب نموذج كبير ثم البحث عن طريقة لتصغيره، تتيح CompreSSM للنموذج اكتشاف بنيته الأكثر كفاءة أثناء التعلم، وهو نهج مختلف جذريًا في بناء أنظمة الذكاء الاصطناعي».
وأظهرت النتائج أداءً لافتًا؛ ففي اختبارات تصنيف الصور، حافظت النماذج المضغوطة على دقة شبه مماثلة للنماذج الكاملة، مع تسريع في التدريب يصل إلى 1.5 مرة. كما حقق نموذج مُقلّص إلى نحو ربع حجمه الأصلي دقة بلغت 85.7% على معيار CIFAR-10، مقارنة بـ81.8% فقط لنموذج تم تدريبه بهذا الحجم منذ البداية.
وعلى نموذج «مامبا» (Mamba)، أحد أكثر معماريات فضاء الحالة استخدامًا، حققت التقنية تسريعًا في التدريب بنحو أربعة أضعاف، مع تقليص الأبعاد من 128 إلى نحو 12 بُعدًا، مع الحفاظ على أداء تنافسي.
وأوضح شاهين: «تحصل على أداء نموذج كبير لأنك تلتقط معظم الديناميكيات المعقدة في المرحلة الأولية، ثم تحتفظ فقط بالحالات الأكثر فائدة. وبالتالي يظل النموذج قادرًا على الأداء بمستوى أعلى من نموذج صغير تم تدريبه من البداية».
وتختلف CompreSSM عن الأساليب التقليدية في كونها تستند إلى أساس نظري قوي. فطرق التقليم (Pruning) المعتادة تُدرّب نموذجًا كاملًا أولًا ثم تُزيل بعض المعاملات لاحقًا، ما يعني تحمّل التكلفة الكاملة للتدريب. أما «تقطير المعرفة» (Knowledge Distillation)، فيتطلب تدريب نموذج كبير «مُعلّم» ثم تدريب نموذج أصغر «طالب» عليه، وهو ما يضاعف الجهد الحسابي. في المقابل، تتخذ CompreSSM قرارات الضغط أثناء سير التدريب نفسه، متجنبة هذه التكاليف.
قد يهمك أيضا.. «المتدرّب الذكي» يقود تحول الأداء المؤسسي في 2026
وفي المقارنات المباشرة، تفوقت التقنية بشكل واضح؛ إذ كانت أسرع بأكثر من 40 مرة مقارنة بأسلوب «تنظيم معيار هانكل النووي»، مع تحقيق دقة أعلى. كما تفوقت على تقطير المعرفة في النماذج شديدة الضغط، حيث حافظت على أداء قريب من الكامل، بينما شهدت النماذج المُقطّرة تراجعًا ملحوظًا في الدقة.
كما أثبت الباحثون رياضيًا—بالاستناد إلى مبرهنة «ويل»—أن أهمية حالات النموذج تتغير بشكل سلس أثناء التدريب، وأظهروا عمليًا أن ترتيب أهميتها يبقى مستقرًا، ما يمنح المطورين ثقة في أن الأبعاد غير المهمة مبكرًا لن تصبح حاسمة لاحقًا.
وتوفر الطريقة أيضًا هامش أمان عملي؛ ففي حال أدى الضغط إلى تراجع غير متوقع في الأداء، يمكن العودة إلى نقطة سابقة محفوظة من التدريب. ويقول شاهين: «هذا يمنح المستخدمين تحكمًا في مقدار الأداء الذي يمكن التضحية به، بدلًا من الاعتماد على حدود طاقة غير بديهية».
ورغم ذلك، توجد بعض القيود العملية؛ إذ تعمل التقنية بشكل أفضل مع النماذج التي ترتبط فيها أبعاد الحالة الداخلية بقوة بالأداء العام، خاصة في نماذج متعددة المدخلات والمخرجات (MIMO). أما في النماذج الأبسط ذات المدخل والمخرج الواحد، فتكون الفوائد أقل.
تعرف على.. الذكاء الاصطناعي يتقن التصميم الهندسي كما يفعل البشر
وتنطبق النظرية بشكل أوضح على الأنظمة الخطية الثابتة زمنيًا، لكن الفريق طور امتدادات لمعمارية متغيرة زمنياً تعتمد على المدخلات، مثل «مامبا». ونظرًا لأن نماذج فضاء الحالة تشمل أيضًا معماريات مثل «الانتباه الخطي» (Linear Attention)، التي تُعد بديلًا متناميًا للمحوّلات (Transformers)، فإن نطاق تطبيق التقنية قد يكون واسعًا.
ويرى الباحثون أن هذا العمل يمثل خطوة أولى نحو تطبيقات أوسع، مع خطط لتوسيع التقنية إلى أنظمة ديناميكية أكثر تعقيدًا، ما قد يقربها من معماريات «المحوّلات» التي تقوم عليها أكبر أنظمة الذكاء الاصطناعي اليوم.
وقد تم قبول هذا البحث في مؤتمر «التعلم التمثيلي الدولي 2026» (ICLR 2026)، ومن المقرر عرضه لاحقًا هذا الشهر، بدعم من عدة جهات من بينها مركز ماكس بلانك-ETH لأنظمة التعلم، ومؤسسة هيكتور، وشركة بوينغ، ومكتب البحوث البحرية الأميركي.
أسامة عثمان (أبوظبي)
إقرأ المزيد


