، مقالات،

يمكن لـ LLMs ذات 1 بت أن تحل متطلبات الطاقة في الذكاء الاصطناعي



إن النماذج اللغوية الكبيرة، وأنظمة الذكاء الاصطناعي التي تشغل روبوتات الدردشة مثل ChatGPT، تتحسن أكثر فأكثر، ولكنها أيضًا تكبر أكثر فأكثر، وتتطلب المزيد من الطاقة والقوة الحسابية. بالنسبة إلى برامج LLM الرخيصة والسريعة والصديقة للبيئة، فإنها ستحتاج إلى تقليص حجمها، بحيث تكون صغيرة بشكل مثالي بما يكفي لتشغيلها مباشرة على أجهزة مثل الهواتف المحمولة. يجد الباحثون طرقًا للقيام بذلك عن طريق تقريب العديد من الأرقام عالية الدقة التي تخزن ذكرياتهم بشكل كبير إلى 1 أو -1 فقط.

يتم تدريب ماجستير إدارة الأعمال، مثل جميع الشبكات العصبية، عن طريق تغيير قوة الاتصالات بين الخلايا العصبية الاصطناعية. يتم تخزين نقاط القوة هذه كمعلمات رياضية. لقد قام الباحثون منذ فترة طويلة بضغط الشبكات عن طريق تقليل دقة هذه المعلمات – وهي عملية تسمى التكميم – بحيث بدلا من تناول 16 بت لكل منها، قد تشغل 8 أو 4 بتات. والآن يدفع الباحثون المغلف إلى بت واحد.

كيفية عمل LLM 1 بت

هناك طريقتان عامتان. أحد الأساليب، والذي يسمى التكميم بعد التدريب (PTQ)، هو قياس معلمات شبكة كاملة الدقة. أما النهج الآخر، وهو التدريب المدرك للكمية (QAT)، فهو تدريب الشبكة من الصفر للحصول على معلمات منخفضة الدقة. حتى الآن، كان PTQ أكثر شعبية بين الباحثين.

في شهر فبراير، قام فريق يضم هاوتونج تشين من ETH زيورخ، وشيانج لونج ليو من جامعة بيهانج، ووي هوانج من جامعة هونج كونج، بتقديم طريقة PTQ تسمى BiLLM. وهو يقارب معظم المعلمات في الشبكة باستخدام 1 بت، ولكنه يمثل بعض الأوزان البارزة – تلك الأكثر تأثيرًا على الأداء – باستخدام 2 بت. في أحد الاختبارات، قام الفريق بدمج نسخة من Meta’s LLaMa LLM تحتوي على 13 مليار معلمة.

“تفتح برامج LLM ذات 1 بت أبوابًا جديدة لتصميم أجهزة وأنظمة مخصصة مُحسّنة خصيصًا لبرامج LLM ذات 1 بت.” —فورو وي، مركز أبحاث مايكروسوفت آسيا

لتسجيل الأداء، استخدم الباحثون مقياسًا يسمىالحيرة، وهي في الأساس مقياس لمدى مفاجأة النموذج المدرب بكل جزء من النص. بالنسبة لمجموعة بيانات واحدة، كان للنموذج الأصلي درجة حيرة تبلغ حوالي 5، وسجل إصدار BiLLM حوالي 15، وهو أفضل بكثير من أقرب منافس للثنائية، والذي سجل حوالي 37 (بالنسبة للحيرة، الأرقام الأقل أفضل). ومع ذلك، يتطلب نموذج BiLLM حوالي عُشر سعة الذاكرة التي يتطلبها النموذج الأصلي.

يقول وانكسيانج تشي، عالم الكمبيوتر في معهد هاربين للتكنولوجيا في الصين، إن PTQ يتمتع بالعديد من المزايا مقارنة بـ QAT. لا يتطلب جمع بيانات التدريب، ولا يتطلب تدريب النموذج من الصفر، وعملية التدريب أكثر استقرارًا. من ناحية أخرى، فإن QAT لديها القدرة على جعل النماذج أكثر دقة، حيث أن التكميم مدمج في النموذج منذ البداية.

تجد LLMs ذات 1 بت النجاح ضد أبناء عمومتها الأكبر حجمًا

في العام الماضي، قام فريق بقيادة فورو وي وشومينج ما، في شركة Microsoft Research Asia، في بكين، بإنشاء BitNet، وهي أول طريقة QAT ذات 1 بت لمجالس LLM. وبعد التلاعب بالمعدل الذي تضبط به الشبكة معلماتها، من أجل تحقيق الاستقرار في التدريب، أنشأوا دورات LLM ذات أداء أفضل من تلك التي تم إنشاؤها باستخدام أساليب PTQ. ولم تكن بعد جيدة مثل الشبكات كاملة الدقة، ولكنها كانت أكثر كفاءة في استخدام الطاقة بعشر مرات تقريبًا.

في فبراير، أعلن فريق وي عن BitNet 1.58b، حيث يمكن أن تساوي المعلمات -1، أو 0، أو 1، مما يعني أنها تشغل ما يقرب من 1.58 بت من الذاكرة لكل معلمة. كان أداء نموذج BitNet الذي يحتوي على 3 مليارات معلمة جيدًا في المهام اللغوية المختلفة مثل نموذج LLaMA كامل الدقة مع نفس عدد المعلمات ومقدار التدريب – أطلق وي على هذه “لحظة آها” – ولكنها كانت أسرع بمقدار 2.71 مرة، استخدم ذاكرة GPU أقل بنسبة 72 بالمائة، واستخدم طاقة GPU أقل بنسبة 94 بالمائة. علاوة على ذلك، وجد الباحثون أنه كلما قاموا بتدريب نماذج أكبر، تحسنت مزايا الكفاءة.

نموذج BitNet الذي يحتوي على 3 مليارات معلمة يؤدي أداءً جيدًا في المهام اللغوية المختلفة مثل نموذج LLaMA كامل الدقة.

هذا العام، أصدر فريق بقيادة تشي، من معهد هاربين للتكنولوجيا، طبعة أولية حول طريقة أخرى للدمج الثنائي في ماجستير إدارة الأعمال، تسمى OneBit. يجمع OneBit بين عناصر كل من التكميم بعد التدريب (PTQ) والتدريب المدرك للتكميم (QAT). يستخدم LLM مدربًا مسبقًا وكامل الدقة لإنشاء بيانات لتدريب نسخة كمية. حقق نموذج الفريق المكون من 13 مليار معلمة درجة حيرة تبلغ حوالي 9 في مجموعة بيانات واحدة، مقابل 5 لنموذج LLaMA مع 13 مليار معلمة. وفي الوقت نفسه، احتل OneBit 10 بالمائة فقط من الذاكرة. على الرقائق المخصصة، من المفترض أن تعمل بشكل أسرع بكثير.

يقول وي، من شركة مايكروسوفت، إن النماذج الكمية لها مزايا متعددة. ويمكن وضعها على شرائح أصغر حجمًا، وتتطلب نقل بيانات أقل بين الذاكرة والمعالجات، وتسمح بمعالجة أسرع. ومع ذلك، لا تستطيع الأجهزة الحالية الاستفادة الكاملة من هذه النماذج. غالبًا ما تعمل برامج LLM على وحدات معالجة الرسومات مثل تلك التي تصنعها شركة Nvidia، والتي تمثل الأوزان بدقة أعلى وتنفق معظم طاقتها في مضاعفتها. يمكن للأجهزة الجديدة أن تمثل كل معلمة بشكل أصلي على أنها -1 أو 1 (أو 0)، ثم تقوم ببساطة بإضافة القيم وطرحها وتجنب الضرب. يقول وي: “تفتح برامج LLM ذات 1 بت أبوابًا جديدة لتصميم أجهزة وأنظمة مخصصة مُحسّنة خصيصًا لبرامج LLM ذات 1 بت”.

يقول هوانج، من جامعة هونج كونج، عن نماذج ومعالجات 1 بت: «يجب أن يكبروا معًا». “لكن الطريق طويل لتطوير أجهزة جديدة.”

من مقالات موقعك

مقالات ذات صلة حول الويب

اترك تعليقاً

لن يتم نشر عنوان بريدك الإلكتروني. الحقول الإلزامية مشار إليها بـ *

زر الذهاب إلى الأعلى