Nvidia تكشف عن “سكين الجيش السويسري” لأدوات الصوت المدعومة بالذكاء الاصطناعي: Fugatto
كشفت شركة Nvidia لصناعة شرائح الكمبيوتر عالية الطاقة يوم الاثنين عن نموذج جديد للذكاء الاصطناعي طوره باحثوها والذي يمكنه إنشاء أو تحويل أي مزيج من الموسيقى والأصوات والأصوات الموصوفة بمطالبات باستخدام أي مجموعة من الملفات النصية والصوتية.
يمكن لنموذج الذكاء الاصطناعي الجديد المسمى Fugatto – لـ Foundational Geneative Audio Transformer Opus – إنشاء مقتطف موسيقي بناءً على مطالبة نصية، وإزالة أو إضافة أدوات من أغنية موجودة، وتغيير اللهجة أو العاطفة في الصوت، وحتى إنتاج أصوات لم يتم سماعها من قبل .
وفقًا لـ Nvidia، من خلال دعم العديد من مهام توليد الصوت وتحويله، يعد Fugatto أول نموذج ذكاء اصطناعي توليدي أساسي يعرض الخصائص الناشئة – القدرات التي تنشأ من تفاعل قدراته المدربة المختلفة – والقدرة على الجمع بين التعليمات ذات الشكل الحر.
وقال رافائيل فالي، مدير الأبحاث الصوتية التطبيقية في شركة إنفيديا، في بيان: “أردنا إنشاء نموذج يفهم ويولد الصوت مثلما يفعل البشر”.
وأضاف: “إن Fugatto هي خطوتنا الأولى نحو المستقبل حيث ينشأ التعلم متعدد المهام غير الخاضع للرقابة في تركيب الصوت وتحويله من البيانات وحجم النموذج”.
أشارت Nvidia إلى أن النموذج قادر على التعامل مع المهام التي لم يتم تدريبه عليها مسبقًا، بالإضافة إلى توليد أصوات تتغير بمرور الوقت، مثل تأثير دوبلر للرعد أثناء مرور عاصفة ممطرة عبر منطقة ما.
وأضافت الشركة أنه على عكس معظم النماذج، التي يمكنها فقط إعادة إنشاء بيانات التدريب التي تعرضوا لها، فإن Fugatto يسمح للمستخدمين بإنشاء مقاطع صوتية لم يسبق لها مثيل من قبل، مثل عاصفة رعدية تتراجع عند الفجر مع أصوات غناء الطيور.
نموذج الذكاء الاصطناعي المتطور لتحويل الصوت
قال كافيه فاهدات، مؤسس ورئيس شركة RiseOpp، وهي شركة خدمات CMO وطنية مقرها في سان فرانسيسكو: “إن تقديم Nvidia لـ Fugatto يمثل تقدمًا كبيرًا في تكنولوجيا الصوت المعتمدة على الذكاء الاصطناعي”.
وقال لـ TechNewsWorld: “على عكس النماذج الحالية التي تتخصص في مهام محددة – مثل تأليف الموسيقى، أو تركيب الصوت، أو توليد المؤثرات الصوتية – يقدم Fugatto إطارًا موحدًا قادرًا على التعامل مع مجموعة متنوعة من الوظائف المتعلقة بالصوت”. “هذا التنوع يضعه كأداة شاملة لتركيب الصوت وتحويله.”
وأوضح فاهدات أن شركة Fugatto تتميز بقدرتها على إنشاء وتحويل الصوت بناءً على كل من التعليمات النصية والمدخلات الصوتية الاختيارية. وقال: “إن أسلوب الإدخال المزدوج هذا يمكّن المستخدمين من إنشاء مخرجات صوتية معقدة تمزج بسلاسة عناصر مختلفة، مثل الجمع بين لحن الساكسفون وجرس قطة تموء”.
بالإضافة إلى ذلك، تابع، فإن قدرة Fugatto على الاستيفاء بين التعليمات تسمح بالتحكم الدقيق في سمات مثل اللهجة والعاطفة في تركيب الصوت، مما يوفر مستوى من التخصيص غير شائع في أدوات الذكاء الاصطناعي الصوتية الحالية.
وأضاف بنجامين لي، أستاذ الهندسة في جامعة بنسلفانيا: “يعد فوجاتو خطوة غير عادية نحو الذكاء الاصطناعي الذي يمكنه التعامل مع طرائق متعددة في وقت واحد”.
وقال لـ TechNewsWorld: “إن استخدام المدخلات النصية والصوتية معًا قد ينتج نماذج أكثر كفاءة وفعالية بكثير من استخدام النص وحده”. “إن التكنولوجيا مثيرة للاهتمام لأنها، بالنظر إلى ما هو أبعد من النص وحده، تعمل على توسيع أحجام بيانات التدريب وقدرات نماذج الذكاء الاصطناعي التوليدية.”
نفيديا في أفضل حالاتها
أكد مارك إن. فينا، الرئيس والمحلل الرئيسي في SmartTech Research في لاس فيغاس، أن Fugatto يمثل Nvidia في أفضل حالاته.
وقال لـ TechNewsWorld: “تقدم التكنولوجيا إمكانات متقدمة في معالجة الصوت بالذكاء الاصطناعي من خلال تمكين تحويل الصوت الموجود إلى أشكال جديدة تمامًا”. “يتضمن ذلك تحويل لحن البيانو إلى خط صوتي بشري أو تغيير اللهجة والنغمة العاطفية للكلمات المنطوقة، مما يوفر مرونة غير مسبوقة في التلاعب بالصوت.”
وقال: “على عكس أدوات الذكاء الاصطناعي الصوتية الموجودة، يمكن لـ Fugatto توليد أصوات جديدة من أوصاف النص، مثل إصدار صوت البوق مثل صوت نباح الكلب”. “تزود هذه الميزات المبدعين في الموسيقى والأفلام والألعاب بأدوات مبتكرة لتصميم الصوت وتحرير الصوت.”
يتعامل Fugatto مع الصوت بشكل كلي – يشمل المؤثرات الصوتية، والموسيقى، والصوت، وأي نوع من الصوت تقريبًا، بما في ذلك الأصوات التي لم يتم سماعها من قبل – وعلى وجه التحديد، أضاف روس روبين، المحلل الرئيسي في شركة Reticle Research، وهي شركة استشارية لتكنولوجيا المستهلك في نيودلهي. مدينة يورك.
واستشهد بمثال Suno، وهي خدمة تستخدم الذكاء الاصطناعي لإنشاء الأغاني. “لقد أطلقوا للتو نسخة جديدة تحتوي على تحسينات في كيفية توليد الأصوات البشرية وأشياء أخرى، ولكنها لا تسمح بأنواع التغييرات الدقيقة والإبداعية التي يسمح بها فوجاتو، مثل إضافة أدوات جديدة إلى المزيج، وتغيير الحالة المزاجية من السعادة إلى الموسيقى”. وقال لـ TechNewsWorld: “للحزن، أو نقل الأغنية من مفتاح ثانوي إلى مفتاح رئيسي”.
وقال: “إن فهمها لعالم الصوت والمرونة التي توفرها يتجاوز المحركات الخاصة بالقناع التي رأيناها لأشياء مثل توليد صوت بشري أو إنشاء أغنية”.
يفتح الباب للمبدعين
وأشار فاهدات إلى أن فوجاتو يمكن أن يكون مفيدًا في كل من الإعلان وتعلم اللغة. وأشار إلى أنه يمكن للوكالات إنشاء محتوى صوتي مخصص يتماشى مع هويات العلامة التجارية، بما في ذلك التعليقات الصوتية بلهجات معينة أو نغمات عاطفية.
وفي الوقت نفسه، في مجال تعلم اللغة، ستكون المنصات التعليمية قادرة على تطوير مواد صوتية مخصصة، مثل الحوارات بلهجات مختلفة أو سياقات عاطفية، للمساعدة في اكتساب اللغة.
وأكدت فينا أن “تقنية Fugatto تفتح الأبواب أمام مجموعة واسعة من التطبيقات في الصناعات الإبداعية”. وقال: “يمكن لصانعي الأفلام ومطوري الألعاب استخدامها لإنشاء مقاطع صوتية فريدة، مثل تحويل الأصوات اليومية إلى تأثيرات خيالية أو غامرة”. “كما أنها تحمل إمكانية توفير تجارب صوتية مخصصة في الواقع الافتراضي، والتقنيات المساعدة، والتعليم، وتخصيص الأصوات لنغمات عاطفية محددة أو تفضيلات المستخدم.”
وأضاف: “في الإنتاج الموسيقي، يمكن تحويل الآلات أو الأنماط الصوتية لاستكشاف تركيبات مبتكرة.”
ومع ذلك، قد تكون هناك حاجة إلى مزيد من التطوير للحصول على نتائج موسيقية أفضل. “كل هذه النتائج تافهة، وبعضها كان موجودًا لفترة أطول – وأفضل”، لاحظ دينيس باثوري كيتسز، وهو موسيقي وملحن في نورثفيلد فولز، فيرمونت.
وقال لـ TechNewsWorld: “كانت عزلة الصوت خرقاء وغير موسيقية”. “كانت الأدوات الإضافية أيضًا تافهة، وكانت معظم التحولات عديمة اللون. الميزة الوحيدة هي أنه لا يتطلب أي تعلم خاص، وبالتالي فإن تطوير الموسيقى لمستخدم الذكاء الاصطناعي سيكون في حده الأدنى.
وقال: “قد يؤدي هذا إلى بعض الاستخدامات الجديدة – فالموسيقيون الحقيقيون مبتكرون بشكل رائع بالفعل – ولكن ما لم يكن لدى المطورين مقطوعات موسيقية أفضل للبدء بها، فإن النتائج ستكون كئيبة”. “سيكونون موسيقيين للانضمام إلى الانحدار البصري واللفظي من الذكاء الاصطناعي.”
موقف AGI
نظرًا لأن الذكاء العام الاصطناعي (AGI) لا يزال في المستقبل، فقد يكون Fugatto نموذجًا لمحاكاة AGI، والذي يهدف في النهاية إلى تكرار القدرات المعرفية البشرية أو تجاوزها عبر مجموعة واسعة من المهام.
أوضح Rob Enderle، الرئيس والمحلل الرئيسي في Enderle Group، وهي شركة خدمات استشارية في بيند بولاية أوريغون، أن “Fugatto هو جزء من حل يستخدم الذكاء الاصطناعي التوليدي في حزمة تعاونية مع أدوات الذكاء الاصطناعي الأخرى لإنشاء حل يشبه الذكاء الاصطناعي العام”.
وقال لـ TechNewsWorld: “إلى أن نتمكن من تشغيل الذكاء الاصطناعي العام، سيكون هذا النهج هو الطريقة السائدة لإنشاء مشاريع ذكاء اصطناعي أكثر اكتمالاً بجودة واهتمام أعلى بكثير”.