سايت تبليغات علفو پلاس سايت تبليغات علفو پلاس .

سايت تبليغات علفو پلاس

محققان MIT مدل هاي زبان را به صورت خودآموز مقياس پذير مي سازند

دانشمندان از يك مجموعه داده استنتاج منطقي مبتني بر زبان طبيعي براي ايجاد مدل‌هاي زباني كوچك‌تر استفاده كردند كه عملكرد بهتري نسبت به همتايان بزرگ‌تر داشتند.
تاريخ انتشار:
8 ژوئن 2023
  پرسش هاي مطبوعاتي
تصوير سه‌بعدي انتزاعي داراي يك شكل انسان مانند قرمز با سر بزرگي است كه شبيه يك توپ از نوارهاي لاستيكي است.  در كنار پيكر كوچكتر انسان با چرخش هايي كه از سرش بيرون مي آيد، ايستاده است.  بين اين دو شكل، اجسام دايره‌اي ابر مانند قرار دارند.
عنوان:
Hongyin Luo، فوق دكتراي MIT CSAIL مي‌گويد: «تحقيق ما در مورد بهبود توانايي برنامه‌هاي رايانه‌اي براي درك و پردازش زبان طبيعي است - نحوه صحبت و نوشتن انسان‌ها». «مدل‌هاي مستلزم 350 ميليون پارامتر خودآموز ما، بدون برچسب‌هاي توليد شده توسط انسان، از مدل‌هاي زبان نظارت شده با 137 تا 175 ميليارد پارامتر بهتر عمل مي‌كنند.»
وام:
تصوير: Alex Shipps/MIT CSAIL از طريق Midjourney

 

سقراط يك بار گفت: "اندازه يك چيز نيست، بلكه كيفيت است كه واقعا مهم است. زيرا در ماهيت جوهر، نه حجم آن، ارزش واقعي يافت مي شود.»

آيا اندازه هميشه براي مدل هاي زبان بزرگ (LLM) مهم است؟ در يك چشم انداز فناوري كه توسط LLM ها در مركز توجه قرار گرفته است، تيمي از محققان آزمايشگاه علوم كامپيوتر و هوش مصنوعي MIT (CSAIL) فكر مي كنند كه مدل هاي كوچكتر را نبايد ناديده گرفت، به ويژه براي محصولات درك زبان طبيعي كه به طور گسترده در صنعت استفاده مي شود.

براي اين منظور، محققان رويكردي براي مشكلات طولاني مدت ناكارآمدي و حفظ حريم خصوصي مرتبط با مدل‌هاي هوش مصنوعي بزرگ و مبتني بر متن ايجاد كردند - يك مدل منطقي كه در برخي از وظايف درك زبان بدون انسان، 500 برابر بزرگ‌تر از همتايان خود عمل مي‌كند. حاشيه نويسي ايجاد كرد، در حالي كه حفظ حريم خصوصي و استحكام با عملكرد بالا.

LLMها كه مهارت‌هاي اميدواركننده‌اي در توليد زبان، هنر و كد نشان داده‌اند، از نظر محاسباتي گران هستند و داده‌هاي مورد نياز آن‌ها مي‌توانند هنگام استفاده از رابط‌هاي برنامه‌نويسي برنامه‌نويسي براي آپلود داده‌ها، نشت حريم خصوصي را به خطر بيندازند. مدل‌هاي كوچك‌تر در مقايسه با همتايان بزرگ‌تر خود، از نظر تاريخي توانايي كمتري داشته‌اند، به‌ويژه در وظايف چندوظيفه‌اي و وظايف تحت نظارت ضعيف.

پس چه چيزي به اين مدل هاي كوچكتر كمك مي كند تا اينقدر قدرتمند عمل كنند؟ چيزي به نام «مضافات متني»، راهي براي كمك به اين مدل‌ها براي درك انواع تكاليف زبان، كه در آن اگر يك جمله (فرضيه) درست باشد، احتمالاً جمله ديگر (فرضيه) نيز درست است. براي مثال، اگر فرض اين باشد كه «همه گربه‌ها دم دارند»، فرضيه «گربه‌اي دم‌دار دارد» در اين فرض مطرح مي‌شود. اين مفهوم براي آموزش يك «مدل مستلزم» استفاده مي‌شود كه در تحقيقات قبلي تيم، نسبت به ساير مدل‌هاي زباني كمتر مغرضانه است. آنها سپس «اعلان‌هايي» ايجاد كردند كه مدل‌ها مي‌توانند از آنها براي تشخيص اينكه آيا اطلاعات خاصي توسط يك جمله يا عبارت معين با توجه به وظايف مختلف مستلزم است يا خير، استفاده كنند. اين روش توانايي مدل را براي انطباق با وظايف مختلف بدون آموزش اضافي بهبود بخشيد.

در قلمرو "درك زبان طبيعي"، كاربردهاي مختلفي وجود دارد كه به تعيين رابطه بين دو قطعه متن بستگي دارد. براي مثال، در طبقه‌بندي احساسات، عبارتي مانند «فكر مي‌كنم فيلم خوب است» را مي‌توان از يك نقد فيلم استنباط كرد يا مستلزم آن شد كه مي‌گويد: «من داستان را دوست دارم و بازي عالي است»، كه نشان‌دهنده يك احساس مثبت است. ديگري طبقه بندي اخبار است كه موضوع يك مقاله خبري را مي توان از محتواي آن استنباط كرد. به عنوان مثال، اگر محتواي اصلي مقاله در مورد يك بازي NBA گزارش شود، مي‌توان عبارتي مانند «مقاله خبري درباره ورزش است» بيان كرد. بينش كليدي اين بود كه بسياري از تكاليف درك زبان طبيعي موجود را مي‌توان به عنوان يك كار مستلزم (يعني استنتاج منطقي در زبان طبيعي) بازنويسي كرد. 

"تحقيق ما در مورد بهبود توانايي برنامه هاي كامپيوتري براي درك و پردازش زبان طبيعي - نحوه صحبت و نوشتن انسان است. Hongyin Luo، پست‌دكتر MIT CSAIL، نويسنده ارشد مقاله جديد درباره اين مطالعه، مي‌گويد: مدل‌هاي مستلزم 350 ميليون پارامتر خودآموز ما، بدون برچسب‌هاي توليد شده توسط انسان، از مدل‌هاي زبان نظارت شده با 137 تا 175 ميليارد پارامتر بهتر عمل مي‌كنند لو مي‌گويد: «اين پتانسيل براي تغيير شكل چشم‌انداز هوش مصنوعي و يادگيري ماشيني دارد و راه‌حلي مقياس‌پذيرتر، قابل اعتمادتر و مقرون‌به‌صرفه‌تر براي مدل‌سازي زبان ارائه مي‌كند. اين كار با اثبات اينكه مدل‌هاي كوچك‌تر مي‌توانند در همان سطح با مدل‌هاي بزرگ‌تر براي درك زبان عمل كنند، راه را براي فناوري‌هاي هوش مصنوعي پايدارتر و حفظ حريم خصوصي هموار مي‌كند.» 

تيم دريافتند كه مي‌توانند با استفاده از تكنيكي به نام «خودآموزي» عملكرد مدل را حتي بيشتر بهبود بخشند، كه در آن مدل از پيش‌بيني‌هاي خود براي آموزش خود استفاده مي‌كند و به طور مؤثر بدون نظارت انسان و داده‌هاي آموزشي مشروح اضافي ياد مي‌گيرد. روش خودآموزي. به طور قابل توجهي عملكرد را در تعدادي از وظايف پايين دستي، از جمله تجزيه و تحليل احساسات، پاسخگويي به پرسش و طبقه بندي اخبار بهبود بخشيد. در قابليت‌هاي شات صفر، مدل‌هاي GPT و ديگر الگوريتم‌هاي نظارت شده، از LaMDA و FLAN گوگل بهتر عمل كرد. 

با اين حال، يك چالش با خودآموزي اين است كه اين مدل گاهي اوقات مي تواند برچسب هاي نادرست يا پر سر و صدايي ايجاد كند كه به عملكرد آسيب مي رساند. براي غلبه بر اين موضوع، آنها الگوريتم جديدي به نام "SimPLE" (ويرايش ساده شبه برچسب) ايجاد كردند، فرآيندي براي بررسي و اصلاح برچسب هاي كاذب ساخته شده در دورهاي اوليه يادگيري. با تصحيح موارد داراي برچسب اشتباه، كيفيت كلي برچسب‌هاي خود توليد شده را بهبود بخشيد. اين نه تنها باعث شد كه مدل‌ها در درك زبان مؤثرتر باشند، بلكه در مواجهه با داده‌هاي متخاصم قوي‌تر شوند. 

مانند بسياري از تحقيقات، محدوديت هايي نيز وجود دارد. خودآموزي در مورد وظايف طبقه بندي چند كلاسه به خوبي وظايف درك زبان طبيعي باينري عمل نمي كند، كه نشان دهنده چالش استفاده از مدل هاي مستلزم براي وظايف چند گزينه اي است.

اين تحقيق يك روش كارآمد و مؤثر براي آموزش مدل‌هاي زباني بزرگ (LLM) با فرمول‌بندي وظايف درك زبان طبيعي به‌عنوان مشكلات مستلزم متني و به‌كارگيري مكانيزم خودآموزي شبه برچسب‌گذاري براي تركيب مقادير زيادي از داده‌هاي متني بدون برچسب در فرآيند آموزش ارائه مي‌كند. جيمز گلس، دانشمند تحقيقات ارشد CSAIL، كه همچنين نويسنده مقاله است، اضافه مي كند. در حالي كه رشته LLM دستخوش تغييرات سريع و چشمگير است، اين تحقيق نشان مي‌دهد كه مي‌توان مدل‌هاي زباني نسبتا فشرده‌اي را توليد كرد كه در مقايسه با همتايان خود با اندازه تقريباً يكسان يا حتي مدل‌هاي زباني بسيار بزرگ‌تر، در وظايف درك معيار بسيار خوب عمل كنند. "

لئونيد كارلينسكي، كارمند تحقيقاتي در آزمايشگاه هوش مصنوعي واتسون MIT-IBM مي‌گويد: «تكليف مستلزم يك پروكسي محبوب براي ارزيابي «درك» يك زمينه مشخص توسط يك مدل هوش مصنوعي است. در بسياري از زمينه‌ها براي تحليل مدل‌هاي تك‌وجهي، مانند LLM، و چند وجهي، مانند VLM [مدل‌هاي زبان بصري] استفاده مي‌شود. ورودي‌ها، ساده‌سازي كار سؤال-پاسخ در مورد يك زمينه ورودي داده‌شده براي يك مسئله طبقه‌بندي باينري - آيا اين بافت مستلزم نتيجه‌گيري معيني (مثلاً متن) است يا خير؟ اين مقاله دو سهم در اين فضا دارد. اول، روشي را براي بهبود عملكرد NLU صفر شات (بدون تنظيم اضافي) و استحكام در برابر حملات متخاصم از طريق تنظيم با وظايف مستلزم تركيبي (تخصصي) توليد شده براي وظيفه NLU اوليه پيشنهاد مي‌كند. دوم، يك روش SimPLE خود نظارت شده شامل برچسب گذاري شبه و فيلتر مبتني بر اطمينان براي بهبود بيشتر عملكرد NLU LLM هاي بزرگ ارائه مي دهد.

لو و گلس اين مقاله را با يون كيم، عضو CSAIL و استاديار دپارتمان مهندسي برق و علوم كامپيوتر MIT و جياكسين جي از دانشگاه پكن نوشتند. كار آنها در ژوئيه امسال در نشست انجمن زبانشناسي محاسباتي در تورنتو، انتاريو ارائه خواهد شد. اين تحقيق با كمك مالي برنامه هوش مصنوعي نوآوري هنگ كنگ حمايت شد.


برچسب: ،
امتیاز:
 
بازدید:
+ نوشته شده: ۷ تير ۱۴۰۲ساعت: ۱۲:۰۵:۳۹ توسط:عرفان موضوع:

{COMMENTS}
ارسال نظر
نام :
ایمیل :
سایت :
آواتار :
پیام :
خصوصی :
کد امنیتی :