سايت تبليغات علفو پلاس سايت تبليغات علفو پلاس .

سايت تبليغات علفو پلاس

مقياس بندي يادگيري سمعي و بصري بدون برچسب

يك تكنيك چندوجهي جديد، روش‌هاي اصلي يادگيري تحت نظارت خود را براي يادگيري بيشتر شبيه به انسان تركيب مي‌كند.
تاريخ انتشار:
5 ژوئن 2023
  پرسش هاي مطبوعاتي
در سمت چپ تصوير يك طرح كلي (قرمز، سبز و آبي) از شخصي در حال نواختن گيتار ديده مي شود.  در سمت راست تصوير يك طيف رنگي از موسيقي گيتار ديده مي شود.
عنوان:
يك تكنيك جديد يادگيري ماشيني امكان يادگيري چندوجهي كارآمدتر را فراهم مي كند.
وام:
تصوير: Lauren Hinkel/MIT-IBM Watson AI Lab، از طريق Bing Create

 

محققان MIT، MIT-IBM Watson AI Lab، IBM Research و جاهاي ديگر تكنيك جديدي را براي تجزيه و تحليل داده‌هاي صوتي و تصويري بدون برچسب ايجاد كرده‌اند كه مي‌تواند عملكرد مدل‌هاي يادگيري ماشيني مورد استفاده در برنامه‌هايي مانند تشخيص گفتار و تشخيص اشيا را بهبود بخشد. اين كار، براي اولين بار، دو معماري يادگيري خود نظارت، يادگيري متضاد و مدل‌سازي داده‌هاي پوشانده را در تلاش براي مقياس‌بندي وظايف يادگيري ماشيني مانند طبقه‌بندي رويداد در داده‌هاي تك و چندوجهي بدون نياز به حاشيه‌نويسي تركيب مي‌كند و در نتيجه تكرار مي‌كند. چگونه انسان ها جهان ما را درك و درك مي كنند.

يوان گونگ، فوق دكتراي MIT مي‌گويد: «بخش بزرگ‌تري از دانش بشري به روشي تحت نظارت خود آموخته مي‌شود، زيرا ما هميشه سيگنال‌هاي نظارتي دريافت نمي‌كنيم، و مي‌خواهيم مدل يادگيري ماشيني را فعال كنيم تا همين توانايي را داشته باشد. در آزمايشگاه علوم كامپيوتر و هوش مصنوعي (CSAIL).

بنابراين، روش ديگري براي بيان آن اين است كه يادگيري خود نظارتي اغلب پايه و اساس يك مدل اوليه را تشكيل مي دهد، زيرا مي تواند بر روي مقادير وسيعي از داده هاي بدون برچسب ياد بگيرد. جيم گلس، دانشمند تحقيقاتي ارشد MIT و عضو آزمايشگاه هوش مصنوعي MIT-IBM Watson مي‌گويد و سپس مي‌توانيد از يادگيري كلاسيك، تحت نظارت يا يادگيري تقويتي براي تنظيم دقيق مدل با چيزي خاص استفاده كنيد.

اين تكنيك كه رمزگذار خودكار ماسك‌دار صوتي و تصويري كنتراست (CAV-MAE) ناميده مي‌شود، نوعي شبكه عصبي است كه مي‌تواند با آموزش بر روي مجموعه داده‌هاي بزرگ يوتيوب، بازنمايي‌هاي نهفته معني‌دار را از داده‌هاي صوتي و بصري استخراج و ترسيم كند. كليپ هاي صوتي و تصويري 10 ثانيه اي. محققان مي گويند اين تكنيك نسبت به رويكردهاي قبلي مؤثرتر است زيرا به صراحت روابط بين داده هاي صوتي و تصويري را به گونه اي مدل مي كند كه روش هاي ديگر اين كار را نمي كنند.

دانشجويان فارغ التحصيل اندرو روديچنكو و الكساندر اچ ليو از MIT، ديويد هاروات PhD '18 از دانشگاه تگزاس در آستين، و اعضاي آزمايشگاه هوش مصنوعي MIT-IBM Watson AI، لئونيد كارلينسكي و هيلد كوئنه، به گونگ و گلس در اين مطالعه پيوستند Kuehne همچنين به دانشگاه گوته فرانكفورت وابسته است. اين روش اخيراً در كنفرانس بين المللي بازنمايي هاي يادگيري ارائه شده است.

رويكرد مشترك و هماهنگ

گونگ مي‌گويد CAV-MAE با «يادگيري از طريق پيش‌بيني» و «يادگيري از طريق مقايسه» كار مي‌كند. مدل‌سازي داده‌هاي پوشانده يا روش پيش‌بيني، يك ويديو را به همراه شكل موج صوتي هماهنگ آن مي‌گيرد، صدا را به طيف‌گرام تبديل مي‌كند و 75 درصد از هر دو را پنهان مي‌كند. داده‌هاي بدون نقاب توكنيزه مي‌شوند، سپس قبل از ورود به رمزگذار/رمزگشاي مشترك، به رمزگذارهاي صوتي و تصويري جداگانه وارد مي‌شوند، جايي كه از مدل خواسته مي‌شود داده‌هاي از دست رفته را بازيابي كند. سپس تفاوت (از دست دادن بازسازي) بين پيش‌بيني بازسازي شده و تركيب صوتي و تصويري اصلي براي آموزش مدل براي عملكرد بهتر استفاده مي‌شود. نمونه‌اي از اين مي‌تواند پوشش بخشي از ويديوي يك پيانو و بخشي از طيف‌نگاري موسيقي پيانو، و سپس درخواست از مدل براي تعيين ورودي‌هاي پوشانده شده باشد. متاسفانه،

هدف يادگيري متضاد ترسيم نمايش هايي است كه شبيه به يكديگر هستند. به عنوان مثال، اين مدل سعي خواهد كرد تا داده‌هاي مختلف تصويري و صوتي طوطي‌هاي مختلف را نزديك يكديگر و دورتر از جفت‌هاي ويدئويي و صوتي گيتار در حال نواختن قرار دهد. به روشي مشابه رمزگذاري خودكار پوشانده شده، جفت هاي سمعي و بصري به رمزگذارهاي مداليته جداگانه منتقل مي شوند. با اين حال، اجزاي صوتي و بصري به طور جداگانه در رمزگذار مشترك نگهداري مي‌شوند قبل از اينكه مدل ادغام و كاهش كنتراست را انجام دهد. به اين ترتيب، يادگيري متضاد سعي مي‌كند قسمت‌هايي از هر صوت يا ويديو را شناسايي كند كه بيشترين ارتباط را با ديگري دارد. براي مثال، اگر ويديويي نشان مي‌دهد كه فردي صحبت مي‌كند و كليپ صوتي مربوطه حاوي گفتار است، رمزگذار خودكار ياد مي‌گيرد كه حركات دهان گوينده را با كلماتي كه گفته مي‌شود مرتبط كند. سپس پارامترهاي مدل را طوري تنظيم مي كند كه اين ورودي ها نزديك به يكديگر نمايش داده شوند. در نهايت، روش CAV-MAE هر دو تكنيك را با چندين جريان داده رو به جلو با پوشش به عنوان اولين گام، رمزگذارهاي خاص مداليته و نرمال‌سازي لايه تركيب مي‌كند تا نقاط قوت نمايش مشابه باشند.

ما [سپس] مي‌خواستيم CAV-MAE پيشنهادي را با مدلي كه فقط با رمزگذار خودكار پوشانده شده و مدلي كه فقط با يادگيري متضاد آموزش داده شده است مقايسه كنيم، زيرا مي‌خواهيم نشان دهيم كه با تركيب رمزگذار خودكار ماسك‌دار و يادگيري متضاد، مي‌توانيم تا حدودي عملكرد داشته باشيم. گونگ مي‌گويد: بهبود و نتايج از اين فرضيه حمايت مي‌كنند كه بهبود آشكاري وجود دارد.

محققان CAV-MAE - و همچنين روش خود را بدون از دست دادن كنتراست يا رمزگذار خودكار ماسك‌دار - در برابر ساير روش‌هاي پيشرفته در بازيابي ديداري و دسته‌بندي رويدادهاي صوتي و تصويري با استفاده از AudioSet استاندارد (20K و 2M) آزمايش كردند. و مجموعه داده‌هاي VGGSound - كليپ‌هاي كوتاه واقعي و برچسب‌گذاري شده، كه مي‌توانند صداهاي متعددي را شامل شوند. بازيابي سمعي و بصري به اين معني است كه مدل جزء صوتي يا بصري يك جفت پرس و جو را مي بيند و يكي از دست رفته ها را جستجو مي كند. طبقه‌بندي رويداد شامل شناسايي كنش‌ها يا صداها در داده‌ها، مانند آواز خواندن شخصي يا رانندگي با ماشين است.

به طور كلي، آنها دريافتند كه يادگيري متضاد و مدل‌سازي داده‌هاي پوشانده، روش‌هاي مكمل هستند. CAV-MAE توانست تا حدود 2 درصد از تكنيك‌هاي قبلي (با پيش‌آموزش كاملاً خود نظارت) براي مدل‌هاي آيات عملكرد طبقه‌بندي رويداد با محاسبات قابل مقايسه پيشي بگيرد و به‌طور چشمگيرتر، با منابع محاسباتي سطح صنعت همگام يا بهتر از مدل‌ها عمل كرد. مدل تيم به طور مشابه با مدل هايي كه فقط با از دست دادن كنتراست آموزش ديده بودند رتبه بندي كرد. و به‌طور شگفت‌انگيزي، تيم مي‌گويد، ادغام داده‌هاي چندوجهي در پيش‌آموزش CAV-MAE، تنظيم دقيق نمايش تك‌وجهي را از طريق يادگيري نظارت‌شده (با برخي از داده‌هاي برچسب‌گذاري‌شده) و عملكرد در وظايف طبقه‌بندي رويداد فقط صوتي بهبود مي‌بخشد. . اين نشان مي دهد كه مانند انسان ها، اطلاعات چند وجهي حتي براي كارهاي صوتي يا بصري فقط تقويت "برچسب نرم" اضافي را فراهم مي كند. به عنوان مثال، به مدل كمك مي كند تا بفهمد كه آيا به دنبال يك گيتار الكتريك يا آكوستيك است - سيگنال نظارتي غني تر.

"من فكر مي كنم مردم ظرافت اين مدل را براي تركيب اطلاعات در جريان هاي صوتي و تصويري مختلف دوست دارند. گلس مي‌گويد: «تضاد كنتراست و از دست دادن بازسازي دارد، و در مقايسه با مدل‌هايي كه با داده‌هاي مشابه ارزيابي شده‌اند، به وضوح در طيف وسيعي از اين وظايف بسيار خوب عمل مي‌كند.»

گونگ مي افزايد: با تكيه بر اين، "يك چيز خاص اين است كه مدل ما مي تواند هم طبقه بندي و هم بازيابي را انجام دهد، كه معمول نيست." قبل از اين كار، اين روش‌ها به‌طور جداگانه استفاده مي‌شوند، اما بعد از اين كار، مي‌بينم كه بيشتر چارچوب‌هاي يادگيري سمعي و بصري از اتلاف قراردادي و رمزگذار خودكار ماسك‌دار با هم، به طور ضمني يا صريح استفاده مي‌كنند.»

آوردن يادگيري صوتي و تصويري خود نظارت شده به دنياي ما

محققان سهم خود را از رمزگذار خودكار پوشانده شده سمعي و بصري متضاد (CAV-MAE) به عنوان يك نقطه عطف مهم و يك گام رو به جلو براي برنامه‌هايي مي‌دانند كه به طور فزاينده‌اي از حالت تك به چند وجهي در حال حركت هستند و نياز به تركيب سمعي و بصري دارند يا از آن استفاده مي‌كنند. آنها فرض مي كنند كه روزي مي توان از آن براي تشخيص عمل در حوزه هايي مانند ورزش، آموزش، سرگرمي، وسايل نقليه موتوري و امنيت عمومي استفاده كرد. همچنين مي تواند روزي به ساير روش ها نيز گسترش يابد. گونگ مي‌گويد: در حال حاضر، اين واقعيت كه «اين فقط براي داده‌هاي صوتي و تصويري اعمال مي‌شود، ممكن است يك محدوديت باشد، اما ما يادگيري چندوجهي را هدف قرار داده‌ايم، كه روند يادگيري ماشيني است». ما به عنوان انسان، چند وجهي داريم - ما بويايي، لمسي داريم - چيزهاي بسيار ديگري كه فقط سمعي و بصري هستند. بنابراين، وقتي سعي مي كنيم هوش مصنوعي بسازيم، سعي مي كنيم به نحوي از انسان تقليد كنيم.

همانطور كه مدل هاي يادگيري ماشيني همچنان نقش مهمي را در زندگي ما ايفا مي كنند، تكنيك هايي مانند اين به طور فزاينده اي ارزشمند خواهند شد.

اين تحقيق توسط آزمايشگاه هوش مصنوعي MIT-IBM Watson AI پشتيباني شده است.


برچسب: ،
امتیاز:
 
بازدید:
+ نوشته شده: ۷ تير ۱۴۰۲ساعت: ۱۲:۰۷:۲۹ توسط:عرفان موضوع:

{COMMENTS}
ارسال نظر
نام :
ایمیل :
سایت :
آواتار :
پیام :
خصوصی :
کد امنیتی :