مقياس بندي يادگيري سمعي و بصري بدون برچسب
محققان MIT، MIT-IBM Watson AI Lab، IBM Research و جاهاي ديگر تكنيك جديدي را براي تجزيه و تحليل دادههاي صوتي و تصويري بدون برچسب ايجاد كردهاند كه ميتواند عملكرد مدلهاي يادگيري ماشيني مورد استفاده در برنامههايي مانند تشخيص گفتار و تشخيص اشيا را بهبود بخشد. اين كار، براي اولين بار، دو معماري يادگيري خود نظارت، يادگيري متضاد و مدلسازي دادههاي پوشانده را در تلاش براي مقياسبندي وظايف يادگيري ماشيني مانند طبقهبندي رويداد در دادههاي تك و چندوجهي بدون نياز به حاشيهنويسي تركيب ميكند و در نتيجه تكرار ميكند. چگونه انسان ها جهان ما را درك و درك مي كنند.
يوان گونگ، فوق دكتراي MIT ميگويد: «بخش بزرگتري از دانش بشري به روشي تحت نظارت خود آموخته ميشود، زيرا ما هميشه سيگنالهاي نظارتي دريافت نميكنيم، و ميخواهيم مدل يادگيري ماشيني را فعال كنيم تا همين توانايي را داشته باشد. در آزمايشگاه علوم كامپيوتر و هوش مصنوعي (CSAIL).
بنابراين، روش ديگري براي بيان آن اين است كه يادگيري خود نظارتي اغلب پايه و اساس يك مدل اوليه را تشكيل مي دهد، زيرا مي تواند بر روي مقادير وسيعي از داده هاي بدون برچسب ياد بگيرد. جيم گلس، دانشمند تحقيقاتي ارشد MIT و عضو آزمايشگاه هوش مصنوعي MIT-IBM Watson ميگويد و سپس ميتوانيد از يادگيري كلاسيك، تحت نظارت يا يادگيري تقويتي براي تنظيم دقيق مدل با چيزي خاص استفاده كنيد.
اين تكنيك كه رمزگذار خودكار ماسكدار صوتي و تصويري كنتراست (CAV-MAE) ناميده ميشود، نوعي شبكه عصبي است كه ميتواند با آموزش بر روي مجموعه دادههاي بزرگ يوتيوب، بازنماييهاي نهفته معنيدار را از دادههاي صوتي و بصري استخراج و ترسيم كند. كليپ هاي صوتي و تصويري 10 ثانيه اي. محققان مي گويند اين تكنيك نسبت به رويكردهاي قبلي مؤثرتر است زيرا به صراحت روابط بين داده هاي صوتي و تصويري را به گونه اي مدل مي كند كه روش هاي ديگر اين كار را نمي كنند.
دانشجويان فارغ التحصيل اندرو روديچنكو و الكساندر اچ ليو از MIT، ديويد هاروات PhD '18 از دانشگاه تگزاس در آستين، و اعضاي آزمايشگاه هوش مصنوعي MIT-IBM Watson AI، لئونيد كارلينسكي و هيلد كوئنه، به گونگ و گلس در اين مطالعه پيوستند . Kuehne همچنين به دانشگاه گوته فرانكفورت وابسته است. اين روش اخيراً در كنفرانس بين المللي بازنمايي هاي يادگيري ارائه شده است.
رويكرد مشترك و هماهنگ
گونگ ميگويد CAV-MAE با «يادگيري از طريق پيشبيني» و «يادگيري از طريق مقايسه» كار ميكند. مدلسازي دادههاي پوشانده يا روش پيشبيني، يك ويديو را به همراه شكل موج صوتي هماهنگ آن ميگيرد، صدا را به طيفگرام تبديل ميكند و 75 درصد از هر دو را پنهان ميكند. دادههاي بدون نقاب توكنيزه ميشوند، سپس قبل از ورود به رمزگذار/رمزگشاي مشترك، به رمزگذارهاي صوتي و تصويري جداگانه وارد ميشوند، جايي كه از مدل خواسته ميشود دادههاي از دست رفته را بازيابي كند. سپس تفاوت (از دست دادن بازسازي) بين پيشبيني بازسازي شده و تركيب صوتي و تصويري اصلي براي آموزش مدل براي عملكرد بهتر استفاده ميشود. نمونهاي از اين ميتواند پوشش بخشي از ويديوي يك پيانو و بخشي از طيفنگاري موسيقي پيانو، و سپس درخواست از مدل براي تعيين وروديهاي پوشانده شده باشد. متاسفانه،
هدف يادگيري متضاد ترسيم نمايش هايي است كه شبيه به يكديگر هستند. به عنوان مثال، اين مدل سعي خواهد كرد تا دادههاي مختلف تصويري و صوتي طوطيهاي مختلف را نزديك يكديگر و دورتر از جفتهاي ويدئويي و صوتي گيتار در حال نواختن قرار دهد. به روشي مشابه رمزگذاري خودكار پوشانده شده، جفت هاي سمعي و بصري به رمزگذارهاي مداليته جداگانه منتقل مي شوند. با اين حال، اجزاي صوتي و بصري به طور جداگانه در رمزگذار مشترك نگهداري ميشوند قبل از اينكه مدل ادغام و كاهش كنتراست را انجام دهد. به اين ترتيب، يادگيري متضاد سعي ميكند قسمتهايي از هر صوت يا ويديو را شناسايي كند كه بيشترين ارتباط را با ديگري دارد. براي مثال، اگر ويديويي نشان ميدهد كه فردي صحبت ميكند و كليپ صوتي مربوطه حاوي گفتار است، رمزگذار خودكار ياد ميگيرد كه حركات دهان گوينده را با كلماتي كه گفته ميشود مرتبط كند. سپس پارامترهاي مدل را طوري تنظيم مي كند كه اين ورودي ها نزديك به يكديگر نمايش داده شوند. در نهايت، روش CAV-MAE هر دو تكنيك را با چندين جريان داده رو به جلو با پوشش به عنوان اولين گام، رمزگذارهاي خاص مداليته و نرمالسازي لايه تركيب ميكند تا نقاط قوت نمايش مشابه باشند.
ما [سپس] ميخواستيم CAV-MAE پيشنهادي را با مدلي كه فقط با رمزگذار خودكار پوشانده شده و مدلي كه فقط با يادگيري متضاد آموزش داده شده است مقايسه كنيم، زيرا ميخواهيم نشان دهيم كه با تركيب رمزگذار خودكار ماسكدار و يادگيري متضاد، ميتوانيم تا حدودي عملكرد داشته باشيم. گونگ ميگويد: بهبود و نتايج از اين فرضيه حمايت ميكنند كه بهبود آشكاري وجود دارد.
محققان CAV-MAE - و همچنين روش خود را بدون از دست دادن كنتراست يا رمزگذار خودكار ماسكدار - در برابر ساير روشهاي پيشرفته در بازيابي ديداري و دستهبندي رويدادهاي صوتي و تصويري با استفاده از AudioSet استاندارد (20K و 2M) آزمايش كردند. و مجموعه دادههاي VGGSound - كليپهاي كوتاه واقعي و برچسبگذاري شده، كه ميتوانند صداهاي متعددي را شامل شوند. بازيابي سمعي و بصري به اين معني است كه مدل جزء صوتي يا بصري يك جفت پرس و جو را مي بيند و يكي از دست رفته ها را جستجو مي كند. طبقهبندي رويداد شامل شناسايي كنشها يا صداها در دادهها، مانند آواز خواندن شخصي يا رانندگي با ماشين است.
به طور كلي، آنها دريافتند كه يادگيري متضاد و مدلسازي دادههاي پوشانده، روشهاي مكمل هستند. CAV-MAE توانست تا حدود 2 درصد از تكنيكهاي قبلي (با پيشآموزش كاملاً خود نظارت) براي مدلهاي آيات عملكرد طبقهبندي رويداد با محاسبات قابل مقايسه پيشي بگيرد و بهطور چشمگيرتر، با منابع محاسباتي سطح صنعت همگام يا بهتر از مدلها عمل كرد. مدل تيم به طور مشابه با مدل هايي كه فقط با از دست دادن كنتراست آموزش ديده بودند رتبه بندي كرد. و بهطور شگفتانگيزي، تيم ميگويد، ادغام دادههاي چندوجهي در پيشآموزش CAV-MAE، تنظيم دقيق نمايش تكوجهي را از طريق يادگيري نظارتشده (با برخي از دادههاي برچسبگذاريشده) و عملكرد در وظايف طبقهبندي رويداد فقط صوتي بهبود ميبخشد. . اين نشان مي دهد كه مانند انسان ها، اطلاعات چند وجهي حتي براي كارهاي صوتي يا بصري فقط تقويت "برچسب نرم" اضافي را فراهم مي كند. به عنوان مثال، به مدل كمك مي كند تا بفهمد كه آيا به دنبال يك گيتار الكتريك يا آكوستيك است - سيگنال نظارتي غني تر.
"من فكر مي كنم مردم ظرافت اين مدل را براي تركيب اطلاعات در جريان هاي صوتي و تصويري مختلف دوست دارند. گلس ميگويد: «تضاد كنتراست و از دست دادن بازسازي دارد، و در مقايسه با مدلهايي كه با دادههاي مشابه ارزيابي شدهاند، به وضوح در طيف وسيعي از اين وظايف بسيار خوب عمل ميكند.»
گونگ مي افزايد: با تكيه بر اين، "يك چيز خاص اين است كه مدل ما مي تواند هم طبقه بندي و هم بازيابي را انجام دهد، كه معمول نيست." قبل از اين كار، اين روشها بهطور جداگانه استفاده ميشوند، اما بعد از اين كار، ميبينم كه بيشتر چارچوبهاي يادگيري سمعي و بصري از اتلاف قراردادي و رمزگذار خودكار ماسكدار با هم، به طور ضمني يا صريح استفاده ميكنند.»
آوردن يادگيري صوتي و تصويري خود نظارت شده به دنياي ما
محققان سهم خود را از رمزگذار خودكار پوشانده شده سمعي و بصري متضاد (CAV-MAE) به عنوان يك نقطه عطف مهم و يك گام رو به جلو براي برنامههايي ميدانند كه به طور فزايندهاي از حالت تك به چند وجهي در حال حركت هستند و نياز به تركيب سمعي و بصري دارند يا از آن استفاده ميكنند. آنها فرض مي كنند كه روزي مي توان از آن براي تشخيص عمل در حوزه هايي مانند ورزش، آموزش، سرگرمي، وسايل نقليه موتوري و امنيت عمومي استفاده كرد. همچنين مي تواند روزي به ساير روش ها نيز گسترش يابد. گونگ ميگويد: در حال حاضر، اين واقعيت كه «اين فقط براي دادههاي صوتي و تصويري اعمال ميشود، ممكن است يك محدوديت باشد، اما ما يادگيري چندوجهي را هدف قرار دادهايم، كه روند يادگيري ماشيني است». ما به عنوان انسان، چند وجهي داريم - ما بويايي، لمسي داريم - چيزهاي بسيار ديگري كه فقط سمعي و بصري هستند. بنابراين، وقتي سعي مي كنيم هوش مصنوعي بسازيم، سعي مي كنيم به نحوي از انسان تقليد كنيم.
همانطور كه مدل هاي يادگيري ماشيني همچنان نقش مهمي را در زندگي ما ايفا مي كنند، تكنيك هايي مانند اين به طور فزاينده اي ارزشمند خواهند شد.
اين تحقيق توسط آزمايشگاه هوش مصنوعي MIT-IBM Watson AI پشتيباني شده است.
برچسب: ،