ابداع چارچوبی برای تقویت تقلید در ربات‌ها

به گزارش هفته نامه پزشکی امروز به نقل از ایسنا

و به نقل از تک‌اکسپلور، گروه‌های پژوهشی سراسر جهان در سال‌های اخیر از یکی از گرایش‌های یادگیری ماشینی موسوم به "یادگیری تقویتی"(Reinforcement learning) استفاده کرده‌اند تا نحوه انجام دادن وظایف گوناگون را به ربات‌ها آموزش دهند اما آموزش این الگوریتم‌ها می‌تواند بسیار چالش‌برانگیز باشد زیرا به تلاش‌های اساسی انسان در تعریف وظایف برای ربات نیازمند است.

یکی از روش‌های آموزش ربات‌ها برای انجام وظایف گوناگون این است که این آموزش به واسطه فعالیت‌های انسانی صورت بگیرد. این روش، بسیار دشوار به نظر می‌رسد زیرا ربات‌ها و انسان‌ها، بدن‌های متفاوتی دارند و می‌توانند حرکات متفاوتی انجام دهند.

پژوهشگران "دانشگاه کالیفرنیا، برکلی"(UC Berkeley) اخیرا چارچوب جدیدی ابداع کرده‌اند که شاید بتواند بر برخی از چالش‌های مربوط به آموزش ربات‌ها غلبه کند. این چارچوب موسوم به "AVID"، بر پایه دو مدل یادگیری عمیق ابداع شده که مبتنی بر بررسی پیشین این پژوهشگران هستند.

"لائورا اسمیت"(Laura Smith)، از پژوهشگران این پروژه گفت: ما برای ابداع AVID، بر دو پژوهش‌ اخیر خود موسوم به "CycleGAN" و "SOLAR" تمرکز کردیم که برای مشخص کردن محدودیت‌های بنیادی در حوزه آموزش به ربات‌ها انجام شده‌اند.

اسمیت و همکارانش به جای استفاده از روش‌هایی که به تفاوت میان بدن ربات و انسان توجه نمی‌کنند، روش Cycle-GAN"" را به کار بردند که می‌تواند تصاویر را در قالب پیکسل تغییر دهد. این روش توانست روش کار انسان در انجام دادن یک وظیفه را به صورت ویدئوهایی از یک ربات ارائه دهد که همان کار را انجام می‌دهد. آنها سپس از این ویدئو برای ابداع یک عملکرد پاداش برای الگوریتم یادگیری تقویتی استفاده کرددند.

اسمیت افزود: AVID رباتی را شامل می‌شود که عملکرد انسان را برای انجام دادن یک وظیفه مورد بررسی قرار می‌دهد و سپس تصور می‌کند که انجام گرفتن این کار توسط ربات چگونه خواهد بود. ما برای یاد گرفتن نحوه دستیابی به این موفقیت، به ربات اجازه دادیم تا خودش کار را به واسطه آزمون و خطا یاد بگیرد.

ربات با استفاده از چارچوب ابداع شده توسط اسمیت و همکارانش توانست وظایف را فورا در مرحله نخست یاد بگیرد و آن را دوباره بدون نیاز به کمک انسان تکرار کند. فرآیند یادگیری با یادگیری مهارت‌های جدید توسط ربات و حداقل دخالت انسان، تا اندازه زیادی خودکار شد.

اسمیت ادامه داد: یکی از مزایای اصلی روش ما این است که یک آموزگار انسان می‌تواند با دانش‌آموز ربات خود تعامل داشته باشد. ما چارچوب یادگیری خود را طوری طراحی کرده‌ایم که قابلیت یادگیری رفتار بلندمدت را با کمترین میزان تلاش داشته باشد.

پژوهشگران، روش خود را در مجموعه‌ای از آزمایش‌ها مورد بررسی قرار دادند و دریافتند که این روش می‌تواند نحوه انجام دادن کارها را به صورت کارآمد به ربات‌ها آموزش دهد.

انتهای پیام

ابداع چارچوبی برای تقویت تقلید در ربات‌ها

ثبت نظر