یادگیری تقویتی - مرکز توسعه هوش مصنوعی بنو

ربات‌هایی که با کمک هوش مصنوعی می‌ببینند و لمس می‌کنند

توسعه هوش مصنوعی بنو — Wed, 06 Nov 2024 11:11:03 +0000

در این پست از سایت بنو قصد داریم آموزش یک مدل نمایشی از مدالیته‌های مختلف را مورد بررسی قرار دهیم.

حواس چندگانه انسان

صدا، بویایی، چشایی، لامسه و بینایی – اینها پنج حسی هستند که انسان برای درک و درک جهان از آنها استفاده می کند. ما قادریم به طور یکپارچه این حواس مختلف را هنگام درک جهان ترکیب کنیم. به عنوان مثال، تماشای یک فیلم نیازمند پردازش مداوم اطلاعات دیداری و شنیداری است و ما این کار را بدون زحمت انجام می دهیم. ما به‌عنوان متخصص رباتیک، به‌ویژه به مطالعه اینکه چگونه انسان‌ها حس لامسه و حس بینایی ما را ترکیب می‌کنند، علاقه‌مندیم. دید و لمس هنگام انجام کارهای دستکاری که نیاز به تماس با محیط دارند، مانند بستن بطری آب یا قرار دادن اسکناس یک دلاری در یک ماشین خودکار، به ویژه مهم هستند.

بیایید بستن یک بطری آب را به عنوان مثال در نظر بگیریم. با چشمانمان می‌توانیم رنگ‌ها، لبه‌ها و اشکال موجود در صحنه را مشاهده کنیم و از آن‌ها می‌توانیم اطلاعات مربوط به وظیفه، مانند حالت‌ها و شکل بطری آب و درپوش را استنتاج کنیم. در همین حال، حس لامسه ما بافت، فشار و نیرو را به ما می‌گوید، که اطلاعات مربوط به وظیفه مانند نیرویی که به بطری آب وارد می‌کنیم و لغزش درب بطری در دستانمان را به ما می‌دهد. علاوه بر این، انسان‌ها می‌توانند اطلاعات یکسانی را با استفاده از یک یا هر دو نوع حواس استنتاج کنند: حواس لامسه ما همچنین می‌تواند به ما اطلاعات ژست و هندسی بدهد، در حالی که حواس بینایی ما می‌توانند زمان تماس ما با محیط را پیش‌بینی کنند.

انسان‌ها از حس‌های بینایی و لمسی برای استنباط اطلاعات و اقدام‌های مرتبط با وظیفه در کارهایی که نیاز به تماس زیاد دارند، مثل بستن یک بطری، استفاده می‌کنند.

از این مشاهدات چندوجهی و ویژگی‌های مرتبط با وظیفه، ما به اقدامات مناسب برای مشاهدات داده شده می‌رسیم تا بطری آب را با موفقیت ببندیم. با توجه به یک وظیفه جدید، مانند قرار دادن یک دلار در یک ماشین خودکار، ممکن است از همان اطلاعات مربوط به وظیفه (ژست‌ها، شکل، نیروها و غیره) برای یادگیری یک سیاست جدید استفاده کنیم. به عبارت دیگر، ویژگی‌های چندوجهی مرتبط با وظیفه خاصی وجود دارد که در انواع مختلف کارها تعمیم می‌یابد.

ویژگی‌های یادگیری از ورودی های‌ خام مشاهدات (مانند تصاویر RGB و داده‌های نیرو/گشتاور از حسگرهایی که معمولاً در روبات‌های مدرن دیده می‌شوند) به عنوان یادگیری نمایشی نیز شناخته می‌شوند. ما می خواهیم یک نمایش برای بینایی و لامسه و ترجیحاً نمایشی یاد بگیریم که بتواند این دو حس را با هم ترکیب کند. ما فرض می‌کنیم که اگر بتوانیم نمایشی را یاد بگیریم که ویژگی‌های مرتبط با وظیفه را به تصویر می‌کشد، می‌توانیم از همان نمایش برای کارهای مشابه با تماس غنی استفاده کنیم. به عبارت دیگر، یادگیری یک نمایش چندوجهی غنی می تواند به ما در تعمیم کمک کند.

در حالی که انسان ها به شیوه ای ذاتاً چندوجهی با جهان تعامل دارند، مشخص نیست که چگونه می توان انواع بسیار متفاوت داده ها را مستقیماً از حسگرها ترکیب کرد. تصاویر RGB از دوربین ها ابعاد بسیار بالایی دارند (اغلب در حدود 640 x 480 x 3 پیکسل). از سوی دیگر، قرائت‌های سنسور نیرو/گشتاور فقط 6 بعد دارند اما در عین حال از این لحاظ پیچیده‌اند که ممکن است گاهی به سرعت تغییر کنند (به عنوان مثال، زمانی که ربات به چیزی تماس ندارد، حسگر 0 نیوتن را ثبت می‌کند، اما می‌تواند به سرعت به 20 نیوتن بپرد که به محض برقراری تماس اتفاق می‌افتد).

ترکیب حس بینایی و لامسه

چطور می‌توانیم حس بینایی و لامسه را باهم ترکیب کنیم درحالی که این دو، ویژگی‌های بسیار متفاوتی دارند؟

معماری رمزگذار ما برای ترکیب ورودی های چندوجهی.

ما می توانیم از یک شبکه عصبی عمیق برای یادگیری ویژگی ها از داده های حسگر خام با ابعاد بالا استفاده کنیم. شکل بالا معماری شبکه عصبی یادگیری نمایش چندوجهی ما را نشان می‌دهد، که ما آموزش می‌دهیم تا یک نمایش برداری ترکیبی از تصاویر RGB، قرائت‌های حسگر نیرو (از حسگر نیرو/گشتاور متصل به مچ) و وضعیت‌های ربات (موقعیت و سرعت مچ ربات که میخ به آن متصل است) ایجاد کند.

از آنجایی که قرائت‌های حسگر ما دارای ویژگی‌های متفاوتی هستند، ما از معماری شبکه متفاوتی برای رمزگذاری هر مدالیته استفاده می‌کنیم:

رمزگذار تصویر یک شبکه FlowNetSimple شده با یک شبکه عصبی کانولوشنال 6 لایه (CNN) است. این برای هدف self-supervised ما مفید خواهد بود.
از آنجایی که خوانش نیروی ما یک داده سری زمانی با همبستگی زمانی است، ما از کانولوشن‌های علّی(causal convolutions) برای خوانش‌های نیروی خود استفاده می‌کنیم. این شبیه به معماری WaveNet است که نشان داده شده است که به خوبی با داده های صوتی توالی زمانی کار می کند.
برای قرائت‌ حسگر عمقی (proprioceptive) (موقعیت و سرعت end-effector)، آن را با لایه‌های کاملاً متصل (Fully Connected) رمزگذاری می‌کنیم، همانطور که معمولاً در رباتیک انجام می‌شود.

هر رمزگذار یک بردار ویژگی تولید می کند. اگر بخواهیم یک نمایش قطعی داشته باشیم، می‌توانیم با به هم پیوستن آنها در یک بردار ترکیب کنیم. اگر از یک نمایش احتمالی استفاده کنیم، که در آن هر بردار ویژگی در واقع دارای یک بردار میانگین و یک بردار واریانس است (با فرض توزیع‌های گاوسی)، می‌توانیم توزیع‌های مدالیته مختلف را با استفاده از ایده محصول کارشناسان با ضرب چگالی‌های توزیع‌ها با هم ترکیب کنیم و هر میانگین را با واریانس آن وزن‌دهی کنیم.بردار ترکیبی حاصل، نمایش چندوجهی ما است.

چگونه ویژگی های چندوجهی را بدون برچسب زدن دستی یاد بگیریم؟

رمزگذارهای مدالیته ما نزدیک به نیم میلیون پارامتر قابل یادگیری دارند که برای آموزش با یادگیری نظارت شده به مقادیر زیادی داده برچسب‌گذاری شده نیاز دارد. برچسب گذاری دستی داده ها بسیار پرهزینه و گران قیمت خواهد بود. با این حال، می‌توانیم اهداف آموزشی را طراحی کنیم که برچسب‌های آنها به طور خودکار در طول جمع‌آوری داده‌ها تولید می‌شوند. به عبارت دیگر، ما می توانیم رمزگذارها را با استفاده از یادگیری خود نظارتی آموزش دهیم. تصور کنید که بخواهید 1000 ساعت ویدیوی یک ربات در حال انجام یک کار را حاشیه نویسی کنید یا سعی کنید به صورت دستی وضعیت اشیا را برچسب گذاری کنید. به طور شهودی، شما ترجیح می‌دهید فقط یک قاعده بنویسید مانند « نظارت بر نیروی وارد بر بازوی ربات را انجام بده و جفت حالت و عمل را زمانی که خوانش‌های نیرویی بیش از حد بالا است، برچسب‌گذاری کن »، به‌جای این‌که هر فریم را یک‌به‌یک بررسی کنید که ربات کی با جعبه در تماس است. ما کاری مشابه را انجام می دهیم، با برچسب‌گذاری الگوریتمی داده‌هایی که از اجراهای ربات جمع‌آوری می‌کنیم.

اهداف یادگیری خود نظارتی ما.

ما دو هدف یادگیری را طراحی می‌کنیم که دینامیک‌ مدالیته‌های حسگر را در بر بگیرد:

پیش‌بینی جریان بصری ربات که ناشی از عمل است
پیش‌بینی اینکه آیا ربات با توجه به عمل با محیط تماس برقرار می‌کند یا خیر.

از آنجایی که معمولاً ما هندسه، سینماتیک و mesheهای ربات را می‌دانیم، برچسب‌گذاری‌های واقعی جریان بصری می‌توانند به‌طور خودکار با توجه به موقعیت‌های مفصلی و سینماتیک ربات تولید شوند. پیش‌بینی تماس نیز می‌تواند به‌طور خودکار با جستجوی افزایش‌ها در داده‌های حسگر نیرو تولید شود.

هدف یادگیری خودنظارتی آخر ما تلاش می‌کند تا همبستگی زمانی قفل شده بین دو مدالیته حسگر مختلف بینایی و لمس را به تصویر بکشد و رابطه بین آن‌ها را یاد بگیرد. وقتی ربات با محیط تماس می‌گیرد، یک دوربین تعامل و حسگر نیرو همزمان تماس را ثبت می‌کند. بنابراین، این هدف پیش‌بینی می‌کند که آیا مدالیته‌های ورودی ما هم‌زمان هستند یا نه. در طول آموزش، ما به شبکه‌مان داده‌های هم‌زمان و همچنین داده‌های حسگر که به‌طور تصادفی جابجا شده، می‌دهیم. شبکه ما باید بتواند از نمایش ما پیش‌بینی کند که آیا ورودی‌ها هم‌راستا هستند یا نه.

برای آموزش مدل خود، ۱۰۰ هزار داده در ۹۰ دقیقه جمع آوری کردیم. این کار با انجام عمل‌های تصادفی توسط ربات و همچنین انجام عمل‌های از پیش تعریف شده‌ای که قرار دادن میخ‌ها در سوراخ را تشویق می‌کرد، انجام شد. این عمل‌ها شامل جمع‌آوری برچسب‌های خود نظارتی به روش توضیح داده شده در بالا است. سپس با استفاده از الگوریتم نزول گرادیان تصادفی استاندارد، نمایش خود را آموزش می‌دهیم و این آموزش برای ۲۰ دور انجام می‌شود.

چگونه بفهمیم که نمایش چندوجهی خوبی داریم؟

یک نمایش خوب باید:

به ما امکان یادگیری یک سیاست را بدهد که بتواند یک وظیفه manipulation غنی از تماس (مثل وظیفه وارد کردن میخ) را به شیوه‌ای کارآمد انجام دهد.
بتواند در نمونه‌های مختلف کار تعمیم یابد (مثلاً اشکال مختلف میخ برای وارد کردن میخ)
به ما اجازه دهد که یک سیاست را یاد بگیریم که در برابر نویزهای حسگر، مختل‌کننده‌های خارجی و مکان‌های هدف مختلف مقاوم باشد.

برای مطالعه نحوه یادگیری این نمایش چندوجهی، از یک وظیفه درج میخ به عنوان یک تنظیم آزمایشی استفاده می کنیم. ورودی های چندوجهی ما تصویر خام RGB، قرائت نیرو از حسگر نیرو/گشتاور، و موقعیت و سرعت end-effector است. بر خلاف کارهای کلاسیک در وارد کردن میخ با دقت بالا که به دانش قبلی از اشکال میخ نیاز دارند، ما سیاست‌ها را برای اشکال مختلف به‌طور مستقیم از تصاویر خام RGB و قرائت های حسگر نیرو/گشتاور یاد خواهیم گرفت.مهمتر از آن، ما می خواهیم یک نمایش از یک شکل میخ یاد بگیریم، و ببینیم که آیا این نمایش می تواند به اشکال دیده نشده جدید تعمیم یابد یا خیر.

یادگیری سیاست

ما می خواهیم ربات بتواند سیاست ها را مستقیماً از تعاملات خود با محیط بیاموزد. در اینجا، ما به الگوریتم‌های یادگیری تقویتی عمیق (RL) روی می‌آوریم، که عامل ها را قادر می‌سازد از آزمون و خطا و یک تابع پاداش یاد بگیرند. یادگیری تقویتی عمیق پیشرفت های زیادی را در انجام بازی های ویدیویی، گرفتن اشیاء توسط ربات و حل مکعب های روبیک نشان داده است. به طور خاص، ما از Trust Region Optimization، یک الگوریتم RL روی سیاست، و یک پاداش متراکم که ربات را به سمت سوراخ برای وارد کردن میخ راهنمایی می‌کند.

یک بار که نمایش را یاد گرفتیم، آن را به‌طور مستقیم به یک سیاست RL می‌دهیم. و ما توانسته‌ایم کار وارد کردن میخ برای اشکال مختلف میخ را در حدود ۵ ساعت از ورودی‌های حسی خام یاد بگیریم.

این ربات است زمانی که برای اولین بار شروع به یادگیری کار می‌کند.

ربات در شروع یادگیری

حدود ۱۰۰ ایپاک که گذشت (که ۱.۵ ساعت میشود)، ربات شروع به لمس جعبه می‌کند

وضعیت ربات بعد از گذشت 100 ایپاک

و در 5 ساعت، ربات می‌توناند به‌طور مطمئن میخ گرد، مثلثی و همچنین میخ نیم‌دایره‌ای وارد کند.

وضعیت ربات بعد از گذشت 300 ایپاک

ارزیابی نمایش ما

ما ارزیابی می‌کنیم که نمایش ما چقدر خوب ورودی‌های چندوجهی ما را پوشش می‌دهد، با آزمایش اینکه نمایش چگونه به نمونه‌های وظیفه جدید تعمیم داده می‌شود، سیاست ما با نمایش به عنوان ورودی وضعیت چقدر مقاوم است و چگونه مودهای مختلف (یا عدم وجود آن‌ها) بر یادگیری نمایش تأثیر می‌گذارند.

تعمیم نمایش ما

ما پتانسیل انتقال سیاست‌ها و نمایندگی‌های آموخته‌شده را به دو شکل جدید که قبلاً در آموزش نمایش و سیاست مشاهده نشده‌اند، یعنی میخ شش‌ضلعی و میخ مربعی، بررسی می‌کنیم. برای انتقال سیاست، ما مدل نمایش و سیاستی که برای میله مثلثی آموزش دیده است را می‌گیریم و با میله مربعی جدید که دیده نشده، اجرا می‌کنیم. همانطور که در گیف زیر می‌بینید، وقتی که انتقال سیاست را انجام می‌دهیم، نرخ موفقیت ما از ۹۲٪ به ۶۲٪ کاهش می‌یابد. این نشان می‌دهد که سیاستی که برای یک هندسه میله‌ای آموخته شده، لزوماً به هندسه میله‌ای جدید منتقل نمی‌شود.

عملکرد انتقال بهتر را می توان با استفاده از مدل نمایش آموزش داده شده بر روی میخ مثلثی، و آموزش سیاست جدید برای میخ شش ضلعی جدید به دست آورد. همانطور که در گیف مشاهده می شود، وقتی نمایش چندوجهی را منتقل می کنیم، نرخ درج میخ ما دوباره به 92% می رسد. حتی اگر سیاست‌های آموخته‌شده به اشکال جدید منتقل نشوند، نشان می‌دهیم که نمایش چندوجهی ما از بازخورد بصری و لمسی می‌تواند به نمونه‌های جدید وظیفه منتقل شود. نمایندگی ما به اشکال جدید میخ های دیده‌نشده تعمیم می‌یابد و اطلاعات مربوط به وظیفه را در سراسر نمونه‌های وظیفه جمع‌آوری می‌کند.

استحکام سیاست

ما نشان دادیم که سیاست ما در برابر نویزهای حسگرهای نیرو/گشتاور و دوربین مقاوم است.

اختلال حسگر نیرو: وقتی که به حسگر نیرو/گشتاور ضربه می‌زنیم، گاهی اوقات این حسگر ربات را فریب می‌دهد که فکر کند با محیط تماس دارد. اما سیاست هنوز هم قادر است از این اختلالات و نویزها بهبود یابد.

پوشش دوربین: وقتی که به‌طور متناوب دوربین را پوشش می‌دهیم بعد از اینکه ربات قبلاً با محیط تماس برقرار کرده است. سیاست همچنان قادر است از وضعیت‌های ربات، خوانش‌های نیرو و تصاویر پوشیده شده، سوراخ را پیدا کند.

حرکت هدف: ما می‌توانیم جعبه را به یک مکان جدید منتقل کنیم که ربات هرگز در طول آموزش آن را ندیده است و ربات ما همچنان قادر به تکمیل درج میخ است.

نیروهای خارجی: ما همچنین می‌توانیم ربات را مختل کنیم و نیروهای خارجی را مستقیماً بر روی آن اعمال کنیم و هنوز هم قادر است عمل درج را تمام کند.

همچنین توجه داشته باشید که ما سیاست‌های خود را بر روی دو ربات مختلف، ربات نارنجی KUKA IIWA و ربات سفید Franka Panda اجرا می‌کنیم که نشان می‌دهد روش ما بر روی ربات‌های مختلف کار می‌کند.

مطالعه حذف

برای مطالعه تأثیرات اینکه چگونه مدالیته‌های مختلف بر نمایش تأثیر می‌گذارند، ما یک مطالعه حذف در شبیه‌سازی انجام دادیم. در آزمایش‌های شبیه‌سازی خود که در آن مکان جعبه را تصادفی می‌کنیم، می‌توانیم نحوه استفاده از هر حسگر را با حذف کامل یک مدالیتی در طول نمایش و آموزش سیلست مطالعه کنیم. اگر فقط داده‌های نیرو را داشته باشیم، سیاست ما نمی‌تواند جعبه را پیدا کند. با تنها داده‌های تصویری، ما به نرخ موفقیت ۴۹٪ در انجام وظیفه می‌رسیم، اما سیاست ما واقعاً با همسو کردن میخ با سوراخ مشکل دارد، زیرا دوربین نمی‌تواند این حرکات دقیق کوچک را ثبت کند. با هر دو ورودی نیرو و تصویر، نرخ تکمیل کار ما در شبیه سازی تا 77 درصد می رسد.

نتایج شبیه‌سازی برای مطالعه حذف مدالیته

منحنی های یادگیری همچنین نشان می دهد که Full Model و مدل فقط تصویر (بدون Haptics) بازدهی مشابهی در ابتدای آموزش دارند.. همانطور که آموزش ادامه می‌یابد و ربات یاد می‌گیرد که به جعبه نزدیک‌تر شود، زمانی که Full Model بتواند سریع‌تر و قوی‌تر یاد بگیرد که چگونه میخ را با بازخورد بصری و نیرو وارد کند، بازده شروع به واگرایی می‌کند.جای تعجب نیست که یادگیری یک نمایش با چندین مدالیته، یادگیری سیاست را بهبود می‌بخشد، اما نتیجه ما همچنین نشان می‌دهد که نمایش و سیاست ما از همه مدالیته‌ها برای وظایف غنی از تماس استفاده می‌کنند.

نمودارهای یادگیری سیاست برای مطالعه حذف مدالیته

خلاصه

به عنوان یک نمای کلی از روش ما، داده‌های خود برچسب‌گذاری شده را از طریق خود نظارتی جمع‌آوری می‌کنیم، که حدود ۹۰ دقیقه طول می‌کشد تا ۱۰۰ هزار نقطه داده جمع‌آوری شود. ما می‌توانیم نمایشی از این داده‌ها بیاموزیم، که حدود 24 ساعت آموزش روی یک GPU طول می‌کشد، اما کاملاً آفلاین انجام می‌شود. پس از آن، می‌توانید سیاست‌های جدیدی را از همان نمایش یاد بگیرید، که فقط 5 ساعت آموزش واقعی ربات طول می‌کشد. این روش را می توان بر روی ربات های مختلف یا برای انواع مختلف وظایف انجام داد.

در اینجا برخی از نکات کلیدی این کار آورده شده است:

اولین مورد این است که نظارت بر خود، به ویژه دینامیک و پیش‌بینی همزمانی زمانی اهداف غنی را برای آموزش یک مدل نمایشی از مدالیته‌های مختلف به ما بدهد.
دوم، نمایشی که هم‌زمانی مدالیته‌های ما و دینامیک‌های پیشرو را به تصویر می‌کشد، می‌تواند در میان نمونه‌های مختلف وظیفه تعمیم یابد (برای مثال، اشکال میخ و مکان حفره) و نسبت به نویز سنسور مقاوم است. این نشان می‌دهد که ویژگی‌های هر مدالیته و رابطه بین آنها در نمونه‌های مختلف وظایف غنی از تماس مفید است.
در نهایت، آزمایش‌های ما نشان می‌دهند که یادگیری نمایش چندمدالیته منجر به کارایی یادگیری و پایداری سیاست می‌شود.

برای کارهای آینده، ما می‌خواهیم روش ما بتواند فراتر از یک خانواده وظایف، به کارهای کاملاً متفاوت و غنی از تماس تعمیم دهد (مانند خرد کردن سبزیجات، تعویض لامپ، قرار دادن دوشاخه برق). برای انجام این کار، ممکن است نیاز به استفاده از روش‌های بیشتری داشته باشیم، مانند ترکیب دما، صدا، یا حسگرهای لمسی، و همچنین پیدا کردن الگوریتم‌هایی که بتوانند به ما سازگاری‌های سریعی با وظایف جدید بدهند

برای اطلاعات بیشتر درباره این پروژه، می‌توانید از مقاله منتشر شده آنها بازدید کنید.

اگه به مطالعه در مورد هوش مصنوعی و کاربرد های آن در حوزه رباتیک علاقه مند هستید میتوانید پست قبلی سایت بنو ذر رابطه با ربات‌های خودبهبود دهنده را مشاهده کنید!

این پست برگرفته از جدیدترین اخبار دانشگاه استنفورد میباشد. منبع

نوشته ربات‌هایی که با کمک هوش مصنوعی می‌ببینند و لمس می‌کنند اولین بار در مرکز توسعه هوش مصنوعی بنو. پدیدار شد.

ربات‌های خودبهبود دهنده

توسعه هوش مصنوعی بنو — Wed, 07 Aug 2024 06:07:15 +0000

ربات‌های خودبهبود دهنده: ربات هایی که به خود آموزش میدهند!

در این پست از سایت بنو قصد داریم ربات‌های خودبهبود دهنده را بررسی کنیم.

تا به حال به این فکر کرده اید که ما چگونه مهارتی را به ربات ها می آموزیم؟ آیا چقدر این کار میتواند برای نیروی انسانی طاقت فرسا و هزینه بر باشد؟ یادگیری مهارت‌های پیچیده نیاز به تکرار دارد: امتحان کن، اصلاح کن، سپس دوباره امتحان کن. اما آیا ربات‌ها هم می‌توانند از طریق تمرین و تکرار مهارتی را یاد بگیرند بدون نیاز به دخالت انسان؟

چالش‌های جمع‌آوری داده‌های رباتیک

بهبود خودمختاری برای ربات‌ها یکی از چالش‌های اصلی در زمینه رباتیک است. جمع‌آوری داده‌های رباتیک تحت نظارت انسان بسیار گران‌قیمت است. برای مثال، یکی از بزرگترین مجموعه داده‌های تعاملی رباتیک که برای پروژه‌های SayCan و RT-1 استفاده شده، شامل ۱۳۰,۰۰۰ نمایش از وظایفی مانند “برداشتن قوطی نوشابه” است که طی ۱۷ ماه با استفاده از ۱۳ ربات تحت نظارت انسان جمع‌آوری شده است.

جمع‌آوری داده‌ها به صورت خودمختار

حال تصور کنید اگر این ربات‌ها به صورت خودمختار داده جمع‌آوری می‌کردند. یک محاسبه ساده نشان می‌دهد که ۱۳ رباتی که به صورت خودمختار در طول ۱۷ ماه تعامل می‌کنند، می‌توانند بیش از ۱۷ میلیون مسیر جمع‌آوری کنند، یعنی تا ۱۰۰ برابر بیشتر داده‌های تعاملی!

ساخت ربات‌های خودمختار

چگونه می‌توانیم ربات‌های خودمختاری بسازیم که بتوانند به طور معنی‌داری با محیط‌هایشان تعامل داشته باشند و از چنین تعاملی بهبود یابند؟ یادگیری تقویتی (Reinforcement Learning) یا به اختصار RL، یک چارچوب طبیعی برای ساخت چنین سیستم‌هایی ارائه می‌دهد. در RL، عامل‌ها می‌توانند از طریق آزمون و خطا یاد بگیرند.

چالش‌های یادگیری تقویتی

متأسفانه، آموزش سیستم‌های رباتیک با استفاده از RL هنوز نیاز به نظارت گسترده انسان در طول آموزش دارد. با این حال، پیشرفت در این زمینه می‌تواند به توسعه سیستم‌های رباتیک ماهر از دستکاری تا حرکت منجر شود.

توسعه ربات‌های خودمختار که بتوانند به طور موثر با محیط خود تعامل کنند و از تعاملات خود بیاموزند، همچنان یک چالش بزرگ در علم رباتیک است. اما با استفاده از روش‌های نوین مانند یادگیری تقویتی، می‌توان به پیشرفت‌های قابل توجهی دست یافت.

انسان‌ها محیط را برای ربات‌ها به طور مکرر تنظیم مجدد می‌کنند تا وظایف مربوطه خود را تمرین کنند. مداخلات انسانی برای تنظیم مجدد محیط می‌تواند به دفعات هر دقیقه یک بار باشد.

یک انسان باید محیط را قبل از هر آزمون وظیفه برای الگوریتم‌های فعلی RL تنظیم مجدد کند تا به طور موفقیت‌آمیز وظیفه‌ای را یاد بگیرد. در واقع، چنین نظارتی گران‌قیمت است و مانع از این می‌شود که ربات‌ها به طور خودمختار یاد بگیرند و بهبود یابند. زیرا تنظیم مجدد محیط می‌تواند به اندازه خود وظیفه دشوار باشد. به عنوان مثال، یادگیری نحوه باز کردنِ در، نیاز به بستنِ در برای تنظیم مجدد محیط دارد که می‌تواند به همان اندازه برای ربات سخت باشد. به طور مؤثر، به حداقل رساندن نیاز به نظارت انسانی برای تنظیم مجدد محیط‌ها پس از هر آزمون، برای جمع‌آوری مجموعه داده‌های عظیم ضروری، برای آموزش ربات‌ها بسیار حیاتی است.

در ادامه سه مورد در این زمینه مورد بحث قرار می‌گیرد:

(الف) EARL نشان می‌دهد که الگوریتم‌های فعلی RL بدون تنظیمات مکرر انسانی مشکل دارند و توضیحی ممکن برای این پدیده ارائه می‌دهد

(ب) MEDAL یک الگوریتم RL ارائه می‌دهد که می‌تواند به صورت کارآمد و خودمختار یاد بگیرد

(ج) ربات‌های خودبهبود بر اساس MEDAL یک سیستم ربات واقعی ارائه می‌دهد که می‌تواند از تعامل خودمختار با محیط بهبود یابد.

EARL: الگوریتم‌های RL بدون تنظیم مکرر محیط شکست می‌خورند.

در یک وظیفه‌ی هدایت یک عامل ماهی به محل هدفش در مجموعه کنترل DeepMind، بازده محیط به طور متوسط با افزایش طول اپیزودهای آموزشی از ۱۰۰۰ گام به ۱۰۰,۰۰۰ گام بدتر می‌شود. عامل به اندازه کافی به حالت اولیه بازنشانی نمی‌شود و نمی‌تواند وظیفه را به اندازه کافی تکرار کند تا یک سیاست مؤثر را یاد بگیرد.

وظیفه یادگیری حرکت ماهی زرد به سمت هدف قرمز را در شکل بالا در نظر بگیرید. یک الگوریتم RL معمولی به صورت اپیزودیک با این وظیفه برخورد می‌کند، به این معنا که یک عامل تلاش می‌کند وظیفه را برای تعداد ثابتی از گام‌ها انجام دهد قبل از اینکه در صورت ناموفق بودن، از ادامه دادن صرف‌نظر کند. نکته مهم این است که بین هر اپیزود، محیط باید بازنشانی شود تا عامل بتواند دوباره تلاش کند. اما اگر به جای بازنشانی محیط، به سادگی به عامل اجازه دهیم به عمل خود ادامه دهد، چه اتفاقی می‌افتد؟ برای آزمون این فرضیه، آزمایشی ترتیب داده شد که عملکرد عامل را که به عنوان طول اپیزود افزایش می‌یابد، اندازه‌گیری می‌کند. مشاهده شد که سیاست یادگرفته شده به طور قابل توجهی بدتر می‌شود وقتی که محیط کمتر بازنشانی می‌شود. این مسئله محور مشکل ما را نشان می‌دهد: یک الگوریتم RL معمولی نیاز دارد که وظیفه را چندین بار تکرار کند و بازنشانی محیط نیازمند نظارت انسانی مداوم در طول آموزش است!

چرا بازنشانی کمتر محیط به سیاست‌های بدتر منجر می‌شود؟ پاسخ این است که وقتی محیط به طور مکرر بازنشانی نمی‌شود، عامل که آموزش دیده تا یک تابع پاداش(reward function) را به حداکثر برساند، تمایل دارد که در حالت‌های با پاداش بالا پرسه بزند. این امر منجر به عدم کاوش کافی در کل فضا و در نتیجه داده‌های ناکافی برای یادگیری یک سیاست کارآمد می‌شود. با این حال، بازنشانی مکرر محیط در دنیای واقعی عملی نیست. برای کمک به طراحی الگوریتم‌های مناسب برای یادگیری در دنیای واقعی، ما مشکل یادگیری تقویتی خودمختار را پیشنهاد دادیم، که در آن یک عامل موظف است در محیطی با حداقل بازنشانی‌های مکرر یک سیاست مؤثر را یاد بگیرد. ما یک بنچمارک از محیط‌های شبیه‌سازی شده چالش‌برانگیز معرفی کردیم تا عملکرد بدون مداخلات مکرر برای بازنشانی محیط را ارزیابی کنیم. متوجه شدیم که الگوریتم‌های RL موجود در این بنچمارک‌ها مشکل دارند و فضای زیادی برای بهبود وجود دارد.

حالا یک راه حل پیش روی ماست و میرویم تا با MEDAL آشنا شویم!

(Matching Expert Distributions for Autonomous Learning)MEDAL: اگر سیاستی برای لغو کار یاد بگیریم چه؟

مروری بر MEDAL برای آموزش عوامل RL به طور مستقل با حداقل مداخلات انسانی برای تنظیم مجدد محیط.

چگونه می‌توانیم ربات ها را بدون مداخلات مکرر انسانی آموزش دهیم؟

ایده کلیدی این است که محیط را به گونه‌ای بازنشانی کنیم که نیازی به مداخلات مکرر انسانی نباشد. به طور خاص، ربات ما دو سیاست یاد می‌گیرد: یک سیاست به جلو برای انجام وظیفه و یک سیاست به عقب برای لغو وظیفه. این دو سیاست به ترتیب به یکدیگر متصل شده‌اند تا به عامل امکان دهند که به طور خودمختار با حداقل مداخلات انسانی آموزش ببیند. سیاست به عقب باید چه چیزی را بهینه کند؟ به نظر می‌رسد طبیعی باشد که سیاست به عقب را برای رسیدن به توزیع حالت‌های اولیه آموزش دهیم، به طوری که سیاست به جلو بتواند وظیفه را به طور مکرر از توزیع حالت‌های اولیه امتحان کند. آیا می‌توانیم سیاست به عقب را به گونه‌ای یاد بگیریم که به سیاست به جلو کمک کند تا به طور مؤثرتری یاد بگیرد؟

برای یادگیری مؤثر سیاست به جلو برای حل وظیفه، یادگیری ربات اغلب نیاز به مجموعه‌ای کوچک از نمایش‌های کارشناسی در مورد “چگونگی حل وظیفه” دارد. یافتن مسیر اولیه به هدف می‌تواند بسیار زمان‌بر باشد (یعنی “مسئله کاوش”) و نمایش‌های کارشناسی می‌توانند به طور قابل توجهی سرعت یادگیری را با مقابله با این چالش کاوش افزایش دهند. بینش کلیدی ما این است که اگر چنین نمایش‌های کارشناسی در دسترس باشد، (الف) یادگیری سیاست به عقب برای رسیدن به هر یک از حالت‌هایی که کارشناس در نمایش‌ها بازدید کرده است، می‌تواند آسان‌تر از یادگیری برای رسیدن به فقط توزیع حالت‌های اولیه باشد و (ب) حالت‌های کارشناسی توزیع مؤثرتری از حالت‌های شروع برای یادگیری سیاست به جلو فراهم می‌آورند، زیرا عامل می‌تواند وظیفه را از حالت‌های مختلف که از آسان تا دشوار متغیر هستند امتحان کند. سیاست به جلو می‌تواند یاد بگیرد که چگونه وظیفه را از حالت‌های نزدیک به هدف (“حالت‌های اولیه آسان”) حل کند و از موفقیت‌ها برای یادگیری از حالت‌های دورتر از هدف (“حالت‌های اولیه دشوار”) استفاده کند.

این رویکرد به عنوان انگیزه‌ای برای MEDAL (مطابقت توزیع‌های کارشناسی برای یادگیری خودمختار) عمل می‌کند، جایی که عامل یک سیاست به جلو را برای حداکثر کردن پاداش‌های وظیفه یاد می‌گیرد و سیاست به عقب یاد می‌گیرد که به طور یکنواخت حالت‌هایی که کارشناس بازدید کرده است را پوشش دهد، بدون نیاز به توابع پاداش اضافی برای آموزش سیاست به عقب. در واقع، MEDAL به طور قابل توجهی هم کارایی یادگیری و هم عملکرد نهایی سیاست‌های یادگرفته شده را بهبود می‌بخشد.

چگونه می‌توانیم یک سیستم رباتیک خودبهبود دهنده بسازیم؟

حالا که یک الگوریتم یادگیری کارآمد بدون نیاز به مداخلات مکرر انسانی داریم، می‌توانیم به هدف خود برای ساخت ربات‌های خودبهبود دهنده برگردیم! یادگیری ربات‌ها در دنیای واقعی دو چالش اضافی به غیر از کمبود نظارت برای بازنشانی محیط‌ها دارد:

۱. چالش اول: نیاز به یادگیری از داده‌های حسی خام

– حالت‌های کم‌بعدی مانند مختصات اشیاء برای هر وظیفه گران‌قیمت هستند و نیازمند مهندسی دقیق (شامل شناسایی اشیاء، کالیبراسیون و غیره) هستند. سیستم‌های رباتیک باید بتوانند به طور مستقیم از داده‌های حسی خام، مانند ورودی‌های تصویری، یاد بگیرند.

۲. چالش دوم: عدم وجود برچسب‌های پاداش در دنیای واقعی

– در دنیای واقعی برچسب‌های پاداش وجود ندارد و ربات‌ها باید بدون توابع پاداش خاص وظیفه که به طور مهندسی طراحی شده‌اند، یاد بگیرند. این بدان معناست که ربات‌ها باید توانایی یادگیری از تجربیات و تعاملات خود را بدون نیاز به پاداش‌های مشخص برای هر وظیفه داشته باشند.

مروری بر MEDAL++: یک الگوریتم عملی قابل تحقق برای آموزش ربات ها به صورت مستقل.

برای حل این مسائل، ما ++MEDAL را پیشنهاد می‌کنیم تا MEDAL را برای سیستم‌های رباتیک خودبهبود دهنده تطبیق داده و بهبود بخشد!

برای آموزش مؤثر سیاست‌های خود از ورودی‌های پیکسلی، از تکنیک‌های تقویتی مانند برش تصادفی و تغییر موقعیت استفاده می‌کنیم تا یادگیری را منظم کنیم. نکته مهم این است که چگونه می‌توانیم بدون پاداش‌های وظیفه یاد بگیریم؟ نمایش‌های کارشناسی دوباره به کمک می‌آیند! ما می‌توانیم از حالت‌های پایانی در نمایش‌های کارشناسی به عنوان نماینده‌ای برای حالت‌های هدف استفاده کنیم و سیاست به جلو را برای رسیدن به حالت‌های “مشابه” این حالت‌ها پاداش دهیم. شباهت با استفاده از یک طبقه‌بند آموزش دیده به روش مخالف اندازه‌گیری می‌شود، بر اساس این ایده که شباهت بصری با نزدیک‌تر شدن ربات به هدف افزایش می‌یابد. بنابراین، نمایش‌های کارشناسی به عنوان نظارت برای آموزش هر دو سیاست به جلو و سیاست به عقب عمل می‌کنند.

محققان از ++MEDAL برای آموزش یک بازوی فرانکا به طور خودمختار برای انجام چندین وظیفه manipulative استفاده کردند که نمونه‌هایی از آن در شکل زیر نشان داده شده است. با شروع از تنها 50 نمایش کارشناسی، بازوی رباتی توانست نرخ موفقیت را بین 30-70% از طریق (عمدتاً) تمرین خودمختار در طی 20 ساعت (با کمتر از 50 مداخله برای بازنشانی محیط!) بهبود بخشد. به طور کلی، ++MEDAL به یک الگوی یادگیری اجازه می‌دهد که در آن یک کارشناس از طریق تعداد کمی از نمایش‌ها دستورالعمل را ارائه دهد و ربات می‌تواند به طور خودمختار پس از آن تمرین کند.

آیا به آنجا رسیدیم؟

این دوران برای مقیاس‌پذیری یادگیری ربات‌ها بسیار هیجان‌انگیز است و جمع‌آوری و آموزش بر روی مجموعه‌های داده بزرگ در قلب این موضوع قرار دارد. تحقیقات اخیر شروع به استفاده از منابع داده در مقیاس اینترنتی (مانند یوتیوب) برای تقویت یادگیری ربات‌ها کرده‌اند. در حالی که این منابع برای ایجاد نمایه‌هایی از جهان اهمیت دارند، داده‌های ربات‌های تجسم‌شده برای یادگیری مهارت‌های پیچیده بسیار حیاتی هستند زیرا اطلاعاتی درباره تعاملات ربات با محیط بدون هیچ گونه تغییر دامنه ارائه می‌دهند. همان‌طور که در این پست اشاره کردیم، می‌توان این داده‌ها را از طریق چارچوبی که پیشنهاد شد، برای یادگیری تقویتی خودمختار (RL) به میزان زیادی مقیاس‌پذیر کرد.

با این حال، کار ما تنها شروعی برای پرداختن به این مشکل چالش‌برانگیز است و سوالات و مسیرهای بهبودی زیادی وجود دارد:

خودمختاری مشترک: در حالی که در این مقاله بر روی خودمختاری و کاهش نیاز به بازنشانی محیط‌ها تأکید کرده‌ایم، نظارت انسانی واقعاً برای یادگیری ربات‌ها بسیار مفید است. با این حال، استفاده از آن برای بازنشانی مکرر محیط‌ها به نظر نمی‌رسد بهترین استفاده از این نظارت باشد. تخصیص مؤثر و مقیاس‌پذیر بین اشکال مختلف نظارت انسانی، مانند بازنشانی محیط‌ها، برچسب‌گذاری پاداش‌ها یا نمایش‌های کارشناسی وظیفه، چیست؟

مدیریت غیرقابلیت بازگشت: به طور اجتناب‌ناپذیر، عامل‌های رباتیک با وضعیت‌های غیرقابل بازگشت مواجه خواهند شد که در آن‌ها انسان‌ها باید مداخله کنند، به عنوان مثال، بیرون راندن یک لیوان از دسترس بازوی ربات. ما یک تلاش اولیه با “PAINT” به عنوان چارچوبی برای یادگیری زمان درخواست کمک از انسان انجام دادیم، اما هنوز فضای زیادی برای بهبود استفاده از نظارت انسانی وجود دارد!

استقرار خودمختار: ربات‌های مستقر به طور خودمختار به طور اجتناب‌ناپذیر با وضعیت‌های جدیدی که در داده‌های آموزشی وجود ندارد، مواجه خواهند شد. آیا آن‌ها می‌توانند به طور خودمختار بازگردند اگر گیر کنند (برای مثال، یک ربات تحویل در آخرین کیلومتر که در یک چاله گیر کرده است) و به بهینه‌سازی اهداف خود ادامه دهند؟

معیارهای بهتر: “EARL” یک معیار کوچک با چالش‌های زیادی از یادگیری تقویتی خودمختار است که هنوز پوشش داده نشده است (برای مثال، وضعیت‌های غیرقابل بازگشت). ایجاد محیط‌های متنوع و بیانگر می‌تواند به توسعه الگوریتمی بهتر کمک کند و درک تعادلات بین اشکال و مقادیر نظارت را بهبود بخشد.

جمع‌بندی: برای دستیابی به ربات‌های کاملاً قادر که بتوانند به طور خودمختار در محیط‌های غیرساختاریافته مانند آشپزخانه‌ها، خانه‌ها و دفاتر عمل کنند، ممکن است مفید باشد که به طور مستقیم در دنیای واقعی به یادگیری خودمختار بپردازیم. فکر کردن به آنچه که لازم است ربات‌ها بتوانند به طور ۲۴x۷ کار کنند و داده‌ها را در محیط‌های متنوع جمع‌آوری کنند تا واقعاً به تحقق این دیدگاه نزدیک شویم، ارزشمند است.

این پست مرکز هوش مصنوعی بنو برگرفته از مقاله ی زیر است، برای مطالعه ی بیشتر به لینک گذاشته شده مراجعه کنید:

Self-Improving Robots: Embracing Autonomy in Robot Learning | SAIL Blog (stanford.edu)

برای دیدن پست های بیشتر در زمینه ی هوش مصنوعی به اینجا (وبلاگ هوش مصنوعی بنو) سر بزنید!

نوشته ربات‌های خودبهبود دهنده اولین بار در مرکز توسعه هوش مصنوعی بنو. پدیدار شد.