dense av

الگوریتم Dense AV

DenseAV، الگوریتمی که در دانشگاه MIT توسعه داده شده، یاد می‌گیرد چگونه زبان را تحلیل کند و معنی آن را بفهمد، تنها با تماشای ویدیوهایی که افراد در آن صحبت می‌کنند. این الگوریتم قابلیت‌های بالقوه‌ای در جستجوی چندرسانه‌ای، یادگیری زبان، و رباتیک دارد. مارک همیلتون، دانشجوی دکترای مهندسی برق و علوم کامپیوتر در MIT و یکی از اعضای آزمایشگاه علوم کامپیوتر و هوش مصنوعی MIT (CSAIL)، قصد دارد از ماشین‌ها برای درک نحوه ارتباط حیوانات استفاده کند. برای رسیدن به این هدف، او ابتدا تصمیم گرفت سیستمی بسازد که بتواند زبان انسان را “از پایه” یاد بگیرد.

Dense AV از زبان همیلتون

همیلتون توضیح می‌دهد که ایده مدل از مشاهده واکنش احساسی یک پنگوئن در فیلم “مارش پنگوئن‌ها” الهام گرفته شد؛ جایی که صدا جایگزینی برای زبان انسانی بود. این الهام باعث شد به این فکر برسند که شاید بتوان زبان را از طریق صدا و تصویر یاد گرفت. به همین دلیل، آن‌ها مدل Dense AV را طراحی کردند که با تطبیق صدای شنیده‌شده با تصویر دیده‌شده و بالعکس، زبان را می‌آموزد. برای مثال، اگر جمله‌ای درباره پخت کیک شنیده شود، مدل باید تصویری از کیک یا فر را پیش‌بینی کند و این تطبیق را با میلیون‌ها ویدیو تمرین می‌کند.

پس از آموزش Dense AV در این بازی تطبیق، همیلتون و همکارانش به این موضوع پرداختند که مدل وقتی صدایی را می‌شنود، به کدام پیکسل‌ها نگاه می‌کند. برای مثال، وقتی کسی می‌گوید «سگ»، الگوریتم بلافاصله شروع به جستجو برای سگ در جریان ویدیو می‌کند. با دیدن پیکسل‌هایی که توسط الگوریتم انتخاب می‌شوند، می‌توان فهمید که الگوریتم فکر می‌کند یک کلمه به چه معنی است.

DENSE AV

چگونگی عملکرد Dense AV

مدل Dense AV با هدف یادگیری زبان از طریق تطبیق صدا و تصویر طراحی شده، بدون اتکا به متن یا برچسب‌گذاری انسانی. برای مثال، وقتی صدای پارس سگ را می‌شنود، به‌دنبال تصویر سگ در ویدیو می‌گردد. تیم با افزودن یک “مغز دوطرفه” دریافت که یک بخش مدل روی زبان (مثلاً کلمه “سگ”) و بخش دیگر روی صدا (پارس سگ) تمرکز می‌کند. این یعنی Dense AV توانسته مفاهیم چندحسی را به‌درستی تفکیک کند.

 

این مدل با یادگیری تضادآمیز، یعنی مقایسه جفت‌های صوتی-تصویری و تشخیص شباهت یا تفاوت آن‌ها، بدون نیاز به داده برچسب‌خورده آموزش می‌بیند. هدف نهایی، درک زبان‌های نوشتار‌ندار مانند زبان دلفین‌ها یا حتی تحلیل صداهای لرزه‌ای زمین است. این مسیر مشابه یادگیری زبان توسط کودکان است؛ تنها از راه شنیدن و دیدن.

برتری Dense AV نسبت به سایر الگوریتم های تشخیص

برخلاف مدل‌های قبلی که فقط تطابق کلی بین یک جمله و یک تصویر کامل را بررسی می‌کردند، Dense AV به‌صورت جزئی‌تر کار می‌کند و صدا را با هر پیکسل تصویر تطبیق می‌دهد. این روش باعث شده تا مدل بتواند روابط دقیق‌تری مثل کلمه “چمن” و مکان چمن در تصویر را کشف کند و صداها را به‌صورت مکانی شناسایی کند.

Dense AV با استفاده از دیتاست عظیم AudioSet (شامل ۲ میلیون ویدیو از یوتیوب) و مجموعه‌ داده‌های جدیدی که پژوهشگران طراحی کردند، آموزش دید. این مدل در تطبیق نام اشیا با تصویر یا صدایشان بهتر از الگوریتم‌های قبلی عمل کرد. برای ارزیابی دقیق‌تر، تیم از داده‌هایی با حاشیه‌نویسی پیکسلی استفاده کرد تا عملکرد مدل در مکان‌یابی اشیا بر اساس صدا یا نام، به‌صورت دقیق سنجیده شود.

DENSE AV

چالش‌ها و پیشرفت‌ها

پروژه Dense AV به‌دلیل نیاز به داده‌های حجیم و گذار دشوار به معماری ترانسفورمر حدود یک سال زمان برد. یکی از چالش‌های اصلی، واداشتن مدل به توجه به جزئیات ظریف بود، چون معماری‌های بزرگ معمولاً آن‌ها را نادیده می‌گیرند.

تیم در آینده می‌خواهد سیستم‌هایی بسازد که فقط با داده‌های صوتی یا فقط تصویری یاد بگیرند، که برای حوزه‌هایی با داده‌ تک‌سویه بسیار کاربردی است. همچنین قصد دارند از مدل‌های بزرگ‌تر و شاید دانش زبان طبیعی برای بهبود عملکرد استفاده کنند.

 

به گفته دیوید هارواث، Dense AV بدون نیاز به برچسب‌گذاری انسانی، می‌تواند همزمان صداها، تصاویر و زبان گفتاری را یاد بگیرد. این مدل زبان‌محور نیست و پتانسیل یادگیری از هر زبان و میلیون‌ها ساعت ویدیوی چندزبانه را دارد، که می‌تواند درک مدل از ارتباطات انسانی را به‌طرز چشمگیری گسترش دهد.

در وبسایت همیلتون (اینجا) میتوانید از این الگوریتم و ویدئوهایی که از آن ها برای آموزش استفاده شده است، بازدید کنید!

این پست برگرفته از New algorithm discovers language just by watching videos | MIT News | Massachusetts Institute of Technology میباشد!

بدون دیدگاه

دیدگاهتان را بنویسید

نشانی ایمیل شما منتشر نخواهد شد. بخش‌های موردنیاز علامت‌گذاری شده‌اند *