راهحل انقلابی Memento: یادگیری مانند انسان
پایان عصر فاینتیونهای سنگین؟
در سالهای اخیر، مدلهای زبانی بزرگی مثل GPT، Claude و Gemini مغز متفکر بسیاری از سامانههای هوش مصنوعی شدهاند.اما این مدلها برای پیشرفت دوباره آموزش میبینند (Fine-tuning) — فرآیندی پرهزینه، زمانبر و پرمصرف از نظر انرژی و داده.اما اکنون Memento وارد میدان شده است.
تیمی از پژوهشگران دانشگاه کالج لندن (UCL) و آزمایشگاه Huawei Noah’s Ark Lab بریتانیا روشی طراحی کردهاند که Memento مدلهای زبانی را قادر میسازد در زمان واقعی یاد بگیرند و با موقعیتهای تازه سازگار شوند — بدون هیچ فاینتیونی.
Memento چیست و چگونه کار میکند؟
Memento یک چارچوب یادگیری نوآورانه است که به عاملهای هوش مصنوعی (AI Agents) قدرت میدهد مثل انسانها از تجربههای خود درس بگیرند.
این سیستم بر دو پایه استوار است:
۱. یادگیری مبتنی بر حافظه (Memory-based Learning)
۲. استدلال مبتنی بر مورد (Case-Based Reasoning)
هر زمان عامل با مسئلهای جدید روبهرو شود، Memento بهجای بازآموزی مدل، در حافظهاش جستوجو میکند، موقعیتهای مشابه را پیدا میکند و با الهام از تجربههای گذشته، بهترین تصمیم را در لحظه میگیرد.
در واقع، Memento مثل ذهن انسان رفتار میکند: ما نیز هنگام چالش، به حافظهی تجربیات قبلی خود تکیه میکنیم.
معماری Memento - یک سیستم سهبخشی هوشمند
چارچوب Memento از سه جزء اصلی تشکیل شده است:
برنامهریز (Planner):
یک مدل زبانی (مثل GPT-4.1) نقش مغز سیستم را بازی میکند و مسیر حل مسئله را طراحی میکند.
برنامهریز با مراجعه به حافظهی موردی تصمیم میگیرد و از بازخورد محیط میآموزد.اجراکننده (Executor):
این بخش ایدههای برنامهریز را به عمل تبدیل میکند.
اجراکننده با ابزارهای خارجی مانند مرورگر وب، موتور جستوجو و سامانههای تحلیل داده کار میکند.حافظهی موردی (Case Memory):
قلب تپندهی Memento است.
سیستم همهی تجربههای موفق و ناموفقش را ذخیره میکند تا در مأموریتهای آینده تصمیمهای دقیقتر بگیرد.
یادگیری بدون Fine-tuning، اما با بازخورد واقعی
برخلاف روشهای سنتی که پارامترهای مدل را دوباره آموزش میدهند، Memento از یادگیری تقویتی آنلاین (Online Reinforcement Learning) بهره میگیرد.
عامل از محیط بازخورد میگیرد، حافظهاش را بهروزرسانی میکند و بدون بازآموزی مدل پایه، خودش را رشد میدهد.
مقاله ی مرتبط با این موضوع را حتما بخوانید.
به بیان ساده، Memento به عامل عامل خودش خودش را تربیت میکند — درست مثل انسان.
توضیحات مربوط به مراحل بالا:
مرحله اول: Case-Based Planning (برنامهریزی مبتنی بر حافظه)
این مرحله در بخش آبی چپ تصویر نشان داده شده است.
1.Case Memory (حافظهی موردی):
سیستم تمام تعاملاتش را به شکل «حالت (state)، اقدام (action) و نتیجه (reward)» ذخیره میکند.
با گذشت زمان، این حافظه بهصورت پیوسته و آنلاین رشد میکند.
2.Read Module (بخش خواندن):
وقتی کاربر پرسشی مطرح میکند، برنامهریز از حافظه میخواهد تجربههای مشابه را بخواند و با استفاده از سیاست بازیابی مرتبطترین موارد را برمیگزیند.
3.User Query (پرسش کاربر):
مثل مثال تصویر:“من ویدیویی در یوتیوب دیدم، لطفاً اسم شخصیت داخل تصویر را بگو.”
برنامهریز باید بفهمد چطور به این سؤال پاسخ دهد.
4.Decomposed Plan (برنامهی تجزیهشده):
برنامهریز پرسش را به زیروظایف تقسیم میکند ، مثل:
پیدا کردن شناسه ویدیو
تحلیل تصویر بندانگشتی
استخراج نام شخصیت
اگر برنامهی اولیه نتیجه ندهد، سیستم فوراً طرح تازهای میچیند (Replanning).
5.Subtask Memory (حافظهی زیروظایف):
هر زیروظیفه و نتیجهاش ثبت میشود تا سیستم بداند کدام مراحل تکمیل شده و کدام مانده است.
مرحله دوم: Tool-Based Execution (اجرای مبتنی بر ابزار)
هر زیروظیفه و نتیجهاش در این حافظه ذخیره میشود تا LLM در مراحل بعدی بداند کدام بخشها انجام شده و کدام باقی مانده است.
اجزای اصلی:
1.LLM Executor (اجراکننده):
پس از آنکه برنامهریز برنامهی کاری را تهیه کرد، وظیفهی اجرای هر مرحله به LLM Executor سپرده میشود.
این بخش از ابزارهای بیرونی برای انجام کارها استفاده میکند، مثلاً:
Search → جستجو در وب
Crawl → خزیدن و جمعآوری داده از صفحات
Video / Image → تحلیل محتوای چندرسانهای
Code / Math / Doc → اجرای کد، حل معادلات، یا خواندن اسناد
2.Tool Memory (حافظهی ابزار):
هر بار که اجراکننده ابزار را استفاده میکند، نتیجه را در حافظه ذخیره میکند تا سیستم در آینده به آن ارجاع دهد یا خطاها را اصلاح کند.
3.Tool Register و MCP Protocol:
این پروتکل به مدل اجازه میدهد با ابزارها از طریق JSON حرف بزند — درست مثل برنامهنویسی که توابع را فراخوانی میکند.
همکاری بین دو مرحله :
کاربر سؤال میپرسد.
Planner تحلیل میکند و تجربههای مشابه را از حافظه میخواند.
پرسش را به زیروظایف خرد میکند.
Executor آنها را اجرا میکند.
نتایج بازمیگردند و در صورت نیاز، برنامهریز دوباره طرح میریزد.
در پایان، پاسخ نهایی تولید میشود و تجربهی جدید در Case Bank ذخیره میشود.
نتایج شگفتانگیز: وقتی حافظه از آموزش قویتر است
Memento در آزمونها عملکرد فوقالعادهای نشان داده است
- در مجموعهداده GAIA با دقت ۸۷.۸۸٪، رتبهی نخست جهان را بهدست آورده است.
- در DeepResearcher، امتیاز F1 = ۶۶.۶٪ و PM = ۸۰.۴٪ را ثبت کرده است.
- در SimpleQA به دقت ۹۵٪ رسیده و در Humanity’s Last Exam (HLE) عملکردی نزدیک به GPT-۵ نشان داده است.
افزودن حافظهی موردی دقت را ۴ تا ۹ درصد افزایش میدهد.
کاربردهای آینده و تأثیرات بلندمدت
کاربرد بلندمدت Memento بسیار گسترده و تحولآفرین است، چون این فناوری عملاً پایهی هوش مصنوعی خودیادگیرنده (Self-Learning AI) را میسازد.
۱. هوش مصنوعی با یادگیری مداوم (Continual Learning AI)
Memento به عاملها اجازه میدهد بدون بازآموزی، در طول زمان رشد کنند.
چنین سیستمهایی هیچوقت منسوخ نمیشوند و با هر تجربه، هوشمندتر میشوند — درست مثل انسانها.
۲. پژوهش علمی و کشف خودکار دانش
عاملهای پژوهشی مجهز به Memento میتوانند خودشان آزمایش کنند، تحلیل انجام دهند و از اشتباهاتشان بیاموزند.مقاله “ترکیب RAG Fine-TUNING :نبرد دو روش برای آموزش مدل های زبانی بزرگ” را حتما مطالعه کنید.
در آینده، این عاملها بخش بزرگی از پژوهشهای علمی، پزشکی و مهندسی را خودکار انجام خواهند داد.
جمعبندی نهایی
Memento فقط یک پیشرفت فنی نیست — یک دگرگونی بنیادین در تفکر دربارهی هوش مصنوعی است.
این فناوری نشان میدهد آیندهی هوش مصنوعی نه در بزرگتر کردن مدلها، بلکه در ساخت عاملهایی است که از تجربههای خود یاد میگیرند.
با چنین رویکردی، هوش مصنوعی شریک واقعی انسان در یادگیری و رشد میشود .


بدون دیدگاه