عملکرد Fine-tuning چگونه است

راه‌حل انقلابی Memento: یادگیری مانند انسان

پایان عصر فاین‌تیون‌های سنگین؟

در سال‌های اخیر، مدل‌های زبانی بزرگی مثل GPT، Claude و Gemini مغز متفکر بسیاری از سامانه‌های هوش مصنوعی شده‌اند.اما این مدل‌ها برای پیشرفت دوباره آموزش می‌بینند (Fine-tuning) — فرآیندی پرهزینه، زمان‌بر و پرمصرف از نظر انرژی و داده.اما اکنون Memento وارد میدان شده است.
تیمی از پژوهشگران دانشگاه کالج لندن (UCL) و آزمایشگاه Huawei Noah’s Ark Lab بریتانیا روشی طراحی کرده‌اند که Memento مدل‌های زبانی را قادر می‌سازد در زمان واقعی یاد بگیرند و با موقعیت‌های تازه سازگار شوند — بدون هیچ فاین‌تیونی.

Memento چیست و چگونه کار می‌کند؟

Memento یک چارچوب یادگیری نوآورانه است که به عامل‌های هوش مصنوعی (AI Agents) قدرت می‌دهد مثل انسان‌ها از تجربه‌های خود درس بگیرند.
این سیستم بر دو پایه استوار است:
۱. یادگیری مبتنی بر حافظه (Memory-based Learning)
۲. استدلال مبتنی بر مورد (Case-Based Reasoning)

هر زمان عامل با مسئله‌ای جدید روبه‌رو شود، Memento به‌جای بازآموزی مدل، در حافظه‌اش جست‌وجو می‌کند، موقعیت‌های مشابه را پیدا می‌کند و با الهام از تجربه‌های گذشته، بهترین تصمیم را در لحظه می‌گیرد.

در واقع، Memento مثل ذهن انسان رفتار می‌کند: ما نیز هنگام چالش، به حافظه‌ی تجربیات قبلی خود تکیه می‌کنیم.

معماری Memento - یک سیستم سه‌بخشی هوشمند

چارچوب Memento از سه جزء اصلی تشکیل شده است:

برنامه‌ریز (Planner):
یک مدل زبانی (مثل GPT-4.1) نقش مغز سیستم را بازی می‌کند و مسیر حل مسئله را طراحی می‌کند.
برنامه‌ریز با مراجعه به حافظه‌ی موردی تصمیم می‌گیرد و از بازخورد محیط می‌آموزد.
اجراکننده (Executor):
این بخش ایده‌های برنامه‌ریز را به عمل تبدیل می‌کند.
اجراکننده با ابزارهای خارجی مانند مرورگر وب، موتور جست‌وجو و سامانه‌های تحلیل داده کار می‌کند.
حافظه‌ی موردی (Case Memory):
قلب تپنده‌ی Memento است.
سیستم همه‌ی تجربه‌های موفق و ناموفقش را ذخیره می‌کند تا در مأموریت‌های آینده تصمیم‌های دقیق‌تر بگیرد.

یادگیری بدون Fine-tuning، اما با بازخورد واقعی

برخلاف روش‌های سنتی که پارامترهای مدل را دوباره آموزش می‌دهند، Memento از یادگیری تقویتی آنلاین (Online Reinforcement Learning) بهره می‌گیرد.
عامل از محیط بازخورد می‌گیرد، حافظه‌اش را به‌روزرسانی می‌کند و بدون بازآموزی مدل پایه، خودش را رشد می‌دهد.

مقاله ی مرتبط با این موضوع را حتما بخوانید.

به بیان ساده، Memento به عامل عامل خودش خودش را تربیت می‌کند — درست مثل انسان.

توضیحات مربوط به مراحل بالا:

مرحله اول: Case-Based Planning (برنامه‌ریزی مبتنی بر حافظه)

این مرحله در بخش آبی چپ تصویر نشان داده شده است.

1.Case Memory (حافظه‌ی موردی):

سیستم تمام تعاملاتش را به شکل «حالت (state)، اقدام (action) و نتیجه (reward)» ذخیره می‌کند.
با گذشت زمان، این حافظه به‌صورت پیوسته و آنلاین رشد می‌کند.

2.Read Module (بخش خواندن):

وقتی کاربر پرسشی مطرح می‌کند، برنامه‌ریز از حافظه می‌خواهد تجربه‌های مشابه را بخواند و با استفاده از سیاست بازیابی مرتبط‌ترین موارد را برمی‌گزیند.

3.User Query (پرسش کاربر):

مثل مثال تصویر:“من ویدیویی در یوتیوب دیدم، لطفاً اسم شخصیت داخل تصویر را بگو.”
برنامه‌ریز باید بفهمد چطور به این سؤال پاسخ دهد.

4.Decomposed Plan (برنامه‌ی تجزیه‌شده):

برنامه‌ریز پرسش را به زیر‌وظایف تقسیم می‌کند ، مثل:

پیدا کردن شناسه ویدیو
تحلیل تصویر بندانگشتی
استخراج نام شخصیت

اگر برنامه‌ی اولیه نتیجه ندهد، سیستم فوراً طرح تازه‌ای می‌چیند (Replanning).

5.Subtask Memory (حافظه‌ی زیر‌وظایف):

هر زیر‌وظیفه و نتیجه‌اش ثبت می‌شود تا سیستم بداند کدام مراحل تکمیل شده و کدام مانده است.

مرحله دوم: Tool-Based Execution (اجرای مبتنی بر ابزار)

هر زیر‌وظیفه و نتیجه‌اش در این حافظه ذخیره می‌شود تا LLM در مراحل بعدی بداند کدام بخش‌ها انجام شده و کدام باقی مانده است.

اجزای اصلی:

1.LLM Executor (اجراکننده):

پس از آن‌که برنامه‌ریز برنامه‌ی کاری را تهیه کرد، وظیفه‌ی اجرای هر مرحله به LLM Executor سپرده می‌شود.
این بخش از ابزارهای بیرونی برای انجام کارها استفاده می‌کند، مثلاً:

Search → جستجو در وب
Crawl → خزیدن و جمع‌آوری داده از صفحات
Video / Image → تحلیل محتوای چندرسانه‌ای
Code / Math / Doc → اجرای کد، حل معادلات، یا خواندن اسناد

2.Tool Memory (حافظه‌ی ابزار):

هر بار که اجراکننده ابزار را استفاده می‌کند، نتیجه را در حافظه ذخیره می‌کند تا سیستم در آینده به آن ارجاع دهد یا خطاها را اصلاح کند.

3.Tool Register و MCP Protocol:

این پروتکل به مدل اجازه می‌دهد با ابزارها از طریق JSON حرف بزند — درست مثل برنامه‌نویسی که توابع را فراخوانی می‌کند.

همکاری بین دو مرحله :

کاربر سؤال می‌پرسد.
Planner تحلیل می‌کند و تجربه‌های مشابه را از حافظه می‌خواند.
پرسش را به زیر‌وظایف خرد می‌کند.
Executor آن‌ها را اجرا می‌کند.
نتایج بازمی‌گردند و در صورت نیاز، برنامه‌ریز دوباره طرح می‌ریزد.
در پایان، پاسخ نهایی تولید می‌شود و تجربه‌ی جدید در Case Bank ذخیره می‌شود.

نتایج شگفت‌انگیز: وقتی حافظه از آموزش قوی‌تر است

Memento در آزمون‌ها عملکرد فوق‌العاده‌ای نشان داده است

در مجموعه‌داده GAIA با دقت ۸۷.۸۸٪، رتبه‌ی نخست جهان را به‌دست آورده است.
در DeepResearcher، امتیاز F1 = ۶۶.۶٪ و PM = ۸۰.۴٪ را ثبت کرده است.
در SimpleQA به دقت ۹۵٪ رسیده و در Humanity’s Last Exam (HLE) عملکردی نزدیک به GPT-۵ نشان داده است.
افزودن حافظه‌ی موردی دقت را ۴ تا ۹ درصد افزایش می‌دهد.

کاربردهای آینده و تأثیرات بلندمدت

کاربرد بلندمدت Memento بسیار گسترده و تحول‌آفرین است، چون این فناوری عملاً پایه‌ی هوش مصنوعی خودیادگیرنده (Self-Learning AI) را می‌سازد.

۱. هوش مصنوعی با یادگیری مداوم (Continual Learning AI)

Memento به عامل‌ها اجازه می‌دهد بدون بازآموزی، در طول زمان رشد کنند.
چنین سیستم‌هایی هیچ‌وقت منسوخ نمی‌شوند و با هر تجربه، هوشمندتر می‌شوند — درست مثل انسان‌ها.

۲. پژوهش علمی و کشف خودکار دانش

عامل‌های پژوهشی مجهز به Memento می‌توانند خودشان آزمایش کنند، تحلیل انجام دهند و از اشتباهاتشان بیاموزند.مقاله “ترکیب RAG Fine-TUNING :نبرد دو روش برای آموزش مدل های زبانی بزرگ” را حتما مطالعه کنید.
در آینده، این عامل‌ها بخش بزرگی از پژوهش‌های علمی، پزشکی و مهندسی را خودکار انجام خواهند داد.

جمع‌بندی نهایی

Memento فقط یک پیشرفت فنی نیست — یک دگرگونی بنیادین در تفکر درباره‌ی هوش مصنوعی است.
این فناوری نشان می‌دهد آینده‌ی هوش مصنوعی نه در بزرگ‌تر کردن مدل‌ها، بلکه در ساخت عامل‌هایی است که از تجربه‌های خود یاد می‌گیرند.

با چنین رویکردی، هوش مصنوعی شریک واقعی انسان در یادگیری و رشد می‌شود .

توسعه هوش مصنوعی بنو

آذر 6, 1404