BDH جوجه اژدها پل بین مدل مغزی و معماری ترنسفورمر

BDH (جوجه اژدها)؛ معماری پلی نوین میان ترنسفورمر و مدل‌های مغزی

معماری هوش مصنوعی معمولاً دو قطب دارد: معماری ترنسفورمر و مدل زیست مغزی. هر کدام جهان خودشان را دارند. اما اخیراً مقاله‌ای منتشر شده با عنوان «جوجه اژدها: حلقه گمشده بین ترنسفورمر و مدل‌های زیست مغزی» که ادعا می‌کند می‌تواند «پل» بین این دو جهان بسازد. در این مطلب می‌خواهیم ببینیم جوجه اژدها چیست، چگونه عمل می‌کند، چرا مهم است و چه تأثیری ممکن است بر آینده‌ی هوش مصنوعی داشته باشد.

مقدمه: دو جهان متفاوت

پیش از اینکه وارد شرح معماری جوجه اژدها بشویم، باید با دو دنیا آشنا شویم:

معماری ترنسفورمر
مدل زیست مغزی

و بفهمیم چه چیزی آن‌ها را از هم جدا کرده است — و چرا ساختن یک «پل» بینشان بزرگ است.

معماری ترنسفورمر چیست؟

معماری ترنسفورمر (Transformer) به عنوان یکی از پایه‌های اصلی مدل‌های زبانی بزرگ شناخته می‌شود.
در این معماری:

ورودی (مثلاً یک جمله) ابتدا به بردارهای عددی تبدیل می‌شود (embedding).
سپس هر توکن (کلمه یا نماد) می‌تواند به تمام توکن‌های دیگر «توجه» کند (attention).
عملیات attention معمولاً به شکل ریاضی با بردارهای Query، Key و Value انجام می‌شود:

در کنار attention، بخش‌هایی به نام feedforward layers وجود دارند که تغییرات خطی و غیرخطی روی بردارها انجام می‌دهند.
یادگیری در این معماری عمدتاً از طریق گرادیان‌ها و الگوریتم‌هایی مثل Backpropagation انجام می‌شود.
ارتباط بین توکن‌ها کاملاً سراسری (global) است: هر توکن می‌تواند مستقیماً بر هر توکن دیگر تأثیر بگذارد.

مزیت بزرگ ترنسفورمر این است که امکان یادگیری روابط پیچیده بین اجزای یک توالی را فراهم می‌کند، اما مشکل اصلی آن این است که ساختارش تفاوت زیادی دارد باآنچه در مغز زیستی رخ می‌دهد.

مدل زیست مغزی چیست؟

مدل زیست مغزی (biological brain model) تلاش می‌کند عملکرد مغز واقعی را در سطح نورون‌ها و سیناپس‌ها شبیه‌سازی کند، نه فقط به عنوان معادلات خطی یا برداری، بلکه به صورت شبکه‌ای پویا.

در این مدل:

نورون واحد پردازش است؛ نورون سیگنال‌های ورودی را جمع کرده و اگر به آستانه‌ای برسد، یک پالس (spike) ارسال می‌کند.
بین نورون‌ها، سیناپس برقرار است؛ وزن سیناپس تعیین می‌کند چقدر سیگنال منتقل شود.
پلاستیسیته سیناپسی وجود دارد: یعنی وزن سیناپس‌ها می‌تواند تغییر کند با توجه به تجربه و فعالیت نورون‌ها.
یکی از مشهورترین قوانین برای به‌روزرسانی وزن سیناپس، قانون Hebb است:
اگر نورون‌ها هم‌زمان فعال شوند، اتصال بینشان قوی‌تر می‌شود.

این یادگیری غالباً محلی (local learning) است؛ یعنی هر نورون یا سیناپس فقط به وضعیت همسایگان خودش نگاه می‌کند، نه تمام شبکه به صورت متمرکز.
فعالیت نورون‌ها می‌تواند در زمان پیوسته و دینامیکی دنبال شود (نه فقط گسسته).
شبکه‌های زیستی معمولاً ماژولار هستند و اتصال‌ها اغلب سنگین‌دم (heavy-tailed degree distribution) دارند؛ یعنی تعداد کمی نورون بسیار پرتصل دارد و بسیاری نورون‌ها اتصال کمی دارند.

این مدل زیست مغزی به ما نزدیک‌تر است به آنچه در مغز واقعی اتفاق می‌افتد، اما مشکل بزرگش این است که هنوز توانایی رقابت در وظایف پیچیده زبان یا ترجمه را ندارد.

BDH چیست؟

نام کامل این مدل BDH (Dragon Hatchling) است. مقاله‌ای به‌تازگی منتشر شده با عنوان “The Dragon Hatchling: The Missing Link between the Transformer and Models of the Brain” که می‌گوید BDH می‌تواند یک پل بین معماری ترنسفورمر و مدل زیست مغزی باشد.

در BDH:

شرکت‌کنندگان مدل (نورون‌ها) به صورت locally هستند؛ یعنی نورون‌ها با نورون‌های نزدیک تعامل دارند.
وزن‌های سیناپسی روی لبه‌های یک گراف قرار دارند. وضعیت لبه‌ها (اتصالات) در حین استنتاج تغییر می‌کند.
یادگیری در زمان استنتاج از طریق قانون Hebb انجام می‌شود — یعنی اگر دو نورون هم‌زمان فعال شوند، وزن سیناپس بینشان تقویت می‌شود.
مدل BDH به شکلی طراحی شده است که تعبیرپذیری داشته باشد: وضعیت سیناپس‌ها، فعال‌سازی نورون‌ها، مفاهیم درون شبکه — همه قابل مشاهده‌اند.

نمای کلی از معماری‌ها و روابط آن‌ها: دینامیک استنتاج BDH و BDH-GPU به‌عنوان پل طبیعی بین ترنسفورمر و مدل‌های مغز عمل می‌کند. دو مکانیزم اصلی استنتاج در یک معماری استدلال، یعنی توجه و شبکه پیش‌خور، در سطح کلان از طریق عملگرهای تنسوری برای ترنسفورمر و در سطح خرد تعاملات نورونی از طریق دینامیک‌های گراف محلی برای مدل‌های مغز تعریف می‌شوند. معماری جدید BDH-GPU به‌طور طبیعی هم در سطح بردارها و هم در سطح دینامیک ذرات نورون‌ها و سیناپس‌ها تعریف می‌شود و به‌عنوان پل بین این دو رویکرد عمل می‌کند.

یک نسخه سازگار با GPU از این مدل ارائه شده است با نام BDH -GPU که مسئله‌ی اجرا در سخت‌افزار معمولی را حل می‌کند.
BDH تلاش می‌کند رفتار attention را به صورت محلی در سطح نورون‌ها بازسازی کند؛ یعنی آنچه در ترنسفورمر با ضرب ماتریسی اتفاق می‌افتد، در BDH به صورت تعامل‌های محلی لبه‌ای بازنمایی می‌شود.
در آزمایش‌ها، BDH عملکردی تقریباً مشابه GPT-2 نشان داده است.
شبکه تعامل نورون‌ها در BDH دارای ساختار ماژولار است و توزیع درجه سنگین‌دم دارد (یعنی برخی نورون‌ها خیلی متصل‌اند).

به عبارت ساده جوجه اژدها مدلی است که سعی می‌کند بهترین‌های هر دو جهان را داشته باشد. قدرت ترنسفورمر و شباهت به مغز زیستی.

نمایش سیستم فیزیکی BDH به عنوان یک مدل اسباب بازی گراف فیزیکی در یک سیستم 5 ذره‌ای که با رابط های الاستیک به یکدیگر متصل شده‌اند. دینامیک فعال ساز x,y روی گره ها که بیشتر شبیه پالس هستند و به طور منظم و در مقیاس زمانی سریع ظاهر و ناپدید میشوند. هنگامی که یک رابط الاستیک بین ذرات i و j به ترتیب در حالت های x و y جابجا شود کششی روی این رابط ظاهر می‌شود که باعث جابجایی آن (i,j)σ می‌شود که با گذشت زمان شل می‌شود.

جوجه اژدها (BDH) چگونه کار می‌کند؟

در ادامه سعی می‌کنم روند کار BDH را به شکلی ساده توضیح دهم، طوری که حتی کسی که آشنایی عمیق با هوش مصنوعی ندارد، بتواند بفهمد.

گراف نورون‌ها و لبه‌ها جوجه اژدها

تصور کن یک شبکه از نورون‌ها داریم که با لِبه‌ها (اتصالات) به هم وصل‌اند. هر لبه یک وزن دارد — مانند یک سیناپس. در ابتدای کار، وزن‌ها تنظیم شده‌اند (پارامترهای مدل).

وقتی ورودی (مثل یک کلمه) وارد مدل می‌شود، نورون‌ها فعال می‌شوند و سیگنال‌ها از طریق لبه‌ها پخش می‌شوند. این فرآیند استنتاج (inference) است.

به‌روزرسانی وزن سیناپس در زمان استنتاج

در حالت عادی، مدل‌ها ابتدا آموزش می‌بینند، سپس ثابت می‌مانند و هنگام استنتاج تغییری نمی‌کنند.
اما در BDH، وضعیت لبه‌ها (وزن سیناپس‌ها) در زمان استنتاج تغییر می‌کند بر اساس قانون Hebb. اگر نورون i و نورون j همزمان فعال شوند، وزن سیناپس بین i و j کمی تقویت می‌شود. این پدیده «پلاستیسیته سیناپسی» نامیده می‌شود.

این ویژگی باعث می‌شود BDH حافظه‌ی پویایی داشته باشد، و بتواند به مفاهیم در طول پردازش پاسخ دهد.

بازسازی مکانیزم attention به صورت محلی

یکی از نوآورانه‌ترین بخش‌ها این است که BDH نشان می‌دهد مکانیسم attention در ترنسفورمر را می‌توان به قواعد محلی لبه‌ای تبدیل کرد. یعنی به جای آنکه هر توکن به همه‌ی توکن‌ها نگاه کند، نورون‌ها به نورون‌های نزدیک‌شان نگاه می‌کنند و وزن‌های لبه را طوری به‌روزرسانی می‌کنند که در کل شبکه اثر مشابه attention ایجاد شود. این همان «پل بین دو جهان» است.

نسخه GPU و بهینه‌سازی‌های BDH

برای اینکه BDH قابل استفاده در عمل باشد، نسخه‌ای به نام BDH -GPU عرضه شده است. در این نسخه:

آرایش مدل طوری است که بتواند بر روی GPU اجرا شود.
از بلوک‌هایی به نام ReLU-lowrank استفاده می‌شود تا محاسبات بهینه‌تر باشند.
فعال‌سازی (activation) نورون‌ها مثبت و پراکنده (sparse positive activation) است: فقط بعضی مؤلفه‌ها فعالند، نه تمامی‌شان.
رفتار مدل در مقیاس‌های بزرگ مشابه رفتار ترنسفورمرها است (یعنی وقتی پارامترها افزایش می‌یابند، کاهش خطا مطابق الگوی مشابهی رخ می‌دهد).

ارتباط نورون-نورون با استفاده از گراف‌های G ∈ ξ²(n,m): تناظر بین گراف H با m یال (چپ) و گراف برهمکنش نورون-نورون G = H² (راست). این رویکرد امکان بیان انتشار سیگنال خطی را روی دسته وسیعی از گراف‌های ξ²(n,m) با استفاده از دو مرحله دینامیک خطی روی یک مدار پراکنده H فراهم می‌کند، یعنی Gz = H²z برای z ∈ (R+)n

اهمیت جوجه اژدها و کاربردها

چرا این مدل جالب و مهم است؟ در زیر چند نکته‌ی کلیدی:

پل بین دو دنیای متفاوت
معماری ترنسفورمر و مدل زیست مغزی تا امروز یکدیگر را خیلی کم درک کرده‌اند. جوجه اژدها به ما یک پل می‌دهد، یعنی می‌گوید که می‌توان مدلی داشت که هم شبیه مغز باشد و هم عملکردی مانند ترنسفورمر داشته باشد.
تعبیرپذیری (Interpretability)
برخلاف مدل‌های سیاه مثل بسیاری از مدل‌های بزرگ زبانی، در BDH وضعیت نورون‌ها و سیناپس‌ها قابل مشاهده و تفسیر است. مفهوم monosemantic synapses یکی از نتایج جذاب همین تفسیرپذیری است.
پلاستیسیته و آداپتیویته (توان تطبیق)
چون وزن‌ها در زمان استنتاج تغییر می‌کنند، BDH می‌تواند به صورت پویا به داده‌های جدید واکنش نشان دهد— چیزی که در مدل‌های کلاسیک معمول نیست.
وجود ساختار زیستی در شبکه
شبکه نورون‌ها در BDH دارای ماژولار بودن و توزیع سنگین‌دم است؛ ویژگی‌هایی که در شبکه‌های واقعی مغزی دیده شده‌اند.
کارایی رقابتی
در مقیاس بین ۱۰ میلیون تا ۱ میلیارد پارامتر، BDH توانسته عملکردی مشابه GPT-2 نشان دهد، یعنی ثابت کرده که این ایده فقط تئوری نیست بلکه قابل اجراست.

چالش‌ها و محدودیت‌های BDH

با وجود جذاب بودن مدل، چند نکته مشکل‌ساز وجود دارد:

عملکرد BDH در مقیاس‌های بسیار بزرگ (چند ده‌ها میلیارد پارامتر) هنوز اثبات نشده است.
پیچیدگی محاسبات و منابع سخت‌افزاری ممکن است مانع اجرای واقعی آن در صنایع شود.
ادعای زیست‌پسند بودن باید با داده‌های بیولوژیکی تأیید شود؛ ممکن است مغز واقعی متفاوت عمل کند.
تعمیم به حوزه‌های غیر زبانی (مانند بینایی، کنترل، تصاویر) هنوز بررسی نشده است.
پایداری یادگیری محلی، همگرایی قوانین دینامیکی، جلوگیری از نوسان — این موارد در مدل‌های دینامیکی نیاز به بررسی عمیق دارند.

چگونه BDH می‌تواند در آینده تأثیر بگذارد؟

BDH باعث هدایت تحقیقات بین علوم عصبی و یادگیری ماشین به سمت مدل‌هایی که هم کارا هستند هم قابل فهم.
سازگاری بهتر مدل‌های زبانی با انسان، چون مفاهیم درون شبکه تفسیرپذیرند.
فرصت برای ترکیب ماژول‌ها، “جراحی مدل” (model surgery) و ادغام بخش‌های مختلف از مدل‌های متفاوت.
امکان ایجاد چارچوبی مانند «محدودیت ترمودینامیکی (Thermodynamic Limit)» برای رفتار مدل در مقیاس بزرگ.
کمک به طراحی سیستم‌های ایمن‌تر و قابل پیش‌بینی‌تر در آینده‌ی هوش مصنوعی.

جمع‌بندی و نتیجه‌گیری

در این مطلب فهمیدیم:

معماری ترنسفورمر چگونه کار می‌کند، ارتباط سراسری‌اش با توکن‌ها چیست، و ضعف‌هایش کجاست.
مدل زیست مغزی چه مفهومی دارد، چگونه نورون و سیناپس را شبیه‌سازی می‌کند و محدودیت‌هایش کدام است.
جوجه اژدها (BDH) چیست: مدلی که می‌کوشد بین این دو جهان یک پل واقعی بسازد، یعنی قدرت ترنسفورمر + ساختار زیستی را باهم داشته باشد.
مزایا، چالش‌ها و چشم‌اندازهای آینده‌ی این مدل را مرور کردیم.

ABZ Shiri

آبان 8, 1404