مدل‌سازی زبانی مبتنی بر شبکه‌های عصبی

نوع مقاله : کرسی ترویجی

نویسنده

گروه رایانه، دانشگاه علامه طباطبائی

10.22054/ijdli.2021.20004

چکیده

مدل‌های زبانی به انتساب احتمال به کلمات در دنباله‌های لغات می‌پردازند که از این احتمالات در پیش‌بینی کلمة بعدی در کاربردهای مختلف پردازش زبان استفاده می‌شود. ساده‌ترین مدل‌های زبانی یعنی مدل‌های ‌n-تایی، وابستگی‌های دور میان کلمات را درنظر نمی‌گیرند. یکی از راه‌های رفع این مشکل، مدل‌سازی زبانی با شبکه عصبی است. از انواع مختلف شبکه‌های عصبی مانند شبکه‌های جلورو و شبکه‌های بازگشتی برای مدل‌سازی زبانی استفاده می‌شود. شبکه‌های عصبی از بردارهای حاصل از جاسازی کلمات در ورودی خود استفاده می‌کنند که قدرت تعمیم شبکه را در مدل‌سازی افزایش می‌دهد. در این پژوهش از نوع خاصی از شبکه‌های بازگشتی به نام شبکه‌های عصبی با حافظة کوتاه‌مدت ماندگار (LSTM) برای مدل‌سازی زبان فارسی استفاده شده است. در شبکه‌های LSTM، به‌جای نرون‌های معمولی از واحدهای حافظه استفاده می‌شود که مشکل محوشدن گرادیان را در شبکه‌های بازگشتی استاندارد حل می‌کند. شبکه‌های LSTM یک‌طرفه و دوطرفه با استفاده از یک پیکرة متنی 100 میلیون کلمه‌ای فارسی آموزش داده شده‌اند. این شبکه‌ها دارای 30 هزار نرون در لایه‌های ورودی و خروجی، به تعداد کلمات واژگان و دو لایة مخفی می‌باشند. مدل زبانی حاصل از این شبکه‌ها حدود 57% کاهش در سرگشتگی را نسبت به مدل پایة سه‌تایی نشان داده‌اند.

کلیدواژه‌ها