rLLM (relationLLM): یک کتابخانه PyTorch طراحی شده برای یادگیری جدول رابطهای (RTL) با مدلهای زبانی بزرگ (LLM)
مدلهای زبانی بزرگ (LLM) به عنوان ابزارهای قدرتمندی در هوش مصنوعی ظهور کردهاند و قابلیتهای چشمگیری در درک و تولید متن نشان میدهند. این مدلها از فناوریهای پیشرفتهای مانند پیشآمادهسازی بدون نظارت در مقیاس وب، تنظیم دقیق با راهنمایی و همسو کردن ارزشها استفاده میکنند و عملکرد قوی در وظایف مختلف را نشان میدهند. با این حال، کاربرد LLMها برای دادههای بزرگ دنیای واقعی با چالشهای قابل توجهی روبرو است که عمدتاً به دلیل هزینههای بسیار زیاد مرتبط با آن است.
پیشبینی میشود که تا سال 2025، هزینه کل LLMها به نزدیک به 5000 تریلیون دلار برسد که بسیار فراتر از تولید ناخالص داخلی اقتصادهای بزرگ است. این بار مالی به ویژه در پردازش متن و دادههای ساختاریافته برجسته است که با وجود حجم کمتر نسبت به دادههای چندرسانهای، بخش قابل توجهی از هزینهها را تشکیل میدهند. در نتیجه، در سالهای اخیر تمرکز فزایندهای بر یادگیری جدول رابطهای (RTL) وجود داشته است، زیرا پایگاههای داده رابطهای تقریباً 73 درصد از دادههای جهان را در خود جای دادهاند.
محققان دانشگاه جیائوتونگ شانگهای و دانشگاه تسینگهوا پروژه rLLM (relationLLM) را ارائه میکنند که با ارائه پلتفرمی برای توسعه سریع روشهای نوع RTL با استفاده از LLMها، به چالشهای RTL پاسخ میدهد. این رویکرد نوآورانه بر روی دو عملکرد اصلی تمرکز دارد: تجزیه شبکههای عصبی گراف (GNN)، LLMها و شبکههای عصبی جدول (TNN) پیشرفته به ماژولهای استاندارد و امکان ساخت مدلهای قوی از طریق یک روش “ترکیب، همراستایی و آموزش مشترک”. برای نشان دادن کاربرد rLLM، یک روش ساده RTL به نام BRIDGE معرفی میشود. BRIDGE دادههای جدول را با استفاده از TNNها پردازش میکند و از “کلیدهای خارجی” در جداول رابطهای برای ایجاد روابط بین نمونههای جدول استفاده میکند که سپس با استفاده از GNNها تحلیل میشوند. این روش چندین جدول و ارتباطات آنها را در نظر میگیرد و رویکردی جامع برای تحلیل دادههای رابطهای ارائه میدهد. همچنین، برای رفع کمبود مجموعه دادهها در زمینه نوظهور RTL، پروژه مجموعه داده قوی به نام SJTUTables را معرفی میکند که شامل سه مجموعه داده جدول رابطهای است: TML1M، TLF2K و TACM12K.
پروژه rLLM یک معماری جامع متشکل از سه لایه اصلی معرفی میکند: لایه موتور داده، لایه ماژول و لایه مدل. این ساختار برای تسهیل پردازش و تحلیل کارآمد دادههای جدول رابطهای طراحی شده است.
لایه موتور داده پایه را تشکیل میدهد و بر ساختارهای داده اساسی برای دادههای گراف و جدول تمرکز دارد. این لایه بارگذاری و ذخیره سازی دادهها را از طریق زیر کلاسهای Dataset و BaseGraph/BaseTable به ترتیب جدا میکند. این طراحی امکان مدیریت انعطافپذیر انواع مختلف دادههای گراف و جدول را فراهم میکند و ذخیره سازی و پردازش را برای هر دو گراف همگن و ناهمگن و همچنین دادههای جدول بهینه میکند.
لایه ماژول عملیات GNNها، LLMها و TNNها را به زیرماژولهای استاندارد تجزیه میکند. برای GNNها، شامل GraphTransform برای پیشپردازش و GraphConv برای پیادهسازی لایههای کانولوشن گراف است. ماژولهای LLM شامل یک Predictor برای برچسبگذاری دادهها و یک Enhancer برای افزایش دادهها هستند. ماژولهای TNN شامل TableTransform برای نگاشت ویژگیها به فضاهای با ابعاد بالاتر و TableConv برای یادگیری تعاملی چند لایه بین ستونهای ویژگی هستند.
BRIDGE کاربرد rLLM را در روشهای نوع RTL نشان میدهد.
این روش با پردازش هم ویژگیهای جدول و هم ویژگیهای غیرجدولی، پیچیدگی پایگاه داده رابطه ای را برطرف میکند. یک Table Encoder با استفاده از ماژولهای TableTransform و TableConv، دادههای جدول ناهمگن را برای تولید امبدینگهای جدول پردازش میکند. یک Graph Encoder با استفاده از ماژولهای GraphTransform و GraphConv، روابط کلید خارجی را مدلسازی کرده و امبدینگهای گراف را تولید میکند. BRIDGE خروجیهای هر دو انکودر را ادغام میکند که امکان مدلسازی همزمان دادههای چندجدولی و ارتباطات بین آنها را فراهم میکند. این چارچوب از هر دو رویکرد آموزش نظارتشده و بدون نظارت پشتیبانی میکند و با سناریوهای مختلف داده و اهداف یادگیری سازگار است.
دیدگاهتان را بنویسید