جستجو برای:
  • صفحه اصلی
  • دوره های آموزشی
  • محصولات
    • دیجیتا (به زودی)
    • اسمارتیز (به زودی)
  • کتب آموزشی
  • مشاوره AI
  • رویدادها
  • وبلاگ
  • درباره ما
  • تماس با ما
  • حساب کاربری من
 
آکادمی هوش مصنوعی اسمارترا
  • صفحه اصلی
  • دوره های آموزشی
  • محصولات
    • دیجیتا (به زودی)
    • اسمارتیز (به زودی)
  • کتب آموزشی
  • مشاوره AI
  • رویدادها
  • وبلاگ
  • درباره ما
  • تماس با ما
  • حساب کاربری من
0

ورود و ثبت نام

بلاگ

آکادمی هوش مصنوعی اسمارترابلاگمقالاتهوش مصنوعیکتابخانه LLM Compressor

کتابخانه LLM Compressor

28 مرداد 1403
ارسال شده توسط ساناز حسین زاده
مقالات ، هوش مصنوعی
234 بازدید

شرکت Neural Magic کتابخانه‌ای جدید به نام LLM Compressor منتشر کرده است، که یک ابزار پیشرفته برای بهینه‌سازی مدل‌های زبان بزرگ (LLM) است و با استفاده از فشرده‌سازی مدل به طور قابل‌توجهی سرعت استنتاج را افزایش می‌دهد. این ابزار یک گام مهم در راستای هدف Neural Magic برای فراهم کردن راه‌حل‌های متن‌باز و با عملکرد بالا برای جامعه یادگیری عمیق، به ویژه در چارچوب vLLM، محسوب می‌شود.

LLM Compressor مشکلاتی که در گذشته ناشی از پراکندگی ابزارهای فشرده‌سازی مدل‌ها وجود داشت را کاهش می‌دهد؛ به این معنا که کاربران دیگر نیازی به توسعه کتابخانه‌های سفارشی متعدد مانند AutoGPTQ، AutoAWQ و AutoFP8 برای اعمال الگوریتم‌های خاص کوانتیزاسیون و فشرده‌سازی ندارند. این ابزارهای پراکنده در یک کتابخانه واحد به نام LLM Compressor جمع‌آوری شده‌اند تا الگوریتم‌های فشرده‌سازی پیشرفته‌ای مانند GPTQ، SmoothQuant، و SparseGPT به راحتی اعمال شوند. این الگوریتم‌ها برای ایجاد مدل‌های فشرده طراحی شده‌اند که با کاهش تأخیر استنتاج و حفظ دقت بالا، برای محیط‌های تولیدی بسیار مناسب هستند.

 

دومین پیشرفت فنی کلیدی که LLM Compressor به ارمغان می‌آورد، پشتیبانی از کوانتیزاسیون فعال‌سازی‌ها و وزن‌ها است. به ویژه، کوانتیزاسیون فعال‌سازی برای اطمینان از استفاده از هسته‌های تانسور INT8 و FP8 اهمیت دارد، که برای محاسبات با عملکرد بالا در معماری‌های جدید GPU شرکت NVIDIA، مانند معماری‌های Ada Lovelace و Hopper، بهینه‌سازی شده‌اند. این قابلیت در تسریع کارهای محاسباتی محدود، که گلوگاه محاسباتی با استفاده از واحدهای حسابی با دقت کمتر کاهش می‌یابد، بسیار مهم است. این بدان معناست که با کوانتیزاسیون فعال‌سازی‌ها و وزن‌ها، LLM Compressor امکان افزایش عملکرد استنتاج تا دو برابر را فراهم می‌کند، به ویژه در شرایط بارگذاری بالای سرور. مدل‌های بزرگ مانند Llama 3.1 70B نشان داده‌اند که با استفاده از LLM Compressor، عملکرد تأخیر مدل به نسخه غیرکوانتیزه‌ای که بر روی چهار GPU اجرا می‌شود، نزدیک است، با این تفاوت که تنها از دو GPU استفاده می‌کند.

علاوه بر کوانتیزاسیون فعال‌سازی، LLM Compressor از کمیابی ساختاری پیشرفته، 2:4، و حذف وزن‌ها با استفاده از SparseGPT نیز پشتیبانی می‌کند. این حذف وزن به‌طور انتخابی پارامترهای اضافی را حذف می‌کند تا با کاهش اندازه مدل تا 50%، دقت حفظ شود. علاوه بر تسریع استنتاج، این ترکیب کوانتیزاسیون و حذف وزن همچنین مصرف حافظه را به حداقل می‌رساند و امکان استقرار مدل‌های LLM در سخت‌افزارهای با منابع محدود را فراهم می‌کند.

LLM Compressor به گونه‌ای طراحی شده که به راحتی در هر اکوسیستم متن‌باز، به ویژه هاب مدل Hugging Face، یکپارچه شود، از طریق بارگذاری و اجرای آسان مدل‌های فشرده شده در چارچوب vLLM. همچنین این ابزار با پشتیبانی از انواع طرح‌های کوانتیزاسیون، شامل کنترل دقیق بر کوانتیزاسیون مانند کوانتیزاسیون بر اساس هر تانسور یا هر کانال برای وزن‌ها و کوانتیزاسیون بر اساس هر تانسور یا هر توکن برای فعال‌سازی، این قابلیت را گسترش می‌دهد. این انعطاف‌پذیری در استراتژی کوانتیزاسیون، امکان تنظیم بسیار دقیق مدل‌ها بر اساس نیازهای عملکردی و دقتی در سناریوهای مختلف استقرار را فراهم می‌کند.

 

از نظر فنی، LLM Compressor به گونه‌ای طراحی شده است که با معماری‌های مدل مختلف کار کند و قابلیت گسترش داشته باشد. این ابزار نقشه راه فعالی دارد که شامل گسترش پشتیبانی به مدل‌های MoE، مدل‌های زبان-تصویر و پلتفرم‌های سخت‌افزاری غیر از NVIDIA می‌شود. دیگر حوزه‌های نقشه راه شامل توسعه تکنیک‌های پیشرفته کوانتیزاسیون مانند AWQ و ابزارهایی برای ایجاد طرح‌های کوانتیزاسیون غیر یکنواخت است؛ که انتظار می‌رود کارایی مدل را بیشتر بهبود بخشد.

در نتیجه، LLM Compressor به ابزاری مهم برای پژوهشگران و متخصصان تبدیل شده است که بهینه‌سازی LLM‌ها برای استقرار در محیط‌های تولیدی را ممکن می‌سازد. این ابزار متن‌باز است و دارای ویژگی‌های پیشرفته‌ای است که فشرده‌سازی مدل‌ها را آسان‌تر کرده و بهبودهای عملکردی قابل‌توجهی را بدون تأثیر منفی بر یکپارچگی مدل‌ها فراهم می‌کند. LLM Compressor و ابزارهای مشابه نقش بسیار مهمی در آینده خواهند داشت، زمانی که هوش مصنوعی همچنان در حال مقیاس‌گذاری برای استقرار کارآمد مدل‌های بزرگ در محیط‌های سخت‌افزاری متنوع باشد و آنها را برای کاربردهای گسترده‌تر قابل دسترس‌تر کند.

اشتراک گذاری:
در تلگرام
کانال ما را دنبال کنید!
در اینستاگرام
ما را دنبال کنید!

مطالب زیر را حتما مطالعه کنید

VOGIC AI
هوش مصنوعی VOGIC برای تحلیل بهتر ویدئوهای مداربسته
مایکروسافت از دراگون کوپایلت رونمایی کرد؛ دستیار هوش مصنوعی پزشکان
مایکروسافت از دراگون کوپایلت رونمایی کرد؛ دستیار هوش مصنوعی پزشکان
مایکروسافت AI مدل LongRoPE2 را معرفی کرد
مایکروسافت AI مدل LongRoPE2 را معرفی کرد
الکسا پلاس معرفی شد؛ تحولی عظیم در دستیار هوش مصنوعی آمازون
الکسا پلاس معرفی شد؛ تحولی عظیم در دستیار هوش مصنوعی آمازون
هوش مصنوعی GPT-4.5
هوش مصنوعی GPT-4.5 رونمایی شد
تازه‌های دنیای رباتیک
تازه‌های دنیای رباتیک | جدیدترین پیشرفت‌های ربات‌ها در سال ۲۰۲۵

دیدگاهتان را بنویسید لغو پاسخ

جستجو برای:
نوشته‌های تازه
  • کتابخانه OpenCVدر پایتون
  • هوش مصنوعی VOGIC برای تحلیل بهتر ویدئوهای مداربسته
  • علی‌بابا «Babel» را منتشر کرد: یک مدل زبانی بزرگ چندزبانه متن‌باز که به بیش از ۹۰٪ از گویشوران جهان خدمات‌رسانی می‌کند.
  • مایکروسافت از دراگون کوپایلت رونمایی کرد؛ دستیار هوش مصنوعی پزشکان
  • مایکروسافت AI مدل LongRoPE2 را معرفی کرد

درباره SmartEra

تیم SmartEra به منظور افزایش دانش مردم ایران در زمینه تکنولوژی هوش مصنوعی و همچنین ترویج فرهنگ و دانش استفاده از محصولات هوش مصنوعی، فعالیت‌های متنوعی را در دست اجرا دارد. این تیم با بهره‌گیری از تخصص و تجربه‌ی اعضای خود، برنامه‌های آموزشی جامعی را در قالب دوره‌های آنلاین و حضوری برگزار می‌کند.

دسترسی سریع
  • صفحه اصلی
  • درباره ما
  • دوره های آموزشی
  • مشاوره AIize
  • تماس با ما
  • سبد خرید
  • بلاگ

@2024کلیه حقوق این سایت نزد اسمارترا محفوظ است.

ورود

رمز عبور را فراموش کرده اید؟

هنوز عضو نشده اید؟ عضویت در سایت