کتابخانه LLM Compressor
شرکت Neural Magic کتابخانهای جدید به نام LLM Compressor منتشر کرده است، که یک ابزار پیشرفته برای بهینهسازی مدلهای زبان بزرگ (LLM) است و با استفاده از فشردهسازی مدل به طور قابلتوجهی سرعت استنتاج را افزایش میدهد. این ابزار یک گام مهم در راستای هدف Neural Magic برای فراهم کردن راهحلهای متنباز و با عملکرد بالا برای جامعه یادگیری عمیق، به ویژه در چارچوب vLLM، محسوب میشود.
LLM Compressor مشکلاتی که در گذشته ناشی از پراکندگی ابزارهای فشردهسازی مدلها وجود داشت را کاهش میدهد؛ به این معنا که کاربران دیگر نیازی به توسعه کتابخانههای سفارشی متعدد مانند AutoGPTQ، AutoAWQ و AutoFP8 برای اعمال الگوریتمهای خاص کوانتیزاسیون و فشردهسازی ندارند. این ابزارهای پراکنده در یک کتابخانه واحد به نام LLM Compressor جمعآوری شدهاند تا الگوریتمهای فشردهسازی پیشرفتهای مانند GPTQ، SmoothQuant، و SparseGPT به راحتی اعمال شوند. این الگوریتمها برای ایجاد مدلهای فشرده طراحی شدهاند که با کاهش تأخیر استنتاج و حفظ دقت بالا، برای محیطهای تولیدی بسیار مناسب هستند.
دومین پیشرفت فنی کلیدی که LLM Compressor به ارمغان میآورد، پشتیبانی از کوانتیزاسیون فعالسازیها و وزنها است. به ویژه، کوانتیزاسیون فعالسازی برای اطمینان از استفاده از هستههای تانسور INT8 و FP8 اهمیت دارد، که برای محاسبات با عملکرد بالا در معماریهای جدید GPU شرکت NVIDIA، مانند معماریهای Ada Lovelace و Hopper، بهینهسازی شدهاند. این قابلیت در تسریع کارهای محاسباتی محدود، که گلوگاه محاسباتی با استفاده از واحدهای حسابی با دقت کمتر کاهش مییابد، بسیار مهم است. این بدان معناست که با کوانتیزاسیون فعالسازیها و وزنها، LLM Compressor امکان افزایش عملکرد استنتاج تا دو برابر را فراهم میکند، به ویژه در شرایط بارگذاری بالای سرور. مدلهای بزرگ مانند Llama 3.1 70B نشان دادهاند که با استفاده از LLM Compressor، عملکرد تأخیر مدل به نسخه غیرکوانتیزهای که بر روی چهار GPU اجرا میشود، نزدیک است، با این تفاوت که تنها از دو GPU استفاده میکند.
علاوه بر کوانتیزاسیون فعالسازی، LLM Compressor از کمیابی ساختاری پیشرفته، 2:4، و حذف وزنها با استفاده از SparseGPT نیز پشتیبانی میکند. این حذف وزن بهطور انتخابی پارامترهای اضافی را حذف میکند تا با کاهش اندازه مدل تا 50%، دقت حفظ شود. علاوه بر تسریع استنتاج، این ترکیب کوانتیزاسیون و حذف وزن همچنین مصرف حافظه را به حداقل میرساند و امکان استقرار مدلهای LLM در سختافزارهای با منابع محدود را فراهم میکند.
LLM Compressor به گونهای طراحی شده که به راحتی در هر اکوسیستم متنباز، به ویژه هاب مدل Hugging Face، یکپارچه شود، از طریق بارگذاری و اجرای آسان مدلهای فشرده شده در چارچوب vLLM. همچنین این ابزار با پشتیبانی از انواع طرحهای کوانتیزاسیون، شامل کنترل دقیق بر کوانتیزاسیون مانند کوانتیزاسیون بر اساس هر تانسور یا هر کانال برای وزنها و کوانتیزاسیون بر اساس هر تانسور یا هر توکن برای فعالسازی، این قابلیت را گسترش میدهد. این انعطافپذیری در استراتژی کوانتیزاسیون، امکان تنظیم بسیار دقیق مدلها بر اساس نیازهای عملکردی و دقتی در سناریوهای مختلف استقرار را فراهم میکند.
از نظر فنی، LLM Compressor به گونهای طراحی شده است که با معماریهای مدل مختلف کار کند و قابلیت گسترش داشته باشد. این ابزار نقشه راه فعالی دارد که شامل گسترش پشتیبانی به مدلهای MoE، مدلهای زبان-تصویر و پلتفرمهای سختافزاری غیر از NVIDIA میشود. دیگر حوزههای نقشه راه شامل توسعه تکنیکهای پیشرفته کوانتیزاسیون مانند AWQ و ابزارهایی برای ایجاد طرحهای کوانتیزاسیون غیر یکنواخت است؛ که انتظار میرود کارایی مدل را بیشتر بهبود بخشد.
در نتیجه، LLM Compressor به ابزاری مهم برای پژوهشگران و متخصصان تبدیل شده است که بهینهسازی LLMها برای استقرار در محیطهای تولیدی را ممکن میسازد. این ابزار متنباز است و دارای ویژگیهای پیشرفتهای است که فشردهسازی مدلها را آسانتر کرده و بهبودهای عملکردی قابلتوجهی را بدون تأثیر منفی بر یکپارچگی مدلها فراهم میکند. LLM Compressor و ابزارهای مشابه نقش بسیار مهمی در آینده خواهند داشت، زمانی که هوش مصنوعی همچنان در حال مقیاسگذاری برای استقرار کارآمد مدلهای بزرگ در محیطهای سختافزاری متنوع باشد و آنها را برای کاربردهای گستردهتر قابل دسترستر کند.
دیدگاهتان را بنویسید