Tencent مدل Hunyuan Large را منتشر کرد
“Hunyuan-Large؛ مدل زبان بزرگ متنباز تنسنت با ۳۸۹ میلیارد پارامتر”
تنسنت (Tencent) مدل جدید هوش مصنوعی Hunyuan-Large را منتشر کرده است. این مدل مبتنی بر ترنسفورمر و Mixture of Experts (MoE) است و با ۳۸۹ میلیارد پارامتر، بهعنوان بزرگترین مدل MoE متنباز معرفی شده است.
فهرست مطالب
ویژگیهای کلیدی Hunyuan-Large
- معماری پیشرفته MoE:
Hunyuan-Large با استفاده از ۵۲ میلیارد پارامتر فعال، میتواند به طور انتخابی از اجزای متخصص استفاده کرده و عملکردی کارآمدتر ارائه دهد. - توانایی پردازش توکنهای طولانی:
این مدل قادر است کانتکستهایی با طول ۲۵۶ هزار توکن را مدیریت کند، که در مقایسه با بسیاری از مدلهای زبان بزرگ (LLM) فعلی، پیشرفت بزرگی محسوب میشود. - پیشآموزش با دادههای گسترده:
این مدل با استفاده از ۷ تریلیون توکن پیشآموزش دیده است، ازجمله ۱.۵ تریلیون توکن داده مصنوعی برای تقویت مهارتهایی مانند ریاضیات، کدنویسی و پردازش چندزبانه.
پیشرفتهای فنی
- فشردهسازی کش KV:
این ویژگی به طور قابلتوجهی بار حافظه را کاهش داده و امکان پردازش کارآمدتر در مقیاسهای بزرگ را فراهم میکند. - نرخ یادگیری خاص برای هر کارشناس:
این نوآوری به اجزای مدل اجازه میدهد با کارایی بیشتری آموزش ببینند و بار محاسباتی را بین کارشناسان عمومی و تخصصی متعادل میکند.
عملکرد در بنچمارکها
مدل Hunyuan-Large توانسته در بنچمارکهای مختلف از بسیاری از مدلهای رقیب پیشی بگیرد:
- کسب نمره 88.4 در MMLU، که از مدل LLama3.1-405B با نمره 85.2 بالاتر است.
- توانایی برتر در انجام وظایفی مانند پاسخ به سوالات، استدلال منطقی، کدنویسی و درک متنهای طولانی.
اهمیت انتشار متنباز
Hunyuan-Large بهعنوان یک مدل متنباز با کد منبع و نقاط چک پیشآموزش دادهشده منتشر شده است. این اقدام، زمینه را برای تحقیقات هوش مصنوعی و توسعههای بیشتر فراهم کرده و دسترسی جامعه هوش مصنوعی به مدلهای مقیاس بزرگ را گسترش میدهد.
نتیجهگیری
مدل Hunyuan-Large از تنسنت، گامی بزرگ در توسعه مدلهای MoE و هوش مصنوعی مقیاسپذیر است. با بهرهگیری از معماری پیشرفته، دادههای گسترده و عملکرد چشمگیر در بنچمارکها، این مدل فرصتهای جدیدی را برای کاربردهای مختلف از پردازش زبان طبیعی تا تحقیقات علمی ایجاد میکند.
دیدگاهتان را بنویسید