پس از گذشت شش سال از معرفی GPT-2 در سال ۲۰۱۹، شرکت OpenAI بالاخره مدلهای زبان بزرگ جدیدی با وزن باز (Open-weight) منتشر کرده است. این اتفاق، نقطه عطفی مهم برای شرکتی محسوب میشود که در سالهای اخیر با انتقادهایی درباره فاصله گرفتن از مأموریت اولیه خود — یعنی «اطمینان از بهرهمندی تمام بشریت از هوش مصنوعی عمومی» — مواجه شده بود. اکنون و پس از چندین تأخیر جهت انجام آزمونهای ایمنی بیشتر، دو مدل gpt-oss-120b و gpt-oss-20b از طریق پلتفرم Hugging Face در دسترس عموم قرار گرفتهاند.
نکتهای که باید روشن شود این است که OpenAI کد منبع یا دادههای آموزشی این مدلها را منتشر نکرده، بلکه صرفاً وزنهای آموزشدیده آنها را ارائه داده است. به زبان ساده، وزنها مجموعهای از مقادیر عددی هستند که مدل حین آموزش آنها را برای درک ورودیها آموخته است. بر اساس توضیح دکتر بنجامین لی، استاد دانشگاه پنسیلوانیا، مدلهای Open-weight با مدلهای Open-source تفاوتهای اساسی دارند.
او میگوید: «مدلهای وزن باز به شما اجازه میدهند تا از همان ابتدا از مدل استفاده کنید یا آن را برای نیازهای خاص خود بازتعریف و تنظیم نمایید. در حالی که مدلهای تجاری مانند جعبه سیاه هستند و مدلهای متنباز امکان شخصیسازی کامل را فراهم میکنند، مدلهای وزن باز در حد میانی قرار میگیرند.»
OpenAI احتمالاً از ارائه مدلهای کاملاً متنباز اجتناب کرده تا از سوءاستفاده رقبا و مهندسی معکوس جلوگیری کند. زیرا در مدلهای متنباز، علاوه بر وزنها، کد و روند آموزش نیز افشا میشود. همچنین در عمل، استفاده از چنین مدلهایی نیازمند سختافزار بسیار قدرتمند و گرانقیمت است که برای کاربران عادی مقرونبهصرفه نیست. البته برای پژوهشگرانی که به دنبال بررسی دادههای آموزشی هستند، مدلهای متنباز مانند Mistral NeMo یا Mistral Small 3 ارزش بالایی دارند.
در مورد دو مدل جدید OpenAI، تفاوت اصلی در تعداد پارامترهای آنهاست. gpt-oss-120b دارای ۱۱۷ میلیارد پارامتر و gpt-oss-20b حدود ۲۱ میلیارد پارامتر دارد. هر چه تعداد پارامترها بیشتر باشد، مدل هوشمندتر و البته سنگینتر خواهد بود. اجرای مدل بزرگتر نیاز به یک کارت گرافیک ۸۰ گیگابایتی دارد، اما مدل کوچکتر را میتوان روی رایانهای با ۱۶ گیگابایت رم نیز اجرا کرد؛ یعنی حتی روی سیستمهای خانگی هم قابل استفاده است.
جالبتر اینکه این مدلها تحت لایسنس Apache 2.0 منتشر شدهاند که امکان استفاده، تغییر و توسعه کاملاً آزاد را به کاربران میدهد. این یعنی توسعهدهندگان، محققان یا حتی استارتاپها میتوانند آنها را به سادگی مطابق با نیاز خود سفارشیسازی کنند.
با وجود اینکه این مدلها بهصورت تجاری عرضه نشدهاند، OpenAI اعلام کرده که از نظر عملکرد، در بسیاری از موارد با مدلهای تجاری خود قابل مقایسه هستند. تنها محدودیت فعلی این مدلها، نداشتن قابلیت ورودی چندرسانهای (مانند عکس، صدا یا ویدیو) است. برای بهرهمندی از این امکانات همچنان نیاز به مدلهای مبتنی بر فضای ابری OpenAI وجود دارد.
با این حال، قابلیتهایی مانند استدلال زنجیرهای (Chain-of-Thought) و استفاده از ابزارها در این مدلها وجود دارد. بهعبارتی، میتوانند مسائل پیچیده را به گامهای کوچکتر تقسیم کرده و حتی با استفاده از وب یا زبانهای برنامهنویسی مانند Python، حل مسئله را کامل کنند.
OpenAI برای آموزش این مدلها از تکنیکهایی مشابه آنچه در مدلهای پیشرفته قبلی مانند o3 بهکار رفته استفاده کرده است. در آزمایشهای برنامهنویسی سطح بالا، gpt-oss-120b تنها کمی پایینتر از o3 امتیاز کسب کرده و مدل gpt-oss-20b بین دو مدل o3-mini و o4-mini قرار گرفته است. البته باید منتظر آزمونهای کاربردی بیشتر باشیم تا عملکرد واقعی آنها در مقایسه با سایر مدلها مشخص شود.
عرضه این دو مدل در حالی انجام شده که مارک زاکربرگ اعلام کرده بود شرکت Meta قصد دارد عرضه مدلهای متنباز را محدودتر کند. این تصمیم، در تضاد با رویکرد قبلی اوست که تأکید زیادی بر متنباز بودن سیستمهای هوش مصنوعی داشت. حالا با انتشار مدلهای OpenAI، مقایسهای ناخواسته برای Meta رقم خورده که در میان علاقهمندان فناوری، ممکن است ناخوشایند تلقی شود.
در نهایت، بهگفته دکتر لی، مدلهای وزن باز میتوانند دسترسی به مدلهای قدرتمند هوش مصنوعی را برای افرادی که دسترسی به زیرساختهای ابری گسترده ندارند، ممکن کنند. OpenAI نیز اعلام کرده در حال همکاری با نهادهایی مانند AI Sweden برای پیادهسازی این مدلهاست. به گفته تیم توسعهدهنده، این پروژه در حال حاضر بهنوعی آزمایشی است و در صورت استقبال کاربران، مدلهای بیشتری از این نوع منتشر خواهند شد.
دیدگاهتان را بنویسید