امروز:15 مرداد 1404

عرضه مدل‌های زبان بزرگ جدید با وزن باز توسط OpenAI پس از شش سال

پس از گذشت شش سال از معرفی GPT-2 در سال ۲۰۱۹، شرکت OpenAI بالاخره مدل‌های زبان بزرگ جدیدی با وزن باز (Open-weight) منتشر کرده است. این اتفاق، نقطه عطفی مهم برای شرکتی محسوب می‌شود که در سال‌های اخیر با انتقادهایی درباره فاصله گرفتن از مأموریت اولیه خود — یعنی «اطمینان از بهره‌مندی تمام بشریت از هوش مصنوعی عمومی» — مواجه شده بود. اکنون و پس از چندین تأخیر جهت انجام آزمون‌های ایمنی بیشتر، دو مدل gpt-oss-120b و gpt-oss-20b از طریق پلتفرم Hugging Face در دسترس عموم قرار گرفته‌اند.

نکته‌ای که باید روشن شود این است که OpenAI کد منبع یا داده‌های آموزشی این مدل‌ها را منتشر نکرده، بلکه صرفاً وزن‌های آموزش‌دیده آن‌ها را ارائه داده است. به زبان ساده، وزن‌ها مجموعه‌ای از مقادیر عددی هستند که مدل حین آموزش آن‌ها را برای درک ورودی‌ها آموخته است. بر اساس توضیح دکتر بنجامین لی، استاد دانشگاه پنسیلوانیا، مدل‌های Open-weight با مدل‌های Open-source تفاوت‌های اساسی دارند.

او می‌گوید: «مدل‌های وزن باز به شما اجازه می‌دهند تا از همان ابتدا از مدل استفاده کنید یا آن را برای نیازهای خاص خود بازتعریف و تنظیم نمایید. در حالی که مدل‌های تجاری مانند جعبه سیاه هستند و مدل‌های متن‌باز امکان شخصی‌سازی کامل را فراهم می‌کنند، مدل‌های وزن باز در حد میانی قرار می‌گیرند.»

OpenAI احتمالاً از ارائه مدل‌های کاملاً متن‌باز اجتناب کرده تا از سوء‌استفاده رقبا و مهندسی معکوس جلوگیری کند. زیرا در مدل‌های متن‌باز، علاوه بر وزن‌ها، کد و روند آموزش نیز افشا می‌شود. همچنین در عمل، استفاده از چنین مدل‌هایی نیازمند سخت‌افزار بسیار قدرتمند و گران‌قیمت است که برای کاربران عادی مقرون‌به‌صرفه نیست. البته برای پژوهشگرانی که به دنبال بررسی داده‌های آموزشی هستند، مدل‌های متن‌باز مانند Mistral NeMo یا Mistral Small 3 ارزش بالایی دارند.

در مورد دو مدل جدید OpenAI، تفاوت اصلی در تعداد پارامترهای آن‌هاست. gpt-oss-120b دارای ۱۱۷ میلیارد پارامتر و gpt-oss-20b حدود ۲۱ میلیارد پارامتر دارد. هر چه تعداد پارامترها بیشتر باشد، مدل هوشمندتر و البته سنگین‌تر خواهد بود. اجرای مدل بزرگ‌تر نیاز به یک کارت گرافیک ۸۰ گیگابایتی دارد، اما مدل کوچکتر را می‌توان روی رایانه‌ای با ۱۶ گیگابایت رم نیز اجرا کرد؛ یعنی حتی روی سیستم‌های خانگی هم قابل استفاده است.

جالب‌تر اینکه این مدل‌ها تحت لایسنس Apache 2.0 منتشر شده‌اند که امکان استفاده، تغییر و توسعه کاملاً آزاد را به کاربران می‌دهد. این یعنی توسعه‌دهندگان، محققان یا حتی استارتاپ‌ها می‌توانند آن‌ها را به سادگی مطابق با نیاز خود سفارشی‌سازی کنند.

با وجود اینکه این مدل‌ها به‌صورت تجاری عرضه نشده‌اند، OpenAI اعلام کرده که از نظر عملکرد، در بسیاری از موارد با مدل‌های تجاری خود قابل مقایسه هستند. تنها محدودیت فعلی این مدل‌ها، نداشتن قابلیت ورودی چندرسانه‌ای (مانند عکس، صدا یا ویدیو) است. برای بهره‌مندی از این امکانات همچنان نیاز به مدل‌های مبتنی بر فضای ابری OpenAI وجود دارد.

با این حال، قابلیت‌هایی مانند استدلال زنجیره‌ای (Chain-of-Thought) و استفاده از ابزارها در این مدل‌ها وجود دارد. به‌عبارتی، می‌توانند مسائل پیچیده را به گام‌های کوچک‌تر تقسیم کرده و حتی با استفاده از وب یا زبان‌های برنامه‌نویسی مانند Python، حل مسئله را کامل کنند.

OpenAI برای آموزش این مدل‌ها از تکنیک‌هایی مشابه آنچه در مدل‌های پیشرفته قبلی مانند o3 به‌کار رفته استفاده کرده است. در آزمایش‌های برنامه‌نویسی سطح بالا، gpt-oss-120b تنها کمی پایین‌تر از o3 امتیاز کسب کرده و مدل gpt-oss-20b بین دو مدل o3-mini و o4-mini قرار گرفته است. البته باید منتظر آزمون‌های کاربردی بیشتر باشیم تا عملکرد واقعی آن‌ها در مقایسه با سایر مدل‌ها مشخص شود.

عرضه این دو مدل در حالی انجام شده که مارک زاکربرگ اعلام کرده بود شرکت Meta قصد دارد عرضه مدل‌های متن‌باز را محدودتر کند. این تصمیم، در تضاد با رویکرد قبلی اوست که تأکید زیادی بر متن‌باز بودن سیستم‌های هوش مصنوعی داشت. حالا با انتشار مدل‌های OpenAI، مقایسه‌ای ناخواسته برای Meta رقم خورده که در میان علاقه‌مندان فناوری، ممکن است ناخوشایند تلقی شود.

در نهایت، به‌گفته دکتر لی، مدل‌های وزن باز می‌توانند دسترسی به مدل‌های قدرتمند هوش مصنوعی را برای افرادی که دسترسی به زیرساخت‌های ابری گسترده ندارند، ممکن کنند. OpenAI نیز اعلام کرده در حال همکاری با نهادهایی مانند AI Sweden برای پیاده‌سازی این مدل‌هاست. به گفته تیم توسعه‌دهنده، این پروژه در حال حاضر به‌نوعی آزمایشی است و در صورت استقبال کاربران، مدل‌های بیشتری از این نوع منتشر خواهند شد.

اشتراک گذاری

دیدگاهتان را بنویسید

نشانی ایمیل شما منتشر نخواهد شد. بخش‌های موردنیاز علامت‌گذاری شده‌اند *