تاریخ انتشار: ۱۱:۰۹ - ۱۲ فروردين ۱۴۰۲

GPT-4 چیست و چرا اهمیت دارد؟

OpenAI از انتشار آخرین مدل زبان بزرگ خود، GPT-4 خبر داد. این مدل زبان، یک مدل چندوجهی بزرگ است که می تواند هم ورودی تصویر و هم متن را بپذیرد و خروجی متن تولید کند.

GPT-4 چیست و چرا اهمیت دارد؟

رویداد۲۴  حسین فلاحی:  انتشار اخیر GPT-4 نقطه عطف مهمی در زمینه هوش مصنوعی، به ویژه در پردازش زبان طبیعی است. در این مقاله، تجزیه و تحلیل کاملی از قابلیت‌های پیشرفته آن ارائه می‌کنیم و به تاریخچه و توسعه ترانسفورماتورهای از پیش آموزش‌دیده (GPT) و به قابلیت‌های جدیدی که GPT-4 ارائه می کند خواهیم پرداخت.

تبدیل کننده تولیدگر پیش آموزش دیده (GPT) چیست؟

ترانسفورمر مولد پیش آموزش دیده (GPT) نوعی مدل یادگیری عمیق هستند که برای تولید متنی شبیه به انسان استفاده می شود. کاربردهای رایج عبارتند از

  • پاسخ دادن به سوالات
  • خلاصه کردن متن
  • ترجمه متن به زبان های دیگر
  • تولید کد
  • ایجاد پست‌های وبلاگ، داستان‌ها، گفتگوها و سایر انواع محتوا.

    برنامه های بی پایانی برای مدل های GPT وجود دارد و حتی می توانید آنها را روی داده های خاص تنظیم کنید تا نتایج بهتری ایجاد کنید. با استفاده از ترانسفورمرها، در هزینه های محاسباتی، زمان و سایر منابع صرفه جویی خواهید کرد.

قبل از GPT

انقلاب هوش مصنوعی فعلی برای زبان طبیعی تنها با اختراع مدل‌های ترانسفورمرها امکان‌پذیر شد که با BERT گوگل در سال 2017 شروع شد. شبکه های عصبی حافظه (LSTMs). اینها برای خروجی تک کلمات یا عبارات کوتاه عملکرد خوبی داشتند، اما نمی‌توانستند محتوای واقعی و طولانی‌تری تولید کنند.

رویکرد ترانسفورمر BERT یک پیشرفت بزرگ بود زیرا یک تکنیک یادگیری تحت نظارت نیست. به این معنا که برای آموزش آن نیازی به مجموعه داده مشروح گران قیمت نیست. BERT توسط گوگل برای تفسیر جستجوهای زبان طبیعی استفاده شد، با این حال، نمی تواند متنی را برای یک درخواست تولید کند.

GPT-1

GPT-1

معماری ترانسفورمر | کاغذ GPT-1

در سال 2018، OpenAI مقاله‌ای (بهبود درک زبان توسط پیش‌آموزش مولد) درباره استفاده از درک زبان طبیعی با استفاده از مدل زبان GPT-1 منتشر کرد. این مدل اثبات مفهوم بود و به صورت عمومی منتشر نشد.

GPT-2

GPT-2

مدل عملکرد در وظایف مختلف | کاغذ GPT-2

سال بعد، OpenAI مقاله دیگری را منتشر کرد (مدل های زبان، یادگیرندگان چند وظیفه ای بدون نظارت هستند) در مورد آخرین مدل خود، GPT-2. این بار، این مدل در دسترس جامعه یادگیری ماشین قرار گرفت و برای کارهای تولید متن پذیرفته شد. GPT-2 اغلب می تواند چند جمله را ایجاد کند. این در سال 2019 بسیار پیشرفته بود.

GPT-3

GPT-3

نتایج سه وظیفه QA دامنه باز | کاغذ GPT-3

در سال 2020، OpenAI مقاله دیگری در مورد مدل GPT-3 خود منتشر کرد (مدل‌های زبانی یادگیرندگان کمی هستند). این مدل 100 برابر پارامترهای بیشتری نسبت به GPT-2 داشت و بر روی یک مجموعه داده متنی حتی بزرگتر آموزش داده شد که در نتیجه عملکرد مدل بهتری داشت. این مدل با تکرارهای مختلفی که به عنوان سری GPT-3.5 شناخته می شوند، از جمله ChatGPT متمرکز بر مکالمه، بهبود یافت.

این نسخه پس از غافلگیری جهان با توانایی خود در تولید صفحات متنی شبیه به انسان، جهان را غافلگیر کرد. ChatGPT تبدیل به سریعترین برنامه وب در حال رشد شد و تنها در دو ماه به 100 میلیون کاربر رسید.

چه چیزی در GPT-4 جدید است؟

GPT-4 برای بهبود مدل "هم ترازی" توسعه یافته است با توانایی اجرای خواست کاربر به صورت قابل اعتمادتر با خروجی توهین‌آمیز یا خطرناک‌تر کمتر.

بهبود عملکرد GPT

همانطور که ممکن است انتظار داشته باشید، GPT-4 در مدل های GPT-3.5 از نظر صحت واقعی پاسخ ها بهبود یافته است و تعداد "توهمات" و اشتباهات که در آن مدل، خطاهای واقعی یا استدلالی را مرتکب می شود کمتر است، به طوری که امتیاز GPT-4 حدود 40٪ بالاتر از  GPT-3.5 در معیار عملکرد واقعی داخلی OpenAI است.

همچنین "هدایت پذیری" را بهبود می بخشد، که توانایی تغییر رفتار آن بر اساس درخواست کاربر است. به عنوان مثال، می توانید به آن دستور دهید که با سبک یا لحن یا صدای متفاوت بنویسد. سعی کنید اعلان‌ها را با «شما یک متخصص داده‌های وراج هستید» یا «شما یک متخصص داده مختصر هستید» شروع کنید و از آن بخواهید مفهوم علم داده را برای شما توضیح دهد.

استفاده از ورودی های بصری در GPT-4

یکی از تغییرات عمده این است که GPT-4 می تواند از ورودی های تصویر (فقط پیش نمایش تحقیق؛ هنوز در دسترس عموم نیست) و متن استفاده کند. کاربران می توانند با وارد کردن متن و تصاویر به هم ریخته، هر چشم انداز یا وظیفه زبانی را مشخص کنند.

نمونه‌هایی نشان می‌دهند که GPT-4 به درستی تصاویر پیچیده‌ای مانند نمودارها و عکس‌های صفحه‌نمایش مقالات دانشگاهی را تفسیر می‌کند. در زیر می توانید نمونه‌هایی از ورودی دید را مشاهده کنید.

GPT-4
GPT-4
GPT-4

معیارهای عملکرد GPT-4

OpenAI، محصول GPT-4 را با شبیه سازی امتحانات طراحی شده برای انسان، مانند آزمون یکنواخت وکالت و LSAT برای وکلا، و SAT برای پذیرش دانشگاه، ارزیابی کرد. نتایج نشان داد که GPT-4 عملکردی در سطح انسانی در معیارهای مختلف حرفه ای و دانشگاهی به دست آورد.

GPT-4

OpenAI همچنین GPT-4 را بر روی معیارهای سنتی طراحی شده برای مدل‌های یادگیری ماشین ارزیابی کرد، جایی که از مدل‌های زبان بزرگ موجود و بیشتر مدل‌های پیشرفته که ممکن است شامل پروتکل‌های آموزشی خاص یا پروتکل‌های آموزشی اضافی باشد، بهتر عمل کرد. این معیارها شامل سؤالات چندگزینه ای در 57 موضوع، استدلال عامیانه در مورد رویدادهای روزمره، سؤالات علوم چندگزینه ای در مقطع ابتدایی و غیره بود.

OpenAI با ترجمه معیار MMLU، مجموعه‌ای از 14000 مسئله چند گزینه‌ای که شامل 57 موضوع است، به زبان‌های مختلف با استفاده از Azure Translate، قابلیت GPT-4 را در زبان‌های دیگر آزمایش کرد. در 24 زبان از 26 زبان آزمایش شده، GPT-4 عملکرد بهتری نسبت به عملکرد انگلیسی زبان GPT-3.5 و سایر مدل های زبان بزرگ داشت.

به طور کلی، نتایج پایه‌دارتر GPT-4 نشان‌دهنده پیشرفت قابل توجهی در تلاش OpenAI برای توسعه مدل‌های هوش مصنوعی با قابلیت‌های پیشرفته‌تر است.

نحوه دسترسی به GPT-4

OpenAI قابلیت ورودی متن GPT-4 را از طریق ChatGPT منتشر می کند. در حال حاضر برای کاربران ChatGPT Plus در دسترس است. یک لیست انتظار برای GPT-4 API وجود دارد.

در دسترس بودن عمومی قابلیت ورودی تصویر هنوز اعلام نشده است. OpenAI دارای OpenAI Evals منبع باز است، چارچوبی برای ارزیابی خودکار عملکرد مدل هوش مصنوعی، تا به هر کسی اجازه دهد کاستی‌های مدل‌های خود را گزارش کند و پیشرفت‌های بیشتر را راهنمایی کند.

خبر های مرتبط
خبر های مرتبط
برچسب ها: اخبار تکنولوژی
نظرات شما