سام آلتمن: اندازه LLM ها در حرکت رو به جلو چندان مهم نیست

وقتی سام آلتمن، یکی از بنیانگذاران و مدیر عامل OpenAI این روزها صحبت می کند، شنیدن آن منطقی است. آخرین سرمایه‌گذاری او از زمان انتشار GPT-4 و ChatGPT، یکی از پیچیده‌ترین رابط‌های مبتنی بر مدل زبانی بزرگ که تا به امروز ایجاد شده، مورد توجه همه قرار گرفته است. اما آلتمن رویکردی سنجیده و متواضع را در پیش می‌گیرد و لزوماً معتقد نیست که وقتی صحبت از مدل‌های زبان بزرگ به میان می‌آید، بزرگ‌تر همیشه بهتر خواهد بود.

آلتمن، که دیروز در رویداد Imagination in Action در MIT از طریق Zoom مصاحبه کرد، معتقد است که به خاطر اندازه به محدودیت‌های اندازه LLM نزدیک می‌شویم. آلتمن گفت: «من فکر می‌کنم در پایان دورانی هستیم که این مدل‌های غول‌پیکر خواهند بود، و ما آنها را از راه‌های دیگر بهتر خواهیم کرد».

او اندازه را به عنوان یک اندازه گیری نادرست از کیفیت مدل می بیند و آن را با مسابقات سرعت تراشه که قبلاً می دیدیم مقایسه می کند. “من فکر می کنم تمرکز بیش از حد روی شمارش پارامترها شده است، شاید تعداد پارامترها مطمئناً روند صعودی داشته باشد. اما این من را به یاد مسابقه گیگاهرتز در تراشه‌ها در دهه‌های 1990 و 2000 می‌اندازد، جایی که همه سعی می‌کردند به یک عدد بزرگ اشاره کنند.

همانطور که او اشاره می‌کند، امروزه ما تراشه‌های بسیار قدرتمندتری داریم که آیفون‌هایمان را اجرا می‌کنند، با این حال ما تا حد زیادی نمی‌دانیم که چقدر سریع هستند، فقط این که کار را به خوبی انجام می‌دهند. “من فکر می کنم مهم است که چیزی که ما روی آن تمرکز می کنیم افزایش سریع توانایی است. و اگر دلیلی وجود داشته باشد که تعداد پارامترها باید در طول زمان کاهش یابد، یا باید چندین مدل با هم کار کنیم که هر کدام کوچکتر هستند، این کار را انجام می دهیم. آنچه می خواهیم به دنیا تحویل دهیم تواناترین و مفیدترین و ایمن ترین مدل هاست. او گفت:

آلتمن تا حدی به این دلیل که شرط‌بندی‌های بزرگ انجام می‌دهد و سپس عمداً حرکت می‌کند و عمیقاً در مورد شرکت‌هایش و محصولاتی که تولید می‌کنند فکر می‌کند، یک فن‌آور موفق بوده است – و OpenAI تفاوتی ندارد.

ما مدت زیادی است که روی آن کار کرده‌ایم، اما با افزایش تدریجی اعتماد به نفس که واقعاً کار خواهد کرد. ما بوده ایم [building] این شرکت به مدت هفت سال این چیزها زمان زیادی می برد. من به طور کلی از نظر اینکه چرا کار می کند در حالی که دیگران این کار را نکرده اند، می گویم: این فقط به این دلیل است که ما برای مدت طولانی در حال عرق کردن همه جزئیات بوده ایم. و اکثر مردم حاضر به انجام این کار نیستند.

هنگامی که در مورد نامه ای که درخواست توقف شش ماهه OpenAI را داشت، او از رویکرد شرکت خود دفاع کرد و در عین حال با برخی از بخش های نامه موافقت کرد.

بخش هایی از رانش وجود دارد [of the letter] که من واقعا موافقم ما بیش از شش ماه پس از پایان آموزش GPT-4 قبل از انتشار آن سپری کردیم. بنابراین وقت گذاشتن برای مطالعه واقعی مدل ایمنی، دریافت ممیزی های خارجی، تیم های قرمز خارجی واقعاً سعی می کنند بفهمند چه اتفاقی می افتد و تا آنجا که می توانید آن را کاهش دهید، این مهم است.

اما او معتقد است که راه‌های قابل توجهی وجود دارد که از طریق آن نامه علامت خود را از دست داده است.

من همچنین موافقت کردم که با جدی‌تر شدن قابلیت‌ها، نوار ایمنی باید افزایش یابد. اما متأسفانه، من فکر می‌کنم نامه بیشتر نکات ظریف فنی را درباره جایی که باید مکث کنیم را از دست داده است – نسخه قبلی نامه ادعا می‌کرد که ما در حال آموزش GPT-5 بودیم. ما اینطور نیستیم و برای مدتی نخواهیم بود، بنابراین از این نظر، تا حدی احمقانه بود – اما ما کارهای دیگری را در کنار GPT-4 انجام می دهیم که فکر می کنم انواع مسائل ایمنی را دارد که رسیدگی به آنها مهم است. و کاملاً از نامه کنار گذاشته شدند. بنابراین فکر می‌کنم حرکت با احتیاط و افزایش سخت‌گیری برای مسائل ایمنی واقعاً مهم است. من فکر نمی کنم [suggestions in the] نامه، راه نهایی برای رسیدگی به آن است.»

آلتمن می‌گوید که در مورد مسائل ایمنی و محدودیت‌های مدل فعلی صحبت می‌کند، زیرا معتقد است این کار درستی است. او تصدیق می کند که گاهی اوقات او و سایر نمایندگان شرکت می گویند “چیزهای احمقانه”، که به نظر می رسد اشتباه است، اما او حاضر است این ریسک را بپذیرد زیرا گفتگو در مورد این فناوری مهم است.

بخش بزرگی از هدف ما در OpenAI این است که دنیا را وادار کنیم تا با ما تعامل داشته باشد و به آن فکر کند [this technology]و به تدریج مؤسسات جدیدی را به روز کرده و بسازیم، یا مؤسسات موجود خود را تطبیق دهیم تا بتوانیم بفهمیم آینده ای که همه ما می خواهیم چیست. بنابراین به همین دلیل است که ما اینجا هستیم.»