Xaviar ‘X’ Jernigan، صدای دی جی اسپاتیفای، توضیح می دهد که تبدیل شدن به یک هوش مصنوعی چگونه است.

در ماه مارس، Spotify اولین ویژگی مبتنی بر هوش مصنوعی خود را با اولین AI DJ خود راه اندازی کرد – راهنمای صوتی هوشمند با صدایی متقاعد کننده واقع گرایانه. همانطور که مشخص است، این شخصیت هوش مصنوعی در واقع بر اساس یک شخص واقعی بود – رئیس مشارکت فرهنگی Spotify، خاویر “X” Jernigan، که افتخار تبدیل شدن به اولین مدل صوتی برای ویژگی هوش مصنوعی را داشت.

TechCrunch با Jernigan به گفتگو نشست تا درباره فرآیند آموزش هوش مصنوعی و برنامه‌های آینده Spotify برای تلاش‌های AI DJ خود اطلاعات بیشتری کسب کند.

دی‌جی جدید هوش مصنوعی تجربه گوش دادن به موسیقی را برای شنوندگان شخصی‌سازی می‌کند و مجموعه‌ای از موسیقی‌ها را بر اساس علایق آنها تنظیم می‌کند. همچنین درباره هر آهنگ تفسیری گفته است – بسیار شبیه یک مجری رادیویی واقعی.

علاوه بر نقش اصلی Jernigan در Spotify، او همچنین میزبان پادکست های مختلف Spotify از جمله “The Window”، “Showstopper” و همچنین پادکست در حال حاضر منقرض شده “The Get Up” است. بنابراین، او عادت دارد صدایش را میلیون ها شنونده بشنوند. با این حال، به یاد ماندن صدای او به عنوان یک هوش مصنوعی یک تجربه منحصر به فرد است.

Jernigan به TechCrunch گفت: Spotify جرنیگان را به عنوان اولین مدل صدا انتخاب کرد زیرا “صدا و شخصیت او قبلاً با بسیاری از شنوندگان ما طنین انداز شده بود.” “[The company was] کاملاً مطمئن هستم که در این راه نیز طنین انداز خواهم شد.»

برنامه صبحگاهی اسپاتیفای، «The Get Up»، نزدیک به 6 میلیون شنونده جمع کرد و قبل از پایان ناگهانی آن در سال 2022، جزو 10 پادکست برتر Spotify بود که نشان دهنده جذابیت جرنیگان بود.

با این حال، مجری پادکست اذعان داشت که در ابتدا به سختی می توان سرش را به عنوان مدل صدا برای دی جی قرار داد.

جرنیگان به ما گفت: “من تصمیم گرفتم این مدل صدا برای دی جی باشم و وقتی این موضوع برای من توضیح داده شد، ذهنم متحیر شد.” “تصور کنید اگر برای اولین بار این را می شنوید، چیزی برای نگاه کردن ندارید و من فقط می گویم “صبر کن، چی؟” این من خواهم بود، اما من نیستم، و متن و صدا است، اما شبیه من خواهد بود، و هوش مصنوعی است؟»

برای من، این یک تجربه جدید کار با هوش مصنوعی در این راه بود. او اضافه کرد که من فقط به شدت متحیر شدم.

Spotify می‌گوید DJ هوش مصنوعی آن با استفاده از فناوری‌های Sonantic و OpenAI ساخته شده است.

Sonantic یک استارت آپ هوش مصنوعی است که Spotify سال گذشته آن را خریداری کرد. فناوری این شرکت مسئول ساخت صداهای واقع گرایانه مبتنی بر هوش مصنوعی بود، از جمله صدایی که برای صدای وال کیلمر در «Top Gun: Maverick» استفاده شد.

جرنیگان خاطرنشان کرد، قبل از خرید، Spotify چند سالی را صرف تحقیق در مورد فناوری مبتنی بر هوش مصنوعی کرده بود و بر روی ویژگی DJ “در برخی از تکرارها” کار کرده بود. او از توضیح دقیق مدت زمان این فرآیند خودداری کرد، اما گفت که ادغام فناوری Sonantic “واقعاً آن را به سرعت بالا برد.”

جرنیگان روند آموزش هوش مصنوعی را توضیح داد که مستلزم رفتن به استودیو، خواندن فیلمنامه، و صحبت کردن در آهنگ‌ها و انحرافات مختلف برای انتقال احساسات مختلف بود. او کلمات خاصی را به هوش مصنوعی داد که فقط خودش از آنها استفاده می‌کند تا تا حد امکان معتبر باشد.

ما از کلماتی استفاده می‌کنیم که من می‌گویم… من برای آهنگ‌ها «لحن» نمی‌گویم. من اینطوری صحبت نمی کنم.» او گفت. “من می گویم، “ضربه” یا “بنگر.” بنابراین، شما می شنوید که دی جی چنین کلماتی را بیان می کند، “جرنیگان ادامه داد. ما حتی یک فرآیند کامل مانند، چگونه می توانم بگویم “هی،” چگونه می توانم “سلام” را انجام دادیم. دفترچه‌ای را در دست گرفتم و فقط این عبارات مختلف را که چیزی بود که می‌گفتم یادداشت می‌کردم.»

او افزود که تیم Spotify مطمئن شد که مکث‌ها و نفس‌های طبیعی خود را حفظ می‌کند تا صدای هوش مصنوعی واقعاً شبیه انسان باشد.

حتی مادر جرنیگان هم مهر تایید خود را به نتایج داد.

“[DJ] تست مامان را قبول کرد قبل از بیرون آمدن آن را برای او بازی کردم و برایش توضیح دادم و سعی می‌کنم او را وادار کنم که ذهنش را دور آن بپیچد.» او به تمام پادکست‌های من گوش می‌داد، بنابراین به شنیدن صدای من که قبلاً ضبط و پخش شده بود عادت کرده بود و مثل این بود که دقیقاً شبیه شماست. مامانم گفت که این صدا شبیه من است، بنابراین می‌دانستم که درست است.»

اگرچه صداهای واقع گرایانه هوش مصنوعی در حال حاضر وجود دارد، اما ما استدلال می کنیم که دی جی Spotify در مقایسه با دیگرانی که شنیده ایم، آرام ترین و خنک ترین صدا است. اگرچه فناوری Duplex Google ممکن است معتبر به نظر برسد، اما لزوماً صدایی نیست که وقتی می‌خواهید در لیست پخش تابستانی خود احساس شادی کنید، شنیدن آن خوب نیست.

«برای من که اجرا را از دیدگاه صداپیشگی انجام می‌دادم، هدفم این بود که با مردم ارتباط برقرار کنم و با مردم صحبت کنم و به یک نفر فکر کنم. بنابراین، زمانی که من هوش مصنوعی را آموزش می‌دادم، زمانی که در استودیو بودم، یک نفر را به تصویر کشیدم که با آنها صحبت می‌کرد و دوست آنها بود.»

علاوه بر اینکه صدای هوش مصنوعی برای شنوندگان به نظر می رسد، طراحی خود دی جی نیز به گونه ای ساخته شده است که احساس راحتی کند.

دایره سبز متحرکی که کاربران هنگام گوش دادن به دی جی می بینند، اشاره ای به لوگوی Spotify است و زمانی که هوش مصنوعی صحبت می کند مانند یک دهان حرکت می کند.

امیلی گالووی، رئیس بخش طراحی محصول برای شخصی سازی در Spotify، “وقتی نوبت به طراحی رسید، ما به کل تجربه فکر کردیم – چگونه کار می کند، چگونه به نظر می رسد، چگونه به نظر می رسد، و چگونه آن را برای هر کاربر شخصی کنیم.” به TechCrunch گفت. در اوایل جنبه بصری، ما برخی از گزینه‌ها را بررسی کردیم که فنی‌تر بودند (چیزهایی مانند امواج صوتی را تصور کنید). با این حال، از آنجایی که ما می‌خواستیم هوش مصنوعی را انسانی کنیم، این به نظر درست نبود…»

ما می خواستیم آن را منحصر به فرد جلوه دهیم و احساس کنیم. در واقع، آنقدر منحصر به فرد بود که حق اختراع طراحی به آن اعطا شد.» گالووی افزود.

جرنیگان علاوه بر ضبط صدای خود، از راه های دیگری نیز به دی جی کمک کرد.

برای اینکه هوش مصنوعی بتواند نظرات تخصصی درباره موسیقی ارائه دهد، اسپاتیفای اتاق نویسندگانی متشکل از متصدیان، کارشناسان فرهنگ و کارشناسان موسیقی را گردآوری کرد.

جرنیگان پیشینه گسترده ای در موسیقی دارد، بنابراین او در اتاق نویسنده نیز شرکت داشت. او قبلاً برای هنرمندان برجسته ای مانند دیدی، امی واینهاوس و 2 Chainz و دیگران کار کرده است.

و در حالی که Jernigan اولین مدل صدای DJ است، این پتانسیل برای شنوندگان وجود دارد که در آینده صداهای بیشتری بشنوند.

TechCrunch از Jernigan پرسید که آیا این شرکت برنامه‌ای برای استخدام مدل‌های صوتی که به زبان‌های دیگر صحبت می‌کنند، دارد یا خیر.

او اشاره کرد: «در جریان باشید.

AI DJ در حال حاضر فقط به زبان انگلیسی برای مشترکین Premium در ایالات متحده و کانادا در دسترس است. از ماه فوریه، ویژگی DJ هنوز در مرحله آزمایش بتا است.

جرنیگان گفت: «ما یک دسته کامل از ویژگی‌های جدید بسیار جالبی را دریافت کردیم که در سراسر صفحه نمایش داده می‌شوند. “ما چیزهای دوپینگی داریم که در حال بیرون آمدن است.”