گفتار مصنوعی این روزها میتواند شیء ترسناکی باشد که با دیپفیکها و سایر فریبهای هوش مصنوعی همراه شود، اما همچنین ابزاری ضروری برای هر کسی است که دیگر نمیتواند به تنهایی صحبت کند. Acapela Group این افراد را با سرویس جدید “صدای خود من” کاملاً در ذهن دارد، که به هر کسی اجازه میدهد پروفایل صوتی هوش مصنوعی را به صورت رایگان آموزش دهد.
Acapela حدود 25 سال است که در فضای تبدیل متن به گفتار بوده است و اخیراً توسط غول دسترسی فناوری Tobii Dynavox خریداری شده است، اگرچه آنها هنوز به طور مستقل کار می کنند.
مانند بسیاری از صنایع، دسترسی به شدت تحت تأثیر ظهور فرآیندهای یادگیری ماشین در مقیاس مصرف کننده قرار گرفته است. 7 یا 8 سال پیش، رمی کادیک، یکی از بنیانگذاران Acapela، به یاد می آورد، سفارشی کردن صدای مصنوعی برای خود نه تنها خسته کننده بود، اما نتایج به خصوص خوب نبود.
“این بسیار زمان بر بود – بیمار باید 8 ساعت تمرین می کرد. اکنون میتوانیم صدایی را با تنها 50 جمله ضبط شده ذخیره کنیم. حدود 10 دقیقه طول می کشد و روز بعد صدا آماده است. قطعاً انقلابی در تکنیکهای تبدیل متن به گفتار عصبی در جریان است.»
آنها در مورد سرعت و آسان بودن این کار شوخی نمی کردند: من خودم فرآیند جدید «صدای خودم» را طی کردم، و واقعاً فقط 50 جمله کوتاه بود که از مجموعه ای (به نظر می رسید تصادفی) از رمان ها، کتاب های دستور پخت گرفته شده بود. ، و مقالات رابط ضبط ساده و آسان برای پیمایش بود، و مطمئناً یک روز بعد صدای من برای استفاده آماده شد. کیفیت خوب است – مانند برخی از مدلهای موجود عجیب نیست، اما به وضوح صدای خودم (همانطور که تبلیغ میشود) و میتوانم هر جملهای را که در صفحه نمایشی به آن میزنم، کنترل کنم.
اکنون که وجود دارد، اگر زمانی به آن نیاز داشته باشم، می توانم بروم و با پرداخت هزینه آن را دانلود کنم تا در هر سیستم تولید گفتار سازگار استفاده کنم. بدیهی است که این شامل TD Talk و دستگاه های Tobii Dynavox می شود. این شرکت به تازگی یک محصول جدید را هفته گذشته منتشر کرد، در واقع – این چیزها بسیار براق می شوند.
و این نکته واقعی همه اینها است – این یک نمایش فنی از قدرت فناوری صدای عصبی یا نمایشی نیست که به هر کسی اجازه میدهد صدای افراد مشهور را برای شبیهسازی به آن بدهد. این ابزاری است که به طور خاص برای افرادی ساخته شده است که تا همین اواخر ممکن بود هیچ گزینه ای نداشته باشند یا اگر می خواستند صدای خود را حفظ کنند، در بهترین حالت یک فرآیند دشوار و پیچیده بود.
بسیاری از افرادی که با بیماریهای دژنراتیو، سرطان یا روشهای خاصی مواجه هستند، میدانند که در عرض چند ماه یا چند سال ممکن است نتوانند به خوبی صحبت کنند یا اصلاً نتوانند صحبت کنند. آسان کردن فرآیند بانکداری صدای آنها خدماتی است که بسیاری از آنها قدردانی می کنند.
“یک مزیت بزرگ این است که ما برای کودکان نیز سفارشی می کنیم – ما اسکریپت ضبط را برای خواندن آسان تر کرده ایم و سیستم را برای بهبود کیفیت صدای مصنوعی کودکان تنظیم کرده ایم. ما اولین نفر در جهان بودیم که این کار را انجام دادیم و هنوز هم در این مسیر حرکت می کنیم.
توانایی ضبط و ضبط مجدد و یا پیری مصنوعی صدای بانکی یک قابلیت جدید و چالش برانگیز است، اما به نظر می رسد که نتیجه می گیرد:
سازگاری با دستگاههای آفلاین که آخرین تراشه پردازش عصبی را ندارند نیز یک تمایز کلیدی است. او گفت: «راهحلهای آنلاینی وجود دارد که در آنها ایجاد صدا آسان است، اما فقط از طریق فضای ابری در دسترس است، و این عملی نیست».
این شرکت همچنین دریافته است که تنوع و تفکر در فرآیند آموزش به اندازه سایر برنامه های کاربردی هوش مصنوعی مهم است. مشکلی که Cadic با برخی از تکنیکهای آموزشی فوق سریع به آن اشاره کرد این است که «تقریباً سعی میکند سخنران را در مواد آموزشی که نزدیکترین به کاربر است پیدا کند. اما اگر گوینده ای در آموزش نزدیک به صدای اصلی نباشد، به نظر نمی رسد.
نیکلاس مازارز، مدیر محصول Acapela اضافه کرد که مانند بسیاری از مشکلات هوش مصنوعی که ریشه در دادههای آموزشی ناکافی دارند، این یکی نیز به طور مساوی توزیع نمیشود: «این فرآیند برای یک مرد سفیدپوست متوسط 50 ساله خوب عمل میکند، اما اگر شما یک فرد سفیدپوست باشید، نه. مرد آفریقایی-آمریکایی، یا شما انگلیسی را خوب صحبت نمی کنید. ما به 23 زبان کار می کنیم و کاربران زیادی داریم که دارای معلولیت هستند. ما سعی می کنیم به بازخورد کاربران تکیه کنیم و چیزی را برای آنها توسعه دهیم.”
فرآیند ضبط و بانکداری رایگان است. می توانید در اینجا برای یک حساب کاربری ثبت نام کنید و در عرض چند دقیقه صدای مصنوعی خود را آموزش دهید. شما فقط در صورتی پول می پردازید که بخواهید آن را دانلود و بر روی دستگاهی نصب کنید.