نرم‌افزار جدید گوگل همانند انسان‌ها صحبت کند

شما عضو این انجمن نبوده یا وارد نشده اید. لطفا برای مشاهده کامل انجمن و استفاده از آن وارد شوید یا ثبت نام کنید .

نرم‌افزار جدید گوگل همانند انسان‌ها صحبت کند - نسخه‌ی قابل چاپ

+- باشگاه کاربران روماک (https://forum.romaak.ir)
+-- انجمن: متفرقه (https://forum.romaak.ir/forumdisplay.php?fid=16)
+--- انجمن: گفتگوی آزاد (https://forum.romaak.ir/forumdisplay.php?fid=17)
+--- موضوع: نرم‌افزار جدید گوگل همانند انسان‌ها صحبت کند (/showthread.php?tid=1523)

نرم‌افزار جدید گوگل همانند انسان‌ها صحبت کند - saberi - ۹۵/۶/۲۷

زمانی که صدایی از درون یک نرم‌افزار یا یک سرویس تحت وب را می‌شنوید، به راحتی این توانایی را دارید تا تشخیص دهید یک انسان در حاصل صحبت کردن با شما است یا یک نرم‌افزار تبدیل متن به گفتار در حال خواندن متنی برای شما است. اما به نظر می‌رسد اکنون زمان آن رسیده است که روبات‌ها کمی شما را غافل‌گیر سازند. به گونه‌ای که تشخیص صدای یک روبات با یک صدای زنده برای شما مشکل باشد. این دستاوردی است که تیم DeepMind گوگل به آن دست پیدا کرده‌اند.

تیم DeepMind در زمینه طراحی شبکه‌های عصبی سابقه خوبی دارد. شاید از این موضوع اطلاع داشته باشید که DeepMind همان شرکتی است که موفق به ساخت آلفاگو شد. برنامه هوش مصنوعی قدرتمندی که برای اولین بار بهترین بازیکن بازی گو جهان را مغلوب خود ساخت. اکنون این تیم در حال کار روی پروژه‌ای است که WaveNet نام دارد.

در حال حاضر، توسعه‌دهندگان با استفاده از دو روش متداول برنامه‌های تبدیل متن به گفتار را ایجاد می‌کنند. در روش اول مجموعه بسیار بزرگی از کلمات و بخش‌های گفتاری از سوی یک فرد خوانده می‌شود(Concatenative TTS). در این شیوه تغییر صدا، دستکاری لهجه و لحن صدا به سختی امکان‌پذیر است.

اما در روش دوم کلمات بسته به این‌که آن‌ها چگونه باید صدا دهند به صورت الکترونیکی ساخته می‌شوند(Parametric). در روش دوم تغییر لهجه، آهنگ صدا و حتا لحن گفتار به سادگی امکان‌پذیر است. اما در مقابل صدای تولید شده کاملا مصنوعی و به اصطلاح رایج روباتی است. اما تیم DeepMind برای آن‌که موفق شود یک برنامه تبدیل متن به گفتار را ایجاد کند، به‌طوری که صدای نهایی همانند صدای یک انسان به نظر برسد، شکلی از امواج صوتی خام ضبط شده از گفتار انسانی را در قالب داده‌هایی به عنوان خوراک ورودی به شبکه عصبی خود وارد کرد.

شکل امواج (waveforms) بازنمایی بصری از اشکالی است که اصوات به خود می‌گیرند. درست به همان شکلی که این امواج در دستگاه‌های پخش‌کننده موسیقی بالا و پایین می‌روند. waveNet بر مبنای همین قاعده و بر اساس امواج صوتی منحصر به فرد کار می‌کند. اگر WaveNet در قالب یک برنامه تبدیل متن به گفتار مورد استفاده قرار گیرد، قادر است متنی که شما تایپ کرده‌اید را داخل مجموعه‌ای از واج‌ها و هجاها تبدیل کرده و در ادامه آن‌را برای شما بخواند. افرادی که در آزمایش WaveNet شرکت داشته‌اند، بر این باور هستند که سامانه جدید بهتر از نمونه‌های مشابه قادر است همانند انسان‌ها حرف بزند. DeepMind در خصوص این برنامه گفته است:

" بر اساس آزمایش‌هایی که بر مبنای زبان ماندارین چینی و انگلیسی انجام شده، این برنامه به میزان 50 درصد موفق شده است، شکاف موجود میان عملکرد انسانی و هنر صحبت کردن به شکل انسانی را پر کند. "

لازم به توضیح است که در آینده نزدیک این برنامه هوش مصنوعی در دنیای موسیقی نیز وارد خواهد شد. این تیم یکسری قطعات موسیقی کلاسیک پیانو را در اختیار این شبکه عصبی عمیق قرار داده‌اند و برنامه موفق شده است، نمونه‌هایی را بر اساس الگوی کاری خودش بسازد.

با این حال هنوز راه درازی در پیش است تا بتوانید WaveNet را در قالب یک برنامه کاربردی مورد استفاده قرار دهید. اما می‌توانید به تعدادی از نمونه‌های ساخته شده از این برنامه در سایت دیدن لینک ها برای شما امکان پذیر نیست. لطفا ثبت نام کنید یا وارد حساب خود شوید تا بتوانید لینک ها را ببینید.
گوش دهید.