Штучний інтелект навчився імітувати людський голос


Опубликованно 13.04.2018 13:00

Штучний інтелект навчився імітувати людський голос

Технологія під назвою Deep Voice працює на основі машинного навчання: вона "тренувалася" на звукового запису, що триває понад 800 годин і включає в себе близько 2400 різних голосів. Для ефективної роботи нейромережі потрібно близько 100 п'ятисекундних звукових сигналів, при цьому вона може обдурити системи розпізнавання голосу з допомогою всього десяти п'ятисекундних семплів.

Deep Voice точно імітує тембр і інтонації голосу, що робить вироблені їм звуки відрізнятись від справжніх, і, на думку творців, система знайде широке застосування в абсолютно різних областях. Наприклад, вона може бути використана для створення персоналізованих цифрових помічників, надання послуг з автоматичного синхронного перекладу, озвучування книг, фільмів та відеоігор. Більш того, нейромережа полегшить життя тим, хто з якихось причин втратив можливість говорити, і скрасить самотність дітей, читаючи їм казки на ніч, коли батьки поїхали у відрядження. Цікаво, що Deep Voice вміє змінювати голос, роблячи його чоловічим замість жіночого або додаючи йому іноземний акцент.

"Це справжній прорив з технічної точки зору, – говорить один з авторів розробки Лео Зу (Leo Zou). – Нам вдалося вирішити складну генеративну проблему, а саме, ми змогли синтезувати живу мову з усіма її особливостями".

Раніше канадськими розробниками був створений схожий голосовий сервіс під назвою Lyrebird. Він стискає всі індивідуальні мовні характеристики в дуже короткий запис, відтворюючи 1000 пропозицій всього за півсекунди. Система легко копіює будь-які звуки, починаючи від дзижчання бензопили і закінчуючи співом тропічних птахів, а також може генерувати нові голоси і додавати старим певний тон: сердитий, веселий, співчуваючий. Lyrebird, також як і Deep Voice, застосовується для роботи голосових помічників, озвучування мультимедійних продуктів і синтезу мови людей з обмеженими можливостями.

Правда, в обох технологій є спільна проблема: можливо, ними захочуть скористатися шахраї, щоб вводити людей в оману або обманювати програми, що працюють на основі розпізнавання мови. А юристи побоюються, що незабаром аудіозаписи перестануть бути доказом у ході судових процесів.



Категория: Новости