Команда стартапа FASTEP разрабатывает ИИ-ассистента с дополненной реальностью для пользователей бытовой техники и промышленного оборудования. Мы постоянно ищем новые способы обращения к аудитории и никак не могли пройти мимо свежей ИИ-платформы для создания видеороликов с дикторами от Mail.ru.
В конце концов, эта тема нам не просто потенциально полезна, но и близка. Мы провели блиц-тест диктора от «Смотри Mail.ru» в реальном кейсе собственной рекламы и сравнили его с Synthesia, аналогом из США. А теперь хотим показать вам результаты.
Обе платформы находятся в бета-стадии и предлагают попробовать свои возможности на тестовом ролике. Этим мы и воспользовались.
Озвучка текста в мире ИИ называется Text-to-Speech. Нейронные сети отлично справляются с этой задачей и представлены в интернете очень широко. В статье представлены как сами нейронные сети, так и сервисы-генераторы, главная особенность которых заключается к выполнению части работ через нейросети.
В условиях пандемии учитель ищет новые формы представления видеоуроков, которые могли бы разнообразить удалённое обучение. 14 июля 2020 года компания Mail.ru Group объявила о выходе бесплатного сервиса Диктор, с помощью которого вы можете создать видеоуроки, главными героями которых являются виртуальные дикторы. Видеоуроки представлены в виде новостных сюжетов с цифровыми ведущими. Сгенерированное с помощью сервиса видео можно сохранить на ПК или поделиться им в социальных сетях. Итак, давайте пошагово разберёмся в его возможностях.
В данном видео вы узнаете:
Напомню алгоритм создания видеоролика.
При создании видео сюжета пользователю сначала нужно выбрать диктора — доступны цифровые ведущие по имени Мария, Татьяна, Тамара и Анита. Также нужно выбрать положение диктора — сидя за столом или стоя.
Следующий шаг — выбор заднего фона для ролика из семи вариантов. Задний фон анимированный, согласно его выбранному типу.
Далее необходимо добавить текст для ролика, максимум 1000 символов, также можно вставлять паузу в реплики диктора. К сожалению, данная кнопка вряд ли вам пригодится. Пауза, как правило, слишком длинная. А она очень нужна, учитывая некоторую монотонность при электронной декламации. В видеообзоре я показал простейший путь:
Вместо запятых проставлять точки.
Тогда диктор делает паузы такой длины, как вам необходимо.
Как правило, генерация видеоролика проходит сравнительно долго: иногда до 10-ти минут. Так что наберитесь терпения.
После генерации видеоролика вы можете добавить изображения, титры, музыкальное сопровождение и ссылки. .
Оглавление
Зоны степей
(Посмотреть в отдельном окне)
После создания видеоурока вы сохраняете его, копируете ссылку или html-код, загружаете видео на свой компьютер. На вашу электронную почту поступит сообщение о создании ролика и ссылка на него.
Компания Mail.ru Group объявила о запуске платформы “Диктор” на основе искусственного интеллекта, которая позволяет “в несколько кликов создавать новостные и репортажные видео студийного качества”
Компания Mail.ru Group объявила о запуске платформы “Диктор” на основе искусственного интеллекта, которая позволяет “в несколько кликов создавать новостные и репортажные видео студийного качества”. Новая функция уже доступна в рамках сервиса “Смотри Mail.ru”.
Инструмент не требует навыков видеомонтажа. Пользователям остается только загрузить текст, после чего система сделает все сама. Дополнительно можно выбрать внешность ведущего, поменять фон студии, создать слайд-шоу, наложить музыку или прикрепить ссылку. Получившийся ролик можно сохранить на компьютер или поделиться им в соцсетях.
В компании ожидают, что новым инструментом воспользуются все участники медиарынка — от блогеров до крупных СМИ — для создания в сжатые сроки видеосюжетов в телевизионном формате. “Дикторы выглядят и разговаривают, как живые люди: при чтении новостей они реалистично воспроизводят мимику, эмоционально реагируют и расставляют смысловые акценты”, — говорят в Mail.ru Group.
Для создания виртуальных телеведущих компания задействовала собственные технологии. Для синтеза голоса послужил речевой движок, созданный командой голосовой помощницы “Маруси”, а для синхронизации видеоряда с речью в режиме реального времени были привлечены системы компьютерного зрения Vision.
“Видеосмотрение растет. По прогнозам, к 2022 году 79% всего интернет-трафика в России придется на онлайн-видео, — сказал заместитель вице-президента компании Егор Ганин. — Но производство видеосюжетов — сложный и дорогой процесс, который большинство медиаресурсов не могут себе позволить. В редакторе от Смотри Mail.ru можно создавать новостные и репортажные видео в хорошем качестве и абсолютно бесплатно. Мы уверены, что наша технология позволит увеличить количество качественного новостного видео-контента”.
Проект по созданию “цифровых людей” есть и у Samsung. Ранее в интернет попал ролик, на котором показаны движения других виртуальных аватаров, причем выглядят они как живые люди, а не компьютерная анимация. В компании полагают, что “цифровой человек может стать частью нашей повседневной жизни: виртуальным ведущим новостей, виртуальным администратором или даже кинозвездой, созданной искусственным интеллектом”.
Платформа Visper с искусственным интеллектом, чтобы создавать видеоролики: презентации, новости, обзоры.
У нас получился такой ролик-анонс «Юридического словаря для журналистов и блогеров» (прочитайте).
https://youtube.com/watch?v=AOx4AKwEBtU%3Ffeature%3Doembed
Виртуальный диктор сервиса Visper объясняет, чем отличаются иностранные агенты и нежелательные организации, экстремизм и терроризм, клевета и оскорбление.
Как создать обучающий, новостной ролик или презентацию
Проведите подготовительную работу:
Нажмите «Создать новый ролик».
В колонке слева выберите персонаж — на выбор три категории: реалистичный, анимационный из фото. Также выберите пол персонажа: мужской или женский. Ниже нажмите «Применить ко всем слайдам».
Выберите голос — на выбор четыре варианта: жизнерадостный, добрый, деловой, бодрый. Ниже нажмите «Применить ко всем слайдам».
Выберите вид слайда, положение персонажа в кадре. Ниже нажмите «Применить ко всем слайдам».
Выберите фон для студии: фотографию, видео или сплошной цвет. Нажмите «+» рядом с предложенными вариантами, чтобы загрузить свой фон. Ниже нажмите «Применить ко всем слайдам».
Установите фоновую музыку. Установите жесты для персонажа.
В специальное поле введите текст, который диктор будет озвучивать, или загрузите аудио до 20 секунд. Добавьте в текст для озвучки эффекты: ударения, паузы, замедлите или ускорьте речь.
В нижнем поле введите название ролика.
Когда все будет готово, нажмите в правом нижнем углу на кнопку «Сгенерировать».
Инструменты, чтобы менять видео, можно или прокручивать мышкой или переключаться по функциям в колонке слева
Лучшие нейросети для озвучки текста
В данном разделе собраны самые лучшие нейронки, проверенные экспертами и популярные у блогеров и других известных личностей.
Zvukogram
Данная площадка за несколько секунд преобразует загруженный текст в аудио-дорожку с профессиональной озвучкой. Она отличается качеством и возможностью расставить нужные акценты. У нейросети немало возможностей: озвучка на 14 языках, выбор среди более, чем 25 языков, выбор настроения и не только.
удобный визуальный редактор;
возможность делать диалоги;
наличие словаря, в который можно добавлять слова.
некоторые голоса излишне роботизированы.
Voicegenerator
Бесплатная площадка, которая не требует регистрации и загрузки. Она предназначена для генерации любого текста в аудиоформат. В процессе преобразования используются интегрированные в ваш браузер голосовые комбинации. Поэтому сказать точно, какой будет озвучка в вашем конкретном случае никто не может. Диапазон настроек ограничен. В основном пользователю доступны изменения высоты и возраста голоса.
не нужно платить;
не нужно загружать программу;
возможность работы в офлайн режиме.
весьма посредственный результат;
Cybervoice
В настоящий момент проект сменил название на SteosVoice. Он представляет собой голосовые связки ИИ живых NPC в играх. Также с его помощью можно дублировать ролики, делать озвучку и производить другие действия в сегменте аудио.
Пользователи могут сделать озвучку своим голосом или воспользоваться базой данных, в которой собраны разные голосовые варианты. Для работы с сервисом обязательна регистрация на официальном сайте.
наличие Телеграмм бота;
доступ к бесплатной версии;
широкий выбор тарифов.
сложная система старта сотрудничества (пользовательское соглашение, регистрация, выбор пакета и т.д.).
От тарифа напрямую зависят возможности пользователя. В среднем цена колеблется от 100 до 3 000 рублей. Но есть и эксклюзивные пакеты, стоимость которых обсуждается в индивидуальном порядке.
Speechactors
Классный продукт на основе нейросети, который в несколько движений трансформирует текст в звук. В наборе настроек свыше трёх сотен голосов, около 130 языков, возможность накладывать музыку и выбирать эмоциональную окраску текста.
новичок может бесплатно поработать с 2 текстами;
каждое слово возможно корректировать вручную;
натуральное звучание без ноток робота.
в платных пакетах заложены лимиты по символам.
Подписка на сервис стоит от 50 до 100 долларов, причём оплата взимается не помесячно, а единоразовов.
Voicemaker
Довольно достойный инструмент для преобразования текста в речь. Также он способен трансформировать в звуковой файл язык SSML. Набор настроек широкий, в него входят такие параметры как высота голоса, эмоциональная окраска, тембр, возраст и не только. В базу огромный список мужских, женских и детских голосов.
загрузка файлов mp3, Ogg и Wav;
множество дополнительных голосовых эффектов (шёпот, дыхание и т.д.);
наличие бесплатной версии;
создание уникального пользовательского голоса;
возможность создавать аудиокниги и делать подкасты;
очень ограниченный функционал бесплатной версии.
Подписка стоит от 5 до 25 долларов.
Сервис texttospeech
Синтезатор речи на базе нейросети. У него очень простой интерфейс, запустить озвучку можно сразу с главной страницы. Тут же расположен редактор, содержащий типичные для данных инструментов настройки: высота, громкость, скорость и не только.
наличие бесплатной пробной версии;
простая система работы;
в базу голосов включены довольно необычные варианты (Деда Мороза, Бабы Яги или, к примеру, Ленина).
отсутствие мобильного приложения;
Оплата рассчитывается не по символам, а по категории голосов. На стандарте с вас спишется рубль за 1000 символов, на премиуме за то же количество знаков вы отдадите уже 7 рублей.
AI от Apihost
Достойная нейросеть, которая проводит разные манипуляции с текстовыми и аудио файлами. Вы можете озвучить их, подкорректировать уже ранее записанную речь, изменить голос, записать голос и не только.
наличие безлимитных тарифов;
списание денег с баланса происходит по факту озвучки.
голоса собраны в пакеты;
сложно сразу понять, какой тариф вам нужен.
На лимитированных пакетах 1000 символов стоит от 60 копеек до 6,5 рублей. Цена на безлимит начинается с 5 000 рублей.
Resemble
Интересная программа, предназначенная для озвучки текстовых файлов. Также она создаёт клоны любых голосов и позволяет вносить коррективы в уже готовые звуковые файлы. Работа может вестись на нескольких языках, для пользователей доступен набор иностранных языков. Настройки стандартные: скорость, эмоциональная окраска, возраст, тембр и так далее.
удобство для встраивания в другие ресурсы;
актуальность для разработчиков игр.
программы нет в свободном доступе
демонстрации не отражают реальной картины.
Чтобы воспользоваться услугами нейросети, необходимо заполнить заявку. Только после этого вам будут известны условия сотрудничества и тарифные планы.
Podcastle Ai
Современный и продвинутый сервис, который позволяет сделать практически профессиональную озвучку. С помощью него вы сможете улучшить качество уже записанного звука, сделать многодорожечную запись, трансформировать текст в речь и наоборот. ИИ работает быстро и радует высоким качеством, так как разрабатывался для работы с подкастами.
широкий набор настроек для редактирования звука (нейтрализуются лишние паузы, слова-паразиты и не только);
бесплатный доступ к базовому набору функций;
опция интеллектуального исправления звукового файла;
очень простой редактор.
лимиты при покупке подписки.
Базовая версия стоит 12 долларов в месяц, профессиональный тариф – 25 долларов.
Naturalreaders
Интересный сервис, который предлагает два направления работы – прослушивание текста и его озвучка. Первое подходит для тех, кто привык воспринимать информацию на слух. А также для изучения иностранных языков, так как программа распознаёт 16 языков.
Озвучка производится максимально реалистично. Редактор имеет длинный перечень настроек: возраст, тембр, этническая принадлежность, расстановка пауз, эмоциональная окраска и не только.
существование в трёх версиях (десктоп-версия, приложение для смартфона, расширении для Google Chrome);
большой выбор настроек.
голос не на 100% похож на человеческий.
Сервис имеет пробную бесплатную версию и два платных пакета (49 и 79 долларов).
Synthesia
Пробный интерфейс Synthesia намного беднее. Здесь доступно только редактирование текста объёмом до 200 символов, а также выбор из трёх типов роликов. Сбоку показывают интерфейс, который можно будет получить за деньги. И он уже не уступает «мэйлрушному». Но доступ к нему выдают в индивидуальном порядке и только после того, как вы ответите на письмо, в котором вам пришлют ваш тестовый ролик.
Кстати, ролик присылают на email. Это удобно, но возможно лишь потому, что он небольшой — весит около двух мегабайт. Вес нашего ролика от «Смотри Mail.ru» составил около 44 мегабайт.
Текст для Synthesia:
FASTEP — это ИИ-ассистент для работы с промышленным оборудованием. Он сам узнаёт технику, предлагает инструкции и показывает их в дополненной реальности
Смотри Mail
Озвучить можно текст до 500 знаков. Есть возможность выбрать диктора, фон, добавить титры, а также фото или видео в левый верхний угол, как в настоящем новостном выпуске.
FASTEP — это ИИ-ассистент для работы с промышленным оборудованием. Он сам узнаёт технику, предлагает инструкции и показывает их в дополненной реальности. Графические подсказки закрепляются прямо на реальных органах управления. Даже если вы отвернулись, подсказка останется в правильном месте, а стрелка направит к ней. С FASTEP каждый рабочий и инженер становится экспертом. Подробности — на fastep.io
Нейросети генерирующие голос в 2023 году
Собранные здесь нейросети сразу преобразуют текст в речь и дают вам прослушать готовый результат. Работа с ними проста и интуитивно понятна.
Oddcast
Одна из самых популярных программ, позволяющая сразу озвучить 600 символов текста. Количество языков превышает три десятка. На русском можно выбрать варианты – два типа женских голосов и мужской. Набор настроек стандартен: скорость речи, тональность, дополнительны звуковые эффекты.
возможность изменить внешность диктора;
подключение к онлайн-API;
наличие бесплатной версии.
Бесплатная версия действует 2 недели. Подписка стоит около 100 долларов, её хватает в среднем на 40 000 минут записи.
не требует оплаты;
не нужно регистрироваться;
речь синтезируется одним нажатием кнопки.
сильно роботизированный и неприятный голос.
Unitools
оптимальный набор настроек;
в бесплатном режиме можно ежедневно озвучивать 1000 символов.
среднее качество аудиофайла;
стоимость текста при превышении лимита рассчитывается индивидуально для каждой работы.
Яндекс Алиса
Уже привычная всем Алиса способна озвучить выбранный вами текст. Она «читает» как весь текст, так и выбранные вами куски. Работа ведётся в онлайн-режиме, озвучка имеет среднее качество.
не нужно ничего скачивать;
подходит только для прослушивания текстов, а не для профессиональной озвучки текстов.
Yandex Speechkit
наличие расширенной платной версии.
скачивание только в формате ogg;
платный пакет очень дорогой.
Сервис доступен и в брендовой версии – она необходима для создания индивидуального голоса по запросу. Но стоит такая услуга от 150 000 рублей в месяц.
Microsoft Azure
Облачная платформа от компании Microsoft функциональна и может справиться с преобразованием текста в речь. Она хорошо подходит для создания приложений, ботов и различных служб. В базе сервиса почти 150 голосов и диалектов, диапазон настроек широкий и позволяет сделать хороший результат.
возможность создать индивидуальный голос под свой бренд;
работа в облаке, локально или в контейнерах на периферии;
невозможность сразу узнать стоимость сотрудничества.
Acapela
Очень простой сервис, позволяющий в онлайн формате озвучить текст. Он бесплатный и работает на нескольких языках. В категории «русский» вам будут доступны два типа голосов – простой и премиальный.
не нужно платить:
простой алгоритм работы;
мгновенная трансформация текста в голос.
низкое качество озвучки;
не подходит для озвучивания презентации или роликов.
Нейросети для озвучки текста на английском
(Несколько слов о самом сервисе или нейронке, Ключевые особенности, доступность, стоимость, скрин из сервиса, параметры и допустимые настройки – до 1100 символов на каждый пункт)
Профессиональная программа, дающая результат высокого качества. Она позволяет за считанные минуты преобразовать текст в речь на нескольких языках. Редактирование упрощается возможностью обмена ссылками, то есть любой человек, которому вы передали ссылку, справится с этой задачей.
Murf
Простой сервис для озвучивания текста и редактирования уже готовых аудиофайлов. Он находится в свободном доступе, поэтому быстро набирает популярность. Редактор весьма хороший. Он содержит в базе 20 языков, предлагает выбрать возраст, диалект, пол. Вы можете самостоятельно расставить паузы, указать эмоциональную окраску и другие параметры озвучки.
Подписка на сервис стоит от 29 до 59 долларов. Самый дорогой пакет позволяет подключить к нему команду из 4 человек.
Bigspeak ai
Простейшая программа, позволяющая озвучивать тексты на английском языке, используя разные голоса: Великобритания, США, Австралия. Также доступен набор базовых настроек, делающих голос более человечным. В бесплатном режиме можно озвучить 300 символов текста, после регистрации количество знаков увеличивается до 3000.
Премиальный пакет стоит 20 долларов в месяц.
Respeecher
Уникальный проект, в основе которого лежит нейросеть, прошедшая обучение по системе speech to speech. Она в состоянии сделать практически идеальный Deep Fake голоса. В итоге даже специалист не отличит, кто произносит слова – человек или робот. Программа копирует предложенный голос с высокой точностью: интонации, тембр, обороты и др.
Просто так доступ к сервису не получить. Необходимо сначала сформировать и отправить заявку. Также можно сделать запрос на демонстрацию возможностей программы.
Uberduck AI
Интересная нейросеть с открытым исходным кодом. Она предлагает озвучку более, чем 5 000 голосов. Диапазон возможностей программы огромен. К примеру, с её помощью можно создавать полноценные приложения. В бесплатной версии вы получите набор из 4 000 голосов и право на создание и сохранение 4 аудиофайлов.
Минимальная стоимость тарифа 96 долларов, максимальная – 300 долларов.
Вывод
Видео от Mail.ru сильно уступает по качеству озвучивания и мимики диктора. Российское решение также имеет интересный фокус на формат теленовостей. Интересно, будет ли он востребован?
Synthesia продемонстрировала преимущество по реалистичности графики и по звуку (даже на русском языке), но странно деавтоматизирована в части доступа к полному редактору.
Оба решения находятся в ранних стадиях развития, поэтому судить их по текущему состоянию мы считаем неправильным: ни один продукт не позиционируется как завершённый. Главное, что компании открывают к ним доступ, чтобы потребители могли оценить перспективы подобного софта — и заодно развлечься.
Нам на текущий момент более интересно ознакомиться с полной версией сервиса Synthesia.
Если вы тоже протестировали дикторов, расскажите о своих впечатлениях в комментариях. А лучше покажите, что получилось.