Как с помощью диктора майл ру создать свои новости? Visper

Команда стартапа FASTEP разрабатывает ИИ-ассистента с дополненной реальностью для пользователей бытовой техники и промышленного оборудования. Мы постоянно ищем новые способы обращения к аудитории и никак не могли пройти мимо свежей ИИ-платформы для создания видеороликов с дикторами от Mail.ru.

В конце концов, эта тема нам не просто потенциально полезна, но и близка. Мы провели блиц-тест диктора от «Смотри Mail.ru» в реальном кейсе собственной рекламы и сравнили его с Synthesia, аналогом из США. А теперь хотим показать вам результаты.

Обе платформы находятся в бета-стадии и предлагают попробовать свои возможности на тестовом ролике. Этим мы и воспользовались.

Озвучка текста в мире ИИ называется Text-to-Speech. Нейронные сети отлично справляются с этой задачей и представлены в интернете очень широко. В статье представлены как сами нейронные сети, так и сервисы-генераторы, главная особенность которых заключается к выполнению части работ через нейросети.

В условиях пандемии учитель ищет новые формы представления видеоуроков, которые могли бы разнообразить удалённое обучение. 14 июля 2020 года компания Mail.ru Group объявила о выходе бесплатного сервиса Диктор, с помощью которого вы можете создать видеоуроки, главными героями которых являются виртуальные дикторы. Видеоуроки представлены в виде новостных сюжетов с цифровыми ведущими. Сгенерированное с помощью сервиса видео можно сохранить на ПК или поделиться им в социальных сетях. Итак, давайте пошагово разберёмся в его возможностях.

В данном видео вы узнаете:

Напомню алгоритм создания видеоролика.

При создании видео сюжета пользователю сначала нужно выбрать диктора — доступны цифровые ведущие по имени Мария, Татьяна, Тамара и Анита. Также нужно выбрать положение диктора — сидя за столом или стоя.

Следующий шаг — выбор заднего фона для ролика из семи вариантов. Задний фон анимированный, согласно его выбранному типу.

Далее необходимо добавить текст для ролика, максимум 1000 символов, также можно вставлять паузу в реплики диктора. К сожалению, данная кнопка вряд ли вам пригодится. Пауза, как правило, слишком длинная. А она очень нужна, учитывая некоторую монотонность при электронной декламации. В видеообзоре я показал простейший путь:

Вместо запятых проставлять точки.

Тогда диктор делает паузы такой длины, как вам необходимо.

Как правило, генерация видеоролика проходит сравнительно долго: иногда до 10-ти минут. Так что наберитесь терпения.

После генерации видеоролика вы можете добавить изображения, титры, музыкальное сопровождение и ссылки. .

Зоны степей

(Посмотреть в отдельном окне)

После создания видеоурока вы сохраняете его, копируете ссылку или html-код, загружаете видео на свой компьютер. На вашу электронную почту поступит сообщение о создании ролика и ссылка на него.

Компания Mail.ru Group объявила о запуске платформы “Диктор” на основе искусственного интеллекта, которая позволяет “в несколько кликов создавать новостные и репортажные видео студийного качества”

Инструмент не требует навыков видеомонтажа. Пользователям остается только загрузить текст, после чего система сделает все сама. Дополнительно можно выбрать внешность ведущего, поменять фон студии, создать слайд-шоу, наложить музыку или прикрепить ссылку. Получившийся ролик можно сохранить на компьютер или поделиться им в соцсетях.

В компании ожидают, что новым инструментом воспользуются все участники медиарынка — от блогеров до крупных СМИ — для создания в сжатые сроки видеосюжетов в телевизионном формате. “Дикторы выглядят и разговаривают, как живые люди: при чтении новостей они реалистично воспроизводят мимику, эмоционально реагируют и расставляют смысловые акценты”, — говорят в Mail.ru Group.

Для создания виртуальных телеведущих компания задействовала собственные технологии. Для синтеза голоса послужил речевой движок, созданный командой голосовой помощницы “Маруси”, а для синхронизации видеоряда с речью в режиме реального времени были привлечены системы компьютерного зрения Vision.

“Видеосмотрение растет. По прогнозам, к 2022 году 79% всего интернет-трафика в России придется на онлайн-видео, — сказал заместитель вице-президента компании Егор Ганин. — Но производство видеосюжетов — сложный и дорогой процесс, который большинство медиаресурсов не могут себе позволить. В редакторе от Смотри Mail.ru можно создавать новостные и репортажные видео в хорошем качестве и абсолютно бесплатно. Мы уверены, что наша технология позволит увеличить количество качественного новостного видео-контента”.

Проект по созданию “цифровых людей” есть и у Samsung. Ранее в интернет попал ролик, на котором показаны движения других виртуальных аватаров, причем выглядят они как живые люди, а не компьютерная анимация. В компании полагают, что “цифровой человек может стать частью нашей повседневной жизни: виртуальным ведущим новостей, виртуальным администратором или даже кинозвездой, созданной искусственным интеллектом”.

Платформа Visper с искусственным интеллектом, чтобы создавать видеоролики: презентации, новости, обзоры.

У нас получился такой ролик-анонс «Юридического словаря для журналистов и блогеров» (прочитайте).

https://youtube.com/watch?v=AOx4AKwEBtU%3Ffeature%3Doembed

Виртуальный диктор сервиса Visper объясняет, чем отличаются иностранные агенты и нежелательные организации, экстремизм и терроризм, клевета и оскорбление.

Как создать обучающий, новостной ролик или презентацию

Проведите подготовительную работу:

Нажмите «Создать новый ролик».

В колонке слева выберите персонаж — на выбор три категории: реалистичный, анимационный из фото. Также выберите пол персонажа: мужской или женский. Ниже нажмите «Применить ко всем слайдам».

Выберите голос — на выбор четыре варианта: жизнерадостный, добрый, деловой, бодрый. Ниже нажмите «Применить ко всем слайдам».

Выберите вид слайда, положение персонажа в кадре. Ниже нажмите «Применить ко всем слайдам».

Выберите фон для студии: фотографию, видео или сплошной цвет. Нажмите «+» рядом с предложенными вариантами, чтобы загрузить свой фон. Ниже нажмите «Применить ко всем слайдам».

Установите фоновую музыку. Установите жесты для персонажа.

В специальное поле введите текст, который диктор будет озвучивать, или загрузите аудио до 20 секунд. Добавьте в текст для озвучки эффекты: ударения, паузы, замедлите или ускорьте речь.

В нижнем поле введите название ролика.

Когда все будет готово, нажмите в правом нижнем углу на кнопку «Сгенерировать».

Инструменты, чтобы менять видео, можно или прокручивать мышкой или переключаться по функциям в колонке слева

Лучшие нейросети для озвучки текста

В данном разделе собраны самые лучшие нейронки, проверенные экспертами и популярные у блогеров и других известных личностей.

Zvukogram

Данная площадка за несколько секунд преобразует загруженный текст в аудио-дорожку с профессиональной озвучкой. Она отличается качеством и возможностью расставить нужные акценты. У нейросети немало возможностей: озвучка на 14 языках, выбор среди более, чем 25 языков, выбор настроения и не только.

удобный визуальный редактор;

возможность делать диалоги;

наличие словаря, в который можно добавлять слова.

некоторые голоса излишне роботизированы.

Voicegenerator

Бесплатная площадка, которая не требует регистрации и загрузки. Она предназначена для генерации любого текста в аудиоформат. В процессе преобразования используются интегрированные в ваш браузер голосовые комбинации. Поэтому сказать точно, какой будет озвучка в вашем конкретном случае никто не может. Диапазон настроек ограничен. В основном пользователю доступны изменения высоты и возраста голоса.

не нужно платить;

не нужно загружать программу;

возможность работы в офлайн режиме.

весьма посредственный результат;

Cybervoice

В настоящий момент проект сменил название на SteosVoice. Он представляет собой голосовые связки ИИ живых NPC в играх. Также с его помощью можно дублировать ролики, делать озвучку и производить другие действия в сегменте аудио.

Пользователи могут сделать озвучку своим голосом или воспользоваться базой данных, в которой собраны разные голосовые варианты. Для работы с сервисом обязательна регистрация на официальном сайте.

наличие Телеграмм бота;

доступ к бесплатной версии;

широкий выбор тарифов.

сложная система старта сотрудничества (пользовательское соглашение, регистрация, выбор пакета и т.д.).

От тарифа напрямую зависят возможности пользователя. В среднем цена колеблется от 100 до 3 000 рублей. Но есть и эксклюзивные пакеты, стоимость которых обсуждается в индивидуальном порядке.

Speechactors

Классный продукт на основе нейросети, который в несколько движений трансформирует текст в звук. В наборе настроек свыше трёх сотен голосов, около 130 языков, возможность накладывать музыку и выбирать эмоциональную окраску текста.

новичок может бесплатно поработать с 2 текстами;

каждое слово возможно корректировать вручную;

натуральное звучание без ноток робота.

в платных пакетах заложены лимиты по символам.

Подписка на сервис стоит от 50 до 100 долларов, причём оплата взимается не помесячно, а единоразовов.

Voicemaker

Довольно достойный инструмент для преобразования текста в речь. Также он способен трансформировать в звуковой файл язык SSML. Набор настроек широкий, в него входят такие параметры как высота голоса, эмоциональная окраска, тембр, возраст и не только. В базу огромный список мужских, женских и детских голосов.

загрузка файлов mp3, Ogg и Wav;

множество дополнительных голосовых эффектов (шёпот, дыхание и т.д.);

наличие бесплатной версии;

создание уникального пользовательского голоса;

возможность создавать аудиокниги и делать подкасты;

очень ограниченный функционал бесплатной версии.

Подписка стоит от 5 до 25 долларов.

Сервис texttospeech

Синтезатор речи на базе нейросети. У него очень простой интерфейс, запустить озвучку можно сразу с главной страницы. Тут же расположен редактор, содержащий типичные для данных инструментов настройки: высота, громкость, скорость и не только.

наличие бесплатной пробной версии;

простая система работы;

в базу голосов включены довольно необычные варианты (Деда Мороза, Бабы Яги или, к примеру, Ленина).

отсутствие мобильного приложения;

Оплата рассчитывается не по символам, а по категории голосов. На стандарте с вас спишется рубль за 1000 символов, на премиуме за то же количество знаков вы отдадите уже 7 рублей.

AI от Apihost

Достойная нейросеть, которая проводит разные манипуляции с текстовыми и аудио файлами. Вы можете озвучить их, подкорректировать уже ранее записанную речь, изменить голос, записать голос и не только.

наличие безлимитных тарифов;

списание денег с баланса происходит по факту озвучки.

голоса собраны в пакеты;

сложно сразу понять, какой тариф вам нужен.

На лимитированных пакетах 1000 символов стоит от 60 копеек до 6,5 рублей. Цена на безлимит начинается с 5 000 рублей.

Resemble

Интересная программа, предназначенная для озвучки текстовых файлов. Также она создаёт клоны любых голосов и позволяет вносить коррективы в уже готовые звуковые файлы. Работа может вестись на нескольких языках, для пользователей доступен набор иностранных языков. Настройки стандартные: скорость, эмоциональная окраска, возраст, тембр и так далее.

удобство для встраивания в другие ресурсы;

актуальность для разработчиков игр.

программы нет в свободном доступе

демонстрации не отражают реальной картины.

Чтобы воспользоваться услугами нейросети, необходимо заполнить заявку. Только после этого вам будут известны условия сотрудничества и тарифные планы.

Podcastle Ai

Современный и продвинутый сервис, который позволяет сделать практически профессиональную озвучку. С помощью него вы сможете улучшить качество уже записанного звука, сделать многодорожечную запись, трансформировать текст в речь и наоборот. ИИ работает быстро и радует высоким качеством, так как разрабатывался для работы с подкастами.

широкий набор настроек для редактирования звука (нейтрализуются лишние паузы, слова-паразиты и не только);

бесплатный доступ к базовому набору функций;

опция интеллектуального исправления звукового файла;

очень простой редактор.

лимиты при покупке подписки.

Базовая версия стоит 12 долларов в месяц, профессиональный тариф – 25 долларов.

Naturalreaders

Интересный сервис, который предлагает два направления работы – прослушивание текста и его озвучка. Первое подходит для тех, кто привык воспринимать информацию на слух. А также для изучения иностранных языков, так как программа распознаёт 16 языков.

Озвучка производится максимально реалистично. Редактор имеет длинный перечень настроек: возраст, тембр, этническая принадлежность, расстановка пауз, эмоциональная окраска и не только.

существование в трёх версиях (десктоп-версия, приложение для смартфона, расширении для Google Chrome);

большой выбор настроек.

голос не на 100% похож на человеческий.

Сервис имеет пробную бесплатную версию и два платных пакета (49 и 79 долларов).

Synthesia

Пробный интерфейс Synthesia намного беднее. Здесь доступно только редактирование текста объёмом до 200 символов, а также выбор из трёх типов роликов. Сбоку показывают интерфейс, который можно будет получить за деньги. И он уже не уступает «мэйлрушному». Но доступ к нему выдают в индивидуальном порядке и только после того, как вы ответите на письмо, в котором вам пришлют ваш тестовый ролик.

Кстати, ролик присылают на email. Это удобно, но возможно лишь потому, что он небольшой — весит около двух мегабайт. Вес нашего ролика от «Смотри Mail.ru» составил около 44 мегабайт.

Текст для Synthesia:

FASTEP — это ИИ-ассистент для работы с промышленным оборудованием. Он сам узнаёт технику, предлагает инструкции и показывает их в дополненной реальности

Смотри Mail

Озвучить можно текст до 500 знаков. Есть возможность выбрать диктора, фон, добавить титры, а также фото или видео в левый верхний угол, как в настоящем новостном выпуске.

FASTEP — это ИИ-ассистент для работы с промышленным оборудованием. Он сам узнаёт технику, предлагает инструкции и показывает их в дополненной реальности. Графические подсказки закрепляются прямо на реальных органах управления. Даже если вы отвернулись, подсказка останется в правильном месте, а стрелка направит к ней. С FASTEP каждый рабочий и инженер становится экспертом. Подробности — на fastep.io

Нейросети генерирующие голос в 2023 году

Собранные здесь нейросети сразу преобразуют текст в речь и дают вам прослушать готовый результат. Работа с ними проста и интуитивно понятна.

Oddcast

Одна из самых популярных программ, позволяющая сразу озвучить 600 символов текста. Количество языков превышает три десятка. На русском можно выбрать варианты – два типа женских голосов и мужской. Набор настроек стандартен: скорость речи, тональность, дополнительны звуковые эффекты.

возможность изменить внешность диктора;

подключение к онлайн-API;

наличие бесплатной версии.

Бесплатная версия действует 2 недели. Подписка стоит около 100 долларов, её хватает в среднем на 40 000 минут записи.

не требует оплаты;

не нужно регистрироваться;

речь синтезируется одним нажатием кнопки.

сильно роботизированный и неприятный голос.

Unitools

оптимальный набор настроек;

в бесплатном режиме можно ежедневно озвучивать 1000 символов.

среднее качество аудиофайла;

стоимость текста при превышении лимита рассчитывается индивидуально для каждой работы.

Яндекс Алиса

Уже привычная всем Алиса способна озвучить выбранный вами текст. Она «читает» как весь текст, так и выбранные вами куски. Работа ведётся в онлайн-режиме, озвучка имеет среднее качество.

не нужно ничего скачивать;

подходит только для прослушивания текстов, а не для профессиональной озвучки текстов.

Yandex Speechkit

наличие расширенной платной версии.

скачивание только в формате ogg;

платный пакет очень дорогой.

Сервис доступен и в брендовой версии – она необходима для создания индивидуального голоса по запросу. Но стоит такая услуга от 150 000 рублей в месяц.

Microsoft Azure

Облачная платформа от компании Microsoft функциональна и может справиться с преобразованием текста в речь. Она хорошо подходит для создания приложений, ботов и различных служб. В базе сервиса почти 150 голосов и диалектов, диапазон настроек широкий и позволяет сделать хороший результат.

возможность создать индивидуальный голос под свой бренд;

работа в облаке, локально или в контейнерах на периферии;

невозможность сразу узнать стоимость сотрудничества.

Acapela

Очень простой сервис, позволяющий в онлайн формате озвучить текст. Он бесплатный и работает на нескольких языках. В категории «русский» вам будут доступны два типа голосов – простой и премиальный.

не нужно платить:

простой алгоритм работы;

мгновенная трансформация текста в голос.

низкое качество озвучки;

не подходит для озвучивания презентации или роликов.

Нейросети для озвучки текста на английском

(Несколько слов о самом сервисе или нейронке, Ключевые особенности, доступность, стоимость, скрин из сервиса, параметры и допустимые настройки – до 1100 символов на каждый пункт)

Профессиональная программа, дающая результат высокого качества. Она позволяет за считанные минуты преобразовать текст в речь на нескольких языках. Редактирование упрощается возможностью обмена ссылками, то есть любой человек, которому вы передали ссылку, справится с этой задачей.

Murf

Простой сервис для озвучивания текста и редактирования уже готовых аудиофайлов. Он находится в свободном доступе, поэтому быстро набирает популярность. Редактор весьма хороший. Он содержит в базе 20 языков, предлагает выбрать возраст, диалект, пол. Вы можете самостоятельно расставить паузы, указать эмоциональную окраску и другие параметры озвучки.

Подписка на сервис стоит от 29 до 59 долларов. Самый дорогой пакет позволяет подключить к нему команду из 4 человек.

Bigspeak ai

Простейшая программа, позволяющая озвучивать тексты на английском языке, используя разные голоса: Великобритания, США, Австралия. Также доступен набор базовых настроек, делающих голос более человечным. В бесплатном режиме можно озвучить 300 символов текста, после регистрации количество знаков увеличивается до 3000.

Премиальный пакет стоит 20 долларов в месяц.

Respeecher

Уникальный проект, в основе которого лежит нейросеть, прошедшая обучение по системе speech to speech. Она в состоянии сделать практически идеальный Deep Fake голоса. В итоге даже специалист не отличит, кто произносит слова – человек или робот. Программа копирует предложенный голос с высокой точностью: интонации, тембр, обороты и др.

Просто так доступ к сервису не получить. Необходимо сначала сформировать и отправить заявку. Также можно сделать запрос на демонстрацию возможностей программы.

Uberduck AI

Интересная нейросеть с открытым исходным кодом. Она предлагает озвучку более, чем 5 000 голосов. Диапазон возможностей программы огромен. К примеру, с её помощью можно создавать полноценные приложения. В бесплатной версии вы получите набор из 4 000 голосов и право на создание и сохранение 4 аудиофайлов.

Минимальная стоимость тарифа 96 долларов, максимальная – 300 долларов.

Вывод

Видео от Mail.ru сильно уступает по качеству озвучивания и мимики диктора. Российское решение также имеет интересный фокус на формат теленовостей. Интересно, будет ли он востребован?

Synthesia продемонстрировала преимущество по реалистичности графики и по звуку (даже на русском языке), но странно деавтоматизирована в части доступа к полному редактору.

Оба решения находятся в ранних стадиях развития, поэтому судить их по текущему состоянию мы считаем неправильным: ни один продукт не позиционируется как завершённый. Главное, что компании открывают к ним доступ, чтобы потребители могли оценить перспективы подобного софта — и заодно развлечься.

Нам на текущий момент более интересно ознакомиться с полной версией сервиса Synthesia.

Если вы тоже протестировали дикторов, расскажите о своих впечатлениях в комментариях. А лучше покажите, что получилось.