Организация Mail Ru недавно представила новаторский сервис, основанный на концепции виртуальных докладчиков, созданных искусственным интеллектом, доступный как для личного, так и для группового использования. Эта разработка широко освещалась в различных редакционных статьях

Идея сервиса интересная. Сегодня, чтобы снять видеоролик, нужен симпатичный человек с грамотной речью, хорошая камера, качественный звук, подходящий фон и многое другое. Этот сервис берёт на себя все эти задачи.

Сейчас он работает в бетта тестировании, поэтому не всё задуманное можно реализовать.

Итак, давайте посмотрим, что он из себя представляет.

Первым шагом нужно выбрать диктора. Это 4 девушки. Можно создать видео без диктора совсем.

Выбор диктора в сервисе Диктор от mail.ru

Затем вы выбираете сидя или стоя она будет говорить.

Выбор плана в сервисе Диктор от mail.ru

Затем выбираете фон.

На финальном шаге вы добавляете свой текст. Обозначаете ударения, если это нужно — в большинстве случаев сервис ставит их правильно, помечаете места, где нужно сделать паузу для акцента ну и для большей «натуральности».

Вуаля! Диктор говорит ваш текст голосом ведущего новостей.

Для большей информативности можно добавить картинки, ссылку (1), текст и музыку на фон. Музыку можно сделать тише или громче по отношению в голосу. Громкость голоса также можно менять.

Как было указано выше, сервис сейчас на стадии Бетта тестирования. Нам не удалось сохранить видео с картинками , ссылкой и текстом, поэтому мы добавили их отдельно в текст на сайт.

Инструмент позволит компаниям, медиа и блогерам быстро выпускать сюжеты студийного качества, говорят в компании.

Сервис «Смотри Mail.ru» разработал платформу с цифровыми ведущими для производства новостей и репортажей в телевизионном формате, сообщили vc.ru в компании.

Чтобы сделать новостной видеоролик, нужно загрузить текст (его прочитает ведущий) и, если необходимо, изображения, музыку, титры и ссылки. Пользователь может выбрать внешность диктора из предложенных вариантов и оформление студии (например, в цветах компании).

Речь и мимика ведущих реалистичны, утверждают в компании. Например, читая новости, они расставляют смысловые акценты и воспроизводят эмоции. Сервис бесплатный для пользователей.

При создании платформы группа использовала собственные ИИ-разработки: над синтезом речи работала команда голосового помощника «Маруся», а в основе моделей ведущих лежит система компьютерного зрения группы Vision. Видеоизображение синхронизируется с речью ведущего — чтобы точно отображать движение губ и мимику, система обучалась на реальных людях и видеозаписях.

Mail.ru Group рассчитывает, что платформой будут пользоваться крупные компании, нишевые медиа и блогеры. Использование видеоредактора позволит им быстро выпускать сюжеты и экономить на производстве контента.

Видео от профессиональных медиаплощадок смогут попасть в рекомендательную систему сервиса «Смотри Mail.ru», что позволит пользователям заработать на видео, отмечают в компании. По прогнозам группы, к 2022 году 79% интернет-трафика в России будут составлять онлайн-видео.

Похожий сервис есть у «Сбербанка»: в апреле 2019 года компания представила виртуальную телеведущую с ИИ «Елена». Система позволяет создать ролик с новостным сюжетом, она генерирует речь и мимику.

Команда стартапа FASTEP разрабатывает ИИ-ассистента с дополненной реальностью для пользователей бытовой техники и промышленного оборудования. Мы постоянно ищем новые способы обращения к аудитории и никак не могли пройти мимо свежей ИИ-платформы для создания видеороликов с дикторами от Mail.ru.

В конце концов, эта тема нам не просто потенциально полезна, но и близка. Мы провели блиц-тест диктора от «Смотри Mail.ru» в реальном кейсе собственной рекламы и сравнили его с Synthesia, аналогом из США. А теперь хотим показать вам результаты.

Обе платформы находятся в бета-стадии и предлагают попробовать свои возможности на тестовом ролике. Этим мы и воспользовались.

Смотри Mail

Озвучить можно текст до 500 знаков. Есть возможность выбрать диктора, фон, добавить титры, а также фото или видео в левый верхний угол, как в настоящем новостном выпуске.

FASTEP — это ИИ-ассистент для работы с промышленным оборудованием. Он сам узнаёт технику, предлагает инструкции и показывает их в дополненной реальности. Графические подсказки закрепляются прямо на реальных органах управления. Даже если вы отвернулись, подсказка останется в правильном месте, а стрелка направит к ней. С FASTEP каждый рабочий и инженер становится экспертом. Подробности — на fastep.io

Synthesia

Пробный интерфейс Synthesia намного беднее. Здесь доступно только редактирование текста объёмом до 200 символов, а также выбор из трёх типов роликов. Сбоку показывают интерфейс, который можно будет получить за деньги. И он уже не уступает «мэйлрушному». Но доступ к нему выдают в индивидуальном порядке и только после того, как вы ответите на письмо, в котором вам пришлют ваш тестовый ролик.

Кстати, ролик присылают на email. Это удобно, но возможно лишь потому, что он небольшой — весит около двух мегабайт. Вес нашего ролика от «Смотри Mail.ru» составил около 44 мегабайт.

Текст для Synthesia:

Вывод

Видео от Mail.ru сильно уступает по качеству озвучивания и мимики диктора. Российское решение также имеет интересный фокус на формат теленовостей. Интересно, будет ли он востребован?

Synthesia продемонстрировала преимущество по реалистичности графики и по звуку (даже на русском языке), но странно деавтоматизирована в части доступа к полному редактору.

Оба решения находятся в ранних стадиях развития, поэтому судить их по текущему состоянию мы считаем неправильным: ни один продукт не позиционируется как завершённый. Главное, что компании открывают к ним доступ, чтобы потребители могли оценить перспективы подобного софта — и заодно развлечься.

Нам на текущий момент более интересно ознакомиться с полной версией сервиса Synthesia.

Если вы тоже протестировали дикторов, расскажите о своих впечатлениях в комментариях. А лучше покажите, что получилось.

Время на прочтение
2 мин

14 июля 2020 года компания Mail.ru Group запустила на базе платформы «Смотри Mail.ru» бесплатный сервис с виртуальными дикторами (сервис «Диктор»). С помощью этого сервиса любой пользователь может создавать новостные сюжеты с цифровыми ведущими. Сгенерированное с помощью сервиса видео можно сохранить на ПК или поделится им в социальных сетях.

При создании видео сюжета пользователю сначала нужно выбрать диктора — доступны цифровые ведущие по имени Мария, Татьяна, Тамара и Анита. Также нужно выбрать положение диктора — сидя за столом или стоя. Третий шаг — выбор заднего фона для ролика из семи вариантов. Задний фон анимированный, согласно его выбранному типу. Четвертый этап — добавить текст для ролика, максимум 500 символов, также можно вставлять паузу в реплики диктора. К сожалению, ждать генерацию ролика нужно достаточно долго из-за высокой нагрузки на сервис, как написано во время процесса. Например, тридцатисекундный ролик более часа в браузере генерировался.

После генерации ролика пользователь может просмотреть его первичный вариант, скорректировать текст, добавить медиа-файлы, титры. Сейчас сервис поддерживает форматы mp4, mp3, jpeg и png.

Разработчики проекта утверждают, что речь и мимика цифровых ведущих реалистичны. Цифровые дикторы были созданы с помощью системы компьютерного зрения группы Vision. Причем ролики генерируются таким образом, что дикторы не просто читают текст, а расставляют смысловые акценты и у них есть отображение эмоций. Это стало доступно путем использования системы искусственного интеллекта Mail.ru Group. Синтезом речи дикторов в этом проекте занималась команда разработчиков голосового помощника «Маруся».

Reading time
2 min

Views 21K

Будущее наступило с AI

Искусственный интеллект (или AI — Artificial intelligence) начинает захватывать все больше и больше профессий. В скором будущем с экранов телевизоров и мониторов в ютубе будут вещать только автоматизированные дикторы, которые созданы с помощью ИИ.

Все мы видели несколько лет назад как собаки-роботы от Boston Dynamics учились ходить и у них это еле получалось. Сегодня же все чаще появляются новости, что ту или иную профессию заменят искусственным интеллектом: таксистов, копирайтеров, дизайнеров, программистов и др.

Последние несколько лет компания “Cинтезия” (Synthesia) и Mail.ru Group активно разрабатывали искусственный интеллект, который человекоподобным голосом озвучивает написанный текст. Также в разработке, помимо синтеза речи, была работа над созданием видео составляющей говорения человека. Теперь можно скормить текст ИИ и получить видео фрагмент, где созданный AI в виде человека озвучивает новость, сценарий, причем все это выглядит довольно естественно. Каждый такой созданный диктор в AI видео файле использует, как и человек, губы для своей речи. Здесь также трудится ИИ, чтобы движение губ совпадало с тем, что озвучивает бот.

Synthesia — компания-разработчик программного обеспечения, основанная в 2017 году группой исследователей и предпринимателей из Калифорнийского университета в Лос-Анджелесе, Стэнфорда, TUM и Кембриджа. Их миссия — возглавить использование искусственного интеллекта и видеосинтеза для создания нового поколения инструментов создания контента. При этом компания очень тщательно следит за этичной составляющей свой работы. По мнению компании, возможность генерировать аудиовизуальный контент посредством искусственного интеллекта является одним из самых интересных достижений в области глубокого обучения.

У Синтезии нет возможности бесплатно опробовать их сервис, но есть новогоднее поздравление, которое позволяет создать видео с Санта Клаусом для всех желающих абсолютно бесплатно!

Video не поддерживается вашим браузером

Платная версия же стоит 30$ за 10 видео в месяц.

Mail. ru Group

Про саму компанию mailru, думаю, мне рассказывать нечего. Вы и так отлично знаете ее. Относительно недавно они создали ИИ помощника Марусю, которая разговаривала человеческим языком и могла понимать человеческую речь и давать ответы на вопросы в реальном времени. И вот в 2020 году mail.ru Group представила mail Диктора. Диктор может озвучить любой текст, который вы ему передадите. Вы можете сделать новостной выпуск, сделать презентацию чего-либо, а также можно разнообразить контент данной статьи:

Как сделать новогоднее поздравление деда мороза?

Переходим на сайте Санты Синтезии и вы увидите простую форму для заполнения:

Как сделать свой репортаж с помощью mail. ru Диктора?

Софт от mail Диктора гораздо мощнее, чем предлагает Синтезия.

Здесь мы можем добавлять изображения, титры, вставлять аудио файлы и многое другое. Двойным нажатием на дорожку открывается окно дополнительных настроек.

Итог

Все больше компаний и энтузиастов разрабатывают интересные нейронные сети, которые облегчают нашу работу или веселят нас. Машинное обучение все глубже и глубже будет проникать в нашу жизнь. Как минимум низкоквалифицированные профессии, где всю деятельность человека можно будет заменить программным кодом, в скором будущем исчезнут с рынка труда. Творческие же профессии, как мне кажется, заменят нескоро. Поэтому можно сделать вывод, что нужно развиваться в сторону творчества и программирования. Это позволит вам в ближайшие десятилетия быть на плаву и чувствовать себя относительно неплохо!

Платформа Visper с искусственным интеллектом, чтобы создавать видеоролики: презентации, новости, обзоры.

У нас получился такой ролик-анонс «Юридического словаря для журналистов и блогеров» (прочитайте).

https://youtube.com/watch?v=AOx4AKwEBtU%3Ffeature%3Doembed

Виртуальный диктор сервиса Visper объясняет, чем отличаются иностранные агенты и нежелательные организации, экстремизм и терроризм, клевета и оскорбление.

Как создать обучающий, новостной ролик или презентацию

Проведите подготовительную работу:

Нажмите «Создать новый ролик».

В колонке слева выберите персонаж — на выбор три категории: реалистичный, анимационный из фото. Также выберите пол персонажа: мужской или женский. Ниже нажмите «Применить ко всем слайдам».

Выберите голос — на выбор четыре варианта: жизнерадостный, добрый, деловой, бодрый. Ниже нажмите «Применить ко всем слайдам».

Выберите вид слайда, положение персонажа в кадре. Ниже нажмите «Применить ко всем слайдам».

Выберите фон для студии: фотографию, видео или сплошной цвет. Нажмите «+» рядом с предложенными вариантами, чтобы загрузить свой фон. Ниже нажмите «Применить ко всем слайдам».

Установите фоновую музыку. Установите жесты для персонажа.

В специальное поле введите текст, который диктор будет озвучивать, или загрузите аудио до 20 секунд. Добавьте в текст для озвучки эффекты: ударения, паузы, замедлите или ускорьте речь.

В нижнем поле введите название ролика.

Когда все будет готово, нажмите в правом нижнем углу на кнопку «Сгенерировать».

Инструменты, чтобы менять видео, можно или прокручивать мышкой или переключаться по функциям в колонке слева