Рекламодатель mail ru примерно так и группа представила бесплатный сервис по созданию виртуальных хостов на основе ИИ

Команда стартапа FASTEP разрабатывает ИИ-ассистента с дополненной реальностью для пользователей бытовой техники и промышленного оборудования. Мы постоянно ищем новые способы обращения к аудитории и никак не могли пройти мимо свежей ИИ-платформы для создания видеороликов с дикторами от Mail.ru.

В конце концов, эта тема нам не просто потенциально полезна, но и близка. Мы провели блиц-тест диктора от «Смотри Mail.ru» в реальном кейсе собственной рекламы и сравнили его с Synthesia, аналогом из США. А теперь хотим показать вам результаты.

Обе платформы находятся в бета-стадии и предлагают попробовать свои возможности на тестовом ролике. Этим мы и воспользовались.

Озвучить можно текст до 500 знаков. Есть возможность выбрать диктора, фон, добавить титры, а также фото или видео в левый верхний угол, как в настоящем новостном выпуске.

FASTEP — это ИИ-ассистент для работы с промышленным оборудованием. Он сам узнаёт технику, предлагает инструкции и показывает их в дополненной реальности. Графические подсказки закрепляются прямо на реальных органах управления. Даже если вы отвернулись, подсказка останется в правильном месте, а стрелка направит к ней. С FASTEP каждый рабочий и инженер становится экспертом. Подробности — на fastep.io

Пробный интерфейс Synthesia намного беднее. Здесь доступно только редактирование текста объёмом до 200 символов, а также выбор из трёх типов роликов. Сбоку показывают интерфейс, который можно будет получить за деньги. И он уже не уступает «мэйлрушному». Но доступ к нему выдают в индивидуальном порядке и только после того, как вы ответите на письмо, в котором вам пришлют ваш тестовый ролик.

Кстати, ролик присылают на email. Это удобно, но возможно лишь потому, что он небольшой — весит около двух мегабайт. Вес нашего ролика от «Смотри Mail.ru» составил около 44 мегабайт.

Текст для Synthesia:

Видео от Mail.ru сильно уступает по качеству озвучивания и мимики диктора. Российское решение также имеет интересный фокус на формат теленовостей. Интересно, будет ли он востребован?

Synthesia продемонстрировала преимущество по реалистичности графики и по звуку (даже на русском языке), но странно деавтоматизирована в части доступа к полному редактору.

Оба решения находятся в ранних стадиях развития, поэтому судить их по текущему состоянию мы считаем неправильным: ни один продукт не позиционируется как завершённый. Главное, что компании открывают к ним доступ, чтобы потребители могли оценить перспективы подобного софта — и заодно развлечься.

Нам на текущий момент более интересно ознакомиться с полной версией сервиса Synthesia.

Если вы тоже протестировали дикторов, расскажите о своих впечатлениях в комментариях. А лучше покажите, что получилось.

Инструмент позволит компаниям, медиа и блогерам быстро выпускать сюжеты студийного качества, говорят в компании.

Сервис «Смотри Mail.ru» разработал платформу с цифровыми ведущими для производства новостей и репортажей в телевизионном формате, сообщили vc.ru в компании.

Чтобы сделать новостной видеоролик, нужно загрузить текст (его прочитает ведущий) и, если необходимо, изображения, музыку, титры и ссылки. Пользователь может выбрать внешность диктора из предложенных вариантов и оформление студии (например, в цветах компании).

Речь и мимика ведущих реалистичны, утверждают в компании. Например, читая новости, они расставляют смысловые акценты и воспроизводят эмоции. Сервис бесплатный для пользователей.

При создании платформы группа использовала собственные ИИ-разработки: над синтезом речи работала команда голосового помощника «Маруся», а в основе моделей ведущих лежит система компьютерного зрения группы Vision. Видеоизображение синхронизируется с речью ведущего — чтобы точно отображать движение губ и мимику, система обучалась на реальных людях и видеозаписях.

Mail.ru Group рассчитывает, что платформой будут пользоваться крупные компании, нишевые медиа и блогеры. Использование видеоредактора позволит им быстро выпускать сюжеты и экономить на производстве контента.

Видео от профессиональных медиаплощадок смогут попасть в рекомендательную систему сервиса «Смотри Mail.ru», что позволит пользователям заработать на видео, отмечают в компании. По прогнозам группы, к 2022 году 79% интернет-трафика в России будут составлять онлайн-видео.

Похожий сервис есть у «Сбербанка»: в апреле 2019 года компания представила виртуальную телеведущую с ИИ «Елена». Система позволяет создать ролик с новостным сюжетом, она генерирует речь и мимику.

Будущее наступило с AI

Искусственный интеллект (или AI — Artificial intelligence) начинает захватывать все больше и больше профессий. В скором будущем с экранов телевизоров и мониторов в ютубе будут вещать только автоматизированные дикторы, которые созданы с помощью ИИ.

Все мы видели несколько лет назад как собаки-роботы от Boston Dynamics учились ходить и у них это еле получалось. Сегодня же все чаще появляются новости, что ту или иную профессию заменят искусственным интеллектом: таксистов, копирайтеров, дизайнеров, программистов и др.

Последние несколько лет компания “Cинтезия” (Synthesia) и Mail.ru Group активно разрабатывали искусственный интеллект, который человекоподобным голосом озвучивает написанный текст. Также в разработке, помимо синтеза речи, была работа над созданием видео составляющей говорения человека. Теперь можно скормить текст ИИ и получить видео фрагмент, где созданный AI в виде человека озвучивает новость, сценарий, причем все это выглядит довольно естественно. Каждый такой созданный диктор в AI видео файле использует, как и человек, губы для своей речи. Здесь также трудится ИИ, чтобы движение губ совпадало с тем, что озвучивает бот.

Synthesia

Synthesia — компания-разработчик программного обеспечения, основанная в 2017 году группой исследователей и предпринимателей из Калифорнийского университета в Лос-Анджелесе, Стэнфорда, TUM и Кембриджа. Их миссия — возглавить использование искусственного интеллекта и видеосинтеза для создания нового поколения инструментов создания контента. При этом компания очень тщательно следит за этичной составляющей свой работы. По мнению компании, возможность генерировать аудиовизуальный контент посредством искусственного интеллекта является одним из самых интересных достижений в области глубокого обучения.

У Синтезии нет возможности бесплатно опробовать их сервис, но есть новогоднее поздравление, которое позволяет создать видео с Санта Клаусом для всех желающих абсолютно бесплатно!

Video не поддерживается вашим браузером

Платная версия же стоит 30$ за 10 видео в месяц.

Mail. ru Group

Про саму компанию mailru, думаю, мне рассказывать нечего. Вы и так отлично знаете ее. Относительно недавно они создали ИИ помощника Марусю, которая разговаривала человеческим языком и могла понимать человеческую речь и давать ответы на вопросы в реальном времени. И вот в 2020 году mail.ru Group представила mail Диктора. Диктор может озвучить любой текст, который вы ему передадите. Вы можете сделать новостной выпуск, сделать презентацию чего-либо, а также можно разнообразить контент данной статьи:

Как сделать новогоднее поздравление деда мороза?

Переходим на сайте Санты Синтезии и вы увидите простую форму для заполнения:

Как сделать свой репортаж с помощью mail. ru Диктора?

Софт от mail Диктора гораздо мощнее, чем предлагает Синтезия.

Здесь мы можем добавлять изображения, титры, вставлять аудио файлы и многое другое. Двойным нажатием на дорожку открывается окно дополнительных настроек.

Итог

Все больше компаний и энтузиастов разрабатывают интересные нейронные сети, которые облегчают нашу работу или веселят нас. Машинное обучение все глубже и глубже будет проникать в нашу жизнь. Как минимум низкоквалифицированные профессии, где всю деятельность человека можно будет заменить программным кодом, в скором будущем исчезнут с рынка труда. Творческие же профессии, как мне кажется, заменят нескоро. Поэтому можно сделать вывод, что нужно развиваться в сторону творчества и программирования. Это позволит вам в ближайшие десятилетия быть на плаву и чувствовать себя относительно неплохо!

Последние несколько лет компания “Синтезия” (Synthesia) и Mail.ru Group активно разрабатывали искусственный интеллект, который человекоподобным голосом озвучивает написанный текст. Также в разработке, помимо синтеза речи, была работа над созданием видео составляющей говорения человека. Теперь можно скормить текст ИИ и получить видео фрагмент, где созданный AI в виде человека озвучивает новость, сценарий, причем все это выглядит довольно естественно. Каждый такой созданный диктор в AI видео файле использует, как и человек, губы для своей речи. Здесь также трудится ИИ, чтобы движение губ совпадало с тем, что озвучивает бот.

Synthesia — компания-разработчик программного обеспечения, основанная в 2017 году группой исследователей и предпринимателей из Калифорнийского университета в Лос-Анджелесе, Стенфорда, TUM и Кембриджа. Их миссия — возглавить использование искусственного интеллекта и видеосинтеза для реализации нового поколения инструментов “создания контента”. При этом компания очень тщательно следит за этичной составляющей свой работы. По мнению компании, возможность генерировать аудиовизуальный контент посредством искусственного интеллекта является одним из самых интересных достижений в области глубокого обучения.

У “Синтезии” нет возможности бесплатно опробовать их сервис, но есть новогоднее поздравление, которое позволяет создать видео с Санта Клаусом для всех желающих абсолютно бесплатно!

Переходим на сайте “Санты Синтезии” и вы увидите простую форму для заполнения:

Софт от “mail Диктора” гораздо мощнее, чем предлагает “Синтезия”.

Озвучка текста в мире ИИ называется Text-to-Speech. Нейронные сети отлично справляются с этой задачей и представлены в интернете очень широко. В статье представлены как сами нейронные сети, так и сервисы-генераторы, главная особенность которых заключается к выполнению части работ через нейросети.

Лучшие нейросети для озвучки текста

В данном разделе собраны самые лучшие нейронки, проверенные экспертами и популярные у блогеров и других известных личностей.

Zvukogram

Данная площадка за несколько секунд преобразует загруженный текст в аудио-дорожку с профессиональной озвучкой. Она отличается качеством и возможностью расставить нужные акценты. У нейросети немало возможностей: озвучка на 14 языках, выбор среди более, чем 25 языков, выбор настроения и не только.

удобный визуальный редактор;

возможность делать диалоги;

наличие словаря, в который можно добавлять слова.

некоторые голоса излишне роботизированы.

Voicegenerator

Бесплатная площадка, которая не требует регистрации и загрузки. Она предназначена для генерации любого текста в аудиоформат. В процессе преобразования используются интегрированные в ваш браузер голосовые комбинации. Поэтому сказать точно, какой будет озвучка в вашем конкретном случае никто не может. Диапазон настроек ограничен. В основном пользователю доступны изменения высоты и возраста голоса.

не нужно платить;

не нужно загружать программу;

возможность работы в офлайн режиме.

весьма посредственный результат;

Cybervoice

В настоящий момент проект сменил название на SteosVoice. Он представляет собой голосовые связки ИИ живых NPC в играх. Также с его помощью можно дублировать ролики, делать озвучку и производить другие действия в сегменте аудио.

Пользователи могут сделать озвучку своим голосом или воспользоваться базой данных, в которой собраны разные голосовые варианты. Для работы с сервисом обязательна регистрация на официальном сайте.

наличие Телеграмм бота;

доступ к бесплатной версии;

широкий выбор тарифов.

сложная система старта сотрудничества (пользовательское соглашение, регистрация, выбор пакета и т.д.).

От тарифа напрямую зависят возможности пользователя. В среднем цена колеблется от 100 до 3 000 рублей. Но есть и эксклюзивные пакеты, стоимость которых обсуждается в индивидуальном порядке.

Speechactors

Классный продукт на основе нейросети, который в несколько движений трансформирует текст в звук. В наборе настроек свыше трёх сотен голосов, около 130 языков, возможность накладывать музыку и выбирать эмоциональную окраску текста.

новичок может бесплатно поработать с 2 текстами;

каждое слово возможно корректировать вручную;

натуральное звучание без ноток робота.

в платных пакетах заложены лимиты по символам.

Подписка на сервис стоит от 50 до 100 долларов, причём оплата взимается не помесячно, а единоразовов.

Voicemaker

Довольно достойный инструмент для преобразования текста в речь. Также он способен трансформировать в звуковой файл язык SSML. Набор настроек широкий, в него входят такие параметры как высота голоса, эмоциональная окраска, тембр, возраст и не только. В базу огромный список мужских, женских и детских голосов.

загрузка файлов mp3, Ogg и Wav;

множество дополнительных голосовых эффектов (шёпот, дыхание и т.д.);

наличие бесплатной версии;

создание уникального пользовательского голоса;

возможность создавать аудиокниги и делать подкасты;

очень ограниченный функционал бесплатной версии.

Подписка стоит от 5 до 25 долларов.

Сервис texttospeech

Синтезатор речи на базе нейросети. У него очень простой интерфейс, запустить озвучку можно сразу с главной страницы. Тут же расположен редактор, содержащий типичные для данных инструментов настройки: высота, громкость, скорость и не только.

наличие бесплатной пробной версии;

простая система работы;

в базу голосов включены довольно необычные варианты (Деда Мороза, Бабы Яги или, к примеру, Ленина).

отсутствие мобильного приложения;

Оплата рассчитывается не по символам, а по категории голосов. На стандарте с вас спишется рубль за 1000 символов, на премиуме за то же количество знаков вы отдадите уже 7 рублей.

AI от Apihost

Достойная нейросеть, которая проводит разные манипуляции с текстовыми и аудио файлами. Вы можете озвучить их, подкорректировать уже ранее записанную речь, изменить голос, записать голос и не только.

наличие безлимитных тарифов;

списание денег с баланса происходит по факту озвучки.

голоса собраны в пакеты;

сложно сразу понять, какой тариф вам нужен.

На лимитированных пакетах 1000 символов стоит от 60 копеек до 6,5 рублей. Цена на безлимит начинается с 5 000 рублей.

Resemble

Интересная программа, предназначенная для озвучки текстовых файлов. Также она создаёт клоны любых голосов и позволяет вносить коррективы в уже готовые звуковые файлы. Работа может вестись на нескольких языках, для пользователей доступен набор иностранных языков. Настройки стандартные: скорость, эмоциональная окраска, возраст, тембр и так далее.

удобство для встраивания в другие ресурсы;

актуальность для разработчиков игр.

программы нет в свободном доступе

демонстрации не отражают реальной картины.

Чтобы воспользоваться услугами нейросети, необходимо заполнить заявку. Только после этого вам будут известны условия сотрудничества и тарифные планы.

Podcastle Ai

Современный и продвинутый сервис, который позволяет сделать практически профессиональную озвучку. С помощью него вы сможете улучшить качество уже записанного звука, сделать многодорожечную запись, трансформировать текст в речь и наоборот. ИИ работает быстро и радует высоким качеством, так как разрабатывался для работы с подкастами.

широкий набор настроек для редактирования звука (нейтрализуются лишние паузы, слова-паразиты и не только);

бесплатный доступ к базовому набору функций;

опция интеллектуального исправления звукового файла;

очень простой редактор.

лимиты при покупке подписки.

Базовая версия стоит 12 долларов в месяц, профессиональный тариф – 25 долларов.

Naturalreaders

Интересный сервис, который предлагает два направления работы – прослушивание текста и его озвучка. Первое подходит для тех, кто привык воспринимать информацию на слух. А также для изучения иностранных языков, так как программа распознаёт 16 языков.

Озвучка производится максимально реалистично. Редактор имеет длинный перечень настроек: возраст, тембр, этническая принадлежность, расстановка пауз, эмоциональная окраска и не только.

существование в трёх версиях (десктоп-версия, приложение для смартфона, расширении для Google Chrome);

большой выбор настроек.

голос не на 100% похож на человеческий.

Сервис имеет пробную бесплатную версию и два платных пакета (49 и 79 долларов).

Нейросети генерирующие голос в 2023 году

Собранные здесь нейросети сразу преобразуют текст в речь и дают вам прослушать готовый результат. Работа с ними проста и интуитивно понятна.

Oddcast

Одна из самых популярных программ, позволяющая сразу озвучить 600 символов текста. Количество языков превышает три десятка. На русском можно выбрать варианты – два типа женских голосов и мужской. Набор настроек стандартен: скорость речи, тональность, дополнительны звуковые эффекты.

возможность изменить внешность диктора;

подключение к онлайн-API;

наличие бесплатной версии.

Бесплатная версия действует 2 недели. Подписка стоит около 100 долларов, её хватает в среднем на 40 000 минут записи.

не требует оплаты;

не нужно регистрироваться;

речь синтезируется одним нажатием кнопки.

сильно роботизированный и неприятный голос.

Unitools

оптимальный набор настроек;

в бесплатном режиме можно ежедневно озвучивать 1000 символов.

среднее качество аудиофайла;

стоимость текста при превышении лимита рассчитывается индивидуально для каждой работы.

Яндекс Алиса

Уже привычная всем Алиса способна озвучить выбранный вами текст. Она «читает» как весь текст, так и выбранные вами куски. Работа ведётся в онлайн-режиме, озвучка имеет среднее качество.

не нужно ничего скачивать;

подходит только для прослушивания текстов, а не для профессиональной озвучки текстов.

Yandex Speechkit

наличие расширенной платной версии.

скачивание только в формате ogg;

платный пакет очень дорогой.

Сервис доступен и в брендовой версии – она необходима для создания индивидуального голоса по запросу. Но стоит такая услуга от 150 000 рублей в месяц.

Microsoft Azure

Облачная платформа от компании Microsoft функциональна и может справиться с преобразованием текста в речь. Она хорошо подходит для создания приложений, ботов и различных служб. В базе сервиса почти 150 голосов и диалектов, диапазон настроек широкий и позволяет сделать хороший результат.

возможность создать индивидуальный голос под свой бренд;

работа в облаке, локально или в контейнерах на периферии;

невозможность сразу узнать стоимость сотрудничества.

Acapela

Очень простой сервис, позволяющий в онлайн формате озвучить текст. Он бесплатный и работает на нескольких языках. В категории «русский» вам будут доступны два типа голосов – простой и премиальный.

не нужно платить:

простой алгоритм работы;

мгновенная трансформация текста в голос.

низкое качество озвучки;

не подходит для озвучивания презентации или роликов.

Нейросети для озвучки текста на английском

(Несколько слов о самом сервисе или нейронке, Ключевые особенности, доступность, стоимость, скрин из сервиса, параметры и допустимые настройки – до 1100 символов на каждый пункт)

Профессиональная программа, дающая результат высокого качества. Она позволяет за считанные минуты преобразовать текст в речь на нескольких языках. Редактирование упрощается возможностью обмена ссылками, то есть любой человек, которому вы передали ссылку, справится с этой задачей.

Murf

Простой сервис для озвучивания текста и редактирования уже готовых аудиофайлов. Он находится в свободном доступе, поэтому быстро набирает популярность. Редактор весьма хороший. Он содержит в базе 20 языков, предлагает выбрать возраст, диалект, пол. Вы можете самостоятельно расставить паузы, указать эмоциональную окраску и другие параметры озвучки.

Подписка на сервис стоит от 29 до 59 долларов. Самый дорогой пакет позволяет подключить к нему команду из 4 человек.

Bigspeak ai

Простейшая программа, позволяющая озвучивать тексты на английском языке, используя разные голоса: Великобритания, США, Австралия. Также доступен набор базовых настроек, делающих голос более человечным. В бесплатном режиме можно озвучить 300 символов текста, после регистрации количество знаков увеличивается до 3000.

Премиальный пакет стоит 20 долларов в месяц.

Respeecher

Уникальный проект, в основе которого лежит нейросеть, прошедшая обучение по системе speech to speech. Она в состоянии сделать практически идеальный Deep Fake голоса. В итоге даже специалист не отличит, кто произносит слова – человек или робот. Программа копирует предложенный голос с высокой точностью: интонации, тембр, обороты и др.

Просто так доступ к сервису не получить. Необходимо сначала сформировать и отправить заявку. Также можно сделать запрос на демонстрацию возможностей программы.

Uberduck AI

Интересная нейросеть с открытым исходным кодом. Она предлагает озвучку более, чем 5 000 голосов. Диапазон возможностей программы огромен. К примеру, с её помощью можно создавать полноценные приложения. В бесплатной версии вы получите набор из 4 000 голосов и право на создание и сохранение 4 аудиофайлов.

Минимальная стоимость тарифа 96 долларов, максимальная – 300 долларов.

Платформа Visper с искусственным интеллектом, чтобы создавать видеоролики: презентации, новости, обзоры.

У нас получился такой ролик-анонс «Юридического словаря для журналистов и блогеров» (прочитайте).

https://youtube.com/watch?v=AOx4AKwEBtU%3Ffeature%3Doembed

Виртуальный диктор сервиса Visper объясняет, чем отличаются иностранные агенты и нежелательные организации, экстремизм и терроризм, клевета и оскорбление.

Как создать обучающий, новостной ролик или презентацию

Проведите подготовительную работу:

Нажмите «Создать новый ролик».

В колонке слева выберите персонаж — на выбор три категории: реалистичный, анимационный из фото. Также выберите пол персонажа: мужской или женский. Ниже нажмите «Применить ко всем слайдам».

Выберите голос — на выбор четыре варианта: жизнерадостный, добрый, деловой, бодрый. Ниже нажмите «Применить ко всем слайдам».

Выберите вид слайда, положение персонажа в кадре. Ниже нажмите «Применить ко всем слайдам».

Выберите фон для студии: фотографию, видео или сплошной цвет. Нажмите «+» рядом с предложенными вариантами, чтобы загрузить свой фон. Ниже нажмите «Применить ко всем слайдам».

Установите фоновую музыку. Установите жесты для персонажа.

В специальное поле введите текст, который диктор будет озвучивать, или загрузите аудио до 20 секунд. Добавьте в текст для озвучки эффекты: ударения, паузы, замедлите или ускорьте речь.

В нижнем поле введите название ролика.

Когда все будет готово, нажмите в правом нижнем углу на кнопку «Сгенерировать».

Инструменты, чтобы менять видео, можно или прокручивать мышкой или переключаться по функциям в колонке слева