Новейший пакет искусственного интеллекта Meta делает перевод речи более плавным и выразительным

Еще в августе Meta представила свою мультимодальную модель перевода на основе искусственного интеллекта SeamlessM4T, поддерживающую перевод текста на 100 языков и речи на 36 языков. Благодаря обновленной архитектуре "v2" технологический гигант расширил возможности этого инструмента, чтобы сделать разговорный перевод более естественным и выразительным - ключевыми характеристиками для полноценного общения на разных языках.

Первая из двух новых функций - "SeamlessExpressive", которая, как видно из названия, передает интонации исходной речи в перевод. К ним относятся высота и громкость голоса, эмоциональная окраска (волнение, грусть или шепот), скорость речи и паузы. Учитывая, что машинный перевод до сих пор звучал довольно роботизированно, это потенциально может изменить ситуацию, как в повседневном общении, так и в контент-производстве. Поддерживаемые языки: английский, испанский, немецкий, французский и китайский (на момент написания статьи итальянский отсутствовал в демо-версии).

Вторая функция - "SeamlessStreaming", запускающая перевод речи в режиме реального времени, пока говорящий продолжает говорить. Это позволяет собеседникам быстрее получать перевод. Задержка по-прежнему небольшая, около двух секунд, но хотя бы не приходится ждать, пока человек закончит предложение. По словам Meta, сложность заключается в том, что структура предложений в разных языках отличается. Поэтому пришлось разработать алгоритм анализа частичного аудиовхода, чтобы определить, достаточно ли контекста для генерации перевода или стоит продолжить прослушивание.

Последние разработки Meta в сфере "бесшовной коммуникации" выглядят впечатляюще, оставляя далеко позади инструменты мобильного перевода от таких компаний как Google и Samsung. Пока неизвестно, когда эти функции станут доступны широкой публике, но можно представить, как Meta встроит их в свои умные очки, сделав последние еще более полезными.

Технологии

Новое на сайте

В среду президент Байден подписал законопроект, который может привести к запрету TikTok в США. Это самая серьезная угроза, с которой столкнулось популярное приложение с тех пор, как в 2020 году впервые возникли опасения по поводу его китайского владельца.

Новый закон

Законопроект обязывает материнскую компанию TikTok, ByteDance, продать приложение американскому покупателю,…

подробнее

Для многих рост автоматизации вызывает страх перед потерей рабочих мест. Но Amazon, лидер в области робототехники и искусственного интеллекта, бросает вызов этому мнению. Стефано Ла Ровере, директор по глобальной робототехнике Amazon, утверждает, что новые технологии на самом деле создают более благоприятную рабочую среду и способствуют карьерному росту.

«Это миф, что технологии и роботы…

подробнее

Атаки программ-вымогателАтаки программ-вымогателей нацелены на резервные копии для максимизации прибылией на резервные копии для максимизации прибыли

Атаки программ-вымогателей стали еще опаснее, поскольку киберпреступники теперь нацеливаются на резервные копии данных, чтобы парализовать способность организации восстанавливать информацию. Недавний отчет показал, что у ошеломляющих 94% организаций, пострадавших от вымогателей в прошлом году, злоумышленники пытались взломать их резервные копии.

Этот сдвиг в тактике подчеркивает…

подробнее

Alibaba представила серверный процессор на базе RISC-V и ноутбук RuyiBOOK

Академия Дамо от Alibaba объявила о значительном прогрессе в разработке своих чипов на базе RISC-V, стремясь снизить зависимость от импортированных технологий. Вот обзор их последних достижений:

Процессор Xuantie C930: для серверов: запланированный к выпуску к концу 2024 года, этот процессор следующего поколения предназначен для рабочих нагрузок ИИ и высоконагруженных серверов. Хотя…

подробнее

Хотя X (ранее известный как Twitter) может похвастаться значительной пользовательской базой, последние данные показывают тревожную тенденцию: сокращение активных пользователей. Это вызывает вопросы о будущем платформы и ее способности конкурировать с такими гигантами социальных сетей, как Instagram и TikTok.

Сокращающаяся пользовательская база

Независимые аналитические компании…

подробнее

Xiaomi представила умные аудиоочки Mijia за $63

Технологический гигант Xiaomi выходит на рынок умных очков с моделью Mijia Smart Audio Glasses, предлагая стильное и функциональное решение для прослушивания аудио в пути.

Мода и функциональность:

Одной из особенностей Mijia Smart Audio Glasses является их универсальность. Базовая оправа имеет шесть сменных вариантов, что позволяет настроить внешний вид в соответствии с вашим…

подробнее