Google Audio Search - будет ли это возможным?

8 мар 2021

Google предлагает подробную информацию о ранних тестах, которые потенциально могут сделать поиск аудио в будущем.

Сможет ли Google когда-нибудь создать индекс аудиоконтента, по которому пользователи смогут выполнять поиск, как веб-страницы?

Результаты раннего тестирования, которые Google опубликовал в статье в блоге, показывают, что поиск аудио труднее, чем может показаться. Подробности этих тестов приведены в статье, написанной Тимом Олсоном, старшим вице-президентом по цифровому стратегическому партнерству KQED. Google сотрудничает с KQED, чтобы сделать аудио более доступным для поиска.

Подпишись на наш Телеграм и читай все статьи и новости первым!

С помощью KUNGFU.AI, поставщика услуг искусственного интеллекта, Google и KQED провели тесты, чтобы определить, как быстро и без ошибок расшифровать звук.

Вот что они обнаружили.

Трудности поиска аудио

Самым большим препятствием на пути к возможности поиска аудио является тот факт, что аудио необходимо преобразовать в текст, прежде чем его можно будет искать и сортировать. В настоящее время нет возможности точно расшифровать звук, чтобы его можно было быстро найти.

Единственный способ поиска звука в мировом масштабе – это автоматическая транскрипция. Ручная расшифровка отнимет у издателей много времени и усилий.

Олсон из KQED отмечает, что планка точности должна быть особенно высокой для транскрипции аудио, когда речь идет об индексировании новостей аудио. Имеющиеся до сих пор достижения в области преобразования речи в текст в настоящее время не соответствуют этим стандартам.

Ограничения современной технологии преобразования речи в текст

Google провел тесты с KQED и KUNGFU.AI, применив новейшие инструменты преобразования речи в текст к коллекции аудионовостей.

Были обнаружены ограничения в способности ИИ определять имена собственные (также известные как именованные сущности). Именованные сущности иногда требуют понимания контекста для точной идентификации, а у ИИ не всегда.

Олсон приводит пример звуковых новостей KQED, которые содержат речь, полную именованных сущностей, контекстуальных для региона Bay Area:

«Аудиозаписи местных новостей KQED богаты ссылками на названные сущности, связанные с темами, людьми, местами и организациями, которые контекстуальны для региона Bay Area. Выступающие используют такие аббревиатуры, как «CHP» для California Highway Patrol и «Peninsula» для области, охватывающей Сан-Франциско и Сан-Хосе. Искусственному интеллекту труднее их идентифицировать».

Когда названные сущности не поняты, ИИ делает лучшее предположение о том, что было сказано. Но это неприемлемое решение для веб-поиска, потому что неправильная транскрипция может изменить весь смысл сказанного.

Что дальше?

Будет продолжена работа по поиску аудио с планами сделать эту технологию широко доступной, когда она будет разработана.

Дэвид Столлер, руководитель отдела по работе с новостями и публикациями в Google, говорит, что технология станет открытой, когда работа над этим проектом будет завершена.

«Одним из столпов инициативы Google New Initiative является создание новых подходов к решению сложных проблем. После завершения эта технология и связанные с ней передовые методы будут открыто распространяться, что значительно расширит ожидаемый эффект ».

Сегодняшние модели машинного обучения не учатся на своих ошибках, говорит Олсон из KQED, и здесь людям, возможно, придется вмешаться.

Следующим шагом является тестирование цикла обратной связи, в котором редакции помогают улучшить модели машинного обучения путем выявления распространенных ошибок транскрипции.

«Мы уверены, что в ближайшем будущем улучшения в этих моделях преобразования речи в текст помогут быстрее преобразовывать аудио в текст, что в конечном итоге поможет людям более эффективно находить аудионовости».

Поделиться
Комментарии