Google Audio Search - будет ли это возможным?
Google предлагает подробную информацию о ранних тестах, которые потенциально могут сделать поиск аудио в будущем.
Сможет ли Google когда-нибудь создать индекс аудиоконтента, по которому пользователи смогут выполнять поиск, как веб-страницы?
Результаты раннего тестирования, которые Google опубликовал в статье в блоге, показывают, что поиск аудио труднее, чем может показаться. Подробности этих тестов приведены в статье, написанной Тимом Олсоном, старшим вице-президентом по цифровому стратегическому партнерству KQED. Google сотрудничает с KQED, чтобы сделать аудио более доступным для поиска.
Подпишись на наш Телеграм и читай все статьи и новости первым!
С помощью KUNGFU.AI, поставщика услуг искусственного интеллекта, Google и KQED провели тесты, чтобы определить, как быстро и без ошибок расшифровать звук.
Вот что они обнаружили.
Трудности поиска аудио
Самым большим препятствием на пути к возможности поиска аудио является тот факт, что аудио необходимо преобразовать в текст, прежде чем его можно будет искать и сортировать. В настоящее время нет возможности точно расшифровать звук, чтобы его можно было быстро найти.
Единственный способ поиска звука в мировом масштабе - это автоматическая транскрипция. Ручная расшифровка отнимет у издателей много времени и усилий.
Олсон из KQED отмечает, что планка точности должна быть особенно высокой для транскрипции аудио, когда речь идет об индексировании новостей аудио. Имеющиеся до сих пор достижения в области преобразования речи в текст в настоящее время не соответствуют этим стандартам.
Ограничения современной технологии преобразования речи в текст
Google провел тесты с KQED и KUNGFU.AI, применив новейшие инструменты преобразования речи в текст к коллекции аудионовостей.
Были обнаружены ограничения в способности ИИ определять имена собственные (также известные как именованные сущности). Именованные сущности иногда требуют понимания контекста для точной идентификации, а у ИИ не всегда.
Олсон приводит пример звуковых новостей KQED, которые содержат речь, полную именованных сущностей, контекстуальных для региона Bay Area:
«Аудиозаписи местных новостей KQED богаты ссылками на названные сущности, связанные с темами, людьми, местами и организациями, которые контекстуальны для региона Bay Area. Выступающие используют такие аббревиатуры, как «CHP» для California Highway Patrol и «Peninsula» для области, охватывающей Сан-Франциско и Сан-Хосе. Искусственному интеллекту труднее их идентифицировать».
Когда названные сущности не поняты, ИИ делает лучшее предположение о том, что было сказано. Но это неприемлемое решение для веб-поиска, потому что неправильная транскрипция может изменить весь смысл сказанного.
Что дальше?
Будет продолжена работа по поиску аудио с планами сделать эту технологию широко доступной, когда она будет разработана.
Дэвид Столлер, руководитель отдела по работе с новостями и публикациями в Google, говорит, что технология станет открытой, когда работа над этим проектом будет завершена.
«Одним из столпов инициативы Google New Initiative является создание новых подходов к решению сложных проблем. После завершения эта технология и связанные с ней передовые методы будут открыто распространяться, что значительно расширит ожидаемый эффект ».
Сегодняшние модели машинного обучения не учатся на своих ошибках, говорит Олсон из KQED, и здесь людям, возможно, придется вмешаться.
Следующим шагом является тестирование цикла обратной связи, в котором редакции помогают улучшить модели машинного обучения путем выявления распространенных ошибок транскрипции.
«Мы уверены, что в ближайшем будущем улучшения в этих моделях преобразования речи в текст помогут быстрее преобразовывать аудио в текст, что в конечном итоге поможет людям более эффективно находить аудионовости».