Распознай это! Конкурс «Родная речь» 2014

Распознай это! Конкурс «Родная речь» 2014
Всем привет!

В прошлом посте мы анонсировали конкурс разработчиков «Родная речь-2014», участники которого должны будут создать работоспособный алгоритм преобразования распознанной последовательности фонем в текст, соответствующий нормам русского языка.
Регистрация уже началась, и чтобы помочь сомневающимся определиться с решением: принимать ли участие, я попробую объяснить, что же нужно сделать в рамках конкурса.

Для начала давайте проведем эксперимент. Попробуйте прочитать и понять текст следующего абзаца. Обратите внимание, что знак апострофа после согласного, например, л’, обозначает его смягчение.

а в'ит' пашхы фс'игда так н'имат'ил'нраспрашвл аздаров'йи т'с'ен'иф'одравны дж с и давл т'л'ифоны враче и вапще прывл'ал сачуств'е и в йиво саглас'и дм'итр'иф был пачимуто сыв'ршан ув'ер'ен

Получилось? А теперь давайте посмотрим, как этот текст должен был выглядеть на самом деле:

А ведь Паша всегда так внимательно расспрашивал о здоровье Ксении Федоровны, давал телефоны врачей, вообще проявлял сочувствие и в его согласии Дмитриев был почему-то совершенно уверен

В приведенном выше примере мы попытались смоделировать работу системы распознавания на фонетическом уровне. Абзац с апострофами – это сырой результат распознавания прочитанного текста. Приблизительно в таком виде участники конкурса получат файлы с данными для разработки своей системы и проведения экспериментов. Суть задачи сводится к следующему. Имея в своем распоряжении словарь, в котором каждому слову сопоставлена соответствующая транскрипция, а также матрицу перепутывания, необходимо восстановить исходное сообщение. В нашем случае сопоставить фонетической записи слова его исходное орфографическое написание.

Вроде бы все просто, не так ли? Однако давайте рассмотрим, какие могут возникнуть трудности при реализации алгоритма. Основная проблема заключается в том, что из-за ошибок, возникающих при распознавании, полученная последовательность распознанных фонем не всегда будет соответствовать транскрипциям произнесенных слов. Ошибки могут быть трех типов: замена одного звука другим (пашхы, т‘с’ени), пропуск звука (вн’имател’на, давал), вставка лишнего звука в слове (пашхы) или ошибочное распознавание артефактов дыхания и посторонних шумов как фонем (дж с). Получить информацию о вероятности спутывания одного звука с другим, а также о вероятности пропуска и вставки можно из матрицы перепутывания.

Распознай это! Конкурс «Родная речь» 2014

Так же следует учитывать, что в зависимости от темпа говорящего на выходе системы распознавания может получиться такая длинная строка: ав’ит’пашхы фс’игдатакн’имат’ил’нраспрашвл аздаров’йит’с’ен’иф’одравны. Следовательно перед нами возникает проблема сегментации, т. е. разделения входной последовательности на отдельные слова, т. к. русский язык богат такими особенностями как: задело — за дело, и дико мне — иди ко мне, покалечилась — пока лечилась, мы женаты — мы же на ты, ты жеребёнок — ты же ребёнок и т. д. Решить эту проблему можно за счет использования языковой модели

Распознай это! Конкурс «Родная речь» 2014

Итак, для реализации конкурсного задания необходимо решить следующие задачи: проблему несоответствия транскрипций из словаря и распознанной последовательности фонем из-за ошибок пропуска, вставки и замены звуков, а так же проблему сегментации входной последовательности фонем на отдельные слова.

Наиболее простым решением, сразу же приходящим на ум, является модификация метрики Левенштейна или алгоритма Витерби. Дополнительную информацию можно почерпнуть из списка литературы, приведенного в конце раздела «Задача конкурса».

Однако мы бы не хотели давать Участникам каких-либо явных «рецептов», так как цель нашего конкурса заключается в поиске специалистов, умеющих находить нестандартные решения сложных и интересных задач. Мы надеемся, что молодые, талантливые разработчики, которых мы найдем с помощью «Родной речи», присоединятся к команде ЦРТ и будут помогать делать наши продукты еще лучше. А чтобы все финалисты смогли приехать на последний этап конкурса в Санкт-Петербург, транспортные расходы и размещение – за счет организатора.

Хочу также заметить, что прототипы систем, разработанные участниками конкурса – это их интеллектуальная собственность, на которую ЦРТ не претендует. У компании есть собственное решение этой задачи, которое и используется в наших продуктах.

Следите за новостями конкурса в соц. сетях: ВК, FB, LinkedIn и на сайте.

Основные материалы по конкурсу — на форуме.

Автор: Anisotropic

Источник

Оставить комментарий