Влияние специальной направленности текста на частоту встречаемости символов

Автор: Лобкина Анастасия Теймуразовна, 11 класс
Руководители: Широков Валентин Владимирович, Просекин Михаил Юрьевич.
Учреждение: МБОУ г. Иркутска лицей №2, ЦИПШ ГБУ ДО «Центр развития дополнительного образования детей»

Качество автоматического перевода всегда уступало качеству перевода, сделанного человеком. На то есть много причин и одна из них — наличие омонимов в текстах. Пока нет алгоритма, всегда точно определяющего, какой следует использовать перевод, в зависимости от контекста. Целью данной работы является оценка отличий частот встречаемости символов в текстах различных стилей.
Знание этих отличий может быть полезно в переводе различных текстов с лучшим качеством и стать важным шагом в компьютерном моделировании естественных языков.

Для русского языка существует таблица распределения частот букв, которая основана на текстах различных стилей. Чтобы составить такую таблицу отдельно для каждого стиля, на языке «Си» была написана программа, которая подсчитывает частотности каждой буквы в совокупности указанных текстов. Затем высчитывался диапазон допустимых значений, с его помощью определяется, какие частоты можно считать нормальными, а какие — аномальными.

В результате анализа около 300 текстов каждого стиля получилось, что все они имеют свои отличительные особенности, и, как следствие, по частотности некоторых букв, не понимая текста, можно определить его стилистическую направленность, а значит, и более подходящий контекст перевода.

Кроме перевода текстов с других языков, знание отличий в частотностях текстов разных языковых жанров может помочь облегчить работу электронных библиотек, книжных архивов, помочь определить язык произведения или перевести различные древние тексты с лучшим качеством, чем это есть сейчас. Этот вид анализа можно существенно улучшить, не меняя его принципа, если подсчитывать частотности не только букв, но и их сочетаний; пределом этого развития будет подсчёт частотностей слов целиком.