Preview

Чебышевский сборник

Расширенный поиск

Построение и анализ моделей русского языка в связи с исследованиями криптографических алгоритмов

https://doi.org/10.22405/2226-8383-2022-23-2-151-160

Аннотация

При исследовании криптографических качеств алгоритмов защиты информации важным моментом является построение теоретических и экспериментальных моделей источников сообщений. В данной статье проводится статистический анализ свойств лексических и n-граммных моделей русского языка на основе новостного текстового корпуса. Создан
специализированный корпус из новостных статей последних лет политической направленности, отражающий узкую область употребления языка. Составлены словари токенов и
n-грамм, найдены величины покрытия этих словарей, а также значения энтропии. Проведена лемматизация исходного текстового корпуса и экстраполяция роста объёма словарей
в зависимости от увеличения размера корпуса.

Об авторах

Анастасия Геннадьевна Малашина
Национальный исследовательский университет «Высшая школа экономики»
Россия





Алексей Борисович Лось
Национальный исследовательский университет «Высшая школа экономики»
Россия

кандидат технических наук, доцент 



Список литературы

1. Алферов А. П., Зубов А. Ю., Кузьмин А. С., Черемушкин А. В., Основы криптографии: учебное пособие. 3-е изд., испр. и доп. // М.: Гелиос АРВ, 2005. – 408 с.

2. Бабаш А. В., Шанкин Г. П., Криптография, Москва: СОЛОН-ПРЕСС, 2007.

3. Викторов А. Б., Грамницкий С. Г., Гордеев С. С., Ескевич М. В. и Климина Е. М. Универсальная методика подготовки компонентов обучения систем распознавания речи //

4. Речевые технологии, pp. 39-56, Февраль 2009.

5. Волосатова Т. М., Информатика и лингвистика: учеб. пособие, Волосатова Т. М. и Чичварин Н. В. // ИНФРА-М, 2018, 196 с.

6. Кипяткова И. С. Исследование статистических n-граммных моделей языка для распознавания слитной русской речи со сверхбольшим словарем // Анализ разговорной русской

7. речи , Санкт-Петербург, 2010.

8. Малашина А. Г. Алгоритм восстановления отдельных частей сообщения по информации о возможных значениях его знаков, Материалы конференции // Межвузовская научно-техническая конференция студентов, аспирантов и молодых специалистов имени Е.В. Арменского. – Москва, 2019. C. 215-217.

9. Шеннон К., Работы по теории информации и кибернетике // М: Издательство иностранной литературы, 1963.

10. Яглом А. М., Яглом И. М., Вероятность и информация: 3-е изд., испр. и доп. // М: издательство «Наука», 1973, 236-290 с.

11. Bellegarda J. R. Robustness in Statistical Language Modeling // Robustness in Language and Speech Technology , Springer Science+Business Media Dordrecht, 2001, pp. 104-106.

12. Chase L., Rosenfeld R., Ward W. Error-responsive modifications to speech recognizers: negative n-grams // Third International Conference on Spoken Language Processing, Yokohama, 1994.

13. Florencio D., Herley C. A Large-Scale Study of Web Password Habits // Proceeds of the International World Wide Web Conference Committee, 2015.

14. Gelbukh A., Sidorov G. Zipf and Heaps Laws’ Coefficients Depend on Language // Conference on Intelligent Text Processing and Computational Linguistics, Mexico City, 2001.

15. Kechedzhy K. E. Rank distributions of words in additive many-step Markov chaons and the Zipf law // Phys. Rev. E. – 2005 – Vol. 72.

16. Massey J. Guessing and entropy // Proceedings of 1994 IEEE International Symposium on Information Theory. IEEE. p. 204.

17. Rosenfeld R. Optimizing lexical and n-gram coverage via judicious use of linguistic data // Proceedings of the Fourth European Conference on Speech Communication and Technology – Madrid, 1995.


Рецензия

Для цитирования:


Малашина А.Г., Лось А.Б. Построение и анализ моделей русского языка в связи с исследованиями криптографических алгоритмов. Чебышевский сборник. 2022;23(2):151-160. https://doi.org/10.22405/2226-8383-2022-23-2-151-160

For citation:


Malashina A.G., Los A.B. The construction and analysis of the Russian language models for a cryptographic algorithm research. Chebyshevskii Sbornik. 2022;23(2):151-160. (In Russ.) https://doi.org/10.22405/2226-8383-2022-23-2-151-160

Просмотров: 362


Creative Commons License
Контент доступен под лицензией Creative Commons Attribution 4.0 License.


ISSN 2226-8383 (Print)