Preview

Чебышевский сборник

Расширенный поиск

Классификация последовательностей на основе коротких мотивов

https://doi.org/10.22405/2226-8383-2018-19-1-187-199

Полный текст:

Аннотация

Задачи, связанные с классификацией последовательностей символов некоторого алфавита, часто возникают в таких областях, как биоинформатика и обработка естественного языка. Методы глубокого обучения, в особенности модели на основе рекуррентных нейронных сетей, в последние несколько лет зарекомендовали себя как наиболее эффективный способ решения подобных задач. Однако существующие подходы имеют серьезный недостаток — низкую интерпретируемость получаемых результатов. Крайне сложно установить какие именно свойства входной последовательности ответственны за её принадлежность к тому или иному классу. Упрощение же таких моделей с целью повышения их интерпретируемости, в свою очередь, приводит к снижению качества классификации. Такие недостатки ограничивают применение современных методов машинного обучения во многих предметных областях. В настоящей работе мы представляем принципиально новую, интерпретируемую архитектуру нейронных сетей, основанную на поиске набора коротких подпоследовательностей — мотивов, наличие которых влияет на принадлежность последовательности к определенному классу. Ключевой составляющей предлагаемого решения является разработанный нами алгоритм дифференцируемого выравнивания, являющийся дифференцируемым аналогом таких классических способов сравнения строк, как редакционное расстояние Левенштейна и алгоритм Смита–Ватермана. В отличие от предыдущих работ, посвященных классификации последовательностей на основе мотивов, новый метод позволяет не только выполнять поиск в произвольной части строки, но и учитывать возможные вставки.

Об авторе

Е. П. Офицеров
Тульский государственный университет
Россия

Офицеров Евгений Петрович — кафедра прикладной математики и информатики



Список литературы

1. Hochreiter S., Schmidhuber J. Long short-term memory // Neural computation. 1997. Vol. 9, № 8. P. 1735–1780.

2. Learning phrase representations using RNN encoder-decoder for statistical machine translation / K. Cho [et al.]. // arXiv:1406.1078. 2014.

3. Empirical evaluation of gated recurrent neural networks on sequence modeling / J. Chung [et al.]. // arXiv:1412.3555. 2014.

4. Karpathy A., Johnson J., Fei-Fei L. Visualizing and understanding recurrent networks // arXiv:1506.02078. 2015.

5. Lstmvis: A tool for visual analysis of hidden state dynamics in recurrent neural networks / H. Strobelt [et al.]. // IEEE transactions on visualization and computer graphics. 2018. Vol. 24, № 1. P. 667–676.

6. Convolutional neural network architectures for predicting DNA–protein binding / H. Zeng et al. // Bioinformatics. 2016. Vol. 32, № 12. P. i121–i127.

7. Zhou J., Troyanskaya O.G. Predicting effects of noncoding variants with deep learning–based sequence model // Nature methods. 2015. Vol. 12, № 10. P. 931.

8. Deep motif: Visualizing genomic sequence classifications / J. Lanchantin [et al.]. // arXiv:1605.01133. 2016.

9. Quang D., Xie X. DanQ: a hybrid convolutional and recurrent deep neural network for quantifying the function of DNA sequences // Nucleic acids research. 2016. Vol. 44, № 11. P. e107–e107.

10. Левенштейн В.И. Двоичные коды с исправлением выпадений, вставок и замещений символов // Докл. АН СССР. 1965. Т. 163, № 4. С. 845–848.

11. Smith T.F., Waterman M.S. Comparison of biosequences // Advances in applied mathematics. 1981. Vol. 2, № 4. P. 482–489.

12. Gotoh O. An improved algorithm for matching biological sequences // Journal of molecular biology. 1982. Vol. 162, № 3. P. 705–708.

13. Manavski S.A., Valle G. CUDA compatible GPU cards as efficient hardware accelerators for Smith-Waterman sequence alignment // BMC bioinformatics. 2008. Vol. 9, № 2. P. S10.

14. Ioffe S., Szegedy C. Batch normalization: Accelerating deep network training by reducing internal covariate shift // arXiv:1502.03167. 2015.

15. Hahnloser R.H.R. et al. Digital selection and analogue amplification coexist in a cortex-inspired silicon circuit // Nature. 2000. Vol. 405, № 6789. P. 947.


Для цитирования:


Офицеров Е.П. Классификация последовательностей на основе коротких мотивов. Чебышевский сборник. 2018;19(1):187-199. https://doi.org/10.22405/2226-8383-2018-19-1-187-199

For citation:


Ofitserov E.P. Ofitserov Evgeny Petrovich — department of applied mathematics and computer science. Chebyshevskii Sbornik. 2018;19(1):187-199. (In Russ.) https://doi.org/10.22405/2226-8383-2018-19-1-187-199

Просмотров: 35


Creative Commons License
Контент доступен под лицензией Creative Commons Attribution 4.0 License.


ISSN 2226-8383 (Print)