В статье рассмотрены основные виды моделей машинного обучения для обработки естественного языка (Natural language processing, NLP). Исследованы аспекты применения подхода градиентного бустинга для работы с категориальными текстовыми признаками выборки. Представлен алгоритм обработки входных текстов на естественном языке. В рамках данного алгоритма выделены основные этапы: синтаксический разбор текста, его анализ и генерация. Для каждого этапа алгоритма приведены основные используемые алгоритмы и программные средства. Рассмотрен алгоритм Word2vec для анализа семантики языков, реализуемый на основе искусственных нейронных сетей, предназначенных для получения векторных представлений слов на естественном языке. Вычисленное векторное представление слов используется в нейронных сетях с долгой краткосрочной памятью (Long short-term memory, LSTM) для эффективной обработки длинных предложений или документов. Кратко приведены текущее состояние современных исследований в области обработка текстов на естественных языках с применением архитектуры глубоких нейронных сетей – трансформер (Transformer).
Ключевые слова: обработка естественного языка, Natural language processing, нейронные сети, Word2vec, долгая краткосрочная память, LSTM.