Случайное индексирование

Случайное индексирование — это метод понижения размерности и один из подходов дистрибутивной семантики, основанный на убеждении, что варианты векторной модели (Vector Space Model) с высокой размерностью малоприменимы на практике и что модели не должны наращивать размерность при появлении не виденных ранее объектов (термов, документов и т. д.) Предполагается возможность проецирования модели с большими размерностями в пространство с меньшими — без ущерба для L2-метрик, если правильно подобрать итоговые измерения, что и представляет собой основной подход к случайным проекциям как методу понижения размерности, сформулированный как лемма Джонсона-Линденштрасса.

LSH устроен аналогично. Случайное индексирование как представление объектов естественного языка впервые предлагается в работе Пентти Канерва о Sparse Distributed Memory и может быть описано как инкрементальное построение случайных проекций.

Можно также показать, что случайное индексирование — это вариант случайных проекций для построения евклидовых пространств.

Источник: Википедия

а б в г д е ё ж з и й к л м н о п р с т у ф х ц ч ш щ э ю я