Коэффициент сходства

Коэффициент сходства (также мера сходства, индекс сходства) — безразмерный показатель сходства сравниваемых объектов. Также известен под названиями «мера ассоциации», «мера подобия» и др.

Применяется в биологии для количественного определения степени сходства биологических объектов (участков, районов, отдельных фитоценозов, зооценозов и т. п.). Также применяются в географии, социологии, распознавании образов, поисковых системах, сравнительной лингвистике, биоинформатике, хемоинформатике, при сравнении строк и др.

В более широком смысле говорят о мерах близости к которым относятся: меры разнообразия, меры концентрации (однородности), меры включения, меры сходства, меры различия (в том числе расстояния), меры совместимости событий, меры несовместимости событий, меры взаимозависимости, меры взаимонезависимости. Теория мер близости находится в стадии становления и потому существует множество различных представлений о формализации отношений близости.

Большинство коэффициентов нормированы и находятся в диапазоне от 0 (сходство отсутствует) до 1 (полное сходство). Сходство и различие взаимодополняют друг друга (математически это можно выразить так: Сходство = 1 − Различие).

Коэффициенты сходства можно условно разделить на три группы в зависимости от того, какое число объектов рассматривается:

унарные — рассматривается один объект. В эту группу входят меры разнообразия и меры концентрации.
бинарные — рассматривается два объекта. Это наиболее известная группа коэффициентов.

n-арные (многоместные) — рассматривается n объектов. Эта группа наименее известна.

Источник: Википедия