Связанные понятия
Мно́жественное выра́внивание после́довательностей (англ. multiple sequence alignment, MSA) — выравнивание трёх и более биологических последовательностей, обычно белков, ДНК или РНК. В большинстве случаев предполагается, что входной набор последовательностей имеет эволюционную связь. Используя множественное выравнивание, можно оценить эволюционное происхождение последовательностей, проведя филогенетический анализ.
Предсказа́ние втори́чной структу́ры РНК — метод определения вторичной структуры нуклеиновой кислоты по последовательности её нуклеотидов. Вторичную структуру можно предсказывать для единичной последовательности или анализировать множественное выравнивание семейства родственных РНК.
Интеракто́м (англ. Interactome) — термин молекулярной биологии, обозначающий полный набор взаимодействий между молекулами в отдельной клетке. Интерактом включает как непосредственные физические контакты между белками (белок-белковые взаимодействия), так и непрямые взаимодействия генов (например, эпистаз).
Выравнивание последовательностей — биоинформатический метод, основанный на размещении двух или более последовательностей мономеров ДНК, РНК или белков друг под другом таким образом, чтобы легко увидеть сходные участки в этих последовательностях. Сходство первичных структур двух молекул может отражать их функциональные, структурные или эволюционные взаимосвязи. Выровненные последовательности оснований нуклеотидов или аминокислот обычно представляются в виде строк матрицы. Добавляются разрывы между...
Предсказа́ние структу́ры белка ́ (англ. protein structure prediction) — направление молекулярного моделирования, предсказание по аминокислотной последовательности трёхмерной структуры белка (вторичной, третичной или четвертичной). Существенно отличается от проблемы дизайна белка (англ. protein design). Предсказание структуры белка — одна из самых важных целей биоинформатики и теоретической химии. Оно применяется в медицине (например, в фармацевтике) и биотехнологии (например, при создании новых ферментов...
Позиционная весовая матрица (ПВМ) — биоинформатический метод, который применяется для поиска мотивов в биологических последовательностях.
Предсказа́ние фу́нкции белка ́ — определение биологической роли белка и значения в контексте клетки. Предсказание функций проводится для плохо изученных белков или для гипотетических белков, предсказанных на основе данных геномных последовательностей. Источником информации для предсказания могут служить гомология нуклеотидных последовательностей, профили экспрессии генов, доменная структура белков, интеллектуальный анализ текстов публикаций, филогенетические и фенотипические профили, белок-белковые...
Строковое ядро — это ядерная функция, определённая на строках, т.е. конечных последовательностях символов, которые не обязательно имеют одну и ту же длину. Строковые ядра можно интуитивно понимать как функции, измеряющие похожесть пар строк — чем больше похожи две строки a и b, тем больше значение строкового ядра K(a, b).
Логотип последовательностей (англ. Sequence logo) (в биоинформатике) — метод графического представления консервативности нуклеотидов (в цепи РНК или ДНК) или аминокислот (в белках). Логотип строится по набору выровненных последовательностей. Этот метод позволяет на одном графике отразить следующие характеристики анализируемого участка...
Предсказание генов — это определение кодирующих и регулирующих последовательностей ДНК в геноме: белковых генов и генов функциональной РНК, промоторов, энхансеров и прочее.
Нейронные сети Кохонена — класс нейронных сетей, основным элементом которых является слой Кохонена. Слой Кохонена состоит из адаптивных линейных сумматоров («линейных формальных нейронов»). Как правило, выходные сигналы слоя Кохонена обрабатываются по правилу «Победитель получает всё»: наибольший сигнал превращается в единичный, остальные обращаются в ноль.
Байесовский подход в филогенетике позволяет получить наиболее вероятное филогенетическое дерево при заданных исходных данных, последовательностях ДНК или белков рассматриваемых организмов и эволюционной модели замен. Для снижения вычислительной сложности алгоритма расчёт апостериорной вероятности реализуется различными алгоритмами, использующими метод Монте-Карло для марковских цепей. Главными преимуществами байесовского подхода по сравнению с методами максимального правдоподобия и максимальной экономии...
Расширяющийся нейронный газ — это алгоритм, позволяющий осуществлять адаптивную кластеризацию входных данных, то есть не только разделить пространство на кластеры, но и определить необходимое их количество исходя из особенностей самих данных. Это новый класс вычислительных механизмов. Количество и расположение искусственных нейронов в пространстве признаков не задается заранее, а вычисляется в процессе обучения моделей в соответствии с особенностями входных данных, самостоятельно подстраиваясь под...
Оператор Кэнни (детектор границ Кэнни, алгоритм Кэнни) в дисциплине компьютерного зрения — оператор обнаружения границ изображения. Был разработан в 1986 году Джоном Кэнни (англ. John F. Canny) и использует многоступенчатый алгоритм для обнаружения широкого спектра границ в изображениях.
Семплирование по Гиббсу — алгоритм для генерации выборки совместного распределения множества случайных величин. Он используется для оценки совместного распределения и для вычисления интегралов методом Монте-Карло. Этот алгоритм является частным случаем алгоритма Метрополиса-Гастингса и назван в честь физика Джозайи Гиббса.
Математическая морфология (ММ) — (морфология от греч. μορφή «форма» и λογία «наука») — теория и техника анализа и обработки геометрических структур, основанная на теории множеств, топологии и случайных функциях. В основном применяется в обработке цифровых изображений, но также может быть применима на графах, полигональной сетке, стереометрии и многих других пространственных структурах.
Модель Барабаши-Альберт (БА) — алгоритм генерации случайных безмасштабных сетей с использованием принципа предпочтительного присоединения. Безмасштабные сети широко распространены в природных сетях (пищевые цепочки) и сетях, созданных человеком (Интернет, всемирная паутина, сети цитирования, некоторые социальные сети).
Алгоритм Баума — Велша используется в информатике и статистике для нахождения неизвестных параметров скрытой марковской модели (HMM). Он использует алгоритм прямого-обратного хода и является частным случаем обобщённого EM-алгоритма.
Поточный алгоритм (англ. streaming algorithm) — алгоритм для обработки последовательности данных в один или малое число проходов.
Космиды (Cosmides) — плазмиды, содержащие фрагмент ДНК фага лямбда включая cos-участок. Вместе с системами упаковки в фаговые частицы in vitro используются как векторные молекулы для клонирования генов и при построении геномных библиотек. Космиды были впервые сконструированы Коллинсом и Брюнингом в 1978 году. Их название происходит от сокращения двух терминов: cos-участок (сам термин в свою очередь происходит от англ. cohesive ends — липкие концы) и плазмида.
Метод подвижных клеточных автоматов (MCA, от англ. movable cellular automata) — это метод вычислительной механики деформируемого твердого тела, основанный на дискретном подходе. Он объединяет преимущества метода классических клеточных автоматов и метода дискретных элементов. Важным преимуществом метода МСА является возможность моделирования разрушения материала, включая генерацию повреждений, распространение трещин, фрагментацию и перемешивание вещества. Моделирование именно этих процессов вызывает...
Модель замен (в биологии) - набор теоретических или эмпирических правил, описывающих процесс замещения нуклеотидов или аминокислот в ходе эволюции последовательности ДНК или белка.
В искусственных нейронных сетях функция активации нейрона определяет выходной сигнал, который определяется входным сигналом или набором входных сигналов. Стандартная компьютерная микросхема может рассматриваться как цифровая сеть функций активации, которые могут принимать значения «ON» (1) или «OFF» (0) в зависимости от входа. Это похоже на поведение линейного перцептрона в нейронных сетях. Однако только нелинейные функции активации позволяют таким сетям решать нетривиальные задачи с использованием...
Подробнее: Функция активации
В прикладной статистике метод наименьших полных квадратов (МНПК, TLS — англ. Total Least Squares) — это вид регрессии с ошибками в переменных, техника моделирования данных с помощью метода наименьших квадратов, в которой принимаются во внимание ошибки как в зависимых, так и в независимых переменных. Метод является обобщением регрессии Деминга и ортогональной регрессии и может быть применён как к линейным, так и нелинейным моделям.
Элементарный клеточный автомат — это клеточный автомат с одномерным массивом ячеек в форме бесконечной в обе стороны ленты, который имеет два возможных состояния ячеек (0 и 1, «мёртвые» и «живые», «пустые» и «заполненные») и правило для определения состояния ячейки на следующем шаге, использующее только состояние ячейки и её двух соседей на текущем шаге. В целом такие автоматы являются одними из наиболее простых возможных клеточных автоматов, однако при некоторых правилах они показывают сложное поведение...
Матрица мер конвергенции — матрица содержащая в качестве элементов меры сходства объектов. Матрица отражает попарное сходство объектов. Сходство является показателем, измеренном в порядковой шкале и, следовательно, возможно лишь определение отношений вида: «больше», «меньше» или «равно».
Сети адаптивного резонанса — разновидность искусственных нейронных сетей, основанная на теории адаптивного резонанса Стивена Гроссберга и Гейла Карпентера. Включает в себя модели обучения с учителем и без учителя, которые используются при решении задач распознавания образов и предсказания.
Подробнее: Адаптивная резонансная теория
Анализ баланса потоков (АМП) (англ. flux balance analysis, FBA), — метод математического моделирования метаболизма, позволяющий определить скорость реакций в метаболической сети (одном пути или наборе путей). Метод применяется в моделировании разных воздействий на клетку или оптимизации условий её роста. Ключевыми особенностями метода являются использование стационарного приближения (допущения, при котором концентрация каждого вещества считается постоянной) и малая потребность в вычислительной мощности...
Гистогра́мма в математической статистике — это функция, приближающая плотность вероятности некоторого распределения, построенная на основе выборки из него.
Обратимый клеточный автомат — клеточный автомат, в котором каждое состояние имеет единственного предшественника. Таким образом, это регулярная решётка из ячеек, состояние каждой из которых берётся из конечного множества состояний, и правило для одновременного обновления состояний ячеек, исходя из состояний её соседей. Условие обратимости заключается в том, что предыдущее состояние любой ячейки может быть определено, зная обновлённые состояния всех ячеек решётки. После обращения времени получается...
Функция приспособленности (англ. fitness function) — вещественная или целочисленная функция одной или нескольких переменных, подлежащая оптимизации в результате работы генетического алгоритма, направляет эволюцию в сторону оптимального решения. Является одним из частных случаев целевой функции.
Итеративное сжатие — это алгоритмическая техника разработки фиксированно-параметрически разрешимых алгоритмов, в которой один элемент (такой как вершина графа) добавляется в задачу на каждом шаге и используется небольшое решение задачи перед добавлением элемента, чтобы найти небольшое решение задачи после добавления.
Сдвиг среднего значения — это непараметрическая техника анализа пространства признаков для определения местоположения максимума плотности вероятности, так называемый алгоритм поиска моды. Область применения техники — кластерный анализ в компьютерном зрении и обработке изображений.
Фронтальный клеточный автомат (англ. frontal cellular automata, FCA) - специальный тип вычислительных алгоритмов, основанных на моделях клеточных автоматов.
Алгоритм Левенберга — Марквардта — метод оптимизации, направленный на решение задач о наименьших квадратах. Является альтернативой методу Ньютона. Может рассматриваться как комбинация последнего с методом градиентного спуска или как метод доверительных областей. Алгоритм был сформулирован независимо Левенбергом (1944) и Марквардтом (1963).
Уравнение ренормгруппы (уравнение Каллана — Симанчика) — дифференциальное уравнение для корреляционных функций (пропагаторов), показывающее их независимость от масштаба рассмотрения. Оно имеет место, например, при рассмотрении динамики системы вблизи критической точки.
Техники спектральной кластеризации используют спектр (собственные значения) матрицы сходства данных для осуществления понижения размерности перед кластеризацией в пространствах меньших размерностей. Матрица сходства подаётся в качестве входа и состоит из количественных оценок относительной схожести каждой пары точек в данных.
Подробнее: Спектральная кластеризация
Упругая карта служит для нелинейного сокращения размерности данных. В многомерном пространстве данных располагается поверхность, которая приближает имеющиеся точки данных и при этом является, по возможности, не слишком изогнутой. Данные проецируются на эту поверхность и потом могут отображаться на ней, как на карте. Её можно представлять себе как упругую пластину, погруженную в пространство данных и прикрепленную к точкам данных пружинками. Служит обобщением метода главных компонент (в котором вместо...
Поиском
наилучшей проекции (англ. Projection Pursuit) называется статистический метод, состоящий в нахождении такой проекции многомерных данных, для которой достигает максимума некоторая функция качества проекции.
Свёртка последовательностей — это результат перемножения элементов двух заданных числовых последовательностей таким образом, что члены одной последовательности берутся с возрастанием индексов, а члены другой — с убыванием (что и служит основанием для принятого названия данной операции).
Проклятие размерности (ПР) — термин, используемый в отношении ряда свойств многомерных пространств и комбинаторных задач. В первую очередь это касается экспоненциального роста необходимых экспериментальных данных в зависимости от размерности пространства при решении задач вероятностно-статистического распознавания образов, машинного обучения, классификации и дискриминантного анализа. Также это касается экспоненциального роста числа вариантов в комбинаторных задачах в зависимости от размера исходных...
Количественный анализ экспрессии генов — анализ транскриптома, измерение транскрипционной активности гена, с помощью определения количества его продукта, матричной РНК (мРНК), универсальной для большей части генов.
Самоорганизу́ющаяся ка́рта Ко́хонена (англ. Self-organizing map — SOM) — нейронная сеть с обучением без учителя, выполняющая задачу визуализации и кластеризации. Идея сети предложена финским учёным Т. Кохоненом. Является методом проецирования многомерного пространства в пространство с более низкой размерностью (чаще всего, двумерное), применяется также для решения задач моделирования, прогнозирования, выявление наборов независимых признаков, поиска закономерностей в больших массивах данных, разработке...
Mетод присоединения соседей — алгоритм биоинформатики, разработанный Наруя Сайтоу и Масатоcи Нэи в 1987 году. Это восходящий кластерный метод для создания филогенетических деревьев. Обычно используется для деревьев, основанных на ДНК или белковых последовательностях. Для его реализации необходимо вычислить расстояния между каждой парой таксонов (например, видов или последовательностей).
Эволюционная дистанция — величина, характеризующая генетические различия между двумя организмами. Находится путём сравнения нуклеотидных последовательностей гомологичных генов. Мерой генетических различий считается процент несовпадений нуклеотидов в соответствующих позициях гена.