Понятия со словом «последовательность»
Логотип последовательностей (англ. Sequence logo) (в биоинформатике) — метод графического представления консервативности нуклеотидов (в цепи РНК или ДНК) или аминокислот (в белках). Логотип строится по набору выровненных последовательностей. Этот метод позволяет на одном графике отразить следующие характеристики анализируемого участка...
Выравнивание последовательностей — биоинформатический метод, основанный на размещении двух или более последовательностей мономеров ДНК, РНК или белков друг под другом таким образом, чтобы легко увидеть сходные участки в этих последовательностях. Сходство первичных структур двух молекул может отражать их функциональные, структурные или эволюционные взаимосвязи. Выровненные последовательности оснований нуклеотидов или аминокислот обычно представляются в виде строк матрицы. Добавляются разрывы между...
Мно́жественное выра́внивание после́довательностей (англ. multiple sequence alignment, MSA) — выравнивание трёх и более биологических последовательностей, обычно белков, ДНК или РНК. В большинстве случаев предполагается, что входной набор последовательностей имеет эволюционную связь. Используя множественное выравнивание, можно оценить эволюционное происхождение последовательностей, проведя филогенетический анализ.
Свёртка последовательностей — это результат перемножения элементов двух заданных числовых последовательностей таким образом, что члены одной последовательности берутся с возрастанием индексов, а члены другой — с убыванием (что и служит основанием для принятого названия данной операции).
Связанные понятия
Позиционная весовая матрица (ПВМ) — биоинформатический метод, который применяется для поиска мотивов в биологических последовательностях.
Предсказание генов — это определение кодирующих и регулирующих последовательностей ДНК в геноме: белковых генов и генов функциональной РНК, промоторов, энхансеров и прочее.
Предсказа́ние втори́чной структу́ры РНК — метод определения вторичной структуры нуклеиновой кислоты по последовательности её нуклеотидов. Вторичную структуру можно предсказывать для единичной последовательности или анализировать множественное выравнивание семейства родственных РНК.
De novo сборка транскриптома – метод сборки последовательностей транскриптома, который осуществляется без картирования на референсный геном. Из коротких фрагментов (ридов или прочтений), полученных при секвенировании, воссоздаются отдельные последовательности РНК или транскрипты.
Предсказа́ние структу́ры белка́ (англ. protein structure prediction) — направление молекулярного моделирования, предсказание по аминокислотной последовательности трёхмерной структуры белка (вторичной, третичной или четвертичной). Существенно отличается от проблемы дизайна белка (англ. protein design). Предсказание структуры белка — одна из самых важных целей биоинформатики и теоретической химии. Оно применяется в медицине (например, в фармацевтике) и биотехнологии (например, при создании новых ферментов...
Строковое ядро — это ядерная функция, определённая на строках, т.е. конечных последовательностях символов, которые не обязательно имеют одну и ту же длину. Строковые ядра можно интуитивно понимать как функции, измеряющие похожесть пар строк — чем больше похожи две строки a и b, тем больше значение строкового ядра K(a, b).
Сборка генома — процесс объединения большого количества коротких фрагментов ДНК (ридов) в одну или несколько длинных последовательностей (контигов и скаффолдов) в целях восстановления последовательностей ДНК хромосом, из которых возникли эти фрагменты в процессе секвенирования.
Моти́в в молекулярной биологии — относительно короткая последовательность нуклеотидов или аминокислот, слабо меняющаяся в процессе эволюции и, по крайней мере предположительно, имеющая определённую биологическую функцию.
Картирование коротких прочтений (англ. Short-Read Sequence Alignment, Short-Read Sequence Mapping) — биоинформатический метод анализа результатов секвенирования нового поколения, состоящий в определении позиций в референсном геноме или транскриптоме, откуда с наибольшей вероятностью могло быть получено каждое конкретное короткое прочтение. Обычно является первой стадией в обработке данных в случае, если известен геном исследуемого организма.
Простра́нственное выра́внивание — способ установления гомологии между двумя или более полимерными структурами на основании их трёхмерной структуры. Этот процесс обычно применяется к третичной структуре белков, но может также использоваться и для больших молекул РНК. В противоположность простому наложению структур, когда известно по крайней мере несколько эквивалентных аминокислотных остатков, пространственное выравнивание не требует никаких предварительных данных, кроме координат атомов.
Количественный анализ экспрессии генов — анализ транскриптома, измерение транскрипционной активности гена, с помощью определения количества его продукта, матричной РНК (мРНК), универсальной для большей части генов.
Предсказа́ние фу́нкции белка́ — определение биологической роли белка и значения в контексте клетки. Предсказание функций проводится для плохо изученных белков или для гипотетических белков, предсказанных на основе данных геномных последовательностей. Источником информации для предсказания могут служить гомология нуклеотидных последовательностей, профили экспрессии генов, доменная структура белков, интеллектуальный анализ текстов публикаций, филогенетические и фенотипические профили, белок-белковые...
Модель замен (в биологии) - набор теоретических или эмпирических правил, описывающих процесс замещения нуклеотидов или аминокислот в ходе эволюции последовательности ДНК или белка.
Mетод присоединения соседей — алгоритм биоинформатики, разработанный Наруя Сайтоу и Масатоcи Нэи в 1987 году. Это восходящий кластерный метод для создания филогенетических деревьев. Обычно используется для деревьев, основанных на ДНК или белковых последовательностях. Для его реализации необходимо вычислить расстояния между каждой парой таксонов (например, видов или последовательностей).
Интеракто́м (англ. Interactome) — термин молекулярной биологии, обозначающий полный набор взаимодействий между молекулами в отдельной клетке. Интерактом включает как непосредственные физические контакты между белками (белок-белковые взаимодействия), так и непрямые взаимодействия генов (например, эпистаз).
Скрытая марковская модель (СММ) — статистическая модель, имитирующая работу процесса, похожего на марковский процесс с неизвестными параметрами, и задачей ставится разгадывание неизвестных параметров на основе наблюдаемых. Полученные параметры могут быть использованы в дальнейшем анализе, например, для распознавания образов. СММ может быть рассмотрена как простейшая байесовская сеть доверия.
Секвенирование спаренных концов — один из методов секвенирования ДНК нового поколения, основанный на получении и секвенировании библиотеки спаренных концевых фрагментов (англ. paired-end tags, PET), в которой короткие 5’- и 3’- концевые участки фрагментов ДНК/кДНК соединены друг с другом.
Сайт рестрикции (участок узнавания) — короткая последовательность нуклеотидов в молекуле ДНК, которая распознаётся ферментом эндонуклеазой рестрикции-модификации (рестриктазой). Рестриктаза связывается с молекулой ДНК в точке расположения сайта рестрикции и перерезает цепочку нуклеотидов внутри сайта или в непосредственной близости от него.
Предпочте́ние кодо́нов — понятие, описывающее явление неравных частот встречаемости синонимичных кодонов в кодирующих областях генома.
В теории вероятностей случайная величина имеет дискретное равномерное распределение, если она принимает конечное число значений с равными вероятностями.
Подробнее: Дискретное равномерное распределение
Обучение дерева решений использует дерево решений (как предиктивную модель), чтобы перейти от наблюдений над объектами (представленными в ветвях) к заключениям о целевых значениях объектов (представленных в листьях). Это обучение является одним из подходов моделирования предсказаний, используемых в статистике, интеллектуальном анализе данных и обучении машин. Модели деревьев, в которых целевая переменная может принимать дискретный набор значений, называются деревьями классификации. В этих структурах...
Техники спектральной кластеризации используют спектр (собственные значения) матрицы сходства данных для осуществления понижения размерности перед кластеризацией в пространствах меньших размерностей. Матрица сходства подаётся в качестве входа и состоит из количественных оценок относительной схожести каждой пары точек в данных.
Подробнее: Спектральная кластеризация
Метод дробовика (англ. Shotgun sequencing) — метод, используемый для секвенирования длинных участков ДНК. Суть метода состоит в получении случайной массированной выборки клонированных фрагментов ДНК данного организма, на основе которых может быть восстановлена исходная последовательность ДНК.
Байесовский подход в филогенетике позволяет получить наиболее вероятное филогенетическое дерево при заданных исходных данных, последовательностях ДНК или белков рассматриваемых организмов и эволюционной модели замен. Для снижения вычислительной сложности алгоритма расчёт апостериорной вероятности реализуется различными алгоритмами, использующими метод Монте-Карло для марковских цепей. Главными преимуществами байесовского подхода по сравнению с методами максимального правдоподобия и максимальной экономии...
Поточный алгоритм (англ. streaming algorithm) — алгоритм для обработки последовательности данных в один или малое число проходов.
Эволюционная дистанция — величина, характеризующая генетические различия между двумя организмами. Находится путём сравнения нуклеотидных последовательностей гомологичных генов. Мерой генетических различий считается процент несовпадений нуклеотидов в соответствующих позициях гена.
Куб Фибоначчи можно определить в терминах кодов Фибоначчи и расстояния Хэмминга, независимых множеств вершин в путях, или через дистрибутивные решётки.
Двоичная, бинарная или дихотомическая классификация — это задача классификации элементов заданного множества в две группы (предсказание, какой из групп принадлежит каждый элемент множества) на основе правила классификации. Контекст, в котором требуется решение, имеет ли объект некоторое качественное свойство, некоторые специфичные характеристики или некоторую типичную двоичную классификацию, включает...
Алгоритм «прямого-обратного» хода — алгоритм для вычисления апостериорных вероятностей последовательности состояний при наличии последовательности наблюдений. Иначе говоря, алгоритм, вычисляющий вероятность специфической последовательности наблюдений. Алгоритм применяется в трёх алгоритмах скрытых Марковских моделей.
Алгоритм Баума — Велша используется в информатике и статистике для нахождения неизвестных параметров скрытой марковской модели (HMM). Он использует алгоритм прямого-обратного хода и является частным случаем обобщённого EM-алгоритма.
Иерархическая кластеризация (также графовые алгоритмы кластеризации и иерархический кластерный анализ) — совокупность алгоритмов упорядочивания данных, направленных на создание иерархии (дерева) вложенных кластеров. Выделяют два класса методов иерархической кластеризации...
Пиросеквени́рование — это метод секвенирования ДНК (определение последовательности нуклеотидов в молекуле ДНК), основанный на принципе «секвенирование путём синтеза». При включении нуклеотида происходит детекция высвобождающихся пирофосфатов. Технология была разработана Полом Ниреном (швед. Pål Nyrén) и его студентом Мустафой Ронаги англ. Mostafa Ronaghi) в Королевском технологическом институте (Стокгольм) в 1996 году.
Итеративное сжатие — это алгоритмическая техника разработки фиксированно-параметрически разрешимых алгоритмов, в которой один элемент (такой как вершина графа) добавляется в задачу на каждом шаге и используется небольшое решение задачи перед добавлением элемента, чтобы найти небольшое решение задачи после добавления.
Алгоритм Витерби — алгоритм поиска наиболее подходящего списка состояний (называемого путём Витерби), который в контексте цепей Маркова получает наиболее вероятную последовательность произошедших событий.
Нейронные сети Кохонена — класс нейронных сетей, основным элементом которых является слой Кохонена. Слой Кохонена состоит из адаптивных линейных сумматоров («линейных формальных нейронов»). Как правило, выходные сигналы слоя Кохонена обрабатываются по правилу «Победитель получает всё»: наибольший сигнал превращается в единичный, остальные обращаются в ноль.
В статистике, машинном обучении и теории информации снижение размерности — это преобразование данных, состоящее в уменьшении числа переменных путём получения главных переменных. Преобразование может быть разделено на отбор признаков и выделение признаков.
Подробнее: Снижение размерности
Семплирование по Гиббсу — алгоритм для генерации выборки совместного распределения множества случайных величин. Он используется для оценки совместного распределения и для вычисления интегралов методом Монте-Карло. Этот алгоритм является частным случаем алгоритма Метрополиса-Гастингса и назван в честь физика Джозайи Гиббса.
Спе́йсеры (от англ. spacer — «разделитель») — участки нетранскрибируемой ДНК, расположенные между тандемно повторяющимися генами, например, между генами рибосомальной РНК у эукариот. Их функция, вероятнее всего, заключается в обеспечении высокого уровня точности транскрипции в связанных генах.
Основная теорема о рекуррентных соотношениях (англ. Master theorem) используется в анализе алгоритмов для получения асимптотической оценки рекурсивных соотношений (рекуррентных уравнений), часто возникающих при анализе алгоритмов типа «разделяй и властвуй» (divide and conquer), например, при оценке времени их выполнения. Теорема была популяризована в книге Алгоритмы: построение и анализ (Томас Кормен, Чарльз Лейзерстон, Рональд Ривест, Клиффорд Штайн), в которой она была введена и доказана.
Поиск клонов в исходном коде - анализ исходного кода с помощью различных алгоритмов, с целью обнаружения клонированного кода, который может иметь вредоносный характер.
Тест на следующий бит (англ. next-bit test) — тест, служащий для проверки генераторов псевдо-случайных чисел на криптостойкость. Тест гласит, что не должно существовать полиномиального алгоритма, который, зная первые k битов случайной последовательности, сможет предсказать k+1 бит с вероятностью, неравной ½.
Ядерные методы в машинном обучении — это класс алгоритмов распознавания образов, наиболее известным представителем которого является метод опорных векторов (МОВ, англ. SVM). Общая задача распознавания образов — найти и изучить общие типы связей (например, кластеров, ранжирования, главных компонент, корреляций, классификаций) в наборах данных. Для многих алгоритмов, решающих эти задачи, данные, представленные в сыром виде, явным образом преобразуются в представление в виде вектора признаков посредством...
Подробнее: Ядерный метод
Алгоритм Берлекэмпа — Мэсси — алгоритм поиска кратчайшего регистра сдвига с линейной обратной связью для поданной на вход бинарной последовательности. Также алгоритм позволяет найти минимальный многочлен поданной на вход линейной рекуррентной последовательности над произвольным полем.