Alignement des séquences
Principes et méthodes
Il existe plusieurs techniques de construction des arbres phylogénétiques, plus ou moins rapides et plus ou moins fiables. On peut optimiser plusieurs critères : la distance, la parcimonie, ou la vraisemblance. Pour les méthodes de distance, on choisit un critère de distance entre les feuilles (par exemple le nombre de nucléotides différents entre deux séquences).
Pour déterminer cette valeur, on effectue un alignement puis on peut utiliser la méthode UPGMA ou le Neighbour Joining pour déduire l'arbre.
Alignement des séquences
Il existe plusieurs techniques de construction des arbres phylogénétiques, plus ou moins rapides et plus ou moins fiables. On peut être amené à chercher à optimiser plusieurs critères dans l'arbre : la distance, la parcimonie, ou la vraisemblance.Pour les méthodes de distance, il s'agit tout d'abord de choisir le critère de distance entre les futures feuilles de l'arbre. Par exemple, si ces feuilles sont des séquences d'ADN, on peut choisir comme distance entre deux d'entre elles le nombre de nucléotides qui diffèrent. Pour déterminer cette valeur, on est amené à en effectuer un alignement. Puis on peut utiliser la méthode UPGMA ou celle du Neighbour joining pour en déduire l'arbre.
Sélection des séquences à aligner
Les séquences à aligner sont sélectionnées. Ces séquences peuvent provenir de différentes espèces, de différentes régions génomiques ou de différentes molécules biologiques (ADN, ARN, protéines).
Identification des régions similaires
Les algorithmes d'alignement recherchent des régions similaires entre les séquences. Ces régions peuvent être des séquences conservées, c'est-à-dire des parties de séquences qui sont présentes dans toutes les espèces étudiées et qui ont été conservées au cours de l'évolution en raison de leur importance fonctionnelle.
Construction de l'alignement
Une fois les régions similaires identifiées, l'algorithme construit un alignement en alignant les bases ou les acides aminés correspondants les uns en face des autres. L'objectif est de maximiser le nombre de correspondances (identités) entre les bases ou les acides aminés, tout en minimisant le nombre d'insertions et de suppressions nécessaires pour aligner les séquences.
Matrices de substitution
Lors de la construction de l'alignement, des matrices de substitution sont souvent utilisées pour attribuer des scores aux correspondances entre les bases ou les acides aminés. Ces matrices prennent en compte la probabilité de mutation d'une base ou d'un acide aminé en un autre au fil de l'évolution.
Évaluation de la qualité de l'alignement
Une fois l'alignement construit, sa qualité est évaluée. Les alignements de haute qualité présentent un bon équilibre entre le nombre de correspondances, le nombre d'insertions et de suppressions, et minimisent les erreurs d'alignement. Des outils d'évaluation sont utilisés pour mesurer la qualité de l'alignement, tels que le pourcentage d'identités ou de similarités entre les séquences alignées.
Interprétation
Les résultats servent à tirer des conclusions sur les relations évolutives, identifier des régions fonctionnelles et prédire structures et fonctions protéiques.