Annuaire    |   Plan du site    |   Moteur de recherche    |   Portail ENT
Prestations proposées
Prestations proposées

Tarifs

RECHERCHER


 Aide à l’interpretation de données protéomique qualitatives (type Mascot)



Voici une petite explication auxiliaire à l’interprétation de résultats protéomiques suite a l’analyse de contenus proteiques peu ou non connus :

Il s’agit de protéines répertoriées dans les bases de données unifiées dans le format fasta avec accessions Uniprot ou NCBI

Une protéine est réputée identifiée avec un très haut niveau de confiance dès lors qu’au minimum 2 évènements de séquence « MS/MS » de qualité acceptable pointent vers des peptides de séquences différentes ET retrouvés dans cette protéine.

La qualité d’un évènement de MS/MS est fonction :
- de la quantité du peptide disponible,
- du nombre d’autres peptides présents dans sa fenêtre d’élution chromatographique et/ou dans sa fenêtre de sélection en masse,
- de sa capacité à acquérir une charge lui permettant de se déplacer dans un spectromètre de masse,
- de sa capacité à se fragmenter en divers points de sa chaîne peptidique (liaisons peptidique préférentiellement). Pour ces diverses raisons, les données spectrales obtenues peuvent varier de « médiocres » à « très bonnes ». Ce niveau de qualité est restitué par un score ou un indice de confiance.

Les spectres obtenus lors des évènements de fragmentation sont associés à une séquence peptidique à l’aide d’un moteur de comparaison des données expérimentales avec les données théoriques. Les scores sont le reflet de la corrélation entre ces données. Plus le score est haut plus la probabilité de corrélation est bonne compte tenu :

1- de la quantité et de la qualité des données expérimentales

2- de la quantité des données théoriques auxquelles on se réfère (plus le nombre de séquences présentes dans une base de données est important plus le risque de trouver un match « par hasard » (ou faux positif) devient non négligeable.

Le nombre de séquences théoriques auxquelles sont comparées les valeurs expérimentales augmente bien entendu avec le nombre d’espèces pris en considération (ex homme ou mammifères ou ensemble de la banque : procaryotes et eucaryotes) mais aussi avec les modifications d’acides aminés : oxydation des méthionines, modifications post-traductionnelles, diverses modifications sur les cystéines ou les lysines…. Il est donc important de ne prendre en compte que les modifications ayant une probabilité suffisamment importante d’être retrouvées.

Ainsi pour qu’une protéine soit identifiée son score doit être au dessus de la valeur minimale délimitée par le risque acceptable de match aléatoire (voir plus bas).

Par ailleurs il faut tenir compte des possibilités d’origines diverses des protéines présentes. Par exemple des protéines d’origines bovine sont souvent retrouvées dans des échantillons issus de culture cellulaire. Si une analyse restreinte à l’espèce humaine ne permettra pas de les voir sous l’espèces Bos taurus, elle risquera d’assigner artéfactuellement certaines protéines d’origine bovine à leur homologue de l’espèce humaine en n’utilisant que les peptides ayant une séquence identique entre les deux espèces.

Inversement une analyse "ouverte" permettant de détecter les protéines "exogènes" apportées par les contraintes de l’expérience a pour conséquence de montrer des protéines de l’espèce humaine sous l’espèce Bos taurus simplement parce que les peptides retrouvés ont des séquences identiques entre les 2 espèces et le moteur aura sélectionné Bos taurus par priorité alphabétique…

Toutefois dans le cas d’une analyse ouverte, et si dans l’espèce recherchée la protéine n’était pas ou mal séquencée, il est possible qu’une recherche ouverte à la famille de l’espèce permette d’identifier l’homologue de séquence le plus proche chez une espèce voisine !

Il faut donc bien avoir à l’esprit les conditions de l’expérience, connaître les contaminants possibles ou inévitables (IgG proteines A/G des IP, BSA du milieu de culture, caséines du lait, partie de proteine de fusion utilisé pour la purif ou la detection, etc… ). Une discussion avec les membres de la plateforme qui vont réaliser ou qui ont réalisé l’analyse est souvent indispensable a la bonne marche de l’identification et de sa compréhension.

Taux de faux positifs et appréciation statistique. D’une manière générale, les identifications qui vous ont été fournies comportent généralement moins de 5% de protéines faussement positives parmi celles qui n’ont été identifiées que par le séquençage d’un seul peptide. Une p value fixée par défaut à 0.05 vous indique à quel point ces résultats sont fiables.




Retour <


Date de modification : 2017-05-30 10:08:33





       22, rue mechain 75014 Paris     > MENTIONS LEGALES   > CONTACTS