Advances in Bioinformaticscontributions to high-throughput proteomics-based identification, quantification and systems biology
- Trevisan-Herraz, Marco
- E. Bonzon-Kulichenko Directeur/trice
- Jesús María Vázquez Cobos Directeur/trice
Université de défendre: Universidad Autónoma de Madrid
Fecha de defensa: 27 mars 2017
- María Fernández Lobato President
- Ana Isabel Marina Ramírez Secrétaire
- José María Carazo García Rapporteur
- Pedro José Navarro Álvarez Rapporteur
- Gorka Prieto Agujeta Rapporteur
Type: Thèses
Résumé
The analysis of high-throughput proteomics data presents the challenge of extracting biological meaning from a wealth of protein identifications and quantifications. In the last decade, technology in this area has undergone a major transformation that required a continuous and enormous development of bioinformatic tools to establish the foundations of the algorithms to be used in the next years of proteomics research. In this work we present three papers that represent three milestones in this endeavour. In the first publication, we present a deep analysis on the performance and influence of the peptide identification search algorithms upon the appearance of high-resolution and high-accuracy mass spectrometres. It is shown that, in many relevant cases, using smaller precursor ion mass tolerances to identify peptides leads to an increased number of incorrectly identified peptides greatly underestimated by the false discovery rate (FDR). Here we propose a change in the search algorithm, consisting of the use of wide mass windows followed by a post-scoring mass filtering. The second publication is dedicated to the WSPP (initialism for Weighted Spectrum, Peptide, Protein) statistical model for the analysis of high-throughput quantitative proteomics experiments. The model can be used in a wide range of combinations of stable isotope labelling (SIL) techniques and mass spectrometres. Additionally, this algorithm provides a general statistical framework for these experiments, allowing the comparison of results across laboratories, thanks to its unique capacity to separate the different sources of variance, allowing the interpretation of the error at different levels. In the third and final paper, we present an innovative method to perform systems biology analyses from the proteomics perspective, considering the degree of coordination of a proteome, and thanks to the statistical basis provided by the WSPP statistical model. This was possible after developing the Generic Integration Algorithm (GIA), which allowed integrating quantitative information from any lower level to any higher level (instead of limiting us to the traditional spectrum-peptide-protein workflow). All these models are implemented in SanXoT, a software package developed to allow the practical use of the mentioned models in quantitative proteomics. These three steps in the research of high-throughput proteomics represented a dramatic change in the way proteomes were analysed in our laboratory, and opened countless possibilities for further development and enhancement of this research topic. Resumen El análisis de datos en proteómica de alto rendimiento lleva implícito el reto de extraer significado biológico a partir de un gran número de identificaciones y cuantificaciones. En la última década la tecnología en este campo ha sufrido una transformación sin precedentes; esto ha requerido un desarrollo colosal de las herramientas bioinformáticas para establecer los fundamentos de los algoritmos que se usarán en los próximos años de investigación en proteómica. En la primera publicación, analizamos en profundidad el rendimiento e influencia de los algoritmos de identificación de péptidos tras la aparición de la espectrometría de masas de alta resolución. Se muestra que, en muchos casos, reducir la tolerancia de la masa del ion precursor para identificar péptidos nos lleva a un aumento en el número de péptidos identificados incorrectamente, subestimados en gran medida por la tasa de error FDR1. Proponemos aquí un cambio en el algoritmo de búsqueda, consistente en el uso de ventana ancha para la masa del precursor, seguida de un filtrado de dicha masa tras calcular la puntuación asignada a la identificación. La segunda publicación trata del WSPP2, un modelo estadístico que desarrollamos para el análisis de experimentos de proteómica cuantitativa de alto rendimiento. Se puede utilizar en numerosas combinaciones de métodos de marcaje isotópico estable (SIL) y espectrómetros de masa. Además, aporta un marco estadístico general para estos experimentos, permitiendo la comparación de resultados entre distintos laboratorios gracias a su capacidad única para separar las diferentes fuentes de varianza, así como la interpretación de resultados a distintos niveles. En el tercer y último artículo presentamos un método innovador para el análisis de biología de sistemas en proteómica, aprovechando la base estadística del WSPP, y teniendo en cuenta el grado de coordinación del proteoma. Esto fue posible gracias al desarrollo del Algoritmo de Integración Genérico (GIA), que permitió que la información cuantitativa se pudiera integrar desde cualquier nivel inferior a cualquier nivel superior (en vez de limitarnos a la secuencia estándar espectro-péptido-proteína). Todos estos modelos están implementados en SanXoT, un paquete de software que pone en práctica los modelos mencionados para proteómica cuantitativa. Estos tres pasos representaron un cambio drástico en los métodos empleados para analizar proteomas en nuestro laboratorio, y abren la puerta a infinidad de posibilidades para futuros desarrollos y mejoras en proteómica de alto rendimiento. 1 Sigla en inglés para False Discovery Rate 2 Weighted Spectrum, Peptide and Protein, en español Espectro Ponderado, Péptido y Proteína