Procesamiento automatizado de datos proteómicos: Desde la espectrometría de masas al conocimiento biológico

Medina Auñón, Juan Alberto

Procesamiento automatizado de datos proteómicosDesde la espectrometría de masas al conocimiento biológico

Medina Auñón, Juan Alberto

Supervised by:

Juan Pablo Albar Co-director
José María Carazo García Co-director

Defence university: Universidad Autónoma de Madrid

Fecha de defensa: 29 November 2013

Committee:

Fernando J. Corrales Chair
Ana Pilar González Marcos Secretary
Manuel M. Sánchez del Pino Committee member
Gorka Prieto Agujeta Committee member
Alberto Pascual Montano Committee member

Type: Thesis

Teseo: 354236 DIALNET

Abstract

La proteómica proporciona los medios necesarios para poder desarrollar estudios a gran escala centrados en la estructura, función e interacciones de las proteínas. Para poder comprender el comportamiento de estas proteínas, se cuenta con diferentes técnicas analíticas que permiten un procesamiento masivo de los datos que se generan. Técnicas de preparación de la muestra y separación de proteínas, espectrometría de masas, identificación de péptidos y proteínas y la cuantificación de éstas componen las principales fases que comprende un experimento proteómico y son empleadas con el objetivo de obtener una imagen lo más completa posible de cómo las proteínas analizadas están interaccionando con un organismo en particular y bajo unas determinada condiciones. La ingente cantidad de datos generados en el desarrollo de los experimentos requiere aproximaciones bioinformáticas muy específicas que traduzcan esos datos en información y conocimiento. Esta tesis doctoral está basada en algunas de estas aproximaciones (proteómica computacional). A través de los artículos incluidos en esta tesis (revisados y publicados mediante el sistema peer-review), tanto los usuarios proteómicos como los de un perfil más computacional encontrarán una serie de útiles herramientas que permiten resolver algunas de las principales limitaciones que en términos informáticos están presentes en los laboratorios. En particular, las áreas del flujo de análisis proteómico que se cubren en esta tesis son: * Estándares de datos proteómicos: Se han incluido dos nuevos estándares basados en XML, uno relativo a la separación electroforética (GelML) y otro a la cuantificación de péptidos y proteínas (mzQuantML). Ambos fueron desarrollados en el seno del comité internacional de estandarización de datos en proteómica, HUPO-PSI (Human Proteome Organization-Proteomics Standards Initiative). * Validación de datos de espectrometría de masas: Se desarrolló una nueva herramienta (PRIDEViewer) que permite un detallado análisis de los resultados basados en espectrometría de masas. La visualización, integración y validación son aspectos que se han incluido para permitir al usuario la manipulación de experimentos a gran escala. * Integración y difusión de estándares: Se han desarrollado dos nuevos entornos computacionales (PRIDESpotMapper and Pro¬teoRed MIAPE Web ToolKit, PMWTK) que permiten tanto la incorporación de los estándares de datos definidos por el HUPO-PSI en las rutinas de análisis de los laboratorios como una mejor difusión de los resultados obtenidos. Revistas especializadas en proteómica animan el uso de estos estándares para mejorar en la calidad de los resultados y facilitar la evaluación y publicación de nuevos artículos. * Conocimiento biológico: En conexión con la necesidad de resolver cuestiones específicas a nivel biológico y molecular relacionadas con un conjunto de proteínas, se ha incluido un nuevo servicio automático de recuperación de anotaciones (Protein Information and Knowledge Extractor, PIKE). Éste permite recolectar y procesar la anotaciones biológicas y funcionales disponibles con el fin de obtener una mejor comprensión del papel desempeñado por las proteínas dentro del contexto del experimento realizado. En resumen, el conjunto de trabajos y herramientas bioinformáticas incluidas en este proyecto de tesis doctoral, contribuyen a mejorar el rendimiento de la mayoría de los laboratorios proteómicos y abre nuevas estrategias tanto para la investigación biológica como la computacional.