Protein IsoformsFunctional Importance and Tissue Specificity
- Rodríguez Carrasco, José Manuel
- Michael Tress Zuzendaria
Defentsa unibertsitatea: Universidad Autónoma de Madrid
Fecha de defensa: 2020(e)ko abendua-(a)k 14
- Fátima Sánchez Cabo Presidentea
- Enrique Carrillo de Santa Pau Idazkaria
- Gorka Prieto Agujeta Kidea
- Javier Herrero Sánchez Kidea
- Ana María Rojas Mendoza Kidea
Mota: Tesia
Laburpena
El número de genes humanos que codifican a proteínas dentro de las bases de datos (BD) de referencia humanos se ha estabilizado en un poco más de 20,000 genes en los últimos años. Principalmente como resultado de minuciosos esfuerzos de curación manual. Aunque las tres BD de referencia, Ensembl/GENCODE, RefSeq y UniProtKB, tienen un número similar de genes, no está claro cuántos de estos genes coinciden entre los tres conjuntos. El empalme alternativo del ácido ribonucleico mensajero (ARN) es un proceso molecular fundamental que regula la expresión de genes eucariotas y puede generar una amplia gama de transcripciones de ARN. Aunque muchos miles de transcritos de empalme alternativamente se detectan de forma rutinaria en los estudios de RNA-seq1, los análisis de proteómica basados en espectrometría de masas identifican solo una pequeña fracción de isoformas alternativas. De hecho, los experimentos de proteómica sugieren que la mayoría de los genes tienen una única isoforma proteica. En esta tesis presentamos tres artículos sobre la descripción funcional de genes codificantes y de las isoformas proteicas principales y alternativas derivadas del empalme alternativo. En la primera publicación, presentamos las actualizaciones de APPRIS. Algoritmo que selecciona una única isoforma proteica, la isoforma principal, como referencia para cada gen, en función de las características estructurales y funcionales de las proteínas y la información de la conservación entre especies. La evidencia experimental muestra que la isoforma principal APPRIS casi siempre coincide con la isoforma principal de la célula. En el artículo detallamos la expansión de las anotaciones para múltiples especies, la mejora de los métodos, y la creación de una fusión de genes basado en las tres BD de referencia. Además, proporciona una medida de fiabilidad para isoformas principales. En el segundo artículo, analizamos genes humanos que codifican a proteínas en las tres BD de referencia: Ensembl/GENCODE, RefSeq y UniProtKB. Encontramos que uno de cada ocho de estos genes se clasifica de manera diferente en al menos uno de las BD de referencia. La evidencia de diversas fuentes sugiere que es poco probable que muchos de los 22,210 genes de los tres conjuntos codifiquen a proteínas funcionales. En la publicación final, llevamos a cabo un nuevo análisis de un estudio proteómico a gran escala de tejidos humanos con el fin de determinar hasta qué punto se puede detectar el empalme alternativo específico de tejido. Encontramos diferencias significativas específicas de tejido en más de un tercio de los eventos. Las isoformas de proteínas alternativas eran particularmente abundantes en los tejidos nerviosos y musculares. Al contrastar la evidencia de proteómica con datos de transcriptómica, encontramos que más del 95% de los eventos específicos de tejidos que coinciden entre ambos análisis, evolucionaron hace más de 400 millones de años. Nuestros resultados sugieren que el empalme alternativo específico de tejido ha jugado un papel crucial en el desarrollo del cerebro y el corazón de los vertebrados.