Improving simulation of biological moleculesrefining mathematical, physical and computational tools
- GARCIA RISUEÑO, PABLO
- José Alonso Buj Director/a
- Angel Rubio Secades Director/a
- Pablo Echenique Robba Director/a
Universidad de defensa: Universidad de Zaragoza
Fecha de defensa: 14 de diciembre de 2011
- Modesto Orozco López Presidente/a
- Alberto Castro Barrigón Secretario/a
- Fernando Nogueira Vocal
- Claudlo N. Cavasotto Vocal
- Pablo Chacon Montes Vocal
Tipo: Tesis
Resumen
El objetivo de las investigaciones correspondientes a este documento de tesis doctoral es la mejora de los metodos para la simulacion de moleculas, especialmente moleculas biologicas, como las proteinas. Las capacidades de los ordenadores han aumentado sobremanera en las ultimas decadas, y actualmente son una herramienta poderosa para el calculo de magnitudes fisicas y quimicas. Debido a esto, un gran numero de investigadores se dedica al desarrollo de metodos computacionales precisos y eficientes, a su uso en simulaciones con fines cientificos, a una mezcla de ambos o a otros campos dentro de la ciencia computacional. El trabajo de investigacion resumido en esta tesis tiene como finalidad la mejora de la eficiencia y exactitud de los metodos de simulacion de moleculas biologicas. Podemos resumir la estructura de esta tesis como sigue: En el capitulo 1, titulado Aim and scope, se efectua un breve repaso al campo de la simulacion molecular. Los objetivos de esta tesis se explican en la parte final de este capitulo. Los capitulos del 2 y 3 son introductorios, al contrario que los capitulos 4 al 9, que estan basados en trabajos de investigacion. Estos capitulos introductorios presentan algunos conceptos fundamentales en que se sustentan los trabajos de investigacion. El segundo capitulo, titulado Physical basis, resume algunos fundamentos de la Fisica en que se basan simulaciones moleculares mas habituales. Este capitulo se divide en cinco secciones. Las tres primeras estan dedicadas a explicar algunos puntos basicos de la Mecanica Cuantica, en la que se basan muchas simulaciones moleculares, por describir esta rama de la Fisica de forma precisa fenomenos que ocurren a pequena escala y que condicionan buena parte del comportamiento molecular. En la primera seccion, titulada The basic quantum equations, presentamos algunas ecuaciones basicas de la Fisica Cuantica. Comenzamos por la ecuacion de Dirac, que por incluir efectos relativistas y campos magneticos da una descripcion precisa del comportamiento de los electrones, que a su vez condicionan grandemente el comportamiento molecular. A continuacion, comentamos brevemente las ecuaciones de Pauli y de Schrodinger, que pueden obtenerse de la ecuacion de Dirac mediante ciertas aproximaciones. En la segunda seccion de este segundo capitulo explicamos algunas nociones basicas de la Teoria del Funcional de Densidad (DFT). Este nivel de teoria es util para calcular magnitudes fisicas de sistemas que se encuentran en su estado fundamental. En la seccion 2.3 explicamos la Teoria del Funcional de Densidad Dependiente del Tiempo (TDDFT), que puede usarse para calcular estados excitados de moleculas y algunas de sus propiedades opticas. Parte de los calculos del capitulo 5 estan basados en TDDFT, y parte del trabajo presentado en el capitulo 4 consistio en la implementacion de nuevos algoritmos en un codigo (Octopus, [6]) de simulacion basada en DFT y TDDFT. La cuarta seccion del capitulo 2 explica los fundamentos de metodos de simulacion molecular de un nivel mas bajo que el de los explicados anteriormente, como son los metodos semiempiricos, la Mecanica Molecular o esquemas mixtos entre Mecanica Cuantica y Mecanica Molecular. Finalmente, en la ultima seccion del capitulo 2 (seccion 2.5) se explican metodos para el calculo de magnitudes en sistemas moleculares, como son los metodos de Monte Carlo y la Dinamica Molecular. El capitulo 3 (Computational aspects) explica nociones basicas sobre computacion. Esta seccion aparece para dar al lector una exposicion mas amplia del contexto de la simulacion molecular, que esta basada en modelos fisicos y quimicos, pero requiere conocimientos tecnicos para la realizacion practica de los calculos. La seccion 3.1, titulada Running algorithms in real computers, se explican algunos particulares sobre el funcionamiento de los ordenadores que pueden afectar a la exactitud y eficiencia de cualquier simulacion. En la seccion 3.2 (Scientific supercomputing), explicamos algunos fundamentos acerca de la computacion de alto rendimiento. Primero (en la seccion Hardware basics) explicamos el funcionamiento de un ordenador estandar, para comentar a continuacion (en la seccion Beyond the Von Neumann paradigm) algunas caracteristicas de los ordenadores mas modernos. Despues de presentar estos fundamentos, explicamos algunos aspectos de la computacion de alto rendimiento en si. En la seccion Parallel computers se explican dos paradigmas de arquitectura de supercomputadores, los modelos de maquinas de memoria compartida y de memoria distribuida. En la seccion Hybrid an heterogeneous models comentamos brevemente otros patrones de arquitectura. Finalmente, en la seccion Distributed computing se dan algunas nociones sobre metodos de computacion basados en el uso de recursos geograficamente distantes, como la computacion en grid o en la nube. In section Parallel computers we present some fundamentals on two widely used paradigms for computer architecture, i.e., shared memory computers and distributed memory computers. In section Hybrid an heterogeneous models we briefly discuss on other architectures. Finally, in section Distributed computing we introduce some notions on methods of computing which take advantage in geographically distant computation resources. Los capitulos 4 al 9 presentan trabajos de investigacion encaminados a la mejora de las tecnicas de simulacion de moleculas biologicas. Los capitulos 4 y 5 estan parcialmente basados en DFT y TDDFT. El capitulo 4 es un estudio de diferentes metodos para calcular el potencial electrostatico creado por una distribucion de carga representada en una red en el espacio real. Para tales sistemas, comparamos la exactitud y eficiencia de diferentes metodos para calcular dicho potencial. Una parte significativa del trabajo resumido en este capitulo consistio en la implementacion de dos metodos populares y modernos (la tranformada de Fourier rapida en paralelo y una version reciente del metodo multipolar rapido) en el codigo Octopus [6], un programa de simulacion basada en DFT y TDDFT. El capitulo 5 esta basado en el articulo Excited States of the Green Fluorescent Protein Chromophore: Performance of Ab Initio and Semi-Empirical Methods, escrito por M. Wanko, P. Garcia-Risueno and A. Rubio, y aceptado por Physica Status Solidi en 2011. Este capitulo es un analisis del rendimiento de diferentes metodos para el calculo del espectro de absorcion optica de la proteina fluorescente verde. Esta proteina tiene significativas aplicaciones en bioquimica y fisiologia, lo que la ha hecho objeto de numerosos estudios teoricos. En este capitulo se usan varios niveles de teoria diferentes, como metodos semiempiricos, QM/MM, DFT y TDDFT. Los capitulos 6 al 9 versan sobre calculos de magnitudes en sistemas sujetos a ligaduras. Las ligaduras se imponen a los modelos de sistemas moleculares para aumentar la eficiencia de algunos calculos, tanto en Dinamica Molecular como en Mecanica Estadistica. Elcapitulo 6 se titula An Exact Expression to Calculate the Derivatives of Position Dependent Observables in Molecular Simulations with Flexible Constraints, y esta basado en el articulo del mismo nombre escrito por P. Echenique, C. N. Cavasotto, M. De Marco, P. Garcia-Risueno y J. L. Alonso publicado en PloS One 6(9): (2011) e24563. Cuando se imponen ligaduras (constraints) a un sistema, estas pueden ser flexibles o no flexibles. Las primeras permiten mayor libertad a los sistemas, y por tanto dan lugar (en principio) a descripciones mas exactas. Las derivadas de magnitudes que dependen de las posiciones de un sistema molecular pueden ser calculadas por diferencias finitas, pero esto da lugar a errores, puesto que el valor de la derivada depende de la distancia entre los puntos elegidos para hacer las diferencias finitas. El nuevo algoritmo presentado en este capitulo resuelve este problema, calculando el valor exacto del tipo de derivadas que nos ocupa. El capitulo 7 se titula The canonical equilibrium of constrained models, y esta basado en el articulo homonimo escrito por P. Echenique, C. N. Cavasotto y P. Garcia-Risueno, y aceptado en 2011 por el European Physics Journal. En este capitulo se explican los modelos stiff y rigido de la Mecanica Estadistica para los casos de ligaduras flexibles y no flexibles. Estos diferentes modelos tienen complejidades diferentes, y en principio tambien precisiones diferentes. A modo de ejemplo, en este capitulo se incluyen calculos de los diferentes terminos de la energia libre de un sistema sencillo (metanol), para ilustrar las diferencias entre unos modelos y otros. Estos terminos son relevantes, porque la energia libre de una conformacion dada determina el peso de esta conformacion en el calculo de las magnitudes observables calculadas en el marco de la Mecanica Estadistica. En el capitulo 8, titulado Linearly scaling direct method for accurately inverting sparse banded matrices, se presenta un algoritmo para resolver un sistema lineal de ecuaciones Ax = b, con A una matriz de banda N × N. Las matrices de banda son un tipo especial de matrices sparse, en las que todas las entradas no nulas se concentran en una banda en torno a la diagonal. Estas matrices aparecen en algunos problemas de Dinamica Molecular ligada, como el del calculo de multiplicadores de Lagrange del capitulo 9. Nuestro algoritmo puede resolver el citado sistema lineal de manera analitica, exacta en precision maquina, y asimismo eficiente, con un scaling de O(N) con un prefactor bajo. Este capitulo se basa en un articulo escrito por P. Garcia-Risueno y P. Echenique, actualmente submitido. El capitulo 9, titulado Exact and efficient calculation of Lagrange multipliers in biological polymers with constrained bond lengths and bond angles, explica como calcular exactamente los multiplicadores de Lagrange correspondientes a ligaduras holonomas impuestas en moleculas biologicas. Esto puede hacerse de manera eficiente, en O(N) operaciones, siendo N el numero de ligaduras impuestas. Esto se debe a la topologia de las moleculas biologicas, como proteinas y acidos nucleicos, que es esencialmente lineal. Este capitulo se basa en el articulo escrito por P. Garcia-Risueno, P. Echenique y J. L. Alonso, publicado en J. Comp. Chem. 32, 14 (2011) 30393046. Aparte de los articulos nombrados arriba en los que se basa el contenido de esta tesis, tenemos la intencion de submitir en breve otros basados en los capitulos 3 y 4. Tras los capitulos basados en trabajos de investigacion incluimos apendices con informacion complementaria. En el apendice A presentamos las formulas de dos metodos para incrementar la exactitud del metodo multipolar rapido usado en el capitulo 4. En el apendice B incluimos informacion complementaria al capitulo 5, que incluye datos adicionales sobre las bases usadas y los espectros obtenidos en las simulaciones. El apendice C es un complemento al capitulo 8, e introduce un algoritmo para calcular explicitamente la inversa de una matriz N × N en O(N2) operaciones. El apendice D presenta un metodo para calcular de manera precisa y eficiente los multiplicadores de Lagrange de un manipulador paralelo (un tipo de robot) y sus derivadas temporales. Este apendice es un complemento del capitulo 9, y lo incluimos para remarcar la amplitud del campo de aplicacion de los metodos presentados en dicho capitulo. Finalmente, las ultimas tres secciones, que siguen a los apendices, contienen, respectivamente, la lista de acronimos usados en este documento, la bibliografia de todos los capitulos y el indice que contiene algunas de las palabras mas representativas de esta tesis.