Bio Inform Á Tica

Fundamentos de Bioinformtica
Prof. Alexis Bellorn PhD Biologa Molecular
Introduccin
Los organismos individuales y las poblaciones contienen diferentes niveles de informacin biolgica que fluyen a travs de ellos
Qu es la bioinformtica?
Es la rama computacional de la biologa molecular Esto es, el uso de aplicaciones de computadoras y bases de datos para la inferencia, anlisis y comparacin de estructuras primarias (secuencias de monmeros), secundarias y terciarias de biopolmeros Actualmente tambin se estudian y comparan genomas completos (genmica), as como toda el complejo de protenas expresadas y codificadas (protemica)
Para qu sirve la bioinformtica?

Aprender y generalizar: descubrir patrones conservados (motivos o firmas) en las secuencias, estructuras, metabolismos Predecir: inferir la funcin o estructura de una secuencia nueva de un gen, genoma, proteoma a partir de las generalizacin anteriores Organizar e integrar: desarrollar un enfoque sistemtico y genmico a las interacciones moleculares, metabolismo, sealizacin celular, expresin gentica Simular: modelos de estructura secundaria, terciaria y cuaternaria de protenas, de expresin gentica, regulacin gentica, doblado de protenas Ingeniera: construir nuevas secuencias o nuevas funciones a partir de la informacin preexistente Marcaje: reconocer secuencias especficas a las que puedan ser marcadas de alguna manera o la que se les puedan disear drogas especficas que no tengan tantos efectos secundarios
La bioinformtica se inici con el estudio de la estructura primaria o secuencias de aa en las protenas

Sanger y Tuppy (1951): primeras secuencias de residuos de aminocidos de protenas (insulina, citocromos) o estructura primaria Inicialmente se establecan y estudiaban las secuencias manualmente, hasta que se comenzaron a utilizar computadoras en 1960 Dayhoff (1972, 1978): primeras bases de datos de secuencias de protenas (PIR) clasificacin de las protenas en familias y superfamilias de acuerdo a grado de similitud
Luego se inici el anlisis de las secuencias de nucletidos del ADN

Sanger (1970): mtodo de secuenciacin manual mediante el uso de nucletidos marcados por fluorescencia Las primeras bases de datos se establecieron en Los Alamos National Laboratory (LANL), que luego dio lugar al GenBank, y el European Molecular Biology Laboratory (EMBL) en Heidelberg
Cdigos para anotar los nucletidos que forman el ADN
Cdigos de los 20 aminocidos que forman las protenas
La bioinformtica produce un vasto volumen de datos que crece exponencialmente
La bioinformtica se basa en una gran diversidad de tipos de datos
Ejemplos de productos de la bioinformtica

Bases de datos (p.ej. GenBank) Alineamientos de secuencias (p.ej. Blast y otros programas de alineamiento) Descubrimiento de motivos conservados entre secuencias de biomolculas provenientes de distintas fuentes (p.ej. De duplicaciones gnicas) Inferencia de filogenias y genealogas Inferencia de la estructura secundaria, terciaria y cuaternaria de protenas Generacin de microarrays
Principales bases de datos
http://www.ncbi.nlm.nih.gov/
Formatos de las secuencias

Formato de Genbank
Formato de FASTA (Pearson y Lipman 1988)
Obtencin de secuencias de ADN o protenas del GenBank

ENTREZ Por nmero de acceso Por el buscador taxonmico Por palabra clave Por publicacin o autor Se recomienda salvar las secuencias en formato FASTA
Identificacin de una secuencia desconocida en GenBank

BLAST Se debe copiar la secuencia desconocida (query ) en formato FASTA Se realiza la bsqueda dependiendo si es una secuencia de nucletidos, protenas, estructuras, etc. El BLAST produce alineamientos de la secuencia query con las secuencias depositadas en el GenBank ordenndolas de acuerdo a los mejores puntajes de coincidencia
ALINEAMIENTO: obtencin de la homologa posicional entre dos secuencias que tambin son homlogas
Alineamientos par a par de secuencias, preferiblemente homlogas
Mtodo matricial de comparacin de secuencias par a par

Identificacin de regiones homlogas entre dos secuencias
Los alineamientos mltiples permiten descubrir ms fcilmente regiones variables y regiones conservadas
Los motivos normalmente corresponden a regiones de la estructura primaria con incidencia en el fenotipo
Alineamiento mltiple y estructura secundaria de consenso para los homlogos de sRNA-Xcc1
Alineamiento simple y mltiple computarizado (CLUSTALW)

http://www.genome.jp/tools/clustalw/
El paradigma central de la bioinformtica

La estructura primaria de los genes y protenas es unidimensional, pero su funcin depende de la estructura tridimensional
El polimorfismo en la estructura primaria de las biomolculas es la base de los anlisis comparativos

Las comparaciones de la estructura primaria de una misma protena (y ms tarde de un mismo gen) en diferentes organismos, llevaron al descubrimiento de los polimorfismos genticos a nivel molecular: las secuencias genticas podan tener diferencias entre una especie y otra
Alineamiento mltiple de secuencias de la subunidad II de la protena citocromo - c - oxidasa (COII) en diferentes animales
Existen mutaciones neutras y silenciosas que producen el polimorfismo molecular

Los genes poseen pequeas diferencias entre una especie y otra (polimorfismos), algunos afectan a la regin codificante o reguladora y producen cambios importantes en la estructura de la protena o en el mecanismo de regulacin de la expresin, y pueden traducirse en diferentes fenotipos; otros no tienen consecuencias (neutros y silenciosos) Un polimorfismo puede consistir en la sustitucin de una simple base nitrogenada, o la delecin o insercin de una (SNP o mutaciones puntuales), o puede ser ms complejo (por ejemplo, insercin o borrado de un fragmento de la secuencia).
Los dos tipos de SNP: sustitucin (transicin o transversin) o indel
Las mutaciones neutras no producen cambios en la protena

Por ejemplo, mutaciones puntuales ocurren en la segunda y tercera posicin del codn y no afectan el aminocido codificado
Mutaciones silenciosas: cambios en los aminocidos que no alteran la funcin
Secuencias de aa del citocromo c
Inferencia de las relaciones filogenticas probables de tres secuencias
Inferencia de filogenias basadas en comparacin de secuencias

1. las secuencias deben ser homlogas 2. No debera estar sujetas a transferencia lateral de genes 3. Dependiendo del nivel taxonmico-evolutivo de la comparacin, las secuencias deberan contener el suficiente polimorfismo para ser informativas, pero a la vez no ser tan variables para posibilitar el alineamiento MTODOS GENERALES:
Distancias Mxima parsimonia Mxima versomilitud Mximas Probabilidades posteriores (anlisis Bayesianos)

Bio Inform Á Tica

Uploaded by

Document Information

Original Title

Copyright

Available Formats

Share this document

Share or Embed Document

Sharing Options

Did you find this document useful?

Is this content inappropriate?

Copyright:

Available Formats

Bio Inform Á Tica

Uploaded by

Copyright:

Available Formats

Fundamentos de Bioinformtica

Prof. Alexis Bellorn PhD Biologa Molecular

Para qu sirve la bioinformtica?

La bioinformtica se inici con el estudio de la estructura primaria o secuencias de aa en las protenas

Luego se inici el anlisis de las secuencias de nucletidos del ADN

Cdigos para anotar los nucletidos que forman el ADN

Cdigos de los 20 aminocidos que forman las protenas

La bioinformtica produce un vasto volumen de datos que crece exponencialmente

La bioinformtica se basa en una gran diversidad de tipos de datos

Ejemplos de productos de la bioinformtica

Principales bases de datos

Formatos de las secuencias

Formato de FASTA (Pearson y Lipman 1988)

Obtencin de secuencias de ADN o protenas del GenBank

Identificacin de una secuencia desconocida en GenBank

Alineamientos par a par de secuencias, preferiblemente homlogas

Mtodo matricial de comparacin de secuencias par a par

Alineamiento mltiple y estructura secundaria de consenso para los homlogos de sRNA-Xcc1

Alineamiento simple y mltiple computarizado (CLUSTALW)

El paradigma central de la bioinformtica

El polimorfismo en la estructura primaria de las biomolculas es la base de los anlisis comparativos

Existen mutaciones neutras y silenciosas que producen el polimorfismo molecular

Los dos tipos de SNP: sustitucin (transicin o transversin) o indel

Las mutaciones neutras no producen cambios en la protena

Mutaciones silenciosas: cambios en los aminocidos que no alteran la funcin

Secuencias de aa del citocromo c

Inferencia de las relaciones filogenticas probables de tres secuencias

Inferencia de filogenias basadas en comparacin de secuencias

You might also like