Etiqueta: Bioinformática

Algoritmos de ensamblaje en bioinformática (primera parte)

Algoritmos de ensamblaje en bioinformática (primera parte)

En el artículo de Aguilar-Bultet y Falquet, publicado el año 2015 con el título “Secuenciación y ensamblaje de novo de genomas bacterianos: Una alternativa para el estudio de nuevos patógenos”, se menciona que la caracterización completa de un microorganismo en el laboratorio constituye un proceso muy costoso y laborioso que consume mucho tiempo. Con el incremento de las capacidades de secuenciación a partir del surgimiento de las tecnologías de secuenciación de nueva generación en el año 2005, se ha abierto un nuevo camino en este campo. Entre los principales aportes de estas nuevas tecnologías cabe citar que han facilitado la secuenciación del acido desoxirribonucleico genómico de un alto número de bacterias, generándose un gran volumen de datos en corto tiempo. La obtención de un genoma completo permite contar, en principio, con el catálogo completo de genes que un organismo puede expresar en cualquier momento de su ciclo de vida. De ahí la importancia de las tecnologías de nueva generación, que al permitir el procesamiento masivo y en paralelo de las muestras, reducen notablemente los costos y el tiempo para obtener la secuencia genómica, en comparación con la secuenciación automática de Sanger, descrita en el artículo de Metzker, publicado el año 2010 con el título “Tecnologías de secuenciación, la siguiente generación”. Para procesar y analizar el enorme volumen de datos biológicos acumulados, como resultado del uso de estas tecnologías, ha sido necesario el empleo de herramientas bioinformáticas que permitan manejar eficientemente esta creciente cantidad de información, herramientas que también se han venido modificando y perfeccionando junto al propio desarrollo de las tecnologías de nueva generación.

La secuenciación de genomas completos es un método poderoso para la rápida identificación de genes en un organismo, y sirve como herramienta básica para posteriores análisis funcionales de los nuevos genes descubiertos. La secuencia genómica provee de un conjunto de virtualmente todas las proteínas que el organismo puede expresar. El método de secuenciación automática de Sanger dominó la industria de secuenciación por casi veinte años, llevando a innumerables logros en este campo, como fue la secuenciación del primer genoma bacteriano Haemophilus influenzae y la primera secuencia completa del genoma humano. A pesar de las mejoras técnicas durante los últimos años, las limitaciones de la tecnología de Sanger trajo consigo la necesidad de desarrollar nuevas y mejores alternativas para la secuenciación de un gran número de genomas en corto tiempo. Es por ello que surgen las tecnologías de secuenciación de nueva generación. La tecnología 454, conocida como pirosecuenciación, fue la primera secuenciación de nueva generación en salir al mercado entre los años 2004 y 2005, descrito en el artículo de Margulies y sus colegas, publicado el año 2005 con el título “Secuenciación del genoma en microfabricado de reactores picolitro de alta densidad”. A continuación surgieron Illumina en el año 2006, detallado en el artículo de Bentley titulado “Resecuenciación del genoma completo”; con sus variaciones, basada en secuenciación por síntesis, SOLiD en el año 2007, basada en secuenciación por ligación, y Ion Torrent en el año 2010, descrita en el artículo de Pennisi titulado “Semiconductores inspiran nuevas tecnologías de secuenciación”, basada en detección de pH, las cuales necesitan de la amplificación del acido desoxirribonucleico previamente a su secuenciación. Además, se han desarrollado tecnologías que no necesitan del paso inicial de amplificación, sino que secuencian directamente una sola molécula de acido desoxirribonucleico, entre las que se encuentran Helicos, salida al mercado el año 2008, puntualizada en el artículo de Harris y sus colegas titulado “Secuenciación de ADN de una sola molécula de un genoma viral”, además de SMRT Pacific Biosciences el año 2010, descrita en el artículo de Eid y sus colegas titulado “Secuenciación del ADN en tiempo real a partir de moléculas individuales de polimerasa”.

En la tesis doctoral de Guerrero Fernández, publicada el año 2015 con el título “Plataforma de supercomputación para bioinformática”, se menciona que el análisis de secuencias es parte de la bioinformática, la cual ocurre una vez que se obtienen las lecturas con respecto al secuenciamiento, dicho análisis se puede dividir en las siguientes etapas: (1) Preprocesamiento, (2) ensamblaje y anotación, y (3) análisis estadístico o funcional. En la etapa de preprocesamiento, las lecturas necesitan un preprocesamiento por más que los fabricantes digan que lo que proporcionan ya es adecuado para su uso. Gracias al preprocesamiento, se incrementa la calidad de los resultados, lo que facilita el posterior tratamiento de los mismos. En la etapa de preparación de muestras se añaden diferentes elementos artificiales, que desaparecerán de la parte útil de la secuencia para no proporcionar resultados indeseables o artefactuales. El ensamblaje consiste en obtener cadenas de acido desoxirribonucleico y acido ribonucleico relativamente grandes, que idealmente estarían ordenadas gracias a las secuencias pareadas, en forma de scaffolds, a partir de los pequeños trozos de secuencias que se obtienen de uno o varios experimentos de secuenciación. Existen varios tipos de algoritmos para realizar este proceso, pero básicamente consisten en la comparación de todas las secuencias obtenidas en el experimento y la creación de diferentes grafos o tablas de relaciones ponderadas para determinar qué secuencias están solapadas con otras y en qué medida lo están. Siguiendo las relaciones de solapamiento y algunos heurísticos para acelerar las decisiones, se consigue formar una cadena mayor. Como es de suponer, los algoritmos más antiguos no están preparados para utilizar múltiples unidades centrales de proceso y necesitan mantener todas las secuencias en memoria durante la fase de cálculo de los solapamientos. Realizar un mapeo es mucho más simple que un ensamblaje. En este caso se dispone de un genoma o transcriptoma de referencia ya ensamblado que ayuda a realizar el alineamiento. Los ensamblajes, sean de genomas o transcriptomas, necesitan una anotación, que consiste en comparar los contigs o conjunto de secuencias, obtenidos con otras secuencias, principalmente de bases de datos públicas, para establecer si el parecido entre la secuencia nueva y la conocida es suficiente para asignarle las mismas funciones que tiene la secuencia conocida. Con los contigs anotados se puede empezar a interpretar y hacer análisis de los resultados, ya sea análisis estadístico o búsqueda en bases de datos especializadas.

 

Guillermo Choque Aspiazu
www.eldiario.net
10 de Octubre de 2016

Minería de texto en bioinformatica (primera parte)

Minería de texto en bioinformatica (primera parte)

En el artículo titulado “Bioinformática”, publicado por Moore el año 2007, se menciona que la bioinformática es un área de investigación interdisciplinaria que combina la informática y la bioestadística con las ciencias biológicas y biomédicas tales como la bioquímica, biología celular, la genética, la genómica, la fisiología, la inmunología y la biotecnología, entre otras. Forman y sus colegas, en el artículo publicado el año 2010 con el título “Bioinformática: Herramientas para acelerar la investigación en ciencias de la población y el control de enfermedades”, se menciona que la bioinformática estudia el flujo de información en todos los estadios del dogma central, como la organización y la regulación de los genes en la secuencia del acido desoxirribonucleico, la identificación de las zonas de transcripción del acido desoxirribonucleico, la predicción de la estructura de las proteínas a partir de su secuencia y el análisis de la función molecular de las biomoléculas, implicando la tecnología que utilizan las computadoras para el almacenamiento, recuperación, manipulación y distribución de información relacionada con macromoléculas. El énfasis se realiza sobre el uso de computadoras, porque la mayor parte de las tareas de análisis de datos de la bioinformática son bastante repetitivas o complejas en términos matemáticos.

Según Chou, en el artículo publicado el año 2004 con el título “Bioinformática estructural y su impacto en la ciencia biomédica”, la bioinformática puede clasificarse en dos ramas: Bioinformática secuencial y bioinformática estructural. La primera se encuentra centrada en las secuencias, con las principales aplicaciones de datos y análisis de los datos recogidos en los proyectos genoma, alineamiento de secuencias, redes metabólicas, morfometría y la evolución virtual, mientras que la segunda se interesa en estructuras, con las principales aplicaciones para la predicción de estructuras en tres dimensiones de proteínas y revelación de la relación entre estructura y función. Puesto que la estructura en tres dimensiones de una proteína es determinada por su secuencia, el análisis de la secuencia y la alineación se encuentran también bastante involucrados en la bioinformática estructural. La secuencia de aminoácidos de una proteína, estructura primaria, se puede determinar fácilmente a partir de la secuencia en el gen que lo codifica. Así, el número de secuencias de entrar en los bancos de datos ha aumentado rápidamente.

Por su parte en la tesis de maestría de Charles Pérez, escrita el año 2015 bajo el titulo “Uso de técnicas de minería de texto para la identificación de ensayos clínicos en nanomedicina”, se define la minería de texto como un proceso computarizado para la utilización de la gran cantidad de conocimiento existente en la literatura o en el texto a revisar, este proceso se refiere al análisis de información de alta calidad a partir del texto obtenido, información de alta calidad la cual se obtiene a través de la elaboración de patrones y tendencias a través de medios tales como el aprendizaje de patrones estadísticos, conocidos como algoritmos de aprendizaje automático, que son los clasificadores que pueden operar en cualquier área. Witten y Frank, en el libro publicado el año 200 con el título “Minería de datos: Herramientas de aprendizaje automático prácticas y técnicas con implementaciones Java”, se menciona que se debe tener en claro que la minería de texto no es lo mismo que la minería de datos, ya que la minería de datos puede describirse en términos generales como la búsqueda de patrones en los datos, y la minería de texto se encarga de la búsqueda de patrones en texto. Sin embargo, suenan como si se tratara de lo mismo, pero no lo son, es decir, la minería de datos puede ser más plenamente caracterizada como la extracción de implícita, previamente información desconocida, y potencialmente útil a partir de los datos. Con la minería de texto, sin embargo, la información que se extrae está clara y explícitamente indicada en el texto, no está oculta dentro de los datos. El problema, por supuesto, es que la información no se encuentra expresada en una forma que sea susceptible de procesamiento automático. La minería de texto se esfuerza por llevar de forma adecuada para que el texto vaya directamente a las computadoras, sin necesidad de un intermediario humano.

Gálvez, en el artículo escrito el año 2008 con el título “Minería de textos: La nueva generación de análisis de literatura científica en biología molecular y genómica”, menciona que debido a que la mayor parte de la información sobre funciones e interacciones de genes se encuentra en la literatura y en las bases de datos biomédicas, es necesaria la aplicación de nuevos y potentes métodos de procesamiento y acceso a la información. La minería de datos y la minería de texto surgen como tecnologías emergentes que sirven de soporte para el descubrimiento de conocimiento que poseen los datos almacenados. La minería de datos se define como el descubrimiento de conocimiento, a partir patrones observables de datos estructurados, en bases de datos relacionales, se le denomina comúnmente “Descubrimiento del conocimiento en bases de datos”. La minería de texto se orientada a la extracción de conocimiento a partir de datos no-estructurados en lenguaje natural almacenados en las bases de datos textuales, se identifica con el descubrimiento de conocimiento en los textos y se le denomina comúnmente “Descubrimiento de conocimiento en texto”. La minería de texto es una herramienta de análisis encargada del descubrimiento de conocimiento que no existía explícitamente en ningún texto de la colección, pero que surge de relacionar el contenido de varios de ellos. Según Hearst (1999) la minería de texto adopta un enfoque semiautomático, estableciendo un equilibrio entre el análisis humano y automático: Antes de la etapa de descubrimiento de conocimiento es necesario procesar de forma automática la información disponible en grandes colecciones documentales y transformarla en un formato que facilite su comprensión y análisis. El procesamiento de grandes volúmenes de texto libre no-estructurado para extraer conocimiento requiere la aplicación de una serie de técnicas de análisis ya utilizadas en la recuperación de información: Procesamiento del lenguaje natural y la extracción de información, tales como la identificación y extracción de patrones, análisis de clustering, clasificación, o visualización de datos.

 

Guillermo Choque Aspiazu
https://www.eldiario.net
07 de Marzo de 2016

Problemas en bioinformática

Problemas en bioinformática

Las células son las unidades fundamentales de cualquier ser vivo y todas las instrucciones necesarias para dirigir sus actividades están contenidas en la secuencia de ácido desoxirribonucleico. Este acido en todos los organismos se encuentra compuesto por los mismos componentes físicos y químicos, denominados bases, que se ordenan lado a lado en una estructura de doble hélice. El orden de estas bases contiene las instrucciones para crear un organismo con todas sus particularidades. El genoma de un organismo está formado por el conjunto de moléculas de ácido desoxirribonucleico, y el tamaño del mismo puede variar desde seiscientas mil pares de bases en una bacteria, hasta los tres billones que contienen los genomas humano y de ratón. Salvo algunas excepciones, todas las células humanas contienen una copia del genoma completo.

El ácido desoxirribonucleico en el genoma humano está organizado en cuarenta y seis cromosomas. Cada uno de ellos es una molécula cuya longitud se encuentra entre los cincuenta y doscientos cincuenta millones de pares de bases. Cada cromosoma contiene varios genes: las unidades básicas funcionales de la herencia y cada gen es simplemente una secuencia específica de bases que contiene las instrucciones para construir una proteína. En los primeros años del siglo veintiuno, se sabe que los genes comprenden solamente el dos por ciento del genoma humano; el resto contiene regiones no codificantes cuya función puede incluir la provisión de integridad estructural del cromosoma, la regulación de donde, cuando y en qué cantidad se fabrican las proteínas, etc. Se estima que el genoma humano contiene entre treinta y cuarenta genes y aunque los genes atraen mucho la atención, en realidad son las proteínas las que realizan la mayor parte de las funciones de la vida y generan la mayoría de las estructuras celulares. Las proteínas son moléculas complejas, formadas por subunidades más simples denominadas aminoácidos, de los cuales existen veinte diferentes. La secuencia de aminoácidos y las características químicas de los mismos causan que la proteína se pliegue en una estructura tridimensional que define su funcionalidad en la célula.

El conjunto de todas las proteínas de una célula se denomina proteoma. En contraste con el carácter estático del genoma, el proteoma cambia momento a momento en respuesta a miles de señales intra y extra celulares. La química de una proteína y su comportamiento está especificada por la secuencia de un gen, pero también por el número y la identidad de otras proteínas fabricadas en la célula al mismo tiempo y con las cuales ésta se asocia y reacciona. La proteómica, definida como el área que estudia la estructura de las proteínas y sus actividades y relaciones, es objeto de investigación que ayudará a elucidar las bases moleculares de la salud y la enfermedad. La cantidad de información que genera la investigación genómica es tal que, probablemente, supera la magnitud de información que genera la investigación en otras disciplinas científicas. En este contexto, surge la Bioinformática como un área en la frontera entre la biología y las ciencias de la computación cuyo principal objetivo es el desarrollo y uso de técnicas matemáticas y computacionales para ayudar en el tratamiento masivo de datos y en la resolución de problemas de la biología molecular.

La bioinformática surge como consecuencia de una convergencia multidisciplinar bajo el amparo del proyecto Genoma Humano. Esta disciplina está orientada fundamentalmente a la investigación aplicada, relacionada principalmente con las siguientes áreas: biología molecular, genética, genómica, proteómica, ciencias biomédicas, ciencias de la computación, matemáticas, física y estadística. También constituye un enfoque interdisciplinario, puesto que al menos un científico experto en biología y otro experto en ciencias de la computación, deben colaborar estrechamente para alcanzar un objetivo común, para el cual necesitan un lenguaje común y, además, aprender uno del otro los respectivos conocimientos básicos y fundamentales.

Una definición compendiada de la bioinformática establece que se trata de una disciplina científica y tecnológica en al que interaccionan en armonía los planteamientos investigadores de la biología genética y molecular con los enfoques metodológicos y tecnológicos de la ciencia de la computación y la ingeniería informática, para la obtención y gestión del conocimiento biológico genómico y proteómico. Gracias a la bioinformática, la secuenciación del genoma ha podido finalizar entes de lo previsto inicialmente, y en la denominada era postgenoma, la bioinformática se encuentra dedicada a la traslación de la información genética hacia aplicaciones biomédicas y sociales. Sin embargo, una de las principales limitaciones en la eclosión de esta disciplina ha sido la escasez de profesionales formados en la misma, ya que tradicionalmente las principales disciplinas científicas implicadas han ocupado compartimientos estancos con escasa comunicación entre ellos.

Los problemas que trata la bioinformática en general surgieron en el encuentro de dos formas diferentes de trabajo, una de ellas, la del grupo receptor, consistía en la tradicional biología molecular y la epidemiologia genética, centrada en los procedimientos de laboratorio, fundamentalmente el manejo de muestras, la extracción de ácido desoxirribonucleico, la amplificación de ácido desoxirribonucleico, el genotipado y el análisis estadístico. La otra se encontraba centrada en la ciencia de la computación y los sistemas de información, donde priman los aspectos de tratamiento, almacenamiento recuperación y salvaguarda de la información, así como la aplicación metódica de los procesos y herramientas necesarias para dichas actividades con eficiencia y calidad. En otras palabras los problemas se encuentran en un mismo territorio conformado por la visión científica basada en la muestra biológica, frente a la visión científico-ingenieril basada en la información.

La gama de problemas que abarca la bioinformática es muy amplia y como ejemplos, se pueden citar: la construcción de arboles filogenéticos para detectar antecesores comunes, el alineamiento simple y múltiple de secuencias, la construcción de mapas de genomas, la predicción de estructuras de proteínas, la comparación de moléculas, el agrupamiento y clasificación de estructuras proteicas, el análisis de perfiles de expresión génica, y un largo etcétera. Según los investigadores Meidanis y Setubal, un algoritmo para un problema de biología molecular es un objeto que intenta servir a dos personas: el biólogo molecular, que pretende que el algoritmo sea relevante, es decir que resuelva el problema con todos los errores e incertidumbres que aparecen en la práctica; y el informático, que desea probar que el algoritmo resuelve eficientemente un problema bien definido y que está dispuesto a sacrificar relevancia por eficiencia.

El equilibrio solo puede provenir de una interacción constante, que no es simple, pero que merece la pena. En la misma línea, se puede argumentar “los biólogos querrán que los informáticos les suministren soluciones a sus problemas de gestión de datos, los matemáticos y expertos en computación andarán detrás de problemas intelectualmente llamativos, y los ingenieros pedirán a los dos grupos anteriores que les suministren especificaciones bien concretadas para que ellos puedan desarrollar su trabajo. Los distintos expertos habrán de acostumbrarse a emplear vocabularios y lenguajes comunes y a entender, sin minusvalorar, los problemas de los demás.”

Algunos problemas importantes donde los enfoques basados en inteligencia artificial resultan prometedores incluyendo la predicción y comparación de estructura de proteínas, el diseño semiautomático de drogas, la interpretación de secuencias de nucleótidos y la adquisición de conocimiento de los datos genéticos. Uno de los procedimientos básicos en el área de la bioinformática, consiste en la búsqueda de semejanzas entre un fragmento de ácido desoxirribonucleico recién secuenciado y los segmentos ya disponibles almacenados en grandes bases de datos como GenBank. El hallazgo de emparejamientos aproximados permite predecir el tipo de proteína que especificará tal secuencia y esto no solo proporciona pistas sobre dianas farmacológicas prometedoras en las etapas iniciales de desarrollo de un medicamento, sino también permite eliminar alguna de ellas.

El problema de análisis, comparación y alineamiento de secuencias puede considerarse resuelto. Mejor dicho, en la primera década del presente siglo se dispone de algoritmos para resolver estos problemas razonablemente bien considerando que muchos de los problemas derivados resultan ser NP-Completos. El lector interesado en profundizar sobre problemas basados en secuencias, puede referirse a los trabajos de Meidanis y Setubal además del trabajo realizado por Gusfield. Una visión general sobre los problemas del área también puede encontrarse en la obra de Higgins y Taylor de principios del siglo veintiuno. Los dos métodos clásicos para la búsqueda de secuencias similares en bases de datos son BLAST y FAST, relacionados con herramientas de búsqueda de alineamiento local. Ambas referencias pertenecen a la presentación original de los métodos.

Guillermo Choque Aspiazu
http://www.eldiario.net/
Diciembre 20 de 2010
Genómica Funcional

Genómica Funcional

La bioinformática es un campo interdisciplinario que se encuentra en la intersección entre las “ciencias de la vida” y de la “informática”, proporciona las herramientas y recursos necesarios para favorecer la investigación biológica. Este campo comprende la investigación y desarrollo de herramientas útiles para llegar a entender el flujo de información desde los genes a las estructuras moleculares, a su función bioquímica hasta su conducta biológica. Una definición generalmente aceptada es: “Bioinformática es un campo de la ciencia en el cual confluyen varias disciplinas tales como: biología, computación y tecnología de la información. El fin último de este campo es facilitar el descubrimiento de nuevas ideas biológicas así como crear perspectivas globales a partir de las cuales se puedan discernir principios unificadores en biología. Al comienzo de la “revolución genómica”, el concepto de bioinformática se refería sólo a la creación y mantenimiento de base de datos donde se almacena información biológica, tales como secuencias de nucleótidos y aminoácidos.

El progresivo desarrollo de métodos automatizados de preparación de muestras de ácido desoxirribonucléico, su secuenciación y posterior lectura ha permitido afrontar, a lo largo de la última década, diversos proyectos de secuenciación a gran escala. Algunos datos para entender la magnitud del proyecto son: (1) El genoma humano contiene unos 3000 millones de pares de bases. (2) Contiene unos 100000 genes. (3) Sólo un 10% del genoma codifica proteínas. (4) Se conoce la localización de unos 3000 genes. (5) Existen 24 pares de cromosomas; el menor tiene unos 50 millones de pares de bases, el mayor unos 250 millones. (6) Si se reunieran, los datos del genoma ocuparían 1000 libros de 200 páginas. (7) La diversidad genética humana: 5.000 millones de personas que se diferencian en un 0,1% de su material genético. Esto genera un catálogo de diferencias en secuencias teórico de 5000 billones de registros. Como se puede apreciar en algunos de estos datos, los últimos avances en la investigación en ciencias biomédicas están produciendo un enorme crecimiento en el volumen y la complejidad de la información biológica disponible. Las tecnologías de la información y las comunicaciones son cruciales para posibilitar el almacenamiento e interpretación de estos datos en los centros de investigación. La gran magnitud de la información a manejar se incrementa teniendo en cuenta que para llegar a reconocer dónde comienzan y terminan los genes e identificar sus exones, intrones y secuencias reguladoras se requieren comparaciones entre secuencias de diversas especies. El mapa de secuencias generado por el proyecto se utiliza como fuente primaria de información para la biología humana y la medicina.

La genómica funcional se ocupa de describir la función biológica de los genes mediante el conocimiento de su actividad en: (1) Los rasgos que determinan. (2) La regulación a la que se ven sometidos. (3) La interacción con otros genes. (4) La identificación de un patrón de comportamiento en un gen, dependiendo de las condiciones que le circundan. (5) La actividad que desarrolla el gen cuando está alterado en relación a su actividad normal. La genómica funcional, tradicionalmente, ha asociado rasgos o características visibles, conocidas como fenotipo, con el gen o los genes que los producían, los genotipos. Los avances en los procesos biotecnológicos han permitido determinar qué genes están implicados, la naturaleza de la interacción y el tiempo en la asociación gen-rasgo. Cada célula del organismo tiene el mismo material genético durante toda su vida. Sin embargo, la expresión del gen o su actividad varía de unas células a otras, de unos estadios de desarrollo a otros, en procesos normales o patológicos y en función de las condiciones ambientales. Sólo entendiendo los pormenores de la expresión génica se entienden los procesos biológicos moleculares en los que intervienen los genes. Como ayuda a este propósito, la técnica de los chips de ácido desoxirribonucleico permite el análisis de muchos genes, bajo diferentes condiciones experimentales, en un solo experimento. Además, un rasgo puede venir determinado por un gen o varios genes pueden determinar un solo rasgo. Si se altera esos genes, se reflejará en la característica que expresan.

La genómica funcional es un campo de la biología molecular que se propone utilizar la vasta acumulación de datos producidos por los proyectos de genómica, como los “proyectos genoma” de los distintos organismos, para describir las funciones e interacciones entre genes y proteínas. A diferencia de la genómica y la proteómica, la genómica funcional se centra en los aspectos dinámicos de los genes, como su transcripción, la traducción las interacciones proteína-proteína, en oposición a los aspectos estáticos de la información genómica como la secuencia del ácido desoxirribonucleico o su estructura.

En la genómica funcional se utiliza principalmente técnicas de alto rendimiento para describir la abundancia de productos génicos como el ácido ribonucleico mensajero y las proteínas. Algunas plataformas tecnológicas típicas son: (1) Microchips de ácido desoxirribonucleico. Un chip de ácido desoxirribonucleico es una superficie sólida a la cual se unen una serie de fragmentos de ácido desoxirribonucleico. Las superficies empleadas para fijar el ácido desoxirribonucleico son muy variables y pueden ser vidrio, plástico e incluso chips de silicio. Los arreglos de ácido desoxirribonucleico son utilizadas para averiguar la expresión de genes, monitorizándose los niveles de miles de ellos de forma simultanea. La tecnología del chip de ácido desoxirribonucleico es un desarrollo de una técnica muy usada en biología molecular, el “Southern blot”. Con esta tecnología es posible observar de forma casi instantánea la expresión de todos los genes del genoma de un organismo. De tal forma que suelen ser utilizados para identificar genes que producen ciertas enfermedades mediante la comparación de los niveles de expresión entre células sanas y células que están desarrollando ciertos tipos de enfermedades. (2) Análisis en serie de la expresión génica. Es una técnica de la biología molecular que permite conocer y cuantificar la expresión de los genes en la célula, mediante la medición del ácido ribonucleico mensajero que está presente en un momento determinado. Esto permite crear perfiles de expresión de cada célula en determinadas situaciones, ya sea en circunstancias normales de la célula o en momentos en que se ve afectada por alguna enfermedad. De esta manera se pueden comparar estos perfiles y determinar que genes están siendo apagados o activados, y así determinar cual puede ser la causa de esto. (3) Electroforesis bidimensional en gel. Es un grupo de técnicas empleadas por los científicos para separar moléculas basándose en propiedades como el tamaño, la forma o el punto isoeléctrico. La electroforesis en gel se utiliza generalmente con propósitos analíticos, pero puede ser una técnica preparativa para purificar moléculas parcialmente antes de aplicar una espectroscopia de masas, una clonación o una secuenciación de ácido desoxirribonucleico. (4) Espectrometría de masas. Es una técnica experimental que permite la medición de iones derivados de moléculas. El espectrómetro de masas es un instrumento que permite analizar con gran precisión la composición de diferentes elementos químicos e isótopos atómicos, separando los núcleos atómicos en función de su relación masa-carga. Puede utilizarse para identificar los diferentes elementos químicos que forman un compuesto, o para determinar el contenido isotópico de diferentes elementos en un mismo compuesto. Es una técnica hibrida que se encuentra con frecuencia como detector de un cromatógrafo de gases.

Dada la gran cantidad de datos producidos por estas técnicas y la pretensión de encontrar pautas biológicas significativas en ellos, la bioinformática es crucial para este tipo de análisis. Ejemplos de técnicas de este tipo son el agrupamiento de datos o el análisis de componentes principales para un aprendizaje automático sin supervisión, detección de clases, así como redes neuronales artificiales o máquinas de soporte vectorial para aprendizaje automático supervisado, predicción de clases, clasificación estadística.

De manera general, todas las técnicas que estudian el flujo de la información genética al nivel del ácido desoxirribonucleico, o sea, el genoma, conforman lo que se conoce actualmente bajo el nombre de genómica. La identificación de los elementos estructurales dentro de los genes, tales como los exones y los intrones, los elementos reguladores, etc. se denomina genómica estructural. La genómica funcional es entonces, el estudio del funcionamiento de estos elementos estructurales. El desarrollo de la genómica funcional ha sido posible, en gran medida, gracias al desarrollo de los microchips de ácido desoxirribonucleico y ácido ribonucleico.

 

Guillermo Choque Aspiazu
http://www.eldiario.net/
Julio 7 de 2008

Translate »