ıllı Internet y Tecnologías de la Información (2018)

internet, Hosting, dominios, seo, antivirus, banco de imágenes, páginas web, tiendas online

[Enciclopedia Online Gratuita] Diccionario de Internet y Tecnologías de la Información y la Comunicación (TIC):

ıllı Aprendizaje automático en bioinformática wiki: info, historia y vídeos

videos internet

salud  Aprendizaje automático en bioinformática 


El aprendizaje automático, un subcampo de las ciencias de la computación que implica el desarrollo de algoritmos que aprenden de qué forma hacer predicciones basadas en datos, tiene una serie de aplicaciones emergentes en el campo de la bioinformática. La bioinformática trata con enfoques computacionales y matemáticos para entender y procesar datos biológicos. Ya antes de la aparición de los algoritmos de aprendizaje automático, los algoritmos bioinformáticos debían programarse a mano, lo que para inconvenientes como la predicción de la estructura de las proteínas resulta exageradamente bastante difícil. Las técnicas de aprendizaje automático como el aprendizaje profundo dejan al algoritmo usar el aprendizaje de peculiaridades, lo que quiere decir que, basándose solo en el conjunto de datos, el algoritmo puede aprender de qué forma conjuntar múltiples peculiaridades de los datos de entrada en un conjunto más abstracto de peculiaridades para efectuar aprendizaje auxiliar. Este enfoque multicapa de los patrones de aprendizaje en los datos de entrada deja que dichos sistemas hagan predicciones bastante complejas cuando se adiestra con grandes conjuntos de datos. En los últimos tiempos, el tamaño y la cantidad de conjuntos de datos biológicos libres se han disparado, lo que deja a los estudiosos en bioinformática hacer empleo de estos sistemas de aprendizaje automático. El aprendizaje automático se ha aplicado a 6 subcampos primordiales de la bioinformática: genómica, proteómica, microarrays, biología de sistemas, evolución y minería de textos.

El desarrollo exponencial de GenBank, una base de datos de secuencia genómica proporcionada por el centro Nacional para Información de Biotecnología (NCBI por sus iniciales en inglés)

La genómica implica el estudio del genoma, la secuencia completa de ADN de los organismos. Aunque los datos de la secuencia genómica han sido históricamente escasos debido a la complejidad técnica para secuenciar un fragmento de ADN, el número de secuencias libres está medrando exponencialmente. No obstante, si bien los datos en salvaje están poco a poco más libres y alcanzables, la interpretación biológica de estos datos ocurre a un ritmo considerablemente más lento. Por consiguiente, hay una necesidad creciente de desarrollar sistemas de aprendizaje automático que puedan determinar de forma automática la localización de los genes que codifican proteínas en una secuencia de ADN dada. Este inconveniente es conocido en la biología computacional como predicción de gen.


La predicción de genes se efectúa generalmente por medio de una combinación de lo que es conocido como buscas extrínsecas y también intrínsecas. Para la busca extrínseca, la secuencia de entrada de ADN se ejecuta mediante una enorme base de datos de secuencias cuyos genes han sido anteriormente descubiertos y sus localizaciones anotadas. Se pueden identificar múltiples genes de la secuencia determinando qué cadenas de bases en la secuencia son análogas a las secuencias de genes conocidas. No obstante, dada la restricción en el tamaño de la base de datos de secuencias génicas conocidas y anotadas, no todos y cada uno de los genes en una secuencia de entrada dada pueden identificarse por medio de la homología por sí misma. En consecuencia, se precisa una busca intrínseca en el momento en que un programa de predicción de genes procura identificar los genes sobrantes de la secuencia de ADN sola.


El aprendizaje de máquina es asimismo usado para el inconveniente de alineación de secuencia múltiple qué implica alinear muchas secuencias de ADN o bien aminoácidos para determinar zonas de similitud que podría apuntar una historia evolutiva compartida. Asimismo acostumbra a advertir y visualizar reordenamientos genómicos.

Secuencia de aminoácidos de una proteína anotada con la estructura secundaria de la proteína. Cada aminoácido está etiquetado como una hélice alfa, una lámina beta o bien una espiral.

Las proteínas, cadenas de aminoácidos, consiguen una gran parte de su función del plegamiento de proteínas en el que se conforman en una estructura tridimensional. Esta estructura está compuesta de múltiples capas de plegado incluyendo la estructura primaria (i.e. la cadena plana de aminoácidos), la estructura secundaria (helices alfa y láminas beta), la estructura terciaria, y la estructura cuaternaria.


La predicción de la estructura secundaria de proteínas es uno de los focos primordiales de este subcampo puesto que los pliegues auxiliares de proteínas (estructuras terciarias y cuaternarias) se determinan con base en la estructura secundaria. Solucionar la auténtica estructura de una proteína es un proceso impresionantemente costoso y que requiere bastante tiempo, fomentando la necesidad de sistemas que puedan pronosticar con precisión la estructura de una proteína a través de el análisis directo de la secuencia de aminoácidos. Ya antes del aprendizaje automático, los estudiosos debían efectuar esta predicción manualmente. Esta tendencia empezó en mil novecientos cincuenta y uno cuando Pauling y Corey publicaron su trabajo sobre la predicción de las configuraciones de links de hidrógeno de una proteína de una cadena polipeptídica. Hoy día, a través de el empleo del aprendizaje automático de peculiaridades, las mejores técnicas de aprendizaje automático pueden lograr una precisión del ochenta y dos-ochenta y cuatro por ciento . El estado actual de la técnica en la predicción de estructuras secundarias usa un sistema llamado DeepCNF (campos neuronales convolucionales profundos) que se fundamenta en el modelo de aprendizaje automático de redes neuronales artificiales para conseguir una precisión de más o menos ochenta y cuatro por ciento cuando se clasifican los aminoácidos de una secuencia de proteína en una de las 3 clases estructurales (hélice, lámina o bien espiral). El límite teorético para la estructura secundaria de proteínas de 3 estados es ochenta y ocho-noventa por ciento .


El aprendizaje de máquina asimismo ha sido aplicado a inconvenientes de proteómica como la predicción de cadenas laterales de proteínas, el modelado de bucles de proteínas, y la predicción de mapas de contacto de proteína.


Microarrays, es un género de "lab on a chip" empleado para compendiar datos de manera automática sobre grandes cantidades de material biológico. El aprendizaje automático puede asistir en el análisis de estos datos, y se ha aplicado a la identificación del patrón de expresión, la clasificación y la inducción de la red genética.

Se muestra un análisis de microarrays de ADN del linfoma de Burkitt y el linfoma difuso de células B grandes (DLBCL) y también identifica las diferencias en los patrones de expresión génica.

Esta tecnología es en especial útil para supervisar la expresión de genes en un genoma, ayudando a diagnosticar diferentes géneros de cáncer con base exactamente en qué genes se expresan. Uno de los primordiales inconvenientes en este campo es identificar qué genes son expresados basándose en los datos compendiados. Además de esto, debido a la enorme cantidad de genes en los que los datos son recogidos por los microarrays, existe un sinnúmero de datos intrascendentes para la labor de identificación genética expresada, lo que complica todavía más este inconveniente. El aprendizaje automático presenta una posible solución a este inconveniente, puesto que se pueden utilizar múltiples métodos de clasificación para efectuar esta identificación. Los métodos más generalmente empleados son redes radiales de funciones básicas, aprendizaje profundo, clasificación bayesiana, árboles de resolución, y bosque azaroso.


Biología de sistemas


La biología de sistemas se centra en el estudio de los comportamientos emergentes desde interactúes complejas de componentes biológicos simples en un sistema. Dichos componentes pueden incluir moléculas como ADN, ARN, proteínas y metabolitos.


El aprendizaje automático se ha usado para asistir a modelar estas interactúes complejas en sistemas biológicos en dominios como redes genéticas, redes de transducción de señales y vías metabólicas. Los modelos gráficos probabilistas, una técnica de aprendizaje automático para determinar la estructura entre diferentes variables, son uno de los métodos más empleados para modelar redes genéticas. Además de esto, el aprendizaje automático se ha aplicado a inconvenientes de biología de sistemas como la identificación de sitios de unión del factor de transcripción usando una técnica famosa como optimización de cadena de Markov. Los algoritmos genéticos, técnicas de aprendizaje automático que se fundamentan en el proceso natural de la evolución, se han empleado para modelar redes genéticas y estructuras reguladoras.


Otras aplicaciones de biología de sistemas de aprendizaje automático incluyen la labor de predicción de función enzimática, análisis de datos de micromatriz de alto desempeño, análisis de estudios de asociación de genoma completo para entender mejor los marcadores de esclerosis múltiple, predicción de función de proteína y también identificación de sensibilidad de genes NCR en diastasa.


Minería de textos


El incremento de las publicaciones biológicas libres provocó un incremento de la complejidad en la busca y la colección de toda la información relevante libre sobre un tema determinado en todas y cada una de las fuentes. Esta labor se conoce como extracción de conocimiento. Esto es preciso para la colección de datos biológicos que por su parte puede nutrir algoritmos de aprendizaje automático para producir nuevos conocimientos biológicos. El aprendizaje automático se puede usar para esta labor de extracción de conocimiento utilizando técnicas como el procesamiento del lenguaje natural para extraer la información de utilidad de los informes generados por humanos en una base de datos.


Esta técnica se ha aplicado a la busca de nuevas dianas farmacológicas, en tanto que esta labor requiere el examen de la información guardada en bases de datos y gacetas biológicas. Las anotaciones de proteínas en las bases de datos de proteínas de manera frecuente no reflejan el conjunto de conocimiento conocido completo de cada proteína, con lo que se debe extraer información auxiliar de la literatura biomédica. El aprendizaje de máquina ha sido aplicado a anotación automática de la función de genes y proteínas, determinación de la ubicación subcelular de una proteína, análisis de análisis de matrices de expresión de ADN, análisis de interacción de proteínas a gran escala y análisis de interacción de moléculas.


Otra aplicación es la detección y visualización de zonas que comparten un alto grado de similitud o bien son nuevos conforme una referencia.


  ELIGE TU TEMA DE INTERÉS: 


autoayuda.es   Internet y Tecnologias 

Está aquí: Inicio > [ INTERNET ] > ıllı Aprendizaje automático en bioinformática wiki: info, historia y vídeos

Las cookies nos permiten ofrecer nuestros servicios. Al utilizar nuestros servicios, aceptas el uso que hacemos de las cookies. Ver políticas