Los científicos construyen un sistema que puede crear modelos de IA para la investigación biológica

resumen gráfico. Crédito: Instituto de Tecnología de Massachusetts

¿Es posible construir modelos de aprendizaje automático sin experiencia en aprendizaje automático?

Jim Collins, profesor Termeer de Ingeniería y Ciencias Biomédicas en el Departamento de Ingeniería Biológica del MIT y líder de la Facultad de Ciencias de la Vida en la Clínica Abdul Latif Jameel para el Aprendizaje Automático en Salud (La Clínica Jameel), junto con varios colegas decidieron abordar este problema cuando se enfrenta a un enigma similar. Se ha publicado un artículo de acceso abierto sobre la solución propuesta, llamado BioAutoMATED, en sistemas celulares.

La contratación de investigadores de aprendizaje automático puede ser un proceso lento y económicamente costoso para los laboratorios de ciencia e ingeniería. Incluso con un experto en aprendizaje automático, elegir el modelo correcto, formatear el conjunto de datos para el modelo y luego ajustarlo puede cambiar drásticamente el rendimiento del modelo y requiere mucho trabajo.

“En un proyecto de aprendizaje automático, ¿cuánto tiempo dedicaría normalmente a preparar y transformar los datos?” Solicitud para el Curso de Google 2022 sobre Fundamentos de Machine Learning (ML). Las dos opciones que se ofrecen son «menos de la mitad del tiempo del proyecto» o «más de la mitad del tiempo del proyecto». Si estás pensando en lo último, estarás en lo cierto. Google afirmó que se necesita más del 80 % del tiempo del proyecto para formatear los datos, y eso ni siquiera tiene en cuenta el tiempo necesario para enmarcar el problema en términos de aprendizaje automático.

READ Comparando adolescentes con bonobos, niños con perros y gatos antiguos con gatos modernos. Además: ¡fotones!

«Tomaría varias semanas de esfuerzo descubrir el modelo correcto para nuestro conjunto de datos, y ese es un paso realmente prohibitivo para muchas personas que quieren hacer aprendizaje automático o biología», dice Jacqueline Valéry, estudiante de doctorado de quinto año. D. Dr.. estudiante de ingeniería biológica en el laboratorio de Collins y es el primer coautor del artículo.

BioAutoMATED es un sistema de aprendizaje automático automatizado que puede seleccionar y construir un modelo apropiado para un conjunto de datos determinado e incluso encargarse de la tediosa tarea de preprocesar los datos, reduciendo un proceso de meses a solo unas pocas horas. Los sistemas de aprendizaje automático (AutoML) todavía están evolucionando relativamente, y el uso actual se centra principalmente en el reconocimiento de imágenes y texto, pero en gran parte no se usa en los subcampos de la biología, señala el coprimer autor y posdoctorado de Jameel Clinic, Louis Swinksen F. . .Dr.

«El lenguaje básico en biología se basa en la secuencia», explica Soenksen, quien obtuvo un doctorado en el Departamento de Ingeniería Mecánica del MIT. «Las secuencias biológicas como el ADN, el ARN, las proteínas y los glicanos tienen la sorprendente propiedad informativa de estar intrínsecamente estandarizados, como un alfabeto. Se han desarrollado muchas herramientas de AutoML para texto, por lo que tenía sentido extenderlo a [biological] secuencias».

Además, la mayoría de las herramientas de AutoML solo pueden explorar y crear tipos de modelos en miniatura. «Pero realmente no se puede saber desde el comienzo de un proyecto qué modelo será el mejor para su conjunto de datos», dice Valerie. «Al consolidar múltiples herramientas bajo una sola herramienta general, realmente permitimos mucho más espacio de investigación que el que cualquier herramienta de AutoML podría lograr por sí sola».

READ La NASA ha encontrado un misterioso cohete de origen desconocido que chocó con la luna

El repertorio de modelos de aprendizaje automático supervisado de BioAutoMATED incluye tres tipos: modelos de clasificación binaria (dividir los datos en dos categorías), modelos de clasificación multiclase (dividir los datos en varias categorías) y modelos de regresión (ajustar valores numéricos continuos o medir la fuerza de las relaciones clave entre variable). BioAutoMATED también puede ayudar a determinar cuántos datos se requieren para entrenar adecuadamente el modelo elegido.

«Nuestra herramienta explora qué modelos se adaptan mejor a conjuntos de datos biológicos más pequeños y menos extendidos, así como a redes neuronales más complejas», dice Valerie. Esta es una ventaja para los grupos de investigación con nuevos datos que pueden o no ser apropiados para un problema de aprendizaje automático.

“Realizar experimentos nuevos y exitosos en la intersección de la biología y el aprendizaje automático puede costar mucho dinero”, explica Soenksen. «Actualmente, los laboratorios enfocados en biología necesitan invertir en infraestructura digital crítica y recursos humanos capacitados en AI-ML antes de que puedan saber si sus ideas están listas para el éxito. Queremos reducir estas barreras para los expertos en biología».

Con BioAutoMATED, los investigadores tienen la libertad de realizar experimentos preliminares para evaluar si valdría la pena contratar a un experto en aprendizaje automático para construir un modelo diferente para futuros experimentos.

el código fuente abierto Disponible públicamente, los investigadores enfatizan que es fácil de operar. «Lo que nos gustaría ver es que la gente tome nuestro código, lo mejore y colabore con comunidades más grandes para convertirlo en una herramienta para todos», dice Soenksen. “Queremos guiar a la comunidad de investigación biológica y generar conciencia relacionada con las tecnologías AutoML, como una vía muy beneficiosa que puede integrar mejor la práctica biológica rigurosa con la práctica rápida de AI-ML de lo que se ha logrado hoy”.

READ Cómo la coliflor obtuvo sus deliciosos fractales

más información:
Jacqueline A. Valeri et al, BioAutomated: una herramienta integral de aprendizaje automático para la interpretación y el diseño de secuencias biológicas, disponible aquí. sistemas celulares (2023). DOI: 10.1016/j.cels.2023.05.007

Información del diario:
sistemas celulares

Los científicos construyen un sistema que puede crear modelos de IA para la investigación biológica

La vida floreció cuando el campo magnético de la Tierra casi colapsó hace 590 millones de años.

El efecto de las grabaciones de audio de atención plena sobre los efectos secundarios físicos y emocionales durante la radioterapia para el cáncer de próstata

Una nueva forma de reciclar plástico captura carbono

You may have missed

España encabeza la lista de países más baratos para vivir « Euro Weekly News

Centro de Reuniones, Incentivos, Conferencias y Exposiciones de última generación – Viajero de Negocios

La vida floreció cuando el campo magnético de la Tierra casi colapsó hace 590 millones de años.

España nombra a Del Bosque para supervisar la federación plagada de escándalos

Entradas recientes

Páginas

Deja una respuesta Cancelar la respuesta

More Stories

La vida floreció cuando el campo magnético de la Tierra casi colapsó hace 590 millones de años.

El efecto de las grabaciones de audio de atención plena sobre los efectos secundarios físicos y emocionales durante la radioterapia para el cáncer de próstata

Una nueva forma de reciclar plástico captura carbono

You may have missed

España encabeza la lista de países más baratos para vivir « Euro Weekly News

Centro de Reuniones, Incentivos, Conferencias y Exposiciones de última generación – Viajero de Negocios

La vida floreció cuando el campo magnético de la Tierra casi colapsó hace 590 millones de años.

España nombra a Del Bosque para supervisar la federación plagada de escándalos