¿Es posible construir modelos de aprendizaje automático sin experiencia en aprendizaje automático?
Jim Collins, profesor Termeer de Ingeniería y Ciencias Biomédicas en el Departamento de Ingeniería Biológica del MIT y líder de la Facultad de Ciencias de la Vida en la Clínica Abdul Latif Jameel para el Aprendizaje Automático en Salud (La Clínica Jameel), junto con varios colegas decidieron abordar este problema cuando se enfrenta a un enigma similar. Se ha publicado un artículo de acceso abierto sobre la solución propuesta, llamado BioAutoMATED, en sistemas celulares.
La contratación de investigadores de aprendizaje automático puede ser un proceso lento y económicamente costoso para los laboratorios de ciencia e ingeniería. Incluso con un experto en aprendizaje automático, elegir el modelo correcto, formatear el conjunto de datos para el modelo y luego ajustarlo puede cambiar drásticamente el rendimiento del modelo y requiere mucho trabajo.
“En un proyecto de aprendizaje automático, ¿cuánto tiempo dedicaría normalmente a preparar y transformar los datos?” Solicitud para el Curso de Google 2022 sobre Fundamentos de Machine Learning (ML). Las dos opciones que se ofrecen son «menos de la mitad del tiempo del proyecto» o «más de la mitad del tiempo del proyecto». Si estás pensando en lo último, estarás en lo cierto. Google afirmó que se necesita más del 80 % del tiempo del proyecto para formatear los datos, y eso ni siquiera tiene en cuenta el tiempo necesario para enmarcar el problema en términos de aprendizaje automático.
«Tomaría varias semanas de esfuerzo descubrir el modelo correcto para nuestro conjunto de datos, y ese es un paso realmente prohibitivo para muchas personas que quieren hacer aprendizaje automático o biología», dice Jacqueline Valéry, estudiante de doctorado de quinto año. D. Dr.. estudiante de ingeniería biológica en el laboratorio de Collins y es el primer coautor del artículo.
BioAutoMATED es un sistema de aprendizaje automático automatizado que puede seleccionar y construir un modelo apropiado para un conjunto de datos determinado e incluso encargarse de la tediosa tarea de preprocesar los datos, reduciendo un proceso de meses a solo unas pocas horas. Los sistemas de aprendizaje automático (AutoML) todavía están evolucionando relativamente, y el uso actual se centra principalmente en el reconocimiento de imágenes y texto, pero en gran parte no se usa en los subcampos de la biología, señala el coprimer autor y posdoctorado de Jameel Clinic, Louis Swinksen F. . .Dr.
«El lenguaje básico en biología se basa en la secuencia», explica Soenksen, quien obtuvo un doctorado en el Departamento de Ingeniería Mecánica del MIT. «Las secuencias biológicas como el ADN, el ARN, las proteínas y los glicanos tienen la sorprendente propiedad informativa de estar intrínsecamente estandarizados, como un alfabeto. Se han desarrollado muchas herramientas de AutoML para texto, por lo que tenía sentido extenderlo a [biological] secuencias».
Además, la mayoría de las herramientas de AutoML solo pueden explorar y crear tipos de modelos en miniatura. «Pero realmente no se puede saber desde el comienzo de un proyecto qué modelo será el mejor para su conjunto de datos», dice Valerie. «Al consolidar múltiples herramientas bajo una sola herramienta general, realmente permitimos mucho más espacio de investigación que el que cualquier herramienta de AutoML podría lograr por sí sola».
El repertorio de modelos de aprendizaje automático supervisado de BioAutoMATED incluye tres tipos: modelos de clasificación binaria (dividir los datos en dos categorías), modelos de clasificación multiclase (dividir los datos en varias categorías) y modelos de regresión (ajustar valores numéricos continuos o medir la fuerza de las relaciones clave entre variable). BioAutoMATED también puede ayudar a determinar cuántos datos se requieren para entrenar adecuadamente el modelo elegido.
«Nuestra herramienta explora qué modelos se adaptan mejor a conjuntos de datos biológicos más pequeños y menos extendidos, así como a redes neuronales más complejas», dice Valerie. Esta es una ventaja para los grupos de investigación con nuevos datos que pueden o no ser apropiados para un problema de aprendizaje automático.
“Realizar experimentos nuevos y exitosos en la intersección de la biología y el aprendizaje automático puede costar mucho dinero”, explica Soenksen. «Actualmente, los laboratorios enfocados en biología necesitan invertir en infraestructura digital crítica y recursos humanos capacitados en AI-ML antes de que puedan saber si sus ideas están listas para el éxito. Queremos reducir estas barreras para los expertos en biología».
Con BioAutoMATED, los investigadores tienen la libertad de realizar experimentos preliminares para evaluar si valdría la pena contratar a un experto en aprendizaje automático para construir un modelo diferente para futuros experimentos.
el código fuente abierto Disponible públicamente, los investigadores enfatizan que es fácil de operar. «Lo que nos gustaría ver es que la gente tome nuestro código, lo mejore y colabore con comunidades más grandes para convertirlo en una herramienta para todos», dice Soenksen. “Queremos guiar a la comunidad de investigación biológica y generar conciencia relacionada con las tecnologías AutoML, como una vía muy beneficiosa que puede integrar mejor la práctica biológica rigurosa con la práctica rápida de AI-ML de lo que se ha logrado hoy”.
más información:
Jacqueline A. Valeri et al, BioAutomated: una herramienta integral de aprendizaje automático para la interpretación y el diseño de secuencias biológicas, disponible aquí. sistemas celulares (2023). DOI: 10.1016/j.cels.2023.05.007
Esta historia se vuelve a publicar con permiso de MIT News (web.mit.edu/newsoffice/), un sitio popular que cubre noticias relacionadas con la investigación, la innovación y la enseñanza en el MIT.
More Stories
El jefe de la Agencia Espacial de EE.UU. quiere hablar con China sobre la basura espacial
Búsqueda de gemas: caracterización de seis planetas gigantes que orbitan enanas frías
La Administración Federal de Aviación de EE. UU. ha puesto en tierra los cohetes Falcon 9 de SpaceX en espera de una investigación sobre un raro accidente de aterrizaje frente a la costa.