ABSTRACT
In a continuum with applied statistics, machine learning offers a wide variety of tools to explore, analyze, and understand addiction data. These tools include algorithms that can leverage useful information from data to build models; these models can solve particular tasks to answer addiction scientific questions. In this second part of a two-part review on machine learning, we explain how to apply machine learning methods to addiction research. Like other analytical tools, machine learning methods require a careful implementation to carry out a reproducible and transparent research process with reliable results. This review describes a workflow to guide the application of machine learning in addiction research, detailing study design, data collection, data pre-processing, modeling, and results communication. How to train, validate, and test a model, detect and characterize overfitting, and determine an adequate sample size are some of the key issues when applying machine learning. We also illustrate the process and particular nuances with examples of how researchers in addiction have applied machine learning techniques with different goals, study designs, or data sources as well as explain the main limitations of machine learning approaches and how to best address them. A good use of machine learning enriches the addiction research toolkit.
RESUMEN
En un continuo con la estadística aplicada, el aprendizaje automático ofrece una amplia variedad de herramientas para explorar, analizar y comprender los datos de adicciones. Estas herramientas incluyen algoritmos que pueden extraer información útil de los datos para construir modelos; estos modelos pueden resolver tareas particulares para responder preguntas científicas sobre las adicciones. En esta segunda parte de una revisión sobre aprendizaje automático compuesta de dos partes, desarrollamos cómo aplicar los métodos de aprendizaje automático para la investigación en adicciones. De la misma forma que con otras herramientas analíticas, los métodos de aprendizaje automático requieren una implementación cuidadosa para realizar un proceso de investigación reproducible y transparente con resultados confiables. Esta revisión describe un flujo de trabajo para guiar la aplicación de aprendizaje automático en la investigación de las adicciones, detallando el diseño del estudio, la recolección de los datos, el pre-procesamiento de los datos, su modelado, y la comunicación de resultados. Las formas de entrenar, validar y testear modelos, cómo detectar y caracterizar el sobreajuste, y cómo determinar un tamaño adecuado de muestra son algunos de los puntos clave al momento de aplicar técnicas de aprendizaje automático. También ilustramos el proceso y sus matices con ejemplos sobre cómo la investigación de adicciones ha aplicado las técnicas de aprendizaje automático con distintos objetivos, diseños de estudio y fuentes de datos. Además, explicamos las limitaciones principales de los métodos de aprendizaje automático y las mejores maneras de abordarlas. Un buen uso del aprendizaje automático enriquece el conjunto de herramientas para la investigación de las adicciones.
Data availability statement
Data sharing does not apply to this article as no new data were created or analyzed in this study.
Disclosure statement
The authors report no relevant disclosures.
Supplementary material
Supplemental data for this article can be accessed on the publisher’s website.