344
Views
3
CrossRef citations to date
0
Altmetric
Review

Practical foundations of machine learning for addiction research. Part I. Methods and techniques

ORCID Icon, , & ORCID Icon
Pages 260-271 | Received 08 Feb 2021, Accepted 15 Oct 2021, Published online: 07 Apr 2022
 

ABSTRACT

Machine learning assembles a broad set of methods and techniques to solve a wide range of problems, such as identifying individuals with substance use disorders (SUD), finding patterns in neuroimages, understanding SUD prognostic factors and their association, or determining addiction genetic underpinnings. However, the addiction research field underuses machine learning. This two-part narrative review focuses on machine learning tools and concepts, providing an introductory insight into their capabilities to facilitate their understanding and acquisition by addiction researchers. This first part presents supervised and unsupervised methods such as linear models, naive Bayes, support vector machines, artificial neural networks, and k-means. We illustrate each technique with examples of its use in current addiction research. We also present some open-source programming tools and methodological good practices that facilitate using these techniques. Throughout this work, we emphasize a continuum between applied statistics and machine learning, we show their commonalities, and provide sources for further reading to deepen the understanding of these methods. This two-part review is a primer for the next generation of addiction researchers incorporating machine learning in their projects. Researchers will find a bridge between applied statistics and machine learning, ways to expand their analytical toolkit, recommendations to incorporate well-established good practices in addiction data analysis (e.g., stating the rationale for using newer analytical tools, calculating sample size, improving reproducibility), and the vocabulary to enhance collaboration between researchers who do not conduct data analyses and those who do.

RESUMEN

El aprendizaje automático reúne un amplio conjunto de métodos y técnicas para resolver una amplia gama de problemas, tales como identificar personas con trastornos por uso de sustancias (TUS), encontrar patrones en las neuroimágenes, comprender los factores de pronóstico de los TUS y su asociación, o determinar los fundamentos genéticos de las adicciones. Sin embargo, el campo de investigación sobre adicciones no usa habitualmente aprendizaje automático. Esta revisión narrativa de dos partes se centra en herramientas y conceptos de aprendizaje automático, proporcionando una visión introductoria de sus capacidades para facilitar la comprensión y adquisición del aprendizaje automático por parte de personas que realizan investigación sobre adicciones. Esta primera parte presenta métodos supervisados y no supervisados como modelos lineales, naive Bayes, máquinas de vectores de soporte, redes neuronales artificiales y k-medias. Ilustramos cada técnica con ejemplos de su uso actual en investigación sobre adicciones. También presentamos algunas herramientas de programación de código abierto y buenas prácticas metodológicas que facilitan el uso de estas técnicas. A lo largo de este trabajo, enfatizamos un continuo entre la estadística aplicada y el aprendizaje automático, mostramos sus puntos en común y proporcionamos fuentes de lectura adicionales para profundizar la comprensión de estos métodos. Esta revisión de dos partes es material básico para la próxima generación de investigación sobre adicciones que incorporen el aprendizaje automático en sus proyectos. Se presenta un puente entre la estadística aplicada y el aprendizaje automático, formas de ampliar el conjunto de herramientas analíticas y recomendaciones para incorporar buenas prácticas ya establecidas en el análisis de datos sobre adicciones (por ejemplo, justificar el uso de herramientas analíticas más nuevas, calcular el tamaño de la muestra, mejorar la reproducibilidad). También se presenta el vocabulario necesario para mejorar la colaboración en investigación entre quienes no realizan análisis de datos y quienes sí los llevan a cabo.

Disclosure statement

The authors report no relevant disclosures.

Data availability statement

The search terms, the dataset, and the analysis code for are available at https://github.com/pablocrestam/Machine-Learning-for-Addiction-Research.

Supplementary Material

Supplemental data for this article can be accessed on the publisher’s website.

Additional information

Funding

The author(s) reported there is no funding associated with the work featured in this article.

Reprints and Corporate Permissions

Please note: Selecting permissions does not provide access to the full text of the article, please see our help page How do I view content?

To request a reprint or corporate permissions for this article, please click on the relevant link below:

Academic Permissions

Please note: Selecting permissions does not provide access to the full text of the article, please see our help page How do I view content?

Obtain permissions instantly via Rightslink by clicking on the button below:

If you are unable to obtain permissions via Rightslink, please complete and submit this Permissions form. For more information, please visit our Permissions help page.