1,043
Views
1
CrossRef citations to date
0
Altmetric
Prospectives / Prospectivas

Analysis of children’s everyday language experiences using longform audio: promises and pitfalls (Análisis de las experiencias lingüísticas cotidianas de niños y niñas utilizando audio de formato largo: posibles ventajas y dificultades)

Pages 477-501 | Received 05 Oct 2020, Accepted 14 Jan 2021, Published online: 06 Apr 2021

ABSTRACT

Emerging audio technologies over the last decade have provided a new, unprecedented window into the everyday lives of infants and young children. These new approaches will allow us to begin to address longstanding questions about the nature of language experiences across languages, communities and situations and the role of these experiences in language development across contexts. Here, I discuss the primary technology, LENA®, as well as more recent technological developments, and some of the recent findings in this domain. I also describe recent efforts to leverage these capabilities towards a much broader vision of exploring diverse child language experiences using largescale collaborative efforts.

RESUMEN

Los avances en las tecnologías de audio de la última década han abierto una nueva e inusitada ventana por la que asomarse a las vidas cotidianas de los más pequeños. Estos nuevos enfoques nos permitirán volver a abordar preguntas clásicas sobre la naturaleza de las experiencias lingüísticas en diversas lenguas, comunidades y situaciones, así como sobre el rol de estas experiencias en el desarrollo lingüístico en distintos contextos. En este artículo se discute la principal tecnología, LENA®, además de otros avances tecnológicos más novedosos, y algunos de los resultados más recientes en este ámbito. También se describen los esfuerzos recientes por hacer uso de este potencial con una visión más amplia que permita explorar las diversas experiencias lingüísticas infantiles mediante esfuerzos colaborativos a gran escala.

A central theme in child language research over the last 70 years has been the idea that child-directed speech is crucial in driving the language development process (e.g., Ma et al., Citation2011; Rowe, Citation2012; Schwab & Lew-Williams, Citation2016; Singh et al., Citation2009; Snow & Ferguson, Citation1977; The ManyBabies Consortium, Citation2020; Thiessen et al., Citation2005). However, changes in our understanding of infants’ experience, driven in part by new methods in capturing children’s realworld everyday lives, may lead to new ideas about this relationship.

Child-directed speech (CDS) is typically understood to refer to a particular register, or way of speaking, to infants and young children that differs from speech to adults. This register includes a number of acoustic/prosodic, lexical and grammatical characteristics such as higher and more variable pitch, positive affect, reduced vocabulary, shortened utterances, etc. Importantly, CDS can also be used to refer to speech directed towards children, independent of its specific acoustic or linguistic properties. These two definitions are often, perhaps understandingly, conflated in the literature given that they are understood to be highly correlated — i.e., CDS as a register is typically used with infants/children, and speech to infants/children typically has these characteristics. Within this framework, CDS has a privileged role in development as it is found robustly across languages and communities (e.g., Bornstein et al., Citation1992; Broesch & Bryant, Citation2015; Ferguson, Citation1964; Fernald et al., Citation1989; Papoušek et al., Citation1991; Segal et al., Citation2009), has properties that are theorized to support language development (Soderstrom, Citation2007), is preferred by infants over adult-directed forms (The ManyBabies Consortium, Citation2020) and its use (more so than adult-directed/ADS or overheard speech) is linked to language development outcomes like vocabulary growth (Hoff, Citation2003; Huttenlocher et al., Citation1991, Citation2010; Rowe, Citation2012; Weisleder & Fernald, Citation2013).

Importantly, this link between CDS and language outcomes has been related to differences across socioeconomic background (SES), with quantitative properties of caregiver speech varying across families from different SES backgrounds related to SES differences in language outcome (e.g., Hart & Risley, Citation1995; Hoff, Citation2003), which is sometimes referred to as the SES ‘Word Gap’. Interventions both in Western and non-Western communities have increasingly focused on the use of language by caregivers (Greenwood et al., Citation2017; Hindman et al., Citation2016; Weber et al., Citation2017) to reduce social disparities.

However, CDS (both defined as a register and as defined by the intended interlocutor) varies across languages and communities (Bernstein Ratner & Pye, Citation1984; Bornstein et al., Citation1992; Broesch & Bryant, Citation2018; Cristia et al., Citation2019; Farran et al., Citation2016; Fernald & Morikawa, Citation1993; Fernald et al., Citation1989; Shneidman & Goldin‐Meadow, Citation2012; Vogt et al., Citation2015). An alternative perspective to that of intervention, championed primarily by some anthropologists or ethnographers (Ochs & Kremer-Sadl, Citation2020; Sperry et al., Citation2019), focuses on the importance of considering language development within a cultural framework. They note that children across a wide variation in experience achieve competence in their language along a roughly similar trajectory (see Casillas et al., Citation2020a), and question the assumption that there is a deficit that requires intervention when communities’ use of language with children deviates from the dominant cultural Western ‘norm’. For example, in some communities, children may be exposed to a rich blanket of overheard speech from other children or adults. While there is evidence to support the primacy of CDS over ADS in predicting language outcomes (Weisleder & Fernald, Citation2013), some studies support the possibility of learning from overheard speech (Akhtar et al., Citation2001; Oshima-Takane, Citation1988), which may play a more significant role in those communities where CDS is more rare (though see Shneidman & Goldin‐Meadow, Citation2012). Others (e.g., Golinkoff et al., Citation2019) have responded to this challenge by arguing for the importance of language-focused interventions in promoting equity in outcomes for children from less privileged circumstances — use of CDS and vocabulary growth are both associated with socio-economic status, and with later academic achievement (Durham et al., Citation2007).

What emerges from this debate is the realization that despite decades of study, there are still many unanswered questions about what infants’ everyday language experiences really look like, how these experiences vary within and across communities and cultures, what factors drive these differences and how they relate to the development of language in infants across cultures. Until recently, our understanding of infants’ language experiences was studied primarily through small snapshots of caregiver–infant interactions under pseudo-naturalistic free play settings that may or may not capture infants’ true experiences. Over the last decade, new technologies, approaches and perspectives have begun to unlock a much more truly naturalistic, all-encompassing window into infants’ everyday lives that may well hold the key to resolving the ‘Word Gap’ debate.

LENA®: the emergence of longform audio

LENA (Language ENvironment Analysis) began in the mid-2000s as a commercial venture by Terry and Judi Paul. Inspired by the findings of Hart and Risley (Citation1995) showing differences across socio-economic strata in the amount and quality of speech heard by young children related to differential outcomes, the objective was to build an automated hardware/software system that could measure the language input to infants and young children. They hired engineers and scientists and collected a large longform audiorecording dataset of over 300 families with infants 2–48 months old. By 2008 they were marketing to the public. LENA was groundbreaking in providing not only a child-friendly longform recording device but in pairing this with software to create automated estimates of the amount of speech heard by the infant (Adult Word Count, AWC), measures of the child’s own vocalizations and estimates of language environment features, such as silence, noise and TV. For the first time, it was possible to gain a comprehensive window into infants’ real experiences of language over the course of a day.

Its original reception within the research community was mixed, with some expressing concerns about its apparent marketing to parents. However, recognition of the potential of the system as a tool for research, combined with LENA’s change in status to a non-profit and shift in focus towards research and clinical applications (and later to community intervention programmes), led to rapid uptake within the mainstream research community.

This acceptance as a tool of research was not without ongoing reservations, however. Although LENA from the beginning provided technical reports and has been responsive to inquiries about its functioning, it remains proprietary software, and until recently there has been little in the way of independent assessment of its accuracy. As LENA has shifted from a technology development focus towards a community-intervention mission, there has been relatively little attention to further improvements to the software — the core system has changed very little since its original release close to 15 years ago, during which time machine learning algorithms have improved radically. Moreover, the software lacks key features deemed valuable in current theoretical domains, such as differentiating child-directed from overheard adult–adult speech, or discriminating languages. Nonetheless, the tool has been the basis for well over a hundred published studies over the last decade (see LENA, Citation2020; Wang et al., Citation2017 for a partial list) and has radically altered the landscape of published works on the early language experiences of infants.

It is worth noting that other, smaller scale approaches have been undertaken during this time period. For example, Casillas et al. (Citation2020a) used Olympus handheld recorders as an alternative hardware system. The most well known is the work by Deb Roy and colleagues (Roy et al., Citation2015), who wired a family’s entire home for both audio and video for the first three years of a child’s life. However, this approach is not practical to implement on a large scale.

What (and how) we have learned about child-directed speech from longform audio

Over the last decade, LENA has taken hold within the child language research community, leading to a broad flourishing of research on child language experiences using longform audio both in clinical and non-clinical contexts. One of the first non-clinical longform audio studies using LENA examined a low-SES Spanish-speaking population in California (Weisleder & Fernald, Citation2013). They found massive variability (a finding that emerges across many such studies) in how much speech infants heard over the course of a day, and a relationship between this quantity and the infants’ later vocabulary development. However, these researchers did not rely simply on LENA’s automated measures, which do not distinguish child-directed from overheard speech. Instead, they classified the entire recording in five-minute increments based on whether it was predominantly child-directed or overheard. Based on this classification, they found that child-directed speech, but not overheard speech, predicted child vocabulary.

A similar study that emerged shortly after (Ramírez‐Esparza et al., Citation2014) focused on the highest speech volubility time points (using LENA’s AWC measure), selecting a subset of 30 s increments from across the day for each recording. These selections were coded as to speaker (mother, father, other), speech ‘style’ (i.e., whether it contained the acoustic/linguistic characteristics of child-directed speech) and whether it was a 1:1 interaction or included multiple people. Their results point to a significant role for child-directed speech specifically in 1:1 interactions predicting later vocabulary. Later work confirmed this finding for a bilingual English-Spanish sample as well, but with some indications that child-directed speech in a group interaction played a more salient role for these infants (Ramírez-Esparza et al., Citation2017a), and found a continuing role for 1:1 contexts, although with non-CDS–style speech emerging as more predictive as the child developed (Ramírez‐Esparza et al., Citation2017b).

These and other studies have pointed to the power of combining LENA’s basic outputs with some form of human annotation. More recently, researchers have begun to take these methods and use them to study combined datasets across laboratories, building towards a larger and more diverse sampling. As a first effort, my colleagues and I combined LENA data from four North American laboratories to examine developmental change in the rate of CDS and ADS heard by the infants (Bergelson, Casillas et al., Citation2019). Similarly to the Ramirez-Esparza project, we used LENA to preferentially select audio with speech — in our case to select ‘conversational blocks’ (time period of speech exchange bounded by silence) and label individual adult utterances within the block — and then had trained research assistants label each adult utterance as child-directed or adult-directed (and male/female). Across development, we saw an increase in the proportion of CDS with increasing child age. However, this was driven by a decrease in ADS heard by infants over development, while quantities of CDS remained relatively constant. One possible interpretation of this finding is that adults engage in more ‘walk away’ behaviours with infants as they develop (or conversely, that infants ‘crawl away’ from adults), leading to less overheard adult conversation. Results of this study and others with LENA have also supported the longstanding finding of a relationship between SES and quantitative measures of caregiver (e.g., Bergelson, Casillas et al., Citation2019; Merz et al., Citation2020; Romeo et al., Citation2018; Sultana et al., Citation2020).

So far, work using longform audio to study child language, like most/all behavioural research (Henrich et al., Citation2010), has been heavily focused on Western, industrialized contexts, and also heavily focused on English-learning communities. Some earlier exceptions have included intervention studies in Shanghai (Zhang et al., Citation2015) and Senegal (Weber et al., Citation2017). More recently, the focus has begun to shift towards documenting diverse communities with a comparative focus. Casillas et al. (Citation2020a) recently reported on a study using longform audio to examine the language experiences of infants in a Tseltal Mayan community. The infants in this study were spoken to infrequently, but met coarse indicators of language production (babble, first words, word combinations) on a similar timeline to Western infants. A number of other studies are currently in progress from these and other researchers in a more diverse sampling of communities, including Argentina (Rosemberg et al., Citation2020), rural Bolivia (Cychosz, Citation2020), Papua New Guinea (Casillas et al., Citation2020b), Vanuatu and Namibia (Zhang et al., Citation2018), among others (see also the ACLEW project, below).

These studies will provide important context for, and a first step in, addressing concerns around cultural bias in our understanding of early language experiences. However, as Ochs and Kremer-Sadl (Citation2020), Sperry et al. (Citation2019) and others have noted, it is not enough to study diverse cultures and communities solely from the lens of Western biases around language use, parenting practices and other cultural behaviours. We must also work to understand each infant’s experience within their own cultural framework, a much harder task.

Developing the technology: assessing LENA

The potential for longform audio to transform our understanding of child language experiences is limited primarily by the availability and accuracy of automated measures. Hand annotation and transcription can provide brief snapshots of everyday experience. However, infant experiences vary over the course of a day (e.g., Casillas et al., Citation2020a; Greenwood et al., Citation2011; Soderstrom et al., Citation2013) and are bursty and ‘zero-inflated’ (i.e., with large quantities of silent periods). Automated measures such as LENA, therefore, are crucial to provide breadth of measurement — hand-coding is simply too slow to reap the full benefits of its potential.

Initially, our understanding of LENA’s accuracy was based on non-peer-reviewed technical documents and a few smaller scale analyses, typically a small ‘reliability’ sample embedded in a larger paper using LENA for broader research purposes (see Cristia, Bulgarelli et al., Citation2020, for a review). Over the last couple of years, a more detailed set of independent, peer-reviewed studies have emerged evaluating the accuracy of LENA’s basic measures and classification features (Bulgarelli & Bergelson, Citation2019; Cristia, Lavechin et al., Citation2020; Lehet et al., Citation2020). Our understanding of LENA’s accuracy provides reason for both confidence and concern, and importantly a clearer picture of LENA’s strengths and weaknesses. LENA’s basic measures consist of the adult word count (AWC — an estimate of the total number of ‘near and clear’ words heard by an infant during a particular time period), child vocalization count (CVC, an estimate of linguistically relevant vocalizations by the target child) and a combination of the two focused on interactions, the conversational turn count (CTC, number of exchanges from adult to target child or vice versa). In general, AWC and CVC shows a relatively high correlation with human coder metrics, r > .7 (Cristia, Bulgarelli et al., Citation2020; Cristia, Lavechin et al., Citation2020), while CTC was somewhat lower, r < .6, although interestingly, CTC may nonetheless correlate more with measures of language outcome (Romeo et al., Citation2018; Wang et al., Citation2020). However, these relatively robust findings hide important details. For AWC, high correlations hide an apparent overall tendency to overestimate the quantity of speech, although errors of over- and under-estimation can be found in individual samples (Cristia, Lavechin et al., Citation2020; Lehet et al., Citation2020). For CVC, there may be a slight bias towards underestimation, but this does not appear to be consistent (Cristia, Lavechin et al., Citation2020).

More in-depth understanding of LENA’s workings can be gleaned from a more direct examination of how it classifies the audio stream into broad-scale speech and non-speech types such as ‘adult female’, ‘target child’, ‘silence’, ‘TV/media’, etc. (see Gilkerson & Richards, Citation2020, and other LENA technical reports for further detail). Systematic examination of this classification in terms of precision (e.g., if LENA identified a segment as ‘adult female’, did human coders agree?) and recall (e.g., if human coders identified a segment as ‘adult female’, did LENA agree?) and measures of overall error point to systematicity in LENA’s behaviour. LENA appears to show highest accuracy for female adult and target child vocalizations, with lower accuracy for identification of media and a high degree of error associated with overlapping speech (Bulgarelli & Bergelson, Citation2019; Cristia, Lavechin et al., Citation2020). A relatively high percentage of audio identified as speech by humans is tagged as non-speech by LENA (Bulgarelli & Bergelson, Citation2019; Cristia, Lavechin et al., Citation2020; Lehet et al., Citation2020). This is in part due to differences in LENA’s vs. adult humans’ ability to identify overlapping streams of speech, and technical differences in the definitions of the overlap category across implementations, and also to a minimum speech segment length imposed on LENA’s speech segments, which leads to the addition of non-speech audio to fill out shorter utterances. Accuracy and error rates also need to be interpreted carefully in light of highly skewed quantities of different categories (e.g., vastly more female adult than male adult speech).

Factors affecting accuracy across speech types have also been identified. The evidence so far (somewhat counter to expectations) does not support greater accuracy for English (on which LENA was developed) compared with other languages (Cristia, Lavechin et al., Citation2020; though see Cristia, Bulgarelli et al., Citation2020). However, other factors may systematically affect accuracy. For example, read speech may show greater accuracy than singing (Bulgarelli & Bergelson, Citation2019), and there is emerging evidence of variation in accuracy across time of day (Lehet et al., Citation2020). There is also ample evidence for complex gender effects. Some studies report greater accuracy for female adult speech (e.g., Cristia, Lavechin et al. report lower accuracy in precision for male adult and non-target child) but relatively high accuracy in differentiating male from female speech (Bulgarelli & Bergelson, Citation2019). However, these effects interact with differences in error between child-directed and adult-directed speech, with more error in female adult ADS misclassified as male speech and more male CDS misclassified as female speech (Bulgarelli & Bergelson, Citation2019; Lehet et al., Citation2020). Similarly, classification of adult female CDS as adult (vs. child) speech is less accurate than adult female ADS, while adult male speech was more accurately classified (as adult) than adult female speech (Lehet et al., Citation2020). These effects likely occur due to the manner in which LENA uses pitch characteristics to differentiate gender (which also systematically varies between CDS and ADS). Importantly, these errors were then reflected in systematic undercounting of female, and particularly female CDS, adult word counts.

All told, these emerging findings suggest that LENA’s appropriateness as a tool depends greatly on the use to which it is being put. Despite some systematic errors related to factors like gender, LENA is fairly robust in capturing many kinds of individual variation in ways that can be tied to meaningful measures such as a child’s language development outcomes. Nonetheless, there is significant room for improvement, as will be discussed in more detail below.

Developing the methods: practical and ethical considerations

Developing best practices in longform audiorecording must contend with a number of new methodological challenges. For example, given the impracticality of hand-coding longform audiorecording in full, sub-sampling within the file will typically occur. Unfortunately, the bursty nature of an infant’s language experiences leads to the possibility that differences in sampling may lead to different study outcomes, a source of variation that can prove troubling in interpreting differing results across studies and populations. A number of different approaches can be found in the literature, such as sampling in a regular interval fashion (e.g., one minute each hour), sampling randomly through the recording or subsampling according to specific criteria, most commonly sampling time periods of high speech volubility. Other studies have taken a different approach entirely, whereby the entirety of a file is quickly ‘skimmed’, rather than annotating a subsample in detail. For example, the file might be divided into sections based on time segments (e.g., five-min increments as in Weisleder & Fernald, Citation2013, or by conversation, as in Bergelson, Casillas et al., Citation2019) and classified according to a specific property (e.g., ‘(primarily) adult-directed’ vs. ‘(primarily) child-directed’). This can then be used to bin an automated measure such as LENA’s AWC according to the hand-classified feature. Some recent work suggests a high degree of correlation between more naturalistic, bursty recordings and language measures taken during a less bursty structured play session (Tamis‐LeMonda et al., Citation2017, though the naturalistic samples in this study were not longform) or between full sampling and high-volubility sampling (Bergelson, Amatuni et al., Citation2019) despite large differences in the raw quantitative measures, and similarity in more qualitative measures such as the specific words used. However, there is a great deal left to do to determine the extent to which different approaches lead to converging or diverging findings for the broad spectrum of research questions.

Given the enormous investment both in time and effort of engaging in research with longform audio, and the many potential pitfalls, researchers new to the approach should engage in careful planning before embarking on this kind of research. Two recent papers provide helpful tips and strategies for engaging with these new methods. Casillas and Cristia (Citation2019) take the prospective researchers through comprehensive decision-making from determining if longform audio is the right approach to answer a given research question, to deciding whether to use existing datasets or engage in costly new data collection, to common problems of annotation and analysis. They also discuss in detail issues of consent, data storage and sharing. Cychosz, Romeo et al. (Citation2020) dig much deeper into the many ethical considerations faced by researchers engaging with longform audio, particularly as the research community moves towards the more open sharing of data and collaborative projects. These audio files by design capture the intimate details of people’s lives, and may include incidental recording of third parties who may or may not have awareness or consent for their voice to be recorded or shared. As a starting point, sharing of these files risks embarrassing the participants as they include the whole array of everyday experiences — bathroom noises, family arguments, intimate moments between couples, etc. — in addition to identifiable or potentially exploitable information such as names or credit card information. Moreover, researchers are often interested in using these methods to study individuals and groups who may be marginalized or at risk in various ways. In my own work, for example, we have collected recordings of infants of young mothers (McDivitt & Soderstrom, Citation2016), for the purpose of examining how their experiences may be the same or different from those of infants born to older mothers. From an ethical perspective, risk of harm and evaluation of benefit must consider not only the impact on individuals but effects on groups as well. It may be helpful for our young mothers to learn more about their experiences and strengths and weaknesses. On the other hand, examination of their lives within a comparative framework may lead to unnecessary and unhelpful stigmatization, particularly if care is not taken to avoid attributing meanings to those experiences that are biased by the researcher’s own perspective, which may differ quite radically from that of the population being studied.

The use of longform audio provides an opportunity to engage in more effective cross-cultural comparisons, but it is not itself a panacea — the onus to consider cultural bias still rests with the researcher. For example, one of the earliest non-Western studies using LENA (Weber et al., Citation2017) specifically targeted a population for intervention in Senegal, where speaking to infants is culturally discouraged compared with Western norms. This raises a number of complex issues about the role of Western researchers working in culturally unfamiliar contexts. Without a full cultural understanding, such endeavours open up the risk of impacting these communities in unexpected (and therefore potentially harmful) ways (Morelli et al., Citation2018).

In navigating these many concerns, both practical and ethical, researchers benefit from a robust community of researchers known as DARCLE (Daylong Audiorecording of Child Language Environments — darcle.org), who meet regularly to discuss issues, share data and code, and work towards developing better tools for conducting the needed analyses. DARCLE originally formed as a means to bring like-minded child language researchers together to pool their resources, with an eye towards recruiting speech technologists to facilitate building new systems for analysing raw longform audio. This original goal is beginning to see fruit, as discussed in the next section. In addition, a number of other collaborative projects have emerged as offshoots from this collective. For example, HomeBank (VanDam et al., Citation2016) was created as a resource for sharing longform audio and associated files (annotations, LENA output, transcripts) at varying levels of confidentiality, as well as code for data analysis. More recently, BabbleCor (Cychosz, Cristia et al., Citation2020) has created a unique dataset of infant vocalizations that have been tagged for vocal maturity using a citizen science approach.

The ACLEW project

A significant spin-off project from DARCLE has been the ACLEW (Analysing Child Language Environments around the World) project. Leveraging funding for interdisciplinary research across social science and Big Data approaches, ACLEW brought child language researchers together with experts in machine learning to address questions about the nature of infants’ linguistic environments within and across cultural contexts. In service of this goal, ACLEW had three primary objectives:

  1. Develop an annotation system designed for longform audio recording of child language experience across languages and communities

  2. Apply this annotation system to a set of audio recordings from diverse communities

  3. Develop new tools for the automated analysis of longform audio

The ACLEW Annotation System (AAS) consists of a comprehensive set of training tutorials and materials intended for use with longform audio (https://osf.io/aknjv/). Our hope is that child language researchers with diverse datasets and research questions will adopt this system, which is compatible and interoperable with prior child language annotation systems and approaches (e.g., the CHAT system). AAS has a number of advantages: It is specifically designed for longform audio, with a focus on segmentation of speech by multiple speakers in complex environments, and codes specifically for features of interest in longform audio analysis, such as addressee, speaker classification (e.g., male/female/child) and specific aspects of the infant’s own vocalizations. It is adaptable to fit the needs of diverse research interests, but at the same time provides a consistent framework. This latter is important for two primary reasons. First, it allows for more direct comparisons across studies, in order to better support the emerging cumulative, collaborative science that is emerging via datasharing platforms such as HomeBank. Second, it was designed with machine learning/tool development in mind — the more researchers use this framework, the more source data will be available for the further development of tools.

In terms of tool development, to date ACLEW has been successful in developing open source resources that meet, and in some cases surpass, the performance of LENA on some key basic outputs such as Adult Word Count and classification of adult speaker (Räsänen et al., Citation2019, Citation2020). To be clear, this project does not address much of the functionality of LENA, but it provides an alternative, open source approach to some of the key elements that users for basic research find valuable. Future objectives include features that LENA does not include, such as classification according to language (important for studies of bilingual acquisition) and addressee (i.e., CDS vs ADS), as well as improvements to existing functions and the development of a measure of vocal maturity.

Some preliminary findings from this project (Bunce et al., Citation2020) find both similarities and differences across the studied communities. For example, the prominence of female adult speech is consistent, and child age does not emerge as a key predictor of child speech. We found more child-directed speech in the audio heard by children in communities where talking to infants is considered less common (though importantly this measure included both speech directed at the ‘target’child and speech directed to other nearby children). Of note, communities differed in the influence of number of people present on these measures. These findings illustrate the importance of understanding how different factors play out within each community to better understand their impact on child language experiences and outcomes.

Next steps and concluding thoughts

The technological and methodological innovations initiated by LENA and spurred on by collaborative efforts within the child language research community have paved the way for a re-imagining of our understanding of early language development and the experiences that shape it. The studies described here represent only a small minority of the work that has developed in the last decade with this new approach. Nonetheless, much work still remains to reap the potential rewards of longform audio. There remains the need for a massive effort to collect, annotate and (importantly) share recordings of infants and young children’s everyday experiences across a much more diverse sampling of cultures, communities and contexts. Much of the promise of automated analysis has yet to be realized.

Moreover, to date very few studies have incorporated visual information in their recordings, such as using fish-eye lens cameras (Casillas et al., Citation2020a) or headmounted cameras (Sullivan et al., Citation2020) to provide contextual information, and/or information specifically about the infant’s simultaneous visual experience. These approaches will be particularly important for gaining a better sense of cultural differences in everyday activities related to language experience, gesture information and of course language experienced through the visual modality.

As the eye of the child language research community is increasingly focused cross-culturally on everyday experiences, it is crucial that we take to heart the caution of ethnographers: increasing the diversity of our samples is not enough to negate cultural biases inherent in research that is largely Western and English centric; we must be open to understanding each community in its own context before we can build true universals of language experience.

Análisis de las experiencias lingüísticas cotidianas de niños y niñas utilizando audio de formato largo: posibles ventajas y dificultades

Uno de los temas centrales de la investigación sobre el leguaje infantil en los últimos 70 años es la idea de que el habla dirigida al niño (HDN) es un motor clave en los procesos de desarrollo lingüístico (e.g., Ma et al., Citation2011; Rowe, Citation2012; Schwab & Lew‐Williams, Citation2016; Singh et al., Citation2009; Snow & Ferguson, Citation1977; The ManyBabies Consortium, Citation2020; Thiessen et al., Citation2005). No obstante, cambios recientes en nuestro conocimiento de la experiencia infantil, facilitados en parte por nuevos métodos que permiten capturar las vidas coti-dianas de los niños en el mundo real podrían conducir a nuevas ideas sobre esta relación.

Por lo general, entendemos que el habla dirigida al niño (HDN) hace referencia a un registro específico, una manera de hablar dirigida a los más pequeños, que difiere del habla entre adultos. Este registro presenta una serie de características acústicas/prosódicas, léxicas y gramaticales tales como un tono más agudo, el afecto positivo, vocabulario reducido, enunciaciones breves, etc. Un aspecto importante es que el concepto del HDN también puede utilizarse para hacer referencia al habla dirigida a los niños, independientemente de sus características acústicas o lingüísticas específicas. Con frecuencia, y tal vez comprensiblemente, estas dos definiciones se confunden en la literatura, puesto que se las considera estrechamente correlacionadas: es decir, el HDN como registro suele utilizarse con niños pequeños, y el habla dirigida a bebés y preescolares suele presentar estas mismas características. En este contexto, el HDN desempeña un papel privilegiado en el desarrollo, puesto que está presente en múltiples lenguas y comunidades (e.g., Bornstein et al., Citation1992; Broesch & Bryant, Citation2015; Ferguson, Citation1964; Fernald et al., Citation1989; Papoušek et al., Citation1991; Segal et al., Citation2009) y presenta propiedades que se asume teóricamente que apoyan el desarrollo del lenguaje (Soderstrom, Citation2007); los niños lo prefieren a otras formas dirigidas a los adultos (The ManyBabies Consortium, Citation2020) y su uso (en mayor medida que el habla dirigida a adultos/HDA o discurso oído) está vinculado a los resultados del desarrollo lingüístico tales como la ampliación del vocabulario (Hoff, Citation2003; Huttenlocher et al., Citation1991, Citation2010; Rowe, Citation2012; Weisleder & Fernald, Citation2013).

Es importante señalar que este vínculo entre el HDN y la producción lingüística se ha relacionado con diferencias en nivel socioeconómico (NSE) y con diferencias en las propiedades cuantitativas del discurso del cuidador entre familias de distinto NSE, a su vez relacionadas con diferencias de NSE en los resultados lingüísticos (e.g., Hart & Risley, Citation1995; Hoff, Citation2003). En ocasiones se lo denomina la ‘brecha en palabras (Word Gap) por NSE’. Las intervenciones llevadas a cabo tanto en comunidades occidentales como no occidentales se han ido centrando cada vez más en el uso del lenguaje por parte de los cuidadores (Greenwood et al., Citation2017; Hindman et al., Citation2016; Weber et al., Citation2017) con el objeto de reducir las disparidades sociales.

No obstante, el HDN (tanto definida como registro como definida por el interlocutor al que va dirigido) varía en las distintas lenguas y comunidades (Bernstein Ratner & Pye, Citation1984; Bornstein et al., Citation1992; Broesch & Bryant, Citation2018; Cristia et al., Citation2019; Farran et al., Citation2016; Fernald & Morikawa, Citation1993; Fernald et al., Citation1989; Shneidman & Goldin‐Meadow, Citation2012; Vogt et al., Citation2015). Una perspectiva alternativa a la de la intervención, impulsada principalmente por algunos antropólogos o etnógrafos (Ochs & Kremer-Sadl, Citation2020; Sperry et al., Citation2019), se centra en la importancia de considerar el desarrollo del lenguaje en un marco cultural. Estos autores señalan que niños de muy diversas experiencias y orígenes alcanzan la competencia lingüística siguiendo una trayectoria muy similar (véase Casillas et al., Citation2020a) y cuestionan el supuesto de la existencia de un déficit que requiere intervención cuando el uso del lenguaje con los niños por parte de la comunidad se desvía de la ‘norma’ cultural occidental dominante. Por ejemplo, en algunas comunidades, los niños pueden estar expuestos a una amplia variedad de habla escuchada entre otros niños o adultos. Aunque existe evidencia que apoya la primacía del HDN sobre el HDA en la predicción de los resultados lingüísticos (Weisleder & Fernald, Citation2013), algunos estudios respaldan la posibilidad del aprendizaje a partir del habla escuchada (Akhtar et al., Citation2001; Oshima-Takane, Citation1988), que podría desempeñar un papel más significativo en aquellas comunidades en las que el HDN es menos frecuente (véase, sin embargo, Shneidman & Goldin‐Meadow, Citation2012). Otros autores (e.g., Golinkoff et al., Citation2019) responden a este planteamiento defendiendo la importancia de las intervenciones centradas en el lenguaje para fomentar la igualdad en los resultados lingüísticos de los niños de situaciones menos privilegiadas. El uso del HDN y la ampliación de vocabulario se vinculan con el nivel socioeconómico y con el logro académico posterior (Durham et al., Citation2007).

De este debate emerge el reconocimiento de que, a pesar de décadas de estudio, sigue habiendo muchas preguntas que no han sido respondidas sobre las experiencias lingüísticas cotidianas de los más pequeños, las formas que estas adoptan realmente y cómo varían dentro y entre las diversas comunidades y culturas, qué factores provocan estas diferencias y cómo se relacionan con el desarrollo del lenguaje en los niños de todas las culturas. Hasta hace muy poco, nuestro conocimiento de las experiencias lingüísticas de los niños más pequeños se estudiaba principalmente mediante instantáneas de las interacciones con el cuidador en escenarios pseudo naturalistas de juegos libres que podían capturar o no la verdadera experiencia de los bebés y los niños pequeños. En la última década, las nuevas tecnologías y los nuevos enfoques y perspectivas han comenzado a dar paso a una visión de un naturalismo más real e integral de las vidas cotidianas de los niños pequeños que podría ser clave para resolver el debate de la ‘brecha en palabras’.

La tecnología LENA®: La emergencia del audio de largo formato

La tecnología LENA (Language ENvironment Analysis) surgió hacia mediados del año 2000 como una aventura comercial de Terry y Judi Paul. Inspirados en los resultados obtenidos por Hart y Risley (Citation1995), que revelaban la existencia de diferencias en los distintos estratos socioeconómicos tanto en la cantidad como en la calidad del habla a la que estaban expuestos los niños pequeños, vinculadas con las diferencias en sus resultados lingüísticos, el objetivo de su empresa consistió en construir un sistema de hardware y software automatizado que permitiese medir el input lingüístico al que estaban expuestos los niños a una edad temprana. Contrataron ingenieros y científicos y recabaron una extensa base de datos de audio de formato largo procedente de 300 familias con niños de entre dos y 48 meses. En 2008, lanzaron su producto al público general. LENA era revolucionario puesto que, además de constituir un dispositivo de grabación en formato largo y de fácil uso con niños, incorporaba un programa para crear estimaciones automatizadas del volumen de habla escuchada por los niños (número de palabras pronunciadas por el adulto, o AWC, Adult Word Count), medidas de las vocalizaciones del niño o niña y estimaciones de los aspectos del entorno lingüístico tales como silencios, ruidos o el sonido de la televisión. Por vez primera, era posible abrir una amplia ventana a las experiencias lingüísticas reales de los más pequeños durante un día completo.

Su recepción inicial en la comunidad científica fue mixta; en particular, se manifestaron ciertas preocupaciones relativas a su comercialización dirigida a los padres. No obstante, el reconocimiento de su potencial como herramienta de investigación, combinado con su cambio de estatus tras el que LENA se convirtió en una organización sin ánimo de lucro centrada en la investigación y en sus aplicaciones clínicas (y más tarde utilizado en programas de intervención en la comunidad), resultaron en la adopción inmediata del sistema por la comunidad científica.

Sin embargo, su aceptación como herramienta de investigación no estuvo exenta de cierta reserva. Aunque desde el principio LENA facilitó informes técnicos y se mostró abierta a las consultas sobre su funcionamiento, continuó siendo un programa de software patentado y hasta muy recientemente, poco se ha hecho en la dirección de una evaluación independiente de su precisión. Mientras que LENA ha ido cambiando su foco del desarrollo de la tecnología hacia una misión de intervención en la comunidad, se ha prestado relativamente poca atención a mejorar el programa. El sistema básico apenas ha cambiado desde su lanzamiento hace casi 15 años, un tiempo en el que los algoritmos del aprendizaje automático han mejorado sustancialmente. Además, al programa le faltan algunas funcionalidades clave que, en los ámbitos teóricos actuales, se consideran muy valiosos, como la diferenciación entre el habla dirigida a los niños y el discurso entre adultos escuchados por el niño, o la diferenciación de distintas lenguas. A pesar de ello, esta herramienta ha sido la base de más de cien estudios publicados durante la década pasada (para una lista parcial, véase LENA, Citation2020; Wang et al., Citation2017), y ha alterado radicalmente el panorama de los trabajos publicados sobre las experiencias lingüísticas tempranas de los niños.

En este periodo se llevaron a cabo otros enfoques a más pequeña escala. Por ejemplo, Casillas et al. (Citation2020a) utilizaron grabadoras de mano Olympus como hardware alternativo. El trabajo más conocido es el realizado por Deb Roy y sus colegas (Roy et al., Citation2015), que conectaron el hogar completo de una familia para grabar en audio y en video los tres primeros años de la vida de un niño. Sin embargo, este enfoque no es práctico para su ejecución a gran escala.

¿Qué (y cómo) hemos aprendido sobre el habla dirigida al niño a partir de las grabaciones de formato largo?

Durante la última década, LENA se ha asentado en la comunidad de investigación del lenguaje infantil y ha facilitado una amplia gama de investigaciones sobre las experiencias lingüísticas infantiles utilizando grabaciones de audio en formato largo, tanto en contextos clínicos como no clínicos. En uno de los primeros estudios de audio en formato largo en los que se utilizó LENA, se analizó una población de hablantes hispanos de bajo NSE en California (Weisleder & Fernald, Citation2013). Las investigadoras observaron enorme variabilidad (un resultado que emerge en muchos estudios similares) en la cantidad de habla a la que los menores estaban expuestos durante el curso del día, así como una relación entre esta cantidad y el desarrollo posterior del vocabulario del niño. No obstante, los investigadores no se basaron únicamente en las medidas automáticas de LENA, que no distinguen entre el HDN y el HDA. Además, clasificaron la totalidad de la grabación en intervalos de cinco minutos basados en si el habla era predominantemente HDN o HDA. A partir de esta clasificación, observaron que el HDN predecía el vocabulario posterior del niño, pero no el HDA.

Otro estudio similar publicado poco después (Ramírez‐Esparza et al., Citation2014) se centró en los momentos de mayor volubilidad (mediante la función AWC de LENA), seleccionando un subconjunto de intervalos de 30 s a lo largo del día para cada grabación. Estas selecciones se codificaron en función del hablante (madre, padre, otros), el tipo de discurso (e.g., si contenía las características acústicas y lingüísticas del HDN) y si la interacción era 1:1 o si incluía diversas personas. Los resultados sugieren un papel significativo del HDN, particularmente de las interacciones 1:1, en el vocabulario posterior. Otros trabajos posteriores confirman este resultado en muestras bilingües inglés-español, pero indicando que el HDN en una interacción grupal desempeña un papel más relevante para estos niños (Ramírez-Esparza et al., Citation2017a) y encontraron que los contextos 1:1 continúan teniendo un papel, aunque el habla no dirigida a los niños va adquiriendo mayor relevancia en la predicción del vocabulario con el desarrollo del menor (Ramírez‐Esparza et al., Citation2017b).

Estos y otros estudios señalan el potencial de combinar los resultados básicos de LENA con alguna otra forma de anotación humana. Más recientemente, algunos investigadores han comenzado a utilizar estos métodos para estudiar conjuntos de datos combinados de diversos laboratorios, con el objeto de elaborar muestras más amplias y diversas. En una primera iniciativa, mis colegas y yo combinamos datos surgidos de LENA en nuestros cuatro laboratorios norteamericanos para analizar los cambios evolutivos en la proporción de HDN y HDA a la que estaban expuestos los niños (Bergelson, Casillas et al., Citation2019). Como en el proyecto desarrollado por Ramirez-Esparza, utilizamos LENA para seleccionar preferentemente audio con discurso — en nuestro caso para seleccionar ‘bloques conversacionales’ (periodos de intercambio de discursos separados por silencios) y etiquetar los enunciados de cada adulto dentro del bloque — y después, varios ayudantes de investigación recibieron formación para etiquetar cada uno de los enunciados como HDN y HDA (así como hombre/mujer). A lo largo del desarrollo, observamos un incremento de la proporción de HDN con la edad del niño. No obstante, este incremento se producía por la disminución del HDA al que estaban expuestos los menores durante su desarrollo, mientras que la cantidad de HDN permanecía relativamente constante. Una posible interpretación de este fenómeno es que los adultos tienden a involucrarse en comportamientos más alejados de los niños a medida que estos crecen (o a la inversa, los niños se desplazan más lejos de los adultos), lo que se traduce en una menor exposición a la conversación entre adultos. Los resultados obtenidos en este y otros trabajos con LENA corroboran el resultado ya arraigado de la existencia de una relación entre el NSE y las medidas cuantitativas del habla del cuidador (e.g., Bergelson, Casillas et al., Citation2019; Merz et al., Citation2020; Romeo et al., Citation2018; Sultana et al., Citation2020).

Hasta la fecha, los trabajos en los que se recurre al audio de formato largo para estudiar el lenguaje infantil, como la mayoría (si no todas) las investigaciones sobre el comportamiento (Henrich et al., Citation2010), se han centrado casi exclusivamente en contextos occidentales industrializados, principalmente en comunidades de habla inglesa. Algunas excepciones anteriores incluyen estudios de intervención en Shanghái (Zhang et al., Citation2015) y Senegal (Weber et al., Citation2017). Más recientemente se ha trasladado el foco de atención hacia la documentación de diversas comunidades desde una perspectiva comparativa. Casillas et al. (Citation2020a) presentaron hace poco un estudio en el que utilizaron audio de formato largo para analizar las experiencias lingüísticas infantiles en una comunidad maya Tseltal. La exposición de los niños que participaron en el estudio al HDN era infrecuente, pero alcanzaban los indicadores de producción lingüística incipiente (balbuceos, primeras palabras, combinaciones de palabras) en momentos similares del desarrollo que los niños occidentales. En la actualidad existen otros estudios de estos y otros investigadores en marcha en comunidades con muestras más diversas, por ejemplo en Argentina (Rosemberg et al., Citation2020), Bolivia rural (Cychosz, Citation2020), Papúa Nueva Guinea (Casillas et al., Citation2020b), Vanuatu y Namibia (Zhang et al., Citation2018), entre otros (véase también el proyecto ACLEW, más adelante).

Estos estudios proporcionarán un contexto importante y un primer paso en el estudio de cuestiones relacionadas con el sesgo cultural en nuestra exploración y conocimiento de las experiencias lingüísticas tempranas. Sin embargo, como ya indicaron Ochs y Kremer-Sadl (Citation2020) o Sperry et al. (Citation2019), entre otros, no basta con estudiar culturas y comunidades diversas únicamente a través de la lente de los sesgos occidentales acerca de los usos lingüísticos, las prácticas parentales y otros comportamientos culturales. Debemos esforzarnos en comprender también las experiencias de cada niño en su propio marco cultural, una tarea harto más ardua.

El desarrollo de la tecnología: evaluación de LENA

El potencial del audio de largo formato para transformar nuestra comprensión de las experiencias lingüísticas infantiles está limitado primordialmente por la disponibilidad y precisión de la medición automática. Las anotaciones manuales y la transcripción pueden facilitar imágenes instantáneas de la experiencia cotidiana. Sin embargo, las experiencias infantiles varían durante el transcurso del día (e.g., Casillas et al., Citation2020a; Greenwood et al., Citation2011; Soderstrom et al., Citation2013) y se dan de manera asimétrica e inconstante, en ráfagas (es decir, con un gran número de periodos silentes interpuestos). Por lo tanto, medidas automatizadas como las de LENA son cruciales para facilitar amplitud de medición; la codificación manual es simplemente demasiado lenta para sacar el máximo provecho de su potencial.

Inicialmente, nuestra comprensión de la precisión de las medidas de LENA se basaba en documentos técnicos no revisados por pares y algunos análisis a pequeña escala, típicamente una muestra reducida para fiabilidad incluida en un artículo de mayor envergadura en el que se utilizaba LENA para otros fines investigativos más amplios (para una revisión del tema, véase Cristia, Bulgarelli et al., Citation2020). En los últimos dos años, se ha publicado una serie de estudios independientes más detallados y revisados por pares en los que se evalúa la precisión de las mediciones básicas de LENA, así como sus funciones de clasificación (Bulgarelli & Bergelson, Citation2019; Cristia, Lavechin et al., Citation2020; Lehet et al., Citation2020). Lo que hemos ido conociendo sobre la precisión de LENA proporciona a la vez causa de confianza y de cierta preocupación, pero sobre todo revela una imagen más clara tanto de las fortalezas de esta herramienta como de sus debilidades. Las mediciones básicas de LENA consisten en el recuento de las palabras emitidas por adultos (AWC, una estimación del total de enunciados ‘nítidos y cercanos’ oídos por un niño durante un periodo de tiempo determinado), las vocalizaciones infantiles (CVC, child vocalization count, una estimación de las vocalizaciones lingüísticamente relevantes emitidas por el niño) y una combinación de las dos interacciones objeto de estudio, los turnos de conversación (CTC, conversational turn count, el número de intercambios dirigidos por el adulto al niño o viceversa). En general, tanto el AWC como el CVC arrojaron una correlación relativamente alta con las mediciones producidas por un humano, r > .7 (Cristia, Bulgarelli et al., Citation2020; Cristia, Lavechin et al., Citation2020), mientras que con el CTC era algo inferior, r < .6 (aunque, curiosamente, el CTC podría mantener una relación más fuerte con las medidas de la producción lingüística) (Romeo et al., Citation2018; Wang et al., Citation2020). Sin embargo, estos resultados relativamente robustos ocultan detalles importantes. Por lo que respecta al AWC, las fuertes correlaciones ocultan una aparente tendencia general a sobreestimar la cantidad de habla, si bien se pueden observar errores de sobreestimación y subestimación en muestras independientes (Cristia, Lavechin et al., Citation2020; Lehet et al., Citation2020). Por lo que respecta al CVC, podría existir un ligero sesgo hacia la infraestimación, a pesar de que no parece ser constante (Cristia, Lavechin et al., Citation2020).

También se puede obtener una comprensión más profunda del funcionamiento de LENA a partir de un análisis más directo de cómo clasifica el flujo de audio en una amplia escala de habla y no habla, tales como ‘mujer adulta’, ‘niño foco’, ‘silencio’, ‘TV/habla electrónica’, etc. (véase Gilkerson & Richards, Citation2020 y otros informes técnicos sobre LENA para más detalles). El análisis sistemático de esta clasificación en términos de precisión (e.g., Si LENA había identificado un segmento como ‘mujer adulta’, ¿estaban de acuerdo con ello los codificadores humanos?) y ‘acuerdo’ (e.g., si los codificadores humanos habían identificado un segmento como ‘mujer adulta’, ¿estaba LENA de acuerdo con ello?) y las medidas de errores generales señalan a la naturaleza sistemática del comportamiento de LENA. La herramienta parece mostrar su mayor nivel de precisión con las vocalizaciones de mujeres adultas y del niño objeto de estudio (niño foco), con menor precisión en la identificación de habla electrónica (TV, radio) y un alto nivel de error asociado al solapamiento de hablantes (Bulgarelli & Bergelson, Citation2019; Cristia, Lavechin et al., Citation2020). Un porcentaje relativamente alto de audio identificado como habla por codificadores humanos es codificado en LENA como no habla (Bulgarelli & Bergelson, Citation2019; Cristia, Lavechin et al., Citation2020; Lehet et al., Citation2020). En parte, ello se debe a las diferencias en las habilidades de LENA (frente a las humanas) en distinguir segmentos en los que se solapa el flujo de habla, así como las diferencias técnicas en las definiciones de la categoría de solapamiento en las distintas implementaciones y a la duración mínima del segmento de habla que se impone en los segmentos de habla de la herramienta, que conduce a la incorporación de audio sin habla para rellenar enunciados más breves. Tanto su precisión como los índices de error deben ser interpretados con cautela, dadas las grandes variaciones en las distintas categorías (e.g., una cantidad mucho mayor de habla codificada como mujer adulta que como hombre adulto).

También se han identificado diversos factores que afectan a la precisión a través de los tipos de habla. Hasta ahora, y en contra de lo que cabía esperar, le evidencia no corrobora una mayor precisión de la herramienta con la lengua inglesa (la utilizada en el desarrollo de la herramienta) que con otras lenguas (Cristia, Lavechin et al., Citation2020; aunque véase también Cristia, Bulgarelli et al., Citation2020). Sin embargo, otros factores podrían influir sistemáticamente en su precisión. Por ejemplo, el habla en la lectura podría mostrar mucha más precisión que el habla al cantar (Bulgarelli & Bergelson, Citation2019) y existe cada vez mayor evidencia de la variación en precisión en distintos momentos del día (Lehet et al., Citation2020). También existe considerable evidencia de efectos complejos del género del hablante. Algunos estudios indican mayor precisión en el habla de la mujer adulta (e.g., Cristia, Lavechin et al. señalan menor precisión en el discurso de hombres adultos y niños distintos del objeto de estudio), pero una precisión relativamente alta en la diferenciación entre el habla de un hombre y el de una mujer (Bulgarelli & Bergelson, Citation2019). No obstante, estos efectos interaccionan con las diferencias en el nivel de error entre HDN y HDA, con más errores en el HDN de mujeres adultas, clasificado erróneamente como de hombre adulto y más HDN de hombres adultos clasificado erróneamente como de mujer adulta (Bulgarelli & Bergelson, Citation2019; Lehet et al., Citation2020). Asimismo, la clasificación del HDN de una mujer adulta como discurso adulto (en lugar de habla infantil) es menos precisa que la de HDA de una mujer, mientras que la clasificación de HDA de un hombre es mucho más precisa (como habla adulta) que la de una mujer (Lehet et al., Citation2020). Estos efectos podrían deberse al modo en que LENA utiliza las características tonales para diferenciar entre el género del hablante (que también varía sistemáticamente entre HDN y HDA). Más importante si cabe, estos errores se reflejan después en la infravaloración sistemática del recuento de palabras emitidas por una mujer, y particularmente del HDN emitido por mujeres adultas.

En definitiva, todos estos resultados emergentes sugieren que la pertinencia y adecuación de LENA como herramienta depende en gran medida del uso que se le da. A pesar de algunos errores sistemáticos relacionados con factores como el género del hablante, LENA es una herramienta considerablemente robusta para capturar muchos tipos de variaciones individuales de manera que estas se puedan vincular a medidas significativas tales como los resultados del desarrollo lingüístico del niño. No obstante, queda todavía mucho por hacer como veremos más adelante en mayor detalle.

Desarrollo metodológico: consideraciones prácticas y éticas

El desarrollo de buenas prácticas en la grabación de audio de formato largo se enfrenta a diversos desafíos metodológicos. Por ejemplo, dada la impracticabilidad de codificar a mano grabaciones completas de audio de formato largo, suele recurrirse a la selección de submuestras en cada archivo. Desafortunadamente, el carácter inconstante e irregular del lenguaje infantil abre la posibilidad de que las diferencias en el muestreo produzcan distintos resultados, una fuente de variación que podría resultar problemática a la hora de interpretar los distintos resultados de diversos estudios y poblaciones diferentes. En la literatura podemos encontrar múltiples enfoques tales como el muestreo basado en intervalos regulares (e.g., un minuto cada hora), el muestreo aleatorio en la grabación o la elaboración de una submuestra según ciertos criterios, generalmente los periodos de tiempo con mayor volubilidad discursiva. Otros estudios adoptan enfoques totalmente distintos, en los que se revisa rápidamente toda la grabación en lugar de procesar una submuestra en gran detalle. Por ejemplo, la grabación podría estar dividida en secciones basadas en segmentos temporales (e.g., incrementos de cinco minutos como hicieron Weisleder & Fernald, Citation2013, o por conversaciones, como en Bergelson, Amatuni et al., Citation2019), clasificadas según una característica específica (e.g., ‘(principalmente) dirigidas a adultos’ vs. ‘(principalmente) dirigidas al niño’). Esta clasificación puede luego utilizarse para obtener una medida automatizada como el recuento de palabras pronunciadas por un adulto (AWC) de LENA, en función de la característica determinada manualmente. Algunos estudios recientes sugieren un alto nivel de correlación entre grabaciones más naturalistas por ráfagas y las medidas lingüísticas tomadas durante una sesión de juego estructurado en la que el habla muestra un flujo más homogéneo (Tamis‐LeMonda et al., Citation2017, aunque las muestras más naturalistas en este estudio no fueron grabadas en formato de larga duración) o entre un muestreo completo y un muestreo de alta volubilidad (Bergelson, Casillas et al., Citation2019) a pesar de las grandes diferencias en las medidas cuantitativas primarias y las similitud en medidas más cualitativas como las palabras específicas utilizadas. No obstante, todavía queda mucho por hacer para determinar en qué medida estos diversos enfoques producen resultados convergentes o divergentes en el amplio espectro de temas de investigación.

Dada la enorme inversión de tiempo y esfuerzos realizada para investigar utilizando grabaciones de audio de largo formato, y los múltiples escollos potenciales, los investigadores noveles en este enfoque deberían planificar cuidadosamente antes de embarcarse en este tipo de investigación. Dos artículos recientes ofrecen consejos muy útiles y estrategias para abordar estos métodos novedosos. Casillas y Cristia (Citation2019) acompañan al investigador potencial en un extenso proceso de toma de decisiones desde establecer si el audio de formato largo es el enfoque adecuado para responder a una pregunta de investigación determinada, a decidir si es mejor utilizar conjuntos de datos existentes o emprender una costosa recolección de nuevos datos, pasando por los problemas más habituales en la anotación y análisis de los datos. También discuten en detalle cuestiones de consentimiento, almacenaje y distribución de los datos de uso compartido. Cychosz, Romeo et al. (Citation2020) profundizan mucho más en las consideraciones éticas a las que se enfrentan los investigadores que trabajan con audios de largo formato, particularmente dado que la comunidad de investigadores muestra una tendencia hacia un acceso a los datos más abierto y a los proyectos colaborativos. Por su propio diseño, estos archivos de audio capturan detalles íntimos de las vidas de las personas, y podrían incluir la grabación accidental de terceras personas, conscientes o no de ello y que no necesariamente han dado su consentimiento para que se grabe o utilice su voz. Como punto de partida, la distribución de estos archivos podría resultar incómoda o molesta para los participantes puesto que incluyen una gran variedad de experiencias cotidianas — sonidos del cuarto de baño, discusiones familiares, momentos íntimos entre parejas, etc. — además de información identificable o potencialmente explotable tales como datos personales o información de tarjetas de crédito. Además, los investigadores suelen estar interesados en estos métodos para estudiar individuos y grupos que podrían estar marginados o en riesgo de distintas maneras. En mi propio trabajo, por ejemplo, hemos obtenido grabaciones de bebés de madres jóvenes (McDivitt & Soderstrom, Citation2016) con el objeto de analizar si sus experiencias son similares o distintas de las de otros bebés nacidos de madres de mayor edad. Desde un punto de vista ético, el riesgo de infligir daños y la evaluación de los beneficios debe tener en cuenta no solo el impacto en los individuos sino también los efectos sobre el grupo. A las jóvenes madres podría resultarles de ayuda conocer mejor sus fortalezas y puntos débiles. Por otro lado, el análisis de sus vidas en un marco comparativo podría producir una estigmatización innecesaria y dañina, particularmente si no se ejerce la debida cautela para evitar atribuir significados a las experiencias que podrían estar sesgadas por la perspectiva del propio investigador, que podría diferir radicalmente de la perspectiva de la población objeto de estudio.

El uso del audio de larga duración brinda la oportunidad de llevar a cabo compa-raciones transculturales mucho más efectivas, pero no es la panacea. La responsabilidad de tener en cuenta el sesgo cultural reside en el investigador. Por ejemplo, uno de los primeros estudios en los que se utilizó LENA (Weber et al., Citation2017) tenía por objeto concretamente una intervención en una población de Senegal en la que, culturalmente y en comparación con las normas occidentales, se desalienta hablar con los niños de corta edad. Esta situación plantea ciertas cuestiones complejas sobre el papel de los investigadores occidentales que trabajan en contextos culturalmente desconocidos. Sin una comprensión cultural compleja, se corre el riesgo de que estas empresas ejerzan un impacto inesperado en las comunidades estudiadas (y, por tanto, un daño potencial) (Morelli et al., Citation2018).

Para recorrer estas cuestiones, tanto prácticas como éticas, los investigadores se apoyan en una robusta comunidad investigadora denominada DARCLE (Daylong Audiorecording of Child Language Environments, darcle.org), que se reúne con re-gularidad para debatir estas y otras cuestiones, compartir información y código y trabajar hacia el desarrollo de herramientas más adecuadas para llevar a cabo los análisis. DARCLE se formó inicialmente para reunir a investigadores con un interés común en el lenguaje infantil para compartir recursos y con la idea de reclutar especialistas en las tecnologías de procesamiento del lenguaje para facilitar la construcción de nuevos sistemas de análisis de las grabaciones de audio de largo formato. Este objetivo inicial comienza a dar fruto, como se detalla en la siguiente sección. Además, a partir de este colectivo han surgido diversos proyectos colabo-rativos. Por ejemplo, HomeBank (VanDam et al., Citation2016) fue creado como un recurso para compartir audio de largo formato y archivos asociados (anotaciones, output de LENA, transcripciones) con diversos niveles de confidencialidad, así como código para el análisis de datos. Más recientemente, BabbleCor (Cychosz, Cristia et al., Citation2020) ha creado un conjunto de datos único de vocalizaciones infantiles con etiquetas en función de la madurez vocal aplicando un enfoque de ‘ciencia ciudadana’.

El Proyecto ACLEW

Una ramificación significativa de DARCLE ha sido el proyecto ACLEW (Analyzing Child Language Environments around the World). Con financiación dirigida a la investigación multidisciplinar entre las diversas ciencias sociales y el enfoque Big Data, ACLEW reunió a los investigadores del lenguaje infantil con expertos en aprendizaje automático para abordar distintos aspectos acerca de las características de los entornos lingüísticos de los niños de menor edad dentro y entre diversos contextos culturales. En este contexto, ACLEW se planteó tres objetivos principales:

  1. Desarrollar un sistema de notación diseñado para las grabaciones en formato largo de las experiencias lingüísticas tempranas en distintas lenguas y comunidades diversas

  2. Aplicar este sistema de notación a un conjunto de grabaciones de diversas comunidades

  3. Desarrollar nuevas herramientas para el análisis automático de las grabaciones de audio de formato largo

El Sistema de notación de ACLEW (AAS, ACLEW Annotation System) consiste en una extensa compilación de tutoriales y materiales para el uso de grabaciones de formato largo (https://osf.io/aknjv/). Esperamos que los investigadores del lenguaje infantil con distintos conjuntos de datos y diversas preguntas de investigación adopten este sistema, compatible e interoperable con otros sistemas y enfoques anteriores de notación de lenguaje infantil (e.g., el sistema CHAT). AAS presenta una serie de ventajas: está diseñado específicamente para el audio de larga duración, con foco en la segmentación del discurso por hablantes múltiples en entornos complejos, y códigos específicos para los aspectos de interés en el análisis del audio de larga duración; aspectos como el destinatario, la clasificación del hablante (e.g., hombre/mujer/niño) y otros aspectos concretos de las vocalizaciones del niño. Se puede adaptar a las necesidades de diversos intereses de investigación, pero al mismo tiempo facilita un marco consistente. Este último aspecto es importante por dos razones. En primer lugar, permite realizar comparaciones más directas entre estudios, para ofrecer un apoyo más adecuado a la ciencia cumulativa y colaborativa que está surgiendo a través de las plataformas para compartir datos como HomeBank. En segundo lugar, fue diseñado teniendo en cuenta el aprendizaje automático y el desarrollo de herramientas: cuanto mayor sea el uso de este marco por parte de los investigadores, habrá más datos disponibles para el desarrollo de herramientas adicionales.

Por lo que respecta al desarrollo de herramientas, hasta la fecha, ACLEW ha logrado desarrollar con éxito recursos open source que igualan, y en algunos casos superan, el rendimiento de LENA en algunos productos básicos clave como el recuento de palabras emitidas por adultos (AWC) y la clasificación de hablantes adultos (Räsänen et al., Citation2019, Citation2020). Debe quedar claro que este proyecto no aborda gran parte de la funcionalidad de LENA, pero ofrece un enfoque alternativo en open source a algunos de los elementos clave que los usuarios para investigación básica consideran muy valiosos. Entre sus objetivos futuros se incluyen aspectos que LENA no incluye, como las clasificaciones en función del lenguaje (importante para estudios sobre la adquisición bilingüe) y el destinatario (es decir, HDN vs. HDA), así como algunas mejoras en las funcionalidades existentes y el desarrollo de una medida de la madurez vocal.

Algunos resultados preliminares de este proyecto (Bunce et al., Citation2020) revelan semejanzas y diferencias entre las comunidades estudiadas. Por ejemplo, la prominencia del discurso de mujeres adultas es consistente, y la edad del menor no aparece como un predictor clave del habla infantil. Se observó un nivel mayor de HDN en el audio al que estaban expuestos los niños de comunidades en las que hablar con los niños se considera menos habitual (aunque hay que destacar que esta medida incluía tanto el habla dirigida al niño foco como el habla dirigida a otros niños presentes en la sala). Asimismo, cabe destacar que las comunidades diferían en la influencia del número de personas presentes en las mediciones. Estos resultados ilustran la importancia de comprender el papel que desempeñan distintos factores en cada comunidad para comprender mejor su impacto en las experiencias lingüísticas infantiles y sus resultados.

Próximos pasos y conclusiones finales

Las innovaciones técnicas y metodológicas iniciadas con LENA y fomentadas por los esfuerzos colaborativos en la investigación del lenguaje infantil han facilitado el camino para revisitar nuestros conocimientos sobre el desarrollo lingüístico temprano y las experiencias que le dan forma. Los estudios que se describen en este artículo representan una pequeña minoría del trabajo que se ha desarrollado en la última década gracias a este nuevo enfoque. No obstante, todavía queda mucho por hacer para sacarle todo el provecho a las grabaciones de audio en formato largo. Sigue siendo necesario realizar un esfuerzo masivo para recabar, anotar y (más importante aún) compartir las grabaciones de las experiencias cotidianas de bebés y niños pequeños en muestras mucho más diversas en términos de cultura, comunidades y contextos. Gran parte de las promesas del análisis automatizado están todavía por cumplirse.

Además, hasta la fecha, muy pocos estudios incorporan información visual en sus grabaciones, como el uso de cámaras de gran angular (Casillas et al., Citation2020a) o montadas en la cabeza (Sullivan et al., Citation2020) para facilitar información contextual y/o información específica sobre la experiencia visual simultánea del niño. Estos enfoques podrían ser particularmente importantes para obtener un mejor conocimiento de las diferencias culturales en actividades cotidianas relacionadas con las experiencias lingüísticas, información transmitida por los gestos y las expresiones y, por supuesto, la percepción del lenguaje a través de la modalidad visual.

Dado que el foco de atención de la investigación sobre el lenguaje infantil se centra cada vez más en las experiencias cotidianas bajo un enfoque transcultural, es esencial tener muy en cuenta la cautela de los etnógrafos: incrementar la diversidad de las muestras no es suficiente para negar un sesgo cultural inherente en una investigación que es en gran medida occidental y anglocéntrica. Debemos estar abiertos a comprender cada comunidad en su propio contexto antes de poder construir verdades universales sobre la experiencia lingüística.

Acknowledgements / Agradecimientos

The author is supported in part by funding from the Social Sciences and Humanities Research Council of Canada (435-2015-0628, 869-2016-0003) and the Natural Sciences and Engineering Research Council of Canada (501769-2016-RGPDD). / El autor ha recibido la ayuda del Social Sciences and Humanities Research Council de Canadá (435-2015-0628, 869-2016-0003) y el Natural Sciences and Engineering Research Council de Canadá (501769-2016-RGPDD).

Disclosure statement / Conflicto de intereses

No potential conflict of interest was reported by the author. / Los autores no han referido ningún potencial conflicto de interés en relación con este artículo.

References / Referencias

Reprints and Corporate Permissions

Please note: Selecting permissions does not provide access to the full text of the article, please see our help page How do I view content?

To request a reprint or corporate permissions for this article, please click on the relevant link below:

Academic Permissions

Please note: Selecting permissions does not provide access to the full text of the article, please see our help page How do I view content?

Obtain permissions instantly via Rightslink by clicking on the button below:

If you are unable to obtain permissions via Rightslink, please complete and submit this Permissions form. For more information, please visit our Permissions help page.