1 |
TEACHING READING AS AN INDEPENDENT TYPE OF SPEECH ACTIVITY ...
|
|
|
|
BASE
|
|
Show details
|
|
2 |
TEACHING READING AS AN INDEPENDENT TYPE OF SPEECH ACTIVITY ...
|
|
|
|
BASE
|
|
Show details
|
|
4 |
Speech data collection at a distance: Comparing the reliability of acoustic cues across homemade recordings ...
|
|
|
|
BASE
|
|
Show details
|
|
5 |
Comparing acoustic analyses of speech data collected remotely ...
|
|
|
|
BASE
|
|
Show details
|
|
7 |
Detecting Signal Corruptions in Voice Recordings for Speech Therapy ; Igenkänning av Signalproblem i Röstinspelningar för Logopedi
|
|
Nylén, Helmer. - : KTH, Skolan för elektroteknik och datavetenskap (EECS), 2021
|
|
Abstract:
When recording voice samples from a patient in speech therapy the quality of the recording may be affected by different signal corruptions, for example background noise or clipping. The equipment and expertise required to identify small disturbances are not always present at smaller clinics. Therefore, this study investigates possible machine learning algorithms to automatically detect selected corruptions in speech signals, including infrasound and random muting. Five algorithms are analyzed: kernel substitution based Support Vector Machine, Convolutional Neural Network, Long Short-term Memory (LSTM), Gaussian Mixture Model based Hidden Markov Model and Generative Model based Hidden Markov Model. A tool to generate datasets of corrupted recordings is developed to test the algorithms in both single-label and multi-label settings. Mel-frequency Cepstral Coefficients are used as the main features. For each type of corruption different ways to increase the classification accuracy are tested, for example by using a Voice Activity Detector to filter out less relevant parts of the recording, changing the feature parameters, or using an ensemble of classifiers. The experiments show that a machine learning approach is feasible for this problem as a balanced accuracy of at least 75% is reached on all tested corruptions. While the single-label study gave mixed results with no algorithm clearly outperforming the others, in the multi-label case the LSTM in general performs better than other algorithms. Notably it achieves over 95% balanced accuracy on both white noise and infrasound. As the algorithms are trained only on spoken English phrases the usability of this tool in its current state is limited, but the experiments are easily expanded upon with other types of audio recordings, corruptions, features, or classification algorithms. ; När en patients röst spelas in för analys i talterapi kan inspelningskvaliteten påverkas av olika signalproblem, till exempel bakgrundsljud eller klippning. Utrustningen och expertisen som behövs för att upptäcka små störningar finns dock inte alltid tillgänglig på mindre kliniker. Därför undersöker denna studie olika maskininlärningsalgoritmer för att automatiskt kunna upptäcka utvalda problem i talinspelningar, bland andra infraljud och slumpmässig utsläckning av signalen. Fem algoritmer analyseras: stödvektormaskin, Convolutional Neural Network, Long Short-term Memory (LSTM), Gaussian mixture model-baserad dold Markovmodell och generatorbaserad dold Markovmodell. Ett verktyg för att skapa datamängder med försämrade inspelningar utvecklas för att kunna testa algoritmerna. Vi undersöker separat fallen där inspelningarna tillåts ha en eller flera problem samtidigt, och använder framförallt en slags kepstralkoefficienter, MFCC:er, som särdrag. För varje typ av problem undersöker vi också sätt att förbättra noggrannheten, till exempel genom att filtrera bort irrelevanta delar av signalen med hjälp av en röstupptäckare, ändra särdragsparametrarna, eller genom att använda en ensemble av klassificerare. Experimenten visar att maskininlärning är ett rimligt tillvägagångssätt för detta problem då den balanserade träffsäkerheten överskrider 75%för samtliga testade störningar. Den delen av studien som fokuserade på enproblemsinspelningar gav inga resultat som tydde på att en algoritm var klart bättre än de andra, men i flerproblemsfallet överträffade LSTM:en generellt övriga algoritmer. Värt att notera är att den nådde över 95 % balanserad träffsäkerhet på både vitt brus och infraljud. Eftersom algoritmerna enbart tränats på engelskspråkiga, talade meningar så har detta verktyg i nuläget begränsad praktisk användbarhet. Däremot är det lätt att utöka dessa experiment med andra typer av inspelningar, signalproblem, särdrag eller algoritmer.
|
|
Keyword:
Acoustic signal processing; Akustisk signalbehandling; Audio recording; Classification algorithms; Computer and Information Sciences; Data- och informationsvetenskap; Klassificeringsalgoritmer; Ljudinspelning; Machine learning; Maskininlärning; Noise; Störning
|
|
URL: http://urn.kb.se/resolve?urn=urn:nbn:se:kth:diva-291429
|
|
BASE
|
|
Hide details
|
|
8 |
The Lothian Diary Project: Investigating the Impact of the COVID-19 Pandemic on Edinburgh and Lothian Residents
|
|
|
|
In: Journal of Open Humanities Data; Vol 7 (2021); 4 ; 2059-481X (2021)
|
|
BASE
|
|
Show details
|
|
9 |
De storytelling a storyliving. Tecnología para crear productos virtuales de periodismo inmersivo ; From storytelling to storyliving. Technology for creating virtual products of immersive journalism
|
|
|
|
BASE
|
|
Show details
|
|
10 |
Investigating the efficacy of translation process protocols in the revision of translation among Chinese–English translators: an empirical study using eye tracking and screen recording
|
|
|
|
BASE
|
|
Show details
|
|
11 |
Standardized Reading Performance and Objective Eye Movement Efficiency in Children - A Quantitative Correlational Study Design
|
|
|
|
BASE
|
|
Show details
|
|
12 |
Interconnected literacy practices. Exploring classroom work with literature in adult second language education ...
|
|
|
|
BASE
|
|
Show details
|
|
14 |
Interconnected literacy practices. Exploring classroom work with literature in adult second language education
|
|
|
|
In: European journal for Research on the Education and Learning of Adults 11 (2020) 1, S. 45-63 (2020)
|
|
BASE
|
|
Show details
|
|
18 |
Пути оптимизации обучения аудированию студентов неязыковых вузов ... : The Ways to Optimize Teaching Listening Comprehension for Students of Non-Language Universities ...
|
|
|
|
BASE
|
|
Show details
|
|
19 |
The Use of Audio Recording during Lectures by E.M.P Students and its Effect on the Learning Process
|
|
|
|
In: ALTRALANG Journal; Vol 2 No 02 (2020): ALTRALANG Journal Volume: 02 Issue: 02 / December 2020; 299-307 ; 2710-8619 ; 2710-7922 (2020)
|
|
BASE
|
|
Show details
|
|
20 |
Day by day, hour by hour: Naturalistic language input to infants.
|
|
|
|
BASE
|
|
Show details
|
|
|
|