La nostra ricerca esamina come un accento straniero abbia influenzato l'identificazione del parlante. Ci concentriamo sulle caratteristiche prosodiche basate sulla frequenza fondamentale, che è l'altezza, la durata e la qualità della voce. Il nostro obiettivo è capire come queste caratteristiche influenzino i giudizi degli ascoltatori nelle formazioni vocali.
C'è una crescente attenzione e ricerca sulle prestazioni del riconoscimento automatico del parlante, che applica l'automazione al flusso di lavoro del confronto forense dei parlanti. Tuttavia, le informazioni sono come una scatola nera che gli scienziati forensi devono segnalare alla polizia, ai giudici e ai giurati. Sistemi di riconoscimento automatico degli altoparlanti basati su tecniche classiche come GMM, modelli UBM e attori dal vivo.
C'è anche la ricerca neurale basata sull'intelligenza artificiale. Proponiamo un flusso automatizzato che preserva le informazioni linguistiche perse dai sistemi di riconoscimento vocale automatico. Il nostro protocollo utilizza un approccio uditivo e acustico combinato per il confronto forense del parlato, stabilendo i paesi in cui è stata sviluppata la scienza, ma utilizzando strumenti automatizzati per l'estrazione di un'ampia gamma di caratteristiche acustiche e per l'esecuzione di procedure di somiglianza acustica.
Per iniziare, scrivi la trascrizione linguistica per ogni file audio in un formato di file TXT. Contrassegna la coppia di file TXT e WAV con lo stesso nome. Creare una cartella per ogni lingua L1, L2.
Assicurarsi che tutte le coppie di file della stessa lingua si trovino nella stessa cartella. Accedi all'interfaccia web dell'allineatore forzato Munich Automatic Segmentation, trascina e rilascia ogni coppia di file WAV e TXT dalla cartella al rettangolo tratteggiato nei file. Fare clic sul pulsante di caricamento per caricare i file sull'allineatore.
Nel menu delle opzioni del servizio, per i dati L1 L2 in inglese, selezionare grafema per fonema per passare il mouse per telefonare in sillaba per il nome della pipeline e Inglese-USA per la lingua. Mantieni le opzioni predefinite per il formato di output e mantieni tutto. Selezionare la casella dell'opzione Esegui per accettare le condizioni di utilizzo.
Fare clic sul pulsante Esegui servizio Web per eseguire i file caricati nell'allineatore. Dopo che i file sono stati elaborati, fare clic sul pulsante Scarica come file zip per scaricare i file della griglia di testo. Estrai i file della griglia di testo per un successivo riallineamento nel software di analisi fonetica.
Accedi e scarica lo script per PRAAT VVUnitAligner. Assicurarsi che tutte le coppie di file della stessa lingua e lo script VVUnitAligner si trovino nella stessa cartella. Apri il software di analisi fonetica.
Dalla finestra dell'oggetto, fare clic su Praat e aprire lo script Praat per caricare lo script. Fare clic sul pulsante Esegui, quindi selezionare la lingua Inglese-USA. Ora, dal pulsante di segmentazione dei blocchi, seleziona automatico.
Seleziona l'opzione Salva file della griglia di testo per salvare automaticamente i file della griglia di testo appena generati. Fare clic sui pulsanti ok ed esegui per il riallineamento delle unità fonetiche. Dal sito indicato, scaricare lo script dell'estrattore del ritmo vocale per l'estrazione automatica delle caratteristiche acustiche prosodiche.
Crea una nuova cartella e aggiungi lo script dell'estrattore del ritmo vocale insieme a tutti i file della griglia di testo audio di tutte le lingue. Apri il software di analisi fonetica. Dalla finestra dell'oggetto, fare clic su Praat e aprire lo script Praat per caricare lo script.
Quindi fare clic una volta sul pulsante Esegui. Controllare l'opzione dei parametri di qualità vocale per salvare il file di output VQ per la qualità vocale. Ora seleziona l'opzione di destinazione linguistica per scegliere la lingua.
Quindi selezionare l'opzione unità per scegliere le funzioni F0 in semitoni. Impostare i valori per la soglia F0, incluse le soglie minima e massima. Fare clic su OK, quindi su Esegui per l'estrazione automatica delle funzioni acustiche.
Per eseguire modelli additivi generalizzati, analisi statistiche non parametriche, digitare il comando indicato e caricare nell'ambiente R il foglio di calcolo contenente le caratteristiche acustiche estratte. Infine, premi invio per eseguire. La velocità del parlato è diminuita più rapidamente per l'inglese L1 L2 rispetto a L1 L2 BP, che aveva pendenze meno ripide a causa della maggiore durata delle sillabe e della minore variabilità.
Il luccichio locale è rimasto relativamente stabile per i parlanti brasiliani, L1 BP e L2 English, nonostante l'aumento della variabilità della durata delle sillabe. Il tasso di pausa era più alto per i parlanti L2 BP, con pause più lunghe rispetto ai parlanti L1 English, L1 BP e L2 English. La velocità di articolazione è stata influenzata in modo simile alla velocità del linguaggio, con tassi più bassi associati a un carico linguistico cognitivo più elevato e alla variazione delle sillabe.
La deviazione standard della durata della sillaba diminuiva all'aumentare della velocità del parlato a tutti i livelli linguistici. Il Varco delle sillabe è diminuito per L1 BP e L2 BP con l'aumentare della variabilità F0 e della velocità del parlato, mentre è aumentato per l'inglese L1 e l'inglese L2. La deviazione standard delle consonanti ha mostrato una minore variabilità in L1 BP all'aumentare della velocità del parlato o della durata della pausa rispetto all'inglese L1.
La deviazione standard per vocali e consonanti ha seguito un modello di aumento discendente per L1 BP e L2 BP, con caratteristiche prosodiche crescenti, mentre è diminuita e poi attenuata per l'inglese L1 e l'inglese L2. Dopo aver preparato quattro formazioni vocali per l'inglese e il BP, prendi i file audio dai relatori selezionati e disponili in cartelle specifiche per lingua. Seleziona casualmente sei blocchi vocali in inglese L1 o BP L1. Quindi scegli un pezzo di voce in inglese L2 o L2 BP da uno dei sei blocchi di voce.
Accedi e scarica lo script per Praat Create Lineup. Prima di eseguire lo script, assicurarsi che la voce di riferimento L2, le lamine L1 e la voce di destinazione L1 siano inserite nella stessa cartella. Apri il software di analisi fonetica.
Dalla finestra dell'oggetto, fare clic su Praat e aprire lo script Praat per caricare lo script. Quindi fare clic su Esegui per eseguire lo script di creazione della formazione. Nell'ambiente R, per eseguire il test di Kruskal-Wallace, digitare il comando indicato.
Carica quindi il foglio di calcolo contenente i punteggi dei giudizi degli ascoltatori e premi invio. Quindi, per il test di Dunn post-hoc, digita il seguente comando e premi invio. Accedi e scarica lo script Python, Acoustic Similarity Cosine Euclidean.
Assicurarsi che lo script scaricato venga salvato nella stessa cartella del set di dati della formazione vocale. Fare clic sul pulsante Apri file per chiamare lo script, quindi fare clic sui pulsanti Esegui ed Esegui senza debug per eseguire lo script. Infine, esegui test di somiglianza vocale basati su caratteristiche acustiche.
Nella prima formazione di voci BP, la voce tre è stata giudicata come voce target, senza differenze significative tra la terza e la voce quattro. Nella seconda linea di voci BP, non è stata riscontrata alcuna differenza significativa tra la voce target tre e la quarta fioretto. Sia la somiglianza del coseno che la distanza euclidea hanno mostrato una forte correlazione tra il foglio tre e la voce bersaglio nella prima linea BP.
Nella seconda linea BP, entrambe le metriche di somiglianza erano fortemente correlate tra il foil quattro e il bersaglio.