In unserer Forschung untersuchen wir, wie ein ausländischer Akzent die Sprecheridentifikation beeinflusst. Wir konzentrieren uns auf prosodische Merkmale, die auf der Grundfrequenz basieren, d. h. der Tonlage, der Dauer und der Stimmqualität. Unser Ziel ist es zu verstehen, wie diese Merkmale die Urteile der Hörer über die Stimmenaufstellung beeinflussen.
Die Leistungsfähigkeit der automatischen Sprechererkennung, bei der der Arbeitsablauf des forensischen Lautsprechervergleichs automatisiert wird, wird zunehmend in den Fokus gerückt und erforscht. Die Informationen sind jedoch wie eine Blackbox, die Forensiker der Polizei, Richtern und Geschworenen vorlegen müssen. Automatische Lautsprechererkennungssysteme, die auf klassischen Techniken wie GMM, UBM-Modellen und Live-Schauspielern basieren.
Es gibt auch neuronale Forschung, die auf künstlicher Intelligenz basiert. Wir schlagen einen automatisierten Ablauf vor, der die sprachlichen Informationen beibehält, die von den automatischen Spracherkennungssystemen übersehen werden. Unser Protokoll verwendet einen kombinierten auditiven und akustischen Ansatz für den forensischen Sprachvergleich, wobei die Länder ermittelt werden, in denen die Wissenschaft entwickelt wurde, aber automatisierte Werkzeuge zur Extraktion einer Vielzahl von akustischen Merkmalen sowie zur Durchführung akustischer Ähnlichkeitsverfahren verwendet werden.
Schreiben Sie zunächst die linguistische Transkription für jede Audiodatei in einem TXT-Dateiformat. Markieren Sie das Paar aus TXT- und WAV-Dateien mit demselben Namen. Erstellen Sie einen Ordner für jede L1- und L2-Sprache.
Wählen Sie im Menü "Dienstoptionen" für L1 L2 English-Daten die Option "Graphem in Phonem" zu "Maus zu Telefon zu Silbe" für den Pipelinenamen und "Englisch-US" als Sprache aus. Behalten Sie die Standardoptionen für das Ausgabeformat bei und behalten Sie alles bei. Aktivieren Sie das Kontrollkästchen Ausführungsoption, um die Nutzungsbedingungen zu akzeptieren.
Klicken Sie auf die Schaltfläche Webdienst ausführen, um die hochgeladenen Dateien im Aligner auszuführen. Nachdem die Dateien verarbeitet wurden, klicken Sie auf die Schaltfläche Als ZIP-Datei herunterladen, um die Textrasterdateien herunterzuladen. Extrahieren Sie die Textrasterdateien für eine spätere Neuausrichtung in einer phonetischen Analysesoftware.
Greifen Sie auf das Skript für PRAAT VVUnitAligner zu und laden Sie es herunter. Stellen Sie sicher, dass sich alle Dateipaare derselben Sprache und das VVUnitAligner-Skript im selben Ordner befinden. Öffnen Sie die Software zur phonetischen Analyse.
Klicken Sie im Objektfenster auf Praat und öffnen Sie das Praat-Skript, um das Skript zu laden. Klicken Sie auf die Schaltfläche "Ausführen" und wählen Sie dann die Sprache "Englisch-USA" aus. Wählen Sie nun auf der Schaltfläche für die Blocksegmentierung die Option Automatisch aus.
Aktivieren Sie die Option Textrasterdateien speichern, um die neu generierten Textrasterdateien automatisch zu speichern. Klicken Sie auf die Schaltflächen OK und Ausführen, um die phonetischen Einheiten neu auszurichten. Laden Sie von der angegebenen Website das Skript zur Extraktion des Sprachrhythmus zur automatischen Extraktion prosodischer akustischer Merkmale herunter.
Erstellen Sie einen neuen Ordner und fügen Sie das Skript zum Extraktion des Sprachrhythmus zusammen mit allen Audio-Textrasterdateien aller Sprachen hinzu. Öffnen Sie die Software zur phonetischen Analyse. Klicken Sie im Objektfenster auf Praat und öffnen Sie das Praat-Skript, um das Skript zu laden.
Klicken Sie dann einmal auf die Schaltfläche Ausführen. Aktivieren Sie die Option Parameter für die Sprachqualität, um die Ausgabedatei VQ für die Sprachqualität zu speichern. Aktivieren Sie nun die Option "Linguistisches Ziel", um die Sprache auszuwählen.
Aktivieren Sie dann die Einheitenoption, um die F0-Funktionen in Halbtönen auszuwählen. Legen Sie die Werte für den F0-Schwellenwert fest, einschließlich des minimalen und des maximalen Schwellenwerts. Klicken Sie auf OK, gefolgt von Ausführen für die automatische Extraktion der akustischen Merkmale.
Um generalisierte additive Modelle und nicht-parametrische statistische Analysen durchzuführen, geben Sie den angegebenen Befehl ein, und laden Sie die Tabelle mit den extrahierten akustischen Merkmalen in die R-Umgebung hoch. Drücken Sie abschließend die Eingabetaste, um auszuführen. Die Sprechgeschwindigkeit nahm für L1 L2 Englisch schneller ab im Vergleich zu L1 L2 BP, die aufgrund der höheren Silbendauer und der geringeren Variabilität weniger steile Steigungen aufwiesen.
Der lokale Schimmer blieb bei brasilianischen Sprechern, L1 BP und L2 Englisch relativ stabil, trotz zunehmender Variabilität der Silbendauer. Die Pausenrate war bei L2 BP-Sprechern höher, mit längeren Pausen im Vergleich zu L1-Englisch-, L1 BP- und L2-Englischsprechern. Die Artikulationsrate wurde ähnlich beeinflusst wie die Sprechgeschwindigkeit, wobei niedrigere Raten mit einer höheren kognitiven sprachlichen Belastung und Silbenvariation verbunden waren.
Die Standardabweichung der Silbendauer nahm mit zunehmender Sprechgeschwindigkeit über alle Sprachniveaus hinweg ab. Die Silbenvariabilität nahm für L1 BP und L2 BP mit zunehmender F0-Variabilität und Sprechgeschwindigkeit ab, während sie für L1 Englisch und L2 Englisch zunahm. Die Standardabweichung der Konsonanten zeigte eine geringere Variabilität in L1 BP, da die Sprechgeschwindigkeit oder die Pausendauer im Vergleich zu L1 English zunahm.
Die Standardabweichung für Vokale und Konsonanten folgte einem Herbstanstiegsmuster für L1 BP und L2 BP mit zunehmenden prosodischen Merkmalen, während sie für L1 Englisch und L2 Englisch abnahm und dann abschwächte. Nachdem Sie jeweils vier Stimmaufstellungen für Englisch und BP vorbereitet haben, holen Sie sich die Audiodateien von den ausgewählten Sprechern und ordnen Sie sie in sprachspezifischen Ordnern an. Wählen Sie nach dem Zufallsprinzip sechs Stimmblöcke in L1 Englisch oder L1 BP aus. Wählen Sie dann einen Voice-Chunk in L2 English oder L2 BP aus einem der sechs Voice-Chunks aus.
Greifen Sie auf das Skript für Praat Create Lineup zu und laden Sie es herunter. Stellen Sie vor dem Ausführen des Skripts sicher, dass sich die L2-Referenzstimme, die L1-Folien und die L1-Zielstimme im selben Ordner befinden. Öffnen Sie die Software zur phonetischen Analyse.
Klicken Sie im Objektfenster auf Praat und öffnen Sie das Praat-Skript, um das Skript zu laden. Klicken Sie dann auf Ausführen, um das Skript zum Erstellen einer Aufstellung auszuführen. Geben Sie in der R-Umgebung den angegebenen Befehl ein, um den Kruskal-Wallace-Test durchzuführen.
Laden Sie dann die Tabelle mit den Bewertungen der Zuhörer hoch und drücken Sie die Eingabetaste. Geben Sie dann für den Post-hoc-Dunn-Test den folgenden Befehl ein, und drücken Sie die Eingabetaste. Greifen Sie auf das Python-Skript Acoustic Similarity Cosine Euclidean zu und laden Sie es herunter.
Stellen Sie sicher, dass das heruntergeladene Skript im selben Ordner wie das Voice-Lineup-Dataset gespeichert wird. Klicken Sie auf die Schaltfläche Datei öffnen, um das Skript aufzurufen, und klicken Sie dann auf die Schaltflächen Ausführen ohne Debuggen, um das Skript auszuführen. Führen Sie abschließend Tests zur Ähnlichkeit der Stimme auf der Grundlage akustischer Merkmale durch.
In der ersten BP-Stimmenaufstellung wurde die Folienstimme drei als Zielstimme bewertet, wobei es keinen signifikanten Unterschied zwischen der Folienstimme drei und der Zielstimme vier gab. In der zweiten BP-Stimmenaufstellung wurde kein signifikanter Unterschied zwischen der Zielstimme drei und der vierten Stimme gefunden. Sowohl die Kosinus-Ähnlichkeit als auch die euklidische Distanz zeigten eine starke Korrelation zwischen Folie drei und der Zielstimme in BP-Aufstellung eins.
In BP-Aufstellung zwei korrelierten beide Ähnlichkeitsmetriken stark zwischen Folie vier und dem Ziel.