본 연구에서는 외국인 억양이 화자 식별에 어떤 영향을 미쳤는지 조사했습니다. 우리는 기본 주파수, 즉 음성 피치, 지속 시간 및 음성 품질을 기반으로 하는 운율 기능에 중점을 둡니다. 우리의 목표는 이러한 기능이 음성 라인업에서 청취자의 판단에 어떤 영향을 미치는지 이해하는 것입니다.
포렌식 화자 비교의 작업 흐름에 자동화를 적용하는 자동 화자 인식의 성능에 대한 관심과 연구가 증가하고 있습니다. 그러나 이 정보는 법의학 과학자들이 경찰, 판사 및 배심원에게 보고해야 하는 블랙박스와 같습니다. GMM, UBM 모델 및 실제 배우와 같은 고전적인 기술을 기반으로 하는 자동 화자 인식 시스템입니다.
인공 지능을 기반으로 한 신경 연구도 있습니다. 우리는 자동 음성 인식 시스템이 놓친 언어 정보를 보존하는 자동화된 흐름을 제안합니다. 당사의 프로토콜은 과학이 개발된 국가를 설정하는 동시에 법의학 음성 비교를 위해 결합된 청각 및 음향 접근 방식을 사용하지만, 광범위한 음향 기능을 추출하고 음향 유사성 절차를 실행하기 위해 자동화된 도구를 사용합니다.
시작하려면 각 오디오 파일에 대한 언어 전사를 TXT 파일 형식으로 작성합니다. TXT 및 WAV 파일 쌍에 동일한 이름으로 태그를 지정합니다. 각 L1, L2 언어에 대한 폴더를 만듭니다.
동일한 언어의 모든 파일 쌍이 동일한 폴더에 있는지 확인합니다. Munich Automatic Segmentation 강제 정렬기의 웹 인터페이스에 액세스하고 폴더에서 각 WAV 및 TXT 파일 쌍을 파일의 파선 사각형으로 끌어다 놓습니다. 업로드 버튼을 클릭하여 파일을 정렬기에 업로드합니다.
서비스 옵션 메뉴에서 L1 L2 영어 데이터의 경우 파이프라인 이름에 대해 grapheme to phoneme to mouse to phone to syllable을 선택하고 언어에 대해 English-US를 선택합니다. 출력 형식에 대한 기본 옵션을 유지하고 모든 것을 유지하십시오. 실행 옵션 상자를 선택하여 사용 약관에 동의합니다.
웹 서비스 실행 버튼을 클릭하여 업로드된 파일을 정렬기에서 실행합니다. 파일이 처리되면 zip 파일로 다운로드 버튼을 클릭하여 텍스트 그리드 파일을 다운로드합니다. 나중에 음성 분석 소프트웨어에서 재정렬할 수 있도록 텍스트 그리드 파일을 추출합니다.
PRAAT VVUnitAligner용 스크립트에 액세스하고 다운로드합니다. 동일한 언어와 VVUnitAligner 스크립트의 모든 파일 쌍이 동일한 폴더에 있는지 확인합니다. 음성 분석 소프트웨어를 엽니다.
개체 창에서 Praat를 클릭하고 Praat 스크립트를 열어 스크립트를 로드합니다. 실행 버튼을 클릭한 다음 언어를 영어(미국)로 선택합니다. 이제 청크 세분화 버튼에서 자동을 선택합니다.
Save text grid files(텍스트 그리드 파일 저장) 옵션을 선택하여 새로 생성된 텍스트 그리드 파일을 자동으로 저장합니다. 음성 단위의 재정렬을 위해 okay 및 run 버튼을 클릭합니다. 지정된 사이트에서 운율 음향 기능을 자동으로 추출하기 위한 음성 리듬 추출기 스크립트를 다운로드합니다.
새 폴더를 만들고 모든 언어의 모든 오디오 텍스트 그리드 파일과 함께 음성 리듬 추출기 스크립트를 추가합니다. 음성 분석 소프트웨어를 엽니다. 개체 창에서 Praat를 클릭하고 Praat 스크립트를 열어 스크립트를 로드합니다.
그런 다음 실행 버튼을 한 번 클릭합니다. Voice Quality Parameters(음성 품질 매개변수) 옵션을 선택하여 음성 품질을 위해 출력 파일 VQ를 저장합니다. 이제 언어 대상 옵션을 확인하여 언어를 선택하십시오.
그런 다음 단위 옵션을 선택하여 F0 기능을 반음으로 선택합니다. 최소 및 최대 임계값을 포함하여 F0 임계값의 값을 설정합니다. 확인을 클릭한 다음 run을 클릭하여 음향 기능을 자동으로 추출합니다.
일반화된 덧셈 모델, 비파라메트릭 통계 분석을 수행하려면 표시된 명령을 입력하고 추출된 음향 기능이 포함된 스프레드시트를 R 환경에 업로드합니다. 마지막으로 Enter 키를 눌러 실행합니다. L1 L2 BP는 L1 L2 BP에 비해 L1 L2 영어의 말하기 속도가 더 빠르게 감소했는데, 이는 음절 지속 시간이 길고 가변성이 낮아 가파른 경사가 적었습니다.
브라질 화자인 L1 BP 및 L2 영어의 경우 음절 지속 시간 변동성의 증가에도 불구하고 현지 쉬머는 상대적으로 안정적으로 유지되었습니다. 일시 중지율은 L2 BP 화자가 더 높았으며, L1 영어, L1 BP 및 L2 영어 화자에 비해 일시 중지가 더 길었습니다. 조음 속도는 더 높은 인지 언어 부하 및 음절 변화와 관련된 낮은 비율의 말하기 속도와 유사하게 영향을 받았습니다.
음절 지속 시간의 표준 편차는 모든 언어 수준에서 말하기 속도가 증가함에 따라 감소했습니다. 음절의 Varco는 L1 BP 및 L2 BP에서 F0 가변성과 말하기 속도가 증가함에 따라 감소한 반면 L1 영어 및 L2 영어에서는 증가했습니다. 자음의 표준 편차는 L1 영어에 비해 말하기 속도 또는 일시 중지 시간이 증가함에 따라 L1 BP의 변동성이 더 낮다는 것을 보여주었습니다.
모음과 자음에 대한 표준 편차는 L1 BP 및 L2 BP의 경우 운율 기능이 증가함에 따라 하강 상승 패턴을 따랐지만 L1 영어 및 L2 영어의 경우 감소한 다음 감쇠되었습니다. 영어와 BP에 대해 각각 4개의 음성 라인업을 준비한 후 선택한 화자로부터 오디오 파일을 가져와 언어별 폴더에 정렬합니다. L1 영어 또는 L1 BP로 된 6개의 음성 청크를 무작위로 선택합니다. 그런 다음 6개의 음성 청크 중 하나에서 L2 영어 또는 L2 BP의 음성 청크 하나를 선택합니다.
Praat Create Lineup에 대한 스크립트에 액세스하고 다운로드하십시오. 스크립트를 실행하기 전에 L2 참조 음성, L1 포일 및 L1 대상 음성이 동일한 폴더에 있는지 확인합니다. 음성 분석 소프트웨어를 엽니다.
개체 창에서 Praat를 클릭하고 Praat 스크립트를 열어 스크립트를 로드합니다. 그런 다음 실행을 클릭하여 라인업 생성 스크립트를 실행합니다. R 환경에서 Kruskal-Wallace 테스트를 수행하려면 표시된 명령을 입력합니다.
그런 다음 청취자의 판단 점수가 포함된 스프레드시트를 업로드하고 Enter 키를 누릅니다. 그런 다음 사후 Dunn의 테스트를 위해 다음 명령을 입력하고 Enter 키를 누릅니다. Python 스크립트 Acoustic Similarity Cosine Euclidean에 액세스하고 다운로드합니다.
다운로드한 스크립트가 음성 라인업 데이터 세트와 동일한 폴더에 저장되어 있는지 확인합니다. open file 버튼을 클릭하여 스크립트를 호출한 다음 run을 클릭하고 디버깅 버튼을 클릭하지 않고 실행하여 스크립트를 실행합니다. 마지막으로 음향 기능을 기반으로 음성 유사성 테스트를 수행합니다.
BP 보이스 라인업 1에서는 포일 보이스 3이 타겟 보이스로 판정되었으며, 포일 3과 타겟 보이스 4 사이에는 큰 차이가 없었다. BP 음성 라인업 2에서는 대상 음성 3과 포일 4 사이에 큰 차이가 발견되지 않았습니다. 코사인 유사성과 유클리드 거리 모두 포일 3과 BP 라인업 1의 목표 음성 사이에 강한 상관관계를 보였습니다.
BP 라인업 2에서는 두 유사성 지표 모두 포일 4와 타겟 사이에 강한 상관관계가 있었습니다.