Mobile QR Code QR CODE : The Transactions of the Korean Institute of Electrical Engineers

The Transactions of the Korean Institute of Electrical Engineers

ISO Journal TitleTrans. Korean. Inst. Elect. Eng.

Main Menu

Journal Search

[

Research article

]

The Transactions of the Korean Institute of Electrical Engineers

KIEE Vol. 71, No. 9, p.1266-1273

ISSN (print) :

1975-8359

ISSN (online) :

2287-4364

Received : 23 July 2022Revised : 17 August 2022Accepted : 28 August 2022

DOI :

http://doi.org/10.5370/KIEE.2022.71.9.1266

A Performance Comparison of Commercial Speech Recognition APIs in Noisy Environments

소음 환경에서 상용 음성인식 API의 성능 비교

이건희 (Geonhui Lee) ¹iD 이상화 (Sanghwa Lee) ¹iD 지수환 (Suhwan Ji) ²iD 김아욱 (Auk Kim) ³iD 임현승 (Hyeonseung Im) ^†iD

(Dept. of Convergence Security, Kangwon National University, Korea.)
(Interdisciplinary Graduate Program in Medical Bigdata Convergence, Kangwon National University, Korea.)
(Dept. of Computer Science and Engineering, Dept. of Convergence Security, Interdisciplinary Graduate Program in Medical Bigdata Convergence, Kangwon National University, Korea.)

^†Corresponding Author :Dept. of Computer Science and Engineering, Dept. of Convergence Security, Interdisciplinary Graduate Program in Medical Bigdata Convergence, Kangwon National University, Korea.

E-mail : hsim@kangwon.ac.kr

License :

This is an Open-Access article distributed under the terms of the Creative Commons Attribution Non-Commercial License (http://creativecommons.org/licenses/by-nc/3.0/) which permits unrestricted non-commercial use, distribution, and reproduction in any medium, provided the original work is properly cited.(www.kiee.or.kr).

Abstract

This paper compares the performance of five commercial speech recognition APIs under noisy environments, namely those provided by Amazon AWS, Microsoft Azure, Google, Kakao, and Naver. To this end, we used an open dataset for development and evaluation of multi-channel noise processing technology provided in AI Hub. We tested each API’s performance with respect to the speaker’s gender and location and the speech content, and measured their error rate using both word error rate (WER) and character error rate (CER). Except for the AWS API, the error rate was higher when tested with female’s data than male’s one, and when tested with the data recorded from the side than the front. The error rate was also relatively high when the test sentences contained proper nouns such as person’s names and local names, and the shorter the sentences, the higher the error rate. Moreover, the Google API outperformed all the others in terms of both WER and CER, with 53% and 18% of error rate, respectively.

Key words

Speech recognition, Noisy environment, Word error rate, Character error rate

1. 서 론

사물인터넷 시대가 도래함에 따라 다양한 기기에서 사용할 수 있는 음성인식 기술의 중요도는 날이 갈수록 높아지고 있다. 높아지는 중요도만큼 음성인식 기술을 제공하는 Open API들도 많아졌다.

이러한 음성인식 API를 선택하는 데 있어 도움을 주기 위해 본 논문에서는 5개의 상용 음성인식 API(아마존 AWS, 마이크로소프트 Azure, 구글, 네이버, 카카오)의 성능을 비교한다. 조용한 환경보다는 실제 생활과 비슷한 소음이 있는 환경에서의 성능을 비교하기 위해 AI 허브에서 제공하는 음성 데이터 중 다채널 잡음처리 기술 개발 및 평가용 데이터(https://aiopen.etri. re.kr/service_dataset.php)를 사용하였다. 특히, 원본 문장과 음성인식 결과로 생성된 문장 사이의 오차를 단어를 기준으로 측정하는 WER(Word Error Rate)과 문자를 기준으로 측정하는 CER(Character Error Rate)을 사용하여 성능을 비교하였다. 또한, 화자의 성별, 위치 그리고 음성 데이터의 내용에 따라 오류율의 차이가 있는지 살펴보았다.

본 논문의 구성은 다음과 같다. 2장에서 음성인식 기술에 대한 개요 및 성능 평가 방법을 설명하고, 3장에서 관련 연구를 소개한다. 4장에서 사용한 음성 데이터와 실험 방법 그리고 실험 결과를 설명한다. 마지막으로 5장에서 본 논문의 결론을 맺는다.

2. 음성인식 기술

본 장에서는 음성인식 기술과 본 논문에서 사용한 성능 평가 방법을 설명한다.

2.1 음성인식 기술 개요

음성인식은 “음성으로부터 언어적 의미 내용을 자동으로 식별하는 것으로, 보다 구체적으로는 음성 파형을 입력하여 단어나 단어열을 식별하고 의미를 추출하는 처리 과정이다.”⁽¹⁾

그림 1에서 볼 수 있듯이 음성인식 기술은 주로 음향모델, 언어모델, 디코더(Decoder)로 구성된다. 음성신호는 음성 발화 환경, 음성 전달 매체 등의 형태에 따라 다양한 특징을 보이는데 일반적으로 잡음, 음향간섭 등으로 음성신호의 특징이 왜곡되는 경우 음성인식의 성능이 크게 저하된다. 왜곡된 음성신호의 특징을 개선하기 위한 전처리 기술에는 음성신호 저장, 잡음 제거, 음성 특징 파라미터 추출 등의 기술이 있다. 음향모델은 음성인식 기술의 기초이자 가장 핵심적인 역할로, 음성을 인식하고 글자로 변환하는 일을 한다. 다시 말해, 음성신호의 특징을 추출한 음성 데이터가 입력되면 문자를 출력한다. 언어모델은 특정 단어열이 주어졌을 때 단어별로 분해를 한 후, 이전 단어들로부터 다음에 나올 단어들의 확률을 예측하는 모델이다. 단어를 구분하는 단위는 형태소, 어절, 음절이 있다. 디코더는 음성에 대해 음향모델, 언어모델, 발음사전, 어휘사전 등으로 생성된 탐색 네트워크에서 가장 최적의 경로를 찾아 단어열을 예측한다. 디코딩 네트워크의 기술로는 Lexical Tree 기반 Search와 Weighted Finite State Transducer의 두 가지 방법이 있다⁽²⁾.

그림. 1. 음성인식 기술

Fig. 1. Speech recognition technology

음성인식 분야 중 STT(Speech To Text)는 사람의 음성을 기계적인 알고리즘을 통해 텍스트로 변환하는 기술이다. 최근에는 STT를 위한 음성인식 엔진으로 딥러닝(Deep Learning) 기반의 음향모델과 언어모델을 이용해 음성인식의 정확도를 높이고 있으며, 전통적으로 사용되는 HMM(Hidden Markov Model) 이외에도 DNN(Deep Neural Network), RNN(Recurrent Neural Network) 기법 등이 사용되고 있다⁽³⁾.

2.2 성능 평가 방법

성능 평가 방법으로 편집 거리(Levenshtein distance) 기반으로 만들어진 WER과 CER이 있다. WER은 두 개의 문장을 단어(Word) 단위로 비교한다. 치환(Substitution)된 단어 개수를 $S_{w}$, 삭제(Deletion)된 단어 개수를 $D_{w}$, 삽입(Insertion)된 단어 개수를 $I_{w}$, 기준이 되는 문장의 전체 단어 개수를 $| W |$로 정의하면, WER은 식(1)과 같이 나타낼 수 있다.

(1)

$WER=\dfrac{S_{w}+D_{w}+I_{w}}{| W |}\times 100$

CER은 WER과 비슷하지만 두 개의 문장을 단어 단위가 아닌 문자(Character) 단위로 비교한다는 점에서 차이가 있다. 치환된 문자 개수를 $S_{c}$, 삭제된 문자 개수를 $D_{c}$, 삽입된 문자 개수를 $I_{c}$, 기준이 되는 문장의 전체 문자 개수를 $| C |$로 정의하면, CER은 식(2)와 같이 나타낼 수 있다.

(2)

$CER=\dfrac{S_{c}+D_{c}+I_{c}}{| C |}\times 100$

WER과 CER의 값이 클수록 원본 문장과 음성인식 결과 문장의 차이가 크다는 것을 나타내며 이는 음성인식의 성능이 좋지 않음을 의미한다. 일반적으로 CER의 비교 단위가 작아 WER에 비해 오류율이 낮다.

본 논문에서는 원본 문장과 음성인식 결과 문장에 대해 WER과 CER을 이용하여 측정한 오류율을 통해 음성인식 API의 성능을 비교하였다.

3. 관련 연구

본 장에서는 선행 연구에서 수행된 여러 음성인식 API들의 성능 비교 결과를 살펴본다.

⁽⁴⁾에서는 구글, 네이버, 카카오 음성인식 API의 성능을 비교하였다. 실험 당시 카카오 API가 모바일 애플리케이션 개발 환경만 지원하여 입력 장치는 스마트폰으로 사용하였다. 실험은 잡음이 적은 한 공간에서 API 종류별로 0부터 19까지 한국어 숫자 20단어, ‘가’부터 ‘하’까지 14개의 음절, 모바일에서 많이 쓰이는 명령 문장 2개를 각각 10회씩 발성하여 테스트를 진행하였다. 오인식률은 인식이 잘못된 발성 개수를 전체 발성의 수로 나누어 계산하였다. 실험 결과는 표 1과 같으며, 카카오 API가 대체로 좋은 성능을 보였다.

표 1. 구글, 네이버, 카카오 API 성능 비교 (오류율)

Table 1. Performance comparison of Google, Naver, and Kakao APIs (Error rate)

API	Google	Naver	Kakao
Number	34%	17%	1.5%
Hangul	52.14%	24.28%	32.85%
Sentence	2%	0%	0%

⁽⁵⁾에서는 성별, 나이, 표준어, 방언에 따른 구글, 네이버, 카카오 음성인식 API의 성능을 비교하였다. 각 음성인식 API를 활용하여 모바일 애플리케이션을 구현하였고, 음성 데이터는 소음이 30db 이하인 환경에서 실시간 육성 발화를 수집하여 사용하였다. 총 4개의 빈칸이 있는 정해진 문장 구조를 10대부터 50대까지 각각 4명씩 발화하였으며, 음성인식 API가 인식한 결과를 원래 발화문과 띄어쓰기, 받침, 조사, 단어 관점에서 비교하였다. 표 2는 표준어 인식 실험에서 각 API 별로 틀린 개수이며, 네이버 API의 성능이 상대적으로 좋게 평가되었음을 알 수 있다.

표 2. 표준어를 이용한 성능 비교 (틀린 개수)

Table 2. Performance comparison using the standard language (Number of incorrect answers)

API	Google	Naver	Kakao
Word Spacing	13	9	26
Final Consonant	12	3	10
Postposition	0	1	4
Word	6	6	16

⁽²⁾에서는 구글, 네이버, 카카오, ETRI, AWS, Azure, IBM 음성인식 API를 기본 옵션을 사용하여 비교하였다. 음성 데이터로는 공용방송 3사(KBS, MBC, SBS)의 뉴스를 10개의 분야(문화, 경제, 부동산, 의료, 군사, 정치, 과학, 사회, 스포츠, 날씨)로 구분하여 분야별 15개, 총 150개의 음성 데이터를 수집하여 사용하였다. WER을 이용하여 정확도를 측정하였으며, 정확도는 식(3)과 같이 계산하였다. 실험 결과는 표 3과 같으며, 카카오 API가 가장 좋은 성능을 보였다.

(3)

$Accuracy=(1-\dfrac{S_{w}+D_{w}+I_{w}}{| W |})\times 100$

표 3. 뉴스 음성 데이터 인식 정확도 비교

Table 3. News speech data recognition accuracy comparison

API	Google	AWS	Azure	IBM
Accuracy	76.76%	91.31%	91.27%	70.94%
API	Naver	Kakao	ETRI
Accuracy	85.99%	94%	90.27%

⁽⁶⁾에서는 10가지 음운 규칙에 따라 음성인식 API의 성능을 비교하였다. 음성 데이터로는 음운 규칙 당 10개의 문장씩 총 100개의 문장에 대해 5명의 남녀가 녹음한 것을 사용하였다. 음성인식 API로는 ⁽²⁾와 동일하게 구글, 네이버, 카카오, ETRI, AWS, Azure, IBM을 고려하였다. WER을 기준으로 전체 단어 그리고 음운 규칙이 적용되는 단어 두 가지 경우에 대해 성능을 비교하였다. 실험 결과는 표 4, 5에 정리하였으며, 카카오 API의 성능이 가장 우수함을 확인할 수 있다.

표 4. 전체 단어에 대한 인식 오류율

Table 4. Recognition error rate for whole words

API	Google	AWS	Azure	IBM
WER	10.2%	15.78%	8.09%	44.38%
API	Naver	Kakao	ETRI
WER	19.02%	8.28%	13.4%

표 5. 음운 규칙이 적용되는 단어들에 대한 인식 오류율

Table 5. Recognition error rate for words to which phonological rules are applied

API	Google	AWS	Azure	IBM
WER	26.4%	36%	25%	71.2%
API	Naver	Kakao	ETRI
WER	34.2%	18%	32%

한편, 소음이 있는 환경에서 외국어 음성인식에 대한 성능평가 연구로 ⁽⁷⁾에서는 4가지 소음 정도를 기준으로 수집한 TV 사용과 관련된 포르투갈 음성 데이터를 이용하여 Bing, 구글, Nuance의 성능을 비교하였으며, 구글 API의 성능이 가장 우수함을 보였다. ⁽⁸⁾에서는 기계를 대상으로 하는 독일어 음성 데이터를 사용하여 구글 Cloud, 구글 Web, IBM, Wit.ai의 성능을 비교하였으며, 구글 Cloud API의 성능이 가장 우수함을 보였다.

이상에서 살펴본 바와 같이 다양한 음성 데이터를 사용하여 상용 음성인식 API의 성능을 비교한 연구가 꾸준히 있어 왔지만, 한국어의 경우 소음이 없는 환경에서 녹음된 소규모의 음성 데이터에 대한 비교 연구가 주를 이루었다. 이와 달리, 본 논문에서는 소음이 있는 환경에서 녹음된 총 4,017개의 한국어 음성 데이터를 이용하여 주요 상용 음성인식 API의 성능을 비교하였다.

4. 실험 및 성능 평가

본 장에서는 실험에 사용한 음성 데이터를 간략히 소개하고, 데이터 선별 및 실험 방법과 실험 결과에 대해 설명한다.

4.1 실험에 사용한 음성 데이터

소음이 있는 환경에서 여러 상용 음성인식 API의 성능을 비교하기 위해 AI 허브에 공개된 ETRI에서 제공하는 음성 데이터 중 다채널 잡음처리 기술 개발 및 평가용 데이터를 사용하였다. 이 데이터는 2~30대 성인 남녀 50명을 대상으로 각각 101개의 발화를 수집한 데이터이다. 성별의 비율은 같고 표준 발음을 사용하는 사람들로 구성되어 있다. 잡음원은 뉴스, 음악으로 구성되어 있으며, 2m 거리에 1~2개의 잡음원을 사용하였다. 발화는 8개의 마이크를 사용하여 정면 1m 거리에서 25명, 45° 우측 1m 거리에서 25명의 화자가 발성한 것을 녹음하였다. 수집 장비로 마이크는 TURNER TP-841, 믹서는 OctaMic-D 8Ch, 사운드 카드는 SB Audigy2, PC는 Intel Pentium® D CPU 3.0GHz를 사용하였으며, 가정집 거실에서 녹음되었다.

50명의 음성 데이터는 그림 2와 같이 음성 데이터의 내용을 기준으로 5개의 패턴으로 나뉜다. 패턴은 일종의 데이터 묶음이며 녹음 내용만 다를 뿐 형식상의 차이는 없다. 또한, 각 패턴은 2~5글자의 짧은 명령어, 2~7글자의 지명, 3글자의 인명, 2~7개의 단어로 이루어진 긴 문장으로 총 4가지 타입으로 구성되어 있다. 예를 들어 각 패턴의 첫 번째 음성 데이터의 내용을 살펴보면 패턴 1은 “검색해줘”, 패턴 2는 “가동해”, 패턴 3은 “걸어줘”, 패턴 4는 “가져와”, 패턴 5는 “감시해”와 같이 패턴마다 다른 내용으로 녹음이 되어 있다.

그림. 2. 데이터 개요

Fig. 2. Data Overview

4.2 음성 데이터 선별

음성 데이터를 분석한 결과, 표 6과 같이 패턴을 기준으로 화자의 성별과 화자의 위치에 대해 불균등한 분포를 보이는 것을 확인하였다. 따라서 전체 음성 데이터 중 패턴마다 남성과 여성, 전면과 측면의 비율이 같아지도록 8명씩 임의로 선택하여 총 40명의 음성 데이터를 사용하였다. 선별된 40명의 음성 데이터는 총 4,017개이며, 본 논문에서는 4,017개의 데이터를 모두 사용하여 성능을 비교하였다.

표 6. 음성 데이터 분포

Table 6. Speech data distribution

Pattern	1		2		3		4		5
Gender	M	W	M	W	M	W	M	W	M	W
Front	2	3	3	2	2	3	3	2	2	3
Side	2	2	3	3	2	2	2	3	2	3
Total	4	5	6	5	4	6	5	5	4	6

한편 녹음을 위해 사용된 8개의 마이크 중 인식률이 가장 낮은 마이크를 선별하기 위해 임의로 한 명의 인원(패턴 1, 여성, 전면)의 음성 데이터를 선정하여 오류율을 측정하였다. 마이크당 101개의 발화로 총 808개의 발화에 대해 카카오 API를 이용해 음성인식을 진행하였으며, 인식 결과에 대해 CER을 이용하여 오류율을 계산하였다. 비교한 결과는 그림 3과 같다.

그림. 3. 마이크별 측정 결과

Fig. 3. Performance measurement result for each microphone

성능 측정 결과 3번 마이크로 녹음한 음성 데이터의 오류율이 가장 높았으며, 위의 결과를 통해 3번 마이크의 인식률이 가장 낮은 것을 확인하였다. 본 논문에서는 소음 환경에서의 성능 비교를 명확히 하기 위해 3번 마이크로 녹음한 음성 데이터를 사용하여 음성인식 API의 성능을 비교하였다.

4.3 음성 데이터 선별

본 논문에서는 구글, 네이버, 카카오, AWS, Azure 음성인식 API의 성능을 비교하였다. 각 음성인식 API의 한국어 모델을 사용하였고, 각 API가 제공하는 라이브러리를 사용하였다. 기존 raw 형식의 파일을 wav 파일로 변환하여 실험을 진행하였다. 선별한 음성 데이터를 각 API를 통해 문장으로 변환한 결과와 정답 문장에 대해 WER과 CER을 이용하여 오류율을 계산하고 그 성능을 비교하였다.

4.4 사전 실험

본 실험에 앞서 임의의 음성 데이터 셋을 선정하여(패턴 2, 여성, 전면, 3번 마이크), API별로 5번씩 오류율을 측정하여 실험 횟수에 따라 오류율에 차이가 있는지 확인하였다. 그림 4와 그림 5는 그 결과를 그래프로 나타낸 것이다. 실험 결과 모든 API가 오류율에 큰 변화를 보이지 않았으며, 따라서 이후 성능 분석에서는 반복 실험을 진행하지 않고 API의 성능을 비교, 분석하였다.

그림. 4. 5번 반복 실험에 따른 상자 그림 (WER)

Fig. 4. Boxplot for 5 repeated experiments (WER)

그림. 5. 5번 반복 실험에 따른 상자 그림 (CER)

Fig. 5. Boxplot for 5 repeated experiments (CER)

4.5 사전 실험

그림 6은 전체 음성 데이터에 대해 API별 음성인식 오류율을 측정한 결과이다. 소음이 있는 환경에서 오류율이 가장 높은 API는 AWS API로 WER 측정 결과 92%, CER 측정 결과 54%를 보였다. 오류율이 가장 낮은 API는 구글 API로 WER 측정 결과 53%, CER 측정 결과 18%로 가장 좋은 성능을 보였다.

그림. 6. API별 오류율

Fig. 6. Error rate by API

그림 7은 화자의 성별에 따른 API별 오류율을 비교한 결과이다. 위쪽 그래프는 WER을 사용하여 측정한 결과이고, 아래쪽 그래프는 CER을 사용하여 측정한 결과이다. 소음이 있는 환경에서 대부분의 API는 여성의 음성 데이터를 사용하였을 때 더 높은 오류율을 보였지만, AWS API는 남성의 음성 데이터를 사용하였을 때 더 높은 오류율을 보였다.

그림. 7. 성별에 따른 오류율

Fig. 7. Error rate by gender

그림 8은 마이크 위치에 따른 API별 오류율을 비교한 결과이다. 위쪽 그래프는 WER을, 아래쪽 그래프는 CER을 사용하여 측정한 결과이다. 측정 결과 AWS API는 정면에서 녹음한 음성 데이터를 사용하였을 때 더 높은 오류율을 보였고, 다른 API들은 측면에서 녹음한 음성 데이터를 사용하였을 때 더 높은 오류율을 보였다.

그림. 8. 마이크 위치에 따른 오류율

Fig. 8. Error rate by microphone position

그림 9와 10은 음성 데이터의 내용에 따라 API별 오류율을 비교한 것이다. 타입 1은 2~5글자의 짧은 명령어, 타입 2는 2~7글자의 지명, 타입 3은 3글자의 인명, 타입 4는 2~7개의 단어로 이루어진 긴 문장이다. 소음이 있는 환경에서 인명, 지명과 같은 고유명사가 있는 경우 오류율이 높게 측정되었다. 또한 문장의 길이가 짧은 경우 오류율이 높게 측정되었으며, 문장의 길이가 긴 경우 오류율이 낮게 측정되었다. 구글 API의 경우 인명과 지명이 있는 음성 데이터에서 다른 API에 비해 크게 낮은 오류율을 보였다.

그림. 9. 내용에 따른 오류율 (WER)

Fig. 9. Error rate by content (WER)

그림. 10. 내용에 따른 오류율 (CER)

Fig. 10. Error rate by content (CER)

4.6 실험 결과에 대한 분석 및 토의

끝점 검출(endpoint detection)이란 음성의 시작과 끝을 찾는 것인데⁽⁹⁾ 일반적으로 주변에 소음이 존재하는 환경에서는 끝점 검출이 어렵다. 본 연구에서의 실험 결과, 문장의 끝을 잘 인식하지 못해 오류율이 전체적으로 높게 측정된 것으로 보인다. 한편 음성 데이터의 문장 길이가 짧을수록 문장의 끝을 못 찾았을 때 오류율이 크게 측정된다. 따라서 긴 문장보다 짧은 문장의 음성인식 오류율이 높게 측정되었음을 확인할 수 있었다.

⁽¹⁰⁾에서는 남성과 여성의 음향학적 차이에 주목하였는데, 주파수 스펙트럼에서 여성이 남성보다 평균 스펙트럼이 고주파 쪽으로 편향되게 측정되었다. 이를 이용하여 성별에 따른 오류율을 분석하였을 때 AWS API는 저주파의 인식률이 더 낮은 것을 알 수 있었고, 다른 API들은 고주파의 인식률이 더 낮은 것을 알 수 있었다.

한편 모바일 환경에서 구글 어시스턴트의 음성인식 기능으로 수집된 음성 데이터가 많아 인명, 지명이 있는 음성 데이터를 사용하였을 때 다른 API보다 구글 API가 낮은 오류율을 보이며, 성능 또한 좋게 측정된 것으로 추측된다.

그림 11은 본 연구의 결과와 기존 연구 결과를 WER을 기준으로 비교한 것이다. 2020_Not_Noisy는 ⁽²⁾의 연구 결과이고 2021_Not_Noisy는 ⁽⁶⁾의 연구 결과이다. 기존 연구 결과와 비교해봤을 때 본 연구에서 측정한 음성인식 오류율이 현저히 높은 것을 확인할 수 있다. 따라서 실생활에서 음성인식 서비스가 널리 활용되기 위해서는 소음이 있는 환경에서도 음성인식이 잘 될 수 있도록 추가적인 보완장치가 필요할 것으로 사료된다.

그림. 11. 기존 연구 결과와의 비교 (WER)

Fig. 11. Comparison with previous work’s results (WER)

5. 결 론

본 논문에서는 소음이 있는 환경에서 구글, 네이버, 카카오, AWS, Azure 총 5개의 음성인식 API의 성능을 WER과 CER을 이용하여 비교, 평가하였다. 또한 화자의 성별, 화자의 위치, 음성 데이터의 내용에 따라 음성인식 API의 성능에 차이가 발생하는지 비교하였다. 5개의 음성인식 API에 대한 성능 평가 결과 AWS API가 오류율이 가장 높았고, 구글 API의 오류율이 가장 낮았다. AWS API를 제외하면 남성의 음성 데이터를 사용하였을 때보다 여성의 음성 데이터를 사용하였을 때 오류율이 조금 더 높았다. AWS API는 정면에서 녹음한 음성 데이터를 사용하였을 때 오류율이 조금 더 높았으며 다른 API들은 측면에서 녹음한 음성 데이터를 사용하였을 때 오류율이 조금 더 높았다. 음성 데이터의 내용 중 인명, 지명과 같은 고유명사가 있을 경우 오류율이 높게 측정되었으며, 문장길이가 짧을수록 오류율이 높게 측정되었다. 따라서 음성인식 API가 실제 소음이 있는 환경에서 활용되기 위해서는 성별과 위치에 따른 인식률 차이를 보완하고 고유명사가 들어간 문장이나 짧은 문장을 잘 인식할 수 있도록 개선할 필요가 있다. 한편 실험 결과를 바탕으로 볼 때 소음이 있는 환경에서는 다른 음성인식 API보다는 구글 음성인식 API를 사용하는 것이 현재는 더 좋은 선택인 것으로 사료된다.

Acknowledgements

This work was supported by the National Research Foundation of Korea (NRF) grant funded by the Korea government (MSIT) (No. 2020R1A4A3079947) and the Institute for Information \& communications Technology Planning \& Evaluation (IITP) grant funded by the Korea government (MSIT) (No. 2022-0-01196, Regional strategic Industry convergence security core talent training business).

References

Telecommunications Technology Association (TTA), Information and Communication Glossary, , http://terms.tta.or.kr/dictionary/ dictionaryView.do?word_seq=097616-1

H. J. Yoo, M. W. Kim, S. K. Park, K. Y Kim, 2020, Comparative Analysis of Korean Continuous Speech Recognition Accuracy by Application Field of Cloud-Based Speech Recognition Open API, The Journal of Korean Institute of Communications and Information Sciences, Vol. 45, No. 10, pp. 1793-1803

S. Y. Min, K. H. Lee, D. S. Lee, D. Y Ryu, 2020, A Study on Quantitative Evaluation Method for STT Engine Accuracy based on Korean Characteristics, Journal of the Korea Academia-Industrial cooperation Society, Vol. 21, No. 7, pp. 699-707

S. J. Choi, J. B Kim, 2017, Comparison analysis of speech recognition open APIs’ accuracy, Asia-pacific journal of multimedia services convergent with art, humanities, and sociology, Vol. 7, No. 8, pp. 411-418

H. K. Roh, K. H Lee, 2017, A Basic Performance Evaluation of the Speech Recognition APP of Standard Language and Dialect using Google, Naver, and Daum KAKAO APIs, Asia-pacific Journal of Multimedia Services Convergent with Art, Humanities, and Sociology, Vol. 7, No. 12, pp. 819-829

H. J. Yoo, S. Seo, S. W. Im, G. Y Gim, 2021, The performance evaluation of continuous speech recognition based on Korean phonological rules of cloud-based speech recognition open API, International Journal of Networked and Distributed Computing, Vol. 9, No. 1, pp. 10-18

P. Beça, J. Abreu, R. Santos, A Rodrigues, 2018, Evaluating the performance of ASR systems for TV interactions in several domestic noise scenarios, In Iberoamerican Conference on Applications and Usability of Interactive TV Springer, Springer, Cham, pp. 162-175

I. Siegert, Y. Sinha, O. Jokisch, A Wendemuth, 2020, Recognition performance of selected speech recognition APIs – A longitudinal study, In International Conference on Speech and Computer. Springer, Cham, pp. 520-529

T. Zhang, Y. Shao, Y. Wu, Y. Geng, L Fan, 2020, An overview of speech endpoint detection algorithms, Applied Acoustics, 160, 107133

C. Y Lee, 2010, Comparison of Male/Female Speech Features and Improvement of Recognition Performance by Gender- Specific Speech Recognition, The Journal of the Korea Institute of Electronic Communication Sciences, Vol. v.5, No. 6, pp. 568-574

저자소개

이건희 (Geonhui Lee)

He received the B.S. (2022) degree in Computer Science from Kangwon National University. He is currently an M.S. student in the Department of Convergence Security at Kangwon National University. His research interests include machine learning, speech recognition, programming languages, and software engineering.

이상화 (Sanghwa Lee)

He received the B.S. (2021) degree in Computer and Communications Engineering from Kangwon National University. He is currently an M.S. student in the Department of Convergence Security at Kangwon National University. His research interests include machine learning, speech recognition, software security, and software engineering.

지수환 (Suhwan Ji)

He received the B.S. (2017) and M.S. (2019) degrees in Computer Science from Kangwon National University. He is currently a Ph.D. student in the Interdisciplinary Graduate Program in Medical Bigdata Convergence at Kangwon National University. His research interests include machine learning, deep learning, program languages, blockchain, and software engineering.

김아욱 (Auk Kim)

He received the B.S. degree in Computer Science from University of Canterbury in 2011 and the Ph.D. degree in Knowledge Service Engineering from KAIST in 2020. From 2020 Mar. to Aug, he continued his studies at KAIST as a Postdoctoral Researcher. He is currently an Assistant Professor with the Department of Computer Science and Engineering, Kangwon National University. His research interests include Human-Computer Interaction, Ubiquitous Computing and “Understanding and Designing Human Interactions with Artificial Intelligence Systems”.

임현승 (Hyeonseung Im)

He received the B.S. degree in Computer Science from Yonsei University in 2006 and the Ph.D. degree in Computer Science and Engineering from POSTECH in 2012. From 2012 to 2015, he was a Postdoctoral Researcher with the Laboratory for Computer Science at Paris-Sud University and with the Tyrex team, Inria, France. He is currently an Associate Professor with the Department of Computer Science and Engineering, Kangwon National University. His research interests include programming languages, logic in computer science, big data analysis and management, machine learning, smart healthcare, blockchain, and information security.

KIEEThe Transactions of
the Korean Institute of Electrical Engineers

The Transactions of the Korean Institute of Electrical Engineers

ISO Journal TitleTrans. Korean. Inst. Elect. Eng.

Journal Search

Journal XML

Journal Information

소음 환경에서 상용 음성인식 API의 성능 비교

Abstract

Key words

1. 서 론

2. 음성인식 기술

2.1 음성인식 기술 개요

2.2 성능 평가 방법

(1)

(2)

3. 관련 연구

(3)

4. 실험 및 성능 평가

4.1 실험에 사용한 음성 데이터

4.2 음성 데이터 선별

4.3 음성 데이터 선별

4.4 사전 실험

4.5 사전 실험

4.6 실험 결과에 대한 분석 및 토의

5. 결 론

Acknowledgements

References

저자소개

이건희 (Geonhui Lee)

이상화 (Sanghwa Lee)

지수환 (Suhwan Ji)

김아욱 (Auk Kim)

임현승 (Hyeonseung Im)

Article Information (continued)

Key words

KIEEThe Transactions ofthe Korean Institute of Electrical Engineers

The Transactions of the Korean Institute of Electrical Engineers

ISO Journal TitleTrans. Korean. Inst. Elect. Eng.

Journal Search

Journal XML

Journal Information

소음 환경에서 상용 음성인식 API의 성능 비교

Abstract

Key words

1. 서 론

2. 음성인식 기술

2.1 음성인식 기술 개요

2.2 성능 평가 방법

(1)

(2)

3. 관련 연구

(3)

4. 실험 및 성능 평가

4.1 실험에 사용한 음성 데이터

4.2 음성 데이터 선별

4.3 음성 데이터 선별

4.4 사전 실험

4.5 사전 실험

4.6 실험 결과에 대한 분석 및 토의

5. 결 론

Acknowledgements

References

저자소개

이건희 (Geonhui Lee)

이상화 (Sanghwa Lee)

지수환 (Suhwan Ji)

김아욱 (Auk Kim)

임현승 (Hyeonseung Im)

Article Information (continued)

Key words

KIEEThe Transactions of
the Korean Institute of Electrical Engineers