텍스트 음성 변환이란 무엇입니까? 진화론, 사례 연구, 로봇과의 협업에 대해 생각했습니다

안녕하세요, 저는 다카덴샤 영업부의 미쓰이 씨입니다. 텍스트 음성 변환 소프트웨어에 대해 들어본 적이 있습니까?
일반적으로 텍스트 음성 변환을 들었을 때 가장 먼저 떠오르는 것은 애니메이션의 전형적인 로봇이나 팬 앞에서 "우리는 외계인입니다"라고 말할 때의 목소리입니다 (적어도 저에게는 그랬습니다).

그러나 최신 텍스트 음성 변환을 들으면 마치 사람이 실제로 말하고 있는 것처럼 들립니다.
e-러닝 자료로 채택되는 수준까지 품질이 향상되었다는 점도 납득할 수 있습니다.

"Google Assistant" 또는 "Siri"와 같은 스마트폰에 익숙하다면 특정 트리거 단어를 말한 다음 어시스턴트에게 질문을 하면 음성으로 대답합니다. 그 목소리는 텍스트 음성 변환 기술의 결과입니다. 같은 방식으로 현재 주목을 받고있는 'Google Home'이나 'Amazon Echo'와 같은 스마트 스피커에도 사용되고 있다는 것을 아시는 분도 계실 것입니다.

시내에서는 금융기관의 ATM에서 음성 안내를 들을 수 있는 기회와 기차역에서 방송을 들을 수 있는 기회가 점점 더 많아지고 있습니다. 높은 품질과 평소 무의식적으로 듣는다는 사실로 인해 이것이 실제로 텍스트 음성 변환이라는 것을 인식하지 못할 수도 있습니다.
또, 최근의 음성 합성에서는, 최첨단의 AI 기술인 「딥 러닝」을 구사해, 자신의 목소리를 분석해, 말하는 것처럼 재생하는 기술이 등장하고 있습니다. 기술의 발전은 정말 놀랍습니다!

우리는 또한 이 음성 합성을 "J-SERVER Guidance, 다국어 자동 번역 음성 합성 시스템"이라는 솔루션에서 사용합니다. 처음에는 홋카이도의 외국인에게 인기있는 관광지와 외국인 취지 지역의 지자체에서 방재 행정 라디오 (주민에게 방송하는 광역 방송)로 소개되었습니다.
오늘날에는 그 용도가 확대되어 상업 시설에서 재해가 발생했을 때 대피 지시 방송에도 사용됩니다. 이용 장면은 점점 확대되고 있으며, 향후 2020년 인바운드 지원이나 이벤트에 대비하기 위해 호텔, 여관, 대중 교통으로 확대할 전망이다.

외국어의 필요성이 높아지고 있는 가운데, 옛날부터 인력 부족이 있어, 로봇이 접객에 대응하는 상황이 늘어나고 있는 것 같습니다. 이는 10년 전만 해도 흔했던 로봇처럼 말을 하지 않는 로봇이 활동하고 있다는 것을 의미합니다!
그런 시대가 바로 코앞으로 다가왔을지도 모릅니다. 우리 회사의 로봇의 목소리를 시내나 관광지에서 들을 수 있기를 기대하고 있으며, 열심히 일하겠습니다.