마이크로소프트가 밀려라니? AI 발성, 중국 스타트업이 최고라?
최근 인공지능 분야에서 의외의 결과가 주목받고 있습니다. 우리 일상 속에 자연스럽게 녹아들어 있는 AI 목소리, 특히 텍스트를 소리로 변환하는 기술인 TTS 서비스가 큰 관심을 모았습니다. 하지만 알고 계십니까? 우리가 흔히 믿고 있는 주요 빅테크 기업들의 AI 목소리가 오히려 전문 스타트업들에게 밀리고 있다는 조사 결과가 발표되었습니다. 이는 그동안의 상식을 뒤바꿀 만큼 의미 있는 소식입니다.
1 만 명 이상의 참여자를 모으는 대규모 연구 진행
에스토니아 기반의 스타트업인 발크 이미지 (Vocal Image) 가 주도한 이번 연구는 정말 흥미로웠습니다. 단순히 기기의 성능이나 기술적 스펙을 비교하는 것이 아니라, 사람이 목소리를 얼마나 자연스럽게 받아들이는지 중점을 두었습니다. 총 1 만 5 천 명 이상의 참여자가 참여하여 단 한 달간 다양한 모델을 평가했습니다. 이들은 앞부터 AI 목소리인지 인간 목소리인지 모른 채 다양한 목소리를 듣고 반응했으니, 매우 객관적인 평가를 얻을 수 있었습니다. 좋아요, 싫어요, 스킵 등 반응을 측정했을 뿐 아니라, 목소리의 18 가지 특성을 분석했는데요.
가장 큰 발견은 바로 “신뢰”와 연결되었습니다. 사람들이 목소리가 AI 로 생성된 사실을 알아차리는 순간, 그 목소리에 부여했던 신뢰가 급격히 떨어지는 경향이 있었습니다. 연구진은 이걸 “인식과 부정적인 연동”으로 표현했습니다. 즉, “이게 AI 목소리구나”라는 생각이 들자마자 사람들은 그 목소리를 마음에 두고 싶지 않고, 오히려 거부감이나 피로감을 느끼는 경향이 뚜렷했습니다. 이는 AI 의 진보 속에서도 인간 심리의 본능이 작동하고 있음을 보여줍니다.
중국 스타트업 미니맥스, 빅테크를 압도하다
이 연구에서 가장 놀라운 점은 순위입니다. 중국 기반의 스타트업 미니맥스 (MiniMax) 가 영국과 미국 사용자의 표를 모두 얻어 1 위를 차지했습니다. 반면 마이크로소프트, 구글, 아마존 같은 글로벌 빅테크 기업들은 그 뒤를 뒤늦게 따라가는 모습이었습니다. 영국 사용자가 미국 사용자보다 AI 목소리를 13 퍼센트 더 잘 구분해 내는 편이었지만, 그렇다고 해서 미니맥스를 더 잘 알아본 것은 아니었습니다. 유럽 사용자는 AI 목소리를 전반적으로 더 잘 받아 들였다는 점도 흥미롭습니다. 이 결과로 볼 때, 기술적 정확도보다 사용자의 정서적 반응이 중요하다는 것을 알 수 있습니다.
왜 미니맥스가 가장 신뢰받을까?
이 배경에는 “전문성”의 차이가 있었습니다. 연구의 공동 기획한 부스 (CEO) 가 밝힌 바에 따르면, 대형 기술 기업들의 모델은 날씨 예보처럼 넓은 범위의 수평적인 수요에 맞춰 “충분하다”는 수준으로 제작되었습니다. 하지만 고객 서비스 상담이나 언어 치료, 교육처럼 결과가 크게 달리는 “고위험 상황”에서는 억양과 리듬, 즉 목소리의 정서적 뉘앙스가 핵심입니다. 예를 들어 에스토니아어 숫자를 발음하는 경우를 들 수 있습니다. 과거 마이크로소프트 모델을 테스트했을 때 에스토니아어 숫자를 적절히 발음하지 못했던 경험을 공유합니다. 뉴스 방송에서 숫자가 틀릴 수는 없죠. 이러한 “마지막 한 마일”의 품질 문제는 대기업들이 수평적인 규모 확보에만 집중하다 보니 놓치기 쉽습니다. 반면, 미니맥스 같은 스타트업은 특정 산업의 니즈에 맞춰 최적화된 시스템을 구축했습니다. 이런 정밀한 접근이 사용자의 신뢰를 얻는 이유가 될 수 있습니다.
사용자가 느끼는 변화와 AI 의 진전
연구에는 사용자들이 AI 목소리를 “선호”하는지에 대한 해석도 담겨 있습니다. 연구진은 단순히 AI 목소리를 더 좋아한다는 것이 아니라, 66 퍼센트의 사용자가 AI 목소리가 가짜임을 전혀 구분하지 못했다는 점을 강조했습니다. 이는 기술 자체의 완성도가 높아졌음을 보여줍니다. 사람들은 사람의 느낌을 살리는 게 아니라, 사실을 빠르게 얻기를 원할 때가 많습니다. 1.5 배로 속도 내는 영상 속에서도 AI 가 제공하는 깨끗하고 명확한 정보는 오히려 선호되죠. 즉, 사용자들의 AI 목소리에 대한 혐오감이 줄어들고 적응이 되고 있다는 뜻입니다.
미래의 방향성, 신뢰가 곧 경쟁력
이 결과는 AI 비즈니스를 하는 우리에게 중요한 시사점을 줍니다. 단순히 AI 기술을 도입한다고 해서 좋은 경험이라는 보장이 없습니다. 고객 서비스나 고객 응대 시스템에 AI 를 도입할 때, 그 목소리가 신뢰를 주는가는 브랜드 이미지를 결정하는 핵심 요소가 됩니다. 전문가들은 앞으로 빅테크가 이 격차를 메우기 위해 인수합병을 늘려갈 것이라 예측합니다. 스타트업은 특정 상황에서 더 깊은 전문성을 보여줄 수 있는 여지가 있습니다. 앞으로의 시장에서는 “규모”보다 “정확한 신뢰”가 더욱 중요해질 것 같습니다. 사용자 경험을 깨뜨리지 않으면서도, AI 가 주는 친근함과 신뢰를 동시에 갖는 목소리를 선택하는 것이 성공의 열쇠가 될 것입니다. 결국 AI 는 도구일 뿐, 그 뒤에 선 브랜드와 기업의 진정성이 모든 걸 결정한다는 사실을 잊지 말아야 합니다.
이 글은 Latest from TechRadar의 기사를 바탕으로 작성되었습니다.
