버티컬로 진화하는 음성: 산업 특화 음성 AI가 차세대 킬러 앱이 되는 방법

요약:

  • 음성 AI 에이전트의 시대가 오고 있습니다. LLM과 음성 인프라의 발전으로 이제 음성 에이전트는 명확하게 소통하고, 의도를 파악하며, 실제로 업무를 수행할 수 있는 수준에 도달했습니다.
  • 음성 에이전트는 깊이 있는 도메인 데이터를 활용할 수 있고, 실시간 상호작용이 많으며, 오탐지(false positive)로 인한 비용이 비교적 낮은 '버티컬' 즉, 특정 산업 분야에서 가장 큰 영향력을 발휘할 수 있다고 생각합니다.
  • 홈 서비스, 보험, 대출 관리, 자동차 딜러 등 여러 분야에서 새로운 음성 AI 에이전트가 등장하고 있습니다!

얼마 전까지만 해도 음성 비서는 날씨를 확인하거나 노래를 재생하는 데 주로 사용되는 성가신 챗봇 정도로 여겨졌습니다(오늘날 Siri를 사용하는 것조차 번거로울 때가 있죠). 하지만 상황은 빠르게 변했습니다. LLM과 정교한 음성 인프라의 등장으로, AI 에이전트는 이미 고객 서비스부터 복잡한 기업용 애플리케이션에 이르기까지 다양한 기업 환경에 도입되고 있습니다. 이는 지난 세대의 음성 혁신이 감당할 수 없었던 속도로 산업계에 빠르게 침투하고 있습니다.

저희 Madrona는 한동안 AI 음성 에이전트라는 주제에 큰 기대를 걸어왔습니다. 개발자들이 다양한 사용 사례에 맞는 애플리케이션을 구축할 수 있도록 음성-텍스트 변환(STT) 및 최근에는 텍스트-음성 변환(TTS) 모델을 제공하는 Deepgram에 대한 초기 투자가 그 기반이 되었습니다. 오늘날의 생태계에서 멀티모달(multimodal)이 여전히 중요하지만, HubSpot의 설문조사에 따르면 약 70%의 소비자는 여전히 고객 서비스에 연락할 때 전화를 선호하는 것으로 나타났습니다. 실제로 오늘날 기업 데이터의 80% 이상이 음성 형태로 존재하며, 이제 이 데이터가 다양한 애플리케이션의 여러 제품을 통해 배치(batch) 방식뿐만 아니라 정교한 실시간 형태로 활용되는 전환점에 도달했습니다. LLM 활용의 출현과 (지난 세대의 Siri, Alexa, Google Voice를 통해) 대화형 도구에 더 익숙해진 고객 기반은 음성 데이터의 캄브리아기 대폭발과 수익화 가능한 시장을 이끌어냈다고 믿습니다.

저희는 음성 기술 스택의 여러 계층에서 큰 성공을 거두는 기업들이 나타날 것이라고 생각합니다. 지난 6~12개월 동안, 저희는 도메인 특화 에이전트와 맞춤형 워크플로우로의 광범위한 전환을 목격해 왔습니다. 이는 파인튜닝, 합성 데이터 생성, 모델 비용 절감 덕분에 가능해졌습니다. 분명히 Deepgram처럼 파운데이션 모델을 구축하면서 스택의 상위 계층으로 이동하여 '풀스택' 애플리케이션을 출시하는 플레이어들도 있습니다. 저희는 여기서 '버티컬화(verticalization)'를 음성 인프라 위에 구축된 산업별 특화 워크플로우라는 의미로 논의하고자 합니다. 저희의 가설은 버티컬 에이전트가 도메인 특화 데이터를 활용함으로써, 기존 음성 API 위에 구축되어 산업 프로세스를 진정으로 변화시키고 고착성(sticky) 있는 워크플로우를 주도할 수 있다는 것입니다.

이것이 실제로 무엇을 의미하며, 시장이 어디로 향하고 있는지 더 깊이 살펴보겠습니다.

왜 지금인가?

수년간의 점진적인 발전 끝에, 음성 에이전트를 효과적으로 만드는 데 필요한 요소들(음성 인식 속도, 자연어 이해, 음성 합성)이 모두 품질 면에서 변곡점을 맞았습니다. 고성능 GPU, 인프라 비용 절감, 합성 데이터 생성의 부상으로 음성 AI는 다양한 저지연 실시간 애플리케이션을 가능하게 합니다. 실제 비즈니스 사용 사례는 폭발적으로 증가했으며, 이는 지금 여러 산업에 걸쳐 빠르게 일어나고 있습니다.

의료 및 금융과 같이 규제가 심하고 변화가 느린 산업의 대기업들이 이러한 기술 채택의 선두에 서 있는 것을 목격하고 있습니다. 예를 들어, Microsoft는 최근 수십 년간의 의료 음성 전문 지식을 활용하여 임상 워크플로우를 위한 최초의 AI 비서인 Dragon Copilot을 출시했습니다. 병원들이 임상 기록 작성을 자동화하고 지친 직원들의 부담을 덜어주기 위해 '앰비언트(ambient)' 음성 에이전트를 도입하여, 간호사 문서 작업의 최대 30%를 자동화하고 연간 120억 달러를 절감하는 사례를 보고 있습니다. 또 다른 예로 Bank of America의 Erica Assistant는 2,000만 명의 고객이 25억 회 이상 사용했으며, 개인 컨시어지이자 금융 의사 결정을 돕는 관제 시스템 역할을 합니다. 기존 기업 외에도, Abridge와 같이 의료 시스템 내 임상 대화를 위한 플랫폼을 제공하거나 Prepared911처럼 응급 대응 센터의 운영 효율성을 혁신하는 신생 스타트업들이 수년간 정체되어 있던 워크플로우에 도전하고 있습니다.

누가 혜택을 볼 것인가?

모든 산업이 어떤 형태로든 음성 AI를 활용할 수 있고 또 그래야 한다는 주장이 있습니다. Madrona에서는 특히 '버티컬' 즉, 특정 산업 도메인에 관심을 두고 있으며, 이 분야들이 낡은 산업 프로세스를 빠르게 혁신할 수 있는 가장 큰 단기적 기회를 제공한다고 봅니다. 저희가 음성 AI 도입에 적합한 산업이라고 생각하는 프레임워크는 다음과 같습니다.

  • 노동 집약적인 산업: 인건비가 주요 문제점이며, 운영 효율성이 수익에 직접적인 영향을 미칩니다.
  • 음성을 소통 방식으로 선호하는 경우: 양방향 대화가 있고 이분법적이지 않은 결과가 나오는 경우, 음성 및 전화 기반 워크플로우가 더 효과적입니다.
  • 실시간 상호작용이 필수적인 경우: 쉽게 상용화될 수 있는 배치(batch) 처리 방식보다 실시간 워크플로우가 필요한 애플리케이션입니다.
  • 반복적인 상호작용이 많은 경우: 대규모 팀이 동일한 질문, 프로세스 또는 업데이트를 반복적으로 처리합니다.
  • 대규모 데이터 수집이 필요한 경우: 더 나은 결과를 도출하기 위해 활용할 수 있는 방대한 양의 데이터 수집에 크게 의존합니다.
  • 시간 민감성이 높거나 24/7 소통이 필요한 경우: 24시간 내내 서비스를 제공하는 것이 경쟁 우위가 될 수 있습니다.
  • 오탐지의 비용이 비교적 낮은 경우: 불완전함으로 인한 비용이 큰 운영 리스크를 수반하지 않으며, 효율성 향상이라는 장점에 비해 낮습니다. 모델이 시간이 지남에 따라 개선될 때까지 80/20 법칙으로도 충분합니다.
  • 규제 또는 컴플라이언스 중심의 워크플로우: 정확한 문서화, 감사 추적, 일관된 프로세스가 법적으로나 운영상으로 중요합니다.

저희는 AI가 역사적으로 기술의 혜택을 받지 못했지만 엄청난 기회를 가진 분야들의 수준을 한 단계 끌어올린다고 믿습니다. 특정 도메인에 특화함으로써, 이러한 에이전트들은 올바른 언어와 전문 용어를 이해할 뿐만 아니라, 일상적인 워크플로우를 구동하는 운영 시스템에 직접 연결될 수 있습니다. 이를 통해 고객 연락, 데이터 수집, 전문 작업 실행과 같이 마찰이 심한 프로세스를 대규모로, 그리고 올바른 컴플라이언스와 절차에 따라 엔드투엔드로 자동화할 수 있습니다.

이러한 에이전트들은 단순히 인간의 통화를 대체하는 것이 아니라, 핵심 시스템과 직접 통합되고, 모든 상호작용에서 학습하며, 복잡한 규제 및 절차 환경에 적응함으로써 운영 효율성을 재편하고 있습니다. LLM의 고유한 특징이자 인간으로는 완벽하게 확장하기 거의 불가능한 점은, 에이전트가 처리하는 통화가 한 건씩 늘어날 때마다 그 뒤따르는 수백 건의 통화에 대한 효율성과 영향력이 더욱 커진다는 것입니다.

오늘날 기회는 어디에 있는가?

저희는 저희 프레임워크에 부합하며 음성 에이전트의 빠르고 단기적인 도입이 예상되는 몇몇 버티컬 분야에 대해 기대가 큽니다. 몇 가지를 꼽자면 다음과 같습니다.

  • 물류 및 화물 운송: Fleetworks, HappyRobot, LoadPartner와 같은 회사들은 운송사 대상 전화를 자율적으로 처리하는 음성 에이전트를 통해 공급망을 위한 AI 작업자를 구축하고 있습니다. 인간 규모의 제약 없이, 이들 에이전트는 화물을 확인하고, 운송을 예약하며, 추적 업데이트를 전달하고, 내부 시스템과 통합하며, 데이터를 빠르고 비용 효율적으로 기록할 수 있습니다. 인간의 상호작용을 모방하도록 설계되었지만, 궁극적으로 더 빠르고 효과적인 운송사 경험을 제공합니다.
  • 보험금 청구: Liberate, FurtherAI, Sonant는 보험사를 위한 음성 에이전트를 구축하여 인수 심사 전화와 보험금 청구 접수를 자동화합니다. 이들은 인간과 같은 대화와 함께 24/7 지원, 다국어 음성 지원, 대기 시간 제로를 제공하여 원활한 청구 경험을 만듭니다.
  • 홈 서비스: Lace AI, Sameday, Rosie는 홈 서비스 회사(HVAC, 배관, 지붕 공사 등)를 위한 AI 기반 고객 서비스 소프트웨어를 개발하여, 수신 전화를 분석하고 놓친 수익 기회를 감지합니다. 이들은 100%의 통화를 모니터링하고 각 상호작용을 분석하여 잠재 고객이나 기회를 놓치지 않도록 보장하며, 수익 확보 방식에 대한 새로운 표준을 만듭니다.
  • 금융 서비스: AviaryAI는 은행, 신용 조합, 보험사를 위한 AI 기반 아웃바운드 음성 에이전트를 제공합니다. 고객들은 Aviary를 휴면 계좌 재활성화, 정보 공개에 대한 음성 동의 획득, 부가 상품 교차 판매 등의 용도로 사용해 왔습니다. 한편, Salient는 자동차 금융 산업에 특화된 AI 대출 관리 플랫폼으로, 이미 3,900만 건 이상의 고유 고객 상호작용을 처리하고 처리 시간을 60% 단축했습니다. 이들의 멀티모달 AI 에이전트는 실시간으로 결제를 수집하고, 변경/연장 사항을 처리하며, 상환을 관리하고, 보험 정보를 업데이트합니다.

차세대 버티컬 에이전트

대부분의 기업에게 버티컬 음성 에이전트의 초기 진입점은 명확합니다. 소규모 콜센터 팀을 음성 에이전트로 교체하는 것만으로도 비용 절감 측면에서 매우 매력적입니다. 15~20명 규모의 콜센터는 연간 100만 달러 이상의 비용이 들지만, 음성 에이전트는 정규직 직원 한 명보다 적은 비용이 듭니다. 게다가 사전 학습이 되어 있고, 시스템에 통합되어 있으며, 번아웃(더 중요하게는, 이직)의 영향을 받지 않습니다.

비용 절감 사례를 넘어, 저희는 음성 에이전트의 더 넓은 의미가 매출 증대를 위한 새로운 성장 동력을 열어준다는 점에 있다고 믿습니다. 일단 배포되면, 음성 에이전트는 24시간 연중무휴, 어떤 언어로든 모든 전화를 즉시 받고 응답하여 기회를 놓치지 않고, 고객을 기다리게 하지 않으며, 모든 통화를 전환 또는 유지의 접점으로 만듭니다.

아마도 가장 설득력 있는 점은, 음성 에이전트가 단지 전화를 받는 것을 넘어, 인간 노동이 결코 달성할 수 없었던 수준의 일관성과 규모로 워크플로우를 문서화하고, 구조화하며, 실행한다는 것입니다. 시간이 지나면서 이러한 에이전트들이 계속해서 데이터를 수집하고 맥락적 이해를 구축함에 따라, 모든 운송사 협상, 모든 보험금 청구, 모든 고객 상호작용의 '기록 시스템(system of record)'이 될 수 있는 좋은 위치에 서게 됩니다. 에이전트가 더욱 강력해지면, 상호작용의 양쪽 모두가 인간의 개입 없이 에이전트에 의해 주도될 때 어떤 일이 일어날까 하는 질문이 생깁니다. 그 시점에서 이 시스템은 사실상 당사자 간의 프로그래밍 방식 교환을 주도하는 궁극적인 '시장 조성자(market maker)'가 될 수 있습니다. 수요와 공급을 프로그래밍 방식으로 연결하는 많은 시장처럼, 이는 수십 년 동안 혁신이 더디고 노동력에 제약을 받아온 산업에 엄청난 기회를 열어줍니다.

저희는 음성 계층이 단순한 UI에서 전체 산업의 데이터 백본이자 운영 체제로 진화할 것이라고 믿습니다. 이는 단순히 노동 및 생산성 문제가 아니라, 기업이 운영하고, 상호작용하며, 가치를 창출하는 새로운 시스템입니다. 이 모든 것을 고려할 때, 오늘날 이 계층을 구축하는 회사들은 단지 AI 디지털화의 물결을 타는 것이 아니라, 차세대 버티컬 음성 에이전트가 어떤 모습일 수 있고 또 어떠해야 하는지를 정의하고 있습니다.

Voice Is Going Vertical: How Verticalized Voice AI Is Becoming the Next Killer App
TLDR: Voice AI agents are coming. Advances in LLMs and voice infrastructure are now at the point where voice agents can communicate clearly, understand intent,…

Source