Do áudio bruto ao coaching preciso: como o Verbalizei analisa sua fala
Por trás de cada feedback do Verbalizei existe um pipeline proprietário de análise de fala executando modelos acústicos, prosódicos, de emoção, semânticos e de linguagem natural em sequência coordenada. Esta página explica os princípios que guiam esse sistema — sem abrir a caixa-preta.
Analisar fala é diferente de analisar texto. O mesmo conteúdo pode ser entregue com clareza ou com ambiguidade dependendo de ritmo, pausa, entonação e expressividade — variáveis que existem apenas no sinal de áudio e desaparecem quando você transcreve. A maioria das ferramentas ignora isso e trabalha apenas com a transcrição.
O Verbalizei foi construído ao contrário: a transcrição é apenas uma das camadas — não o ponto de partida. O sistema extrai features diretamente do áudio — acústicas, prosódicas e emocionais — antes mesmo de transcrevê-lo, e correlaciona tudo para gerar uma avaliação que nenhuma ferramenta baseada apenas em texto consegue produzir.
“A transcrição é apenas uma das camadas — não o ponto de partida.”
Princípios de engenharia
Seis decisões que definem a arquitetura
Cada escolha de design tem um motivo concreto — geralmente uma troca deliberada entre custo, latência, precisão e robustez.
Rejeição precoce de baixa qualidade
Gravações com ruído excessivo ou sinal insuficiente são identificadas e descartadas antes de consumir processamento pesado. Isso preservando recursos e garantindo que apenas áudio viável avance no pipeline.
Processamento otimizado em lote
A engine acumula requisições de forma inteligente antes de executá-las juntas, obtendo ganhos expressivos de throughput sem comprometer a latência percebida pelo usuário.
Índice temporal de precisão milissegundo
Cada fragmento de análise — acústico e linguístico — é armazenado com indexação temporal precisa. Isso permite correlacionar o que foi dito com como foi dito, no exato instante em que aconteceu.
Arquitetura dual: profunda + tempo real
Dois canais operam em paralelo. O canal assíncrono entrega análise completa e multidimensional após a sessão. O canal em tempo real retorna métricas acústicas imediatas — sem comprometer a profundidade da análise final.
IA generativa sobre métricas, não sobre áudio
O modelo de linguagem generativo nunca processa áudio bruto. Ele recebe apenas métricas estruturadas e pré-computadas — tornando o coaching preciso, reproduzível e resistente a alucinações.
Histórico preservado por design
Nenhum dado de progresso é deletado. Cada sessão alimenta uma série temporal do usuário — permitindo análise longitudinal de evolução ao longo de semanas e meses.
Avaliação
Seis dimensões de oratória
O pipeline gera pontuações em seis eixos independentes. Cada dimensão é calculada a partir de um conjunto diferente de features — algumas puramente acústicas, outras puramente linguísticas, e algumas que cruzam as duas origens.
Clareza
Articulação, dicção e precisão na entrega das palavras
Entonação
Variação expressiva de pitch e prosódia ao longo do discurso
Ritmo
Velocidade de fala, uso de pausas e cadência entre ideias
Objetividade
Densidade de informação útil e ausência de vícios e redundâncias
Coerência
Fluxo lógico e encadeamento semântico entre as ideias
Expressividade
Engajamento vocal, variação emocional e presença percebida na fala — medidos por análise de emoção diretamente no sinal de áudio
A nota média é calculada com pesos ajustáveis por contexto — um discurso técnico em reunião pode ponderar objetividade mais alto; uma apresentação de palco pondera entonação e expressividade com mais peso.
Arquitetura
Dois canais, uma experiência coesa
Canal assíncrono
Análise completa pós-sessão
Processa o áudio completo pelos dez estágios do pipeline. Entrega o relatório detalhado com todas as métricas, correlações multimodais e coaching personalizado. É a análise mais profunda — e por isso executa de forma assíncrona após o término da gravação.
Canal em tempo real
Métricas acústicas imediatas
Processa fragmentos de áudio de poucos segundos e retorna métricas acústicas em tempo real durante a prática. Executa apenas os estágios de menor custo computacional, priorizando resposta rápida. Os dados alimentam o canal assíncrono para evitar reprocessamento.
Evolução contínua
Dados que crescem com você
Cada sessão registrada alimenta uma série temporal vinculada ao seu perfil. Isso permite visualizar evolução real ao longo do tempo: não uma nota isolada, mas uma curva de progresso por dimensão, por contexto e por tipo de desafio praticado.
Por design, nenhum histórico é deletado permanentemente. O sistema usa uma estratégia de preservação que garante que mesmo sessões antigas continuem disponíveis para análise longitudinal — incluindo comparações retroativas quando novos modelos de avaliação são incorporados.
A evolução é o produto real. A nota de hoje é só o ponto de partida.
Quer ver na prática?
A melhor forma de entender o sistema é usar. Grave uma resposta, veja as métricas e compare com a próxima tentativa.
