Přehled možností pro přepis nahrávky focus group, hloubkového rozhovoru s využitím AI umělé inteligence – neanglický jazyk

Při většině kvalitativních výzkumů řešíme, ať už skupinového rozhovoru, nebo hloubkového rozhovoru, jak se dostat od audio nahrávky rozhovoru k psanému textu, který bychom mohli analyzovat. Prozatím nejobvyklejším způsobem je pořízení manuálních přepisů, to je ale jak finančně nákladné, tak časově náročné. Podíval jsem se na to, jaké jsou možnosti využití umělé inteligence pro přepis. Ve zkratce: a) pokud nám jde o nejlevnější možnost, tak doporučuji model Whisper od OpenAI. b) pokud jde o online rozhovor, tak je nejjednodušší využít Microsoft Teams s integrovanou možností přepisu a nahrávání. Je třeba pořídit co nejkvalitnější audio.

Shrnutí:

Text se zabývá možnostmi přepisu nahrávek kvalitativních výzkumů, jako jsou skupinové a hloubkové rozhovory, pomocí umělé inteligence. Nejčastěji se používá manuální přepis, který je finančně i časově náročný. Textu poskytuje přehled možností využití umělé inteligence pro přepis, včetně modelu Whisper od OpenAI, který je doporučen pro nejlevnější řešení. Také jsou uvedeny informace o přepisu v Microsoft Teams a Microsoft Word pro web a webových službách pro přepis.

 

MS Word for web (365)

MS Teams

Google Speech to text api

 • Speech Recognition (without Data Logging – default): 0-60 Minutes – Free; Over 60 Minutes – $0.024 / minute
 • nevyzkoušeno

Webové služby:

 • ani u jedné služby nebyl přepis do CZ přesvědčivý

Speech https://speechtext.ai/cs

 • 180 minut/10 USD, 990 minut/49 USD
 • kredit (pay as you go, nikoli měsíční platba)

https://www.rev.ai/pricing

 • 0,02 USD/min

Google Recorder (nezkoušeno)

 • na mobilech řady Pixel, ukládání přepisu do cloudu na novějších

Model Whisper Open.ai – vlastní instalace

 • výhody: rychlý přepis viz ukázka a ukázka s časy
 • nevýhody: není přesný – vyžaduje korektury, není identifikace mluvčího (diarization)
 • identifikace mluvčího – jde obejít přes další úpravy , viz výstup
 • pro představu: přepis 10 min rozhovoru trvá 6 minut výpočetního času (na Google hardwaru), ale nejspíše se přepis vejde do free tarifu

Je třeba co nejkvalitnější audio

Dbát na to:

 • aby se nepřekrývaly hlasy,
 • abychom nechali respondenty dokončit větu,
 • zdržet se hlasitého vyjadřování porozumění respondentovi – zůstat pouze u neverbálních projevů (pokyvovat na znamení porozumění), i když to může být obtížné.

Závěry:

 • pro online rozhovory: MS Teams
 • pro záznamy/ pro osobní rozhovory/fokusky/ speech to text transkripce:
  • MS Word 365
  • Whisper AI – vlastní instalace
  • zkusit mít co nejlepší kvalitu audia

Kredit: Koncept napsán člověkem, text napsán člověkem, shrnutí vytvořeno pomocí AI/ChatGPT.