語音轉文字輸入工具評比

前言

現在很流行vibe coding，透過AI來幫忙寫代碼，可以少打很多代碼，那既然要少打代碼，用講的是最快了，花了一些時間研究現在市面上的STT(speech-to-text)生態，做個紀錄

TLDR

選最貴的Wispr Flow，正常一個月要15美，但是現階段，註冊小號，用他邀請跟推薦的獎勵，就能一直免費用? 雖然不能調model，但感覺他就是用當下最好的，效果很好，而且他還有語音AI（實驗性質）的功能

假如wispr flow沒辦法白嫖的話，應該是選spokenly，自己接voice model API

背後原理

現在的語音轉文字輸入工具(STT)，都是以下的流程，有些軟體可能某部分會沒有

語音輸入存成檔案，存在local
透過Voice Model辨識成文字
- 用local的model辨識
  - 比較好的model有
    - OpenAI的Whisper Large v3 turbo
    - Nvidia的Parakeet V3
- 用cloud的model辨識
  - 對話段落辨識
    - 一整段的語音，傳給比較好的語音model去辨識
    - 好處就是，provider的model強很多，且會有較多的上下文去增加準確度
    - 比較好的model有
      - Deepgram Nove-3
      - GPT-4o Transcribe
      - GPT-4o mini Transcribe
      - Soniox Async
  - 即時辨識
    - 是用websocket連接
    - 會截取一段時間內(250~500ms不等)的語音，然後傳給model去即時處理
    - 比較好的model有
      - Deepgram Nove-3 Realtime
      - Deepgram Nove-3 Flux
        最新的model，給AI agent用的，知道何時傾聽、何時思考以及何時說話
      - Soniox Realtime
再經過LLM去根據內容還有上下文去修飾文字
- 在這邊會加一些system prompt或是instruction去調整輸出

服務選型

Wispr Flow

支援Mac、ios、windows

他沒有voice model跟LLM給我選，也不需要設定system prompt，他只有問產出的風格是formal、casual、very casual。

其實這種都是那些專家幫你在context engineering做優化了，不需要自己搞，某種程度我比較喜歡這種，因為自己做功課弄半天，一定還是沒那麼專家處理的好

他有些設計算是蠻貼心，輸出效果也好，也有跟cursor跟windsurf做coding相關的整合，而且他還有個AI語音功能，在我列出來的幾個服務裡面，只有他們家有，還處於實驗性質，要把這個功能打開才會有。

按fn+ctl就能呼叫AI語音模式(command mode)。

功能簡介：

選取一段文字，使用AI語音模式，他會把這段文字，還有你所講的話當成是輸入，回傳的結果會取代那段文字
假如你有裝perplexity出的comet瀏覽器，使用AI語音模式，說要做什麼什麼搜尋，他就會用comet開新頁，用perplexity幫你搜尋
- 在comet瀏覽器中，反白某一段話，叫出comet的AI assistant，那段話會在context裏面，但是沒辦法直接送出搜尋
- 但是假如反白字，叫出AI語音模式，叫他解釋這段話，他會直接開新頁用perplexity解釋

spokenly

支援Mac、ios

註冊就會給免費額度試用，一個月10美金，也可以接自己購買的model API，或是用local免費的。

有非常多的voice model可以選，而且還幫你分類，tag，還有評價，這一點真的蠻不錯的，尤其對生態沒那麼熟的人而言

也可以調整system prompt

缺點就是：

有感覺到這個比wispr flow速度會慢一點點，產生文字到輸出到input框需要優化我覺得。
只支援mac跟ios

STT的model真的很便宜，所以花錢去訂閱的感覺都是潘仔

假如wispr flow沒辦法白嫖的話，這個可能會是第一選擇，自己接API

superwhisper

支援Mac、ios

我看egghead.io的作者就是用這個軟體，一個月8.5美金左右，但是給的免費額度挺摳門的，15分鐘，可以選model，但是不多。

可以根據場景做不同的system prompt優化

速度有感覺稍微快一點

缺點就是:

一個月最少的固定費用8.5美金就在那邊
語音輸入時，他的控制面板超大，有時會擋到字，不知道他做這麼大的用意何在，有點白痴

Handy

支援Mac、ios、windows、linux

用Tauri做的APP，速度不錯，open source不用錢，但是只能選不用錢的model(你想花錢也沒辦法)，不過以不用錢的水準來看，Whisper Large v3 turbo跟Parakeet V3就很有水準了。

最大的優點就是支援linux系統

缺點就是

不能接付費的voice model API
細節功能偏少
沒有LLM去做輸出優化

lazytyper

支援Mac、ios、windows

內建很多中國的voice model，不過都要api key，細節功能多，可以設定system prompt，還可以設定帶入最近幾輪的對話當context

缺點就是

沒有引導去設定權限（非常糟糕），我還自己問AI怎麼去解決
似乎有bug，都設定好了，用一用又突然不能用。不是很穩定的感覺

代體

支援Mac、ios、windows

也是完全免費，速度快，可以接LLM

缺點就是

不能選model，而且只能用他預設的local model，品質就偏中下（非常致命）
細節功能偏少

豆包

支援Mac、ios、windows、linux

字節跳動的AI語音助手，他內建有個語音輸入功能，去左上角設定個熱鍵，就可以用了

他是屬於即時的語音翻譯，速度快，但是效果一般般，以免費的來看，還是可以用

另外提一下，這個助手有個網頁轉podcast功能，蠻好用的，重點是很快

缺點

不能設定system prompt
不能指定輸出成繁體中文(蠻大的缺點)

前言 ​

TLDR ​

背後原理 ​

服務選型 ​

Wispr Flow ​

spokenly ​

superwhisper ​

Handy ​

lazytyper ​

代體 ​

豆包 ​

前言

TLDR

背後原理

服務選型

Wispr Flow

spokenly

superwhisper

Handy

lazytyper

代體

豆包