Appearance
前言
現在很流行vibe coding,透過AI來幫忙寫代碼,可以少打很多代碼,那既然要少打代碼,用講的是最快了,花了一些時間研究現在市面上的STT(speech-to-text)生態,做個紀錄
TLDR
選最貴的Wispr Flow,正常一個月要15美,但是現階段,註冊小號,用他邀請跟推薦的獎勵,就能一直免費用? 雖然不能調model,但感覺他就是用當下最好的,效果很好,而且他還有語音AI(實驗性質)的功能
假如wispr flow沒辦法白嫖的話,應該是選spokenly,自己接voice model API
背後原理
現在的語音轉文字輸入工具(STT),都是以下的流程,有些軟體可能某部分會沒有
語音輸入存成檔案,存在local
透過
Voice Model辨識成文字- 用
local的model辨識- 比較好的model有
OpenAI的Whisper Large v3 turboNvidia的Parakeet V3
- 比較好的model有
- 用
cloud的model辨識對話段落辨識- 一整段的語音,傳給比較好的語音model去辨識
- 好處就是,provider的model強很多,且會有較多的
上下文去增加準確度 - 比較好的model有
Deepgram Nove-3GPT-4o TranscribeGPT-4o mini TranscribeSoniox Async
即時辨識- 是用
websocket連接 - 會截取一段時間內(250~500ms不等)的語音,然後傳給model去
即時處理 - 比較好的model有
Deepgram Nove-3 RealtimeDeepgram Nove-3 Flux- 最新的model,給
AI agent用的,知道何時傾聽、何時思考以及何時說話
- 最新的model,給
Soniox Realtime
- 是用
- 用
再經過LLM去根據內容還有上下文去修飾文字
- 在這邊會加一些
system prompt或是instruction去調整輸出
- 在這邊會加一些
服務選型
Wispr Flow
支援Mac、ios、windows
他沒有voice model跟LLM給我選,也不需要設定system prompt,他只有問產出的風格是formal、casual、very casual。
其實這種都是那些專家幫你在context engineering做優化了,不需要自己搞,某種程度我比較喜歡這種,因為自己做功課弄半天,一定還是沒那麼專家處理的好
他有些設計算是蠻貼心,輸出效果也好,也有跟cursor跟windsurf做coding相關的整合,而且他還有個AI語音功能,在我列出來的幾個服務裡面,只有他們家有,還處於實驗性質,要把這個功能打開才會有。
按fn+ctl就能呼叫AI語音模式(command mode)。
功能簡介:
- 選取一段文字,使用
AI語音模式,他會把這段文字,還有你所講的話當成是輸入,回傳的結果會取代那段文字 - 假如你有裝
perplexity出的comet瀏覽器,使用AI語音模式,說要做什麼什麼搜尋,他就會用comet開新頁,用perplexity幫你搜尋- 在comet瀏覽器中,反白某一段話,叫出comet的AI assistant,那段話會在context裏面,但是沒辦法直接送出搜尋
- 但是假如反白字,叫出
AI語音模式,叫他解釋這段話,他會直接開新頁用perplexity解釋
spokenly
支援Mac、ios
註冊就會給免費額度試用,一個月10美金,也可以接自己購買的model API,或是用local免費的。
有非常多的voice model可以選,而且還幫你分類,tag,還有評價,這一點真的蠻不錯的,尤其對生態沒那麼熟的人而言
也可以調整system prompt
缺點就是:
- 有感覺到這個比wispr flow
速度會慢一點點,產生文字到輸出到input框需要優化我覺得。 - 只支援
mac跟ios
STT的model真的很便宜,所以花錢去訂閱的感覺都是潘仔
假如wispr flow沒辦法白嫖的話,這個可能會是第一選擇,自己接API
superwhisper
支援Mac、ios
我看egghead.io的作者就是用這個軟體,一個月8.5美金左右,但是給的免費額度挺摳門的,15分鐘,可以選model,但是不多。
可以根據場景做不同的system prompt優化
速度有感覺稍微快一點
缺點就是:
- 一個月最少的
固定費用8.5美金就在那邊 - 語音輸入時,他的
控制面板超大,有時會擋到字,不知道他做這麼大的用意何在,有點白痴
Handy
支援Mac、ios、windows、linux
用Tauri做的APP,速度不錯,open source不用錢,但是只能選不用錢的model(你想花錢也沒辦法),不過以不用錢的水準來看,Whisper Large v3 turbo跟Parakeet V3就很有水準了。
最大的優點就是支援linux系統
缺點就是
- 不能接付費的voice model API
- 細節功能偏少
- 沒有LLM去做輸出優化
lazytyper
支援Mac、ios、windows
內建很多中國的voice model,不過都要api key,細節功能多,可以設定system prompt,還可以設定帶入最近幾輪的對話當context
缺點就是
- 沒有引導去設定權限(非常糟糕),我還自己問AI怎麼去解決
- 似乎有bug,都設定好了,用一用又突然不能用。不是很穩定的感覺
代體
支援Mac、ios、windows
也是完全免費,速度快,可以接LLM
缺點就是
- 不能選model,而且只能用他預設的local model,品質就偏中下(非常致命)
- 細節功能偏少
豆包
支援Mac、ios、windows、linux
字節跳動的AI語音助手,他內建有個語音輸入功能,去左上角設定個熱鍵,就可以用了
他是屬於即時的語音翻譯,速度快,但是效果一般般,以免費的來看,還是可以用
另外提一下,這個助手有個網頁轉podcast功能,蠻好用的,重點是很快
缺點
- 不能設定
system prompt - 不能指定輸出成
繁體中文(蠻大的缺點)