今天，用了豆包新品，我想扔掉鍵盤了

作者｜江宇

編輯｜漠影

智東西5月15日報道，昨日，豆包輸入法macOS版正式上線，用戶終於可以在電腦上直接「張嘴打字」了。

和傳統輸入法裏的「語音轉文字」功能不同，這次豆包輸入法主打的，是一整套AI語音輸入能力。

其背後採用的是豆包App同款語音模型，重點強調「邊說邊出字」「中英文混說」「智能糾錯」和「長文本輸入」等能力。

目前，豆包輸入法支持在任意對話框中實時語音轉文字，且沒有時長限制，適合長文案、小說、會議記錄等持續輸入場景。

同時，它還支持中英文混說、多種方言識別，無需手動切換輸入法，可自動識別語言。

在AI能力部分，豆包輸入法加入了「智能糾錯」和「個性化記憶」功能，其能夠自動修正部分語氣詞、語病和口誤，並逐漸記住用戶的改詞習慣，讓語音輸入越用越準。

此外，豆包輸入法還支持輕聲識別和抗噪能力，在辦公室、咖啡店、圖書館等環境中，也能進行低音量輸入。交互模式上，則提供「長按」和「免按」兩種方案。

某種程度上，AI語音輸入正在成為新的輸入趨勢。過去，語音輸入更多還是手機上的「臨時替代方案」，但隨着Vibe Coding等場景越來越普及，很多用戶開始長時間「和電腦說話」。

目前，市面上已經出現了微信輸入法、智譜AI輸入法（小凹）以及Typeless等AI語音輸入產品，其中不少已經開始收費。相比之下，豆包輸入法目前免費推出，這或許也會成為它吸引用戶的一大優勢。

那麼問題來了：豆包輸入法，真的好用嗎？

這次，我們從延時、中文準確率、中英文混說、方言識別、智能糾錯以及個性化記憶幾個維度，對它進行了實測。

一、普通話幾乎邊說邊出，粵語還在等AI「補作業」

語音輸入最核心的問題，其實只有一個：跟不跟得上人說話。

在普通話場景下，豆包輸入法整體表現還是比較流暢的。無論是短句、長句，還是中英文混說，基本都能做到「邊說邊出字」。

主觀感受下來，它的首字延遲大概會略高於1秒，完整句子的生成延遲通常會控制在1秒以內。而且在連續長文本輸入過程中，它的整體卡頓感並不明顯。

但到了方言場景，尤其是粵語等複雜方言，體驗就會大不相同。它不像普通話那樣一句話剛說完立刻就能識別，反而是「先聽一遍，再靠AI後處理」。

很多時候，前半句幾乎沒識別出來，後面纔開始通過上下文一點點修正。部分長句甚至會出現超過5秒以上的完整句延遲。

原句（粵語）：譁，出面做乜突然間落咁大雨嘅？系囉，明明頭先仲好地地。死火，我趕住出去呀。不過依家大風大雨，好易溼身㗎。唔使驚！我帶咗遮同埋雨褸添。都系你夠醒目！

對應普通話：「哇，外面怎麼突然下這麼大雨？就是啊，明明剛纔還好好的。糟糕了，我趕着要出去呀。蕭漢過現在風大雨大，很容易溼身的。不用怕!我帶了傘還有雨衣呢。還是你夠聰明!」

比如在我們的測試中，第一句「哇，出面做乜突然間落咁大雨？」其實被完整識別了出來，準確度是沒有問題的。

但到了後半段，識別結果就開始出現較大偏差，大部分內容都沒有正確識別出來。

東北話的表現則明顯更穩定一些。在我們的測試裏，除了「旮沓」等個別詞彙出現問題之外，其餘內容大體都能正常識別。

原句（東北話）：哎呀媽呀，咱東北這旮沓老好了，那雪下的老大了，跟棉花套子似的。凍梨啃一口，甜滋滋的，拔涼拔涼的。鐵鍋燉大鵝，那香味老霸道了。

閩南語則基本屬於「困難模式」。目前識別效果仍較差，很多句子幾乎無法正確轉寫。

當然，這本身也是整個行業裏最難的問題之一。不同方言之間，口音、連讀和詞彙差異本來就很大。如果你本身會說方言，或許也可以自己試試看，它到底能聽懂多少。

二、甄嬛傳名場面沒翻車，但外國人名還是有點難

中文準確率，是這類產品另一個核心能力。

這次，我們專門選了兩個「難題」。

第一個，是《甄嬛傳》「滴血認親」名場面。因為文言式表達、人物稱謂、停頓節奏和長句結構，本身都比較複雜，對語音識別其實很不友好。

原話：臣妾要告發熹貴妃私通，混亂後宮，罪不容誅。宮規森嚴，祺貴人不得信口雌黃。臣妾若有半句虛言，便叫五雷轟頂，永不超生。我還以為是什麼毒誓呢，生死之事誰又能知啊？可見祺貴人不是真心的了。臣妾以瓜爾佳氏一族起哲，若有半句虛言全族無後而終。

但實際測試下來，豆包輸入法的表現比預期更穩定。它在長文本輸出過程中，能夠持續進行動態修正。包括人稱、斷句、標點，甚至部分誤讀內容，都會在後續識別過程中不斷調整。

最終結果裏，文言表達、標點符號和整體句意沒有錯誤。這種「邊識別邊回改」的機制，近乎可以看成AI寫作過程中的實時潤色。

第二個測試，則是科技新聞場景。我們讀了一段關於「馬斯克訴奧爾特曼案第三周庭審」的內容，重點測試它對外國人名的識別能力。

這一部分難度更高。因為很多英文人名本身就存在多種中文譯法，而且中文互聯網裏也沒有統一標準。

原話：馬斯克訴奧爾特曼案進入第三周，被告方關鍵證人相繼出庭，微軟CEO薩提亞·納德拉、OpenAI聯合創始人兼前首席科學家伊利亞·蘇茨克維，以及OpenAI基金會董事會主席佈雷特·泰勒作證。此前在第二周庭審中，馬斯克方主導舉證，OpenAI前CTO米拉·穆拉蒂、前董事海倫·託納、塔莎·麥考利、前員工羅茜·坎貝爾，以及非營利治理專家戴維·希澤等證人的證詞和庭審材料陸續浮出。

實際結果裏，部分名字能夠正確識別，但也出現了譯名不統一的問題。比如「戴維·希澤（David Schizer）」並沒有被識別成常見譯名，部分外國人名中間的分隔點「·」也出現缺失。

日常聊天問題不大，但如果是新聞寫作、法律文件或正式場景，後續還是需要人工再覈對一遍。

三、中英文混說準確率很高，「外企黑話」也能聽懂

如果說方言是困難模式，那中英文混說，則是豆包輸入法目前完成度較高的一部分。

無論是人名、英文縮寫，還是各種辦公場景的常用語，它都能較穩定地識別出來。而且，它對於中英文切換時的斷句和標點處理，也比傳統輸入法自然很多。

原句：Jennifer，晚上跟Global的會議改到明天早晨7點，你記得reschedule一下。還有換個大點的meeting room，因為FinanceEric and HR的Susie也要參加，還有提前把要講的topic再go through一遍。辛苦跟Laura說下，會上幫忙記下meeting minutes。so far我就想起這麼多，如果有新的update我再跟你sync。

很多時候，用戶輸出並不需要刻意放慢語速。整體主觀感受下來，中英文混說場景的準確率，大概率已經可以穩定達到95%以上。

對於外企辦公的人來說，這部分功能其實是比較實用的。

四、能清理語氣詞，但暫時還不會「主動潤色」

相比識別能力，「智能糾錯」其實是這次最讓人期待的功能之一。它涉及一個問題：AI到底應該「忠實記錄」，還是主動讓AI幫你改。

從實際測試來看，豆包輸入法目前整體偏向前者。比如一些簡單語氣詞，像「嗯」和「呃」之類，它確實可以自動清理。

但更復雜的口語化重複、邏輯跳躍或者臨時改句，它目前還不會主動幫你重寫。

例如們在測試時說：「我想11點……不對，是11點半，請李銘喝咖啡。」

最終輸出裏，「11點」並不會被自動刪掉，而是完整保留了用戶原本的修改過程。

包括一些講話過程中不斷反覆修改句子的情況，它也不會主動整理成更通順的書面語言，儘量保留原話。

目前，市面上一些AI語音輸入產品，如Typeless和智譜AI輸入法（小凹），已經開始覆蓋「自動潤色」「自動改寫」等功能。它們會主動刪除廢話、重組句子，直接幫用戶優化表達。

相比之下，豆包輸入法當前的策略會更保守一些，強調對原始表達的保留。

五、改錯一次之後，它就會記住你的寫法

個性化改詞，是這次體驗裏最實用的功能之一。

比如在人名場景裏，語音識別經常會遇到同音字問題。

第一次輸入時，系統可能會給出錯誤寫法。這時候，用戶只需要手動修改一次。等到第二次再語音輸入同樣的人名時，豆包就會優先採用用戶之前修改後的版本。

長期使用後，這種「記憶」也是是明顯感知到的。除了人名之外，一些公司名、產品名或者固定術語，也存在類似情況。這類高頻專有名詞，其實是很多人日常語音輸入裏最容易反覆修改的部分。

結語：不需要鍵盤了？或許我們更需要一個麥克風

相比鍵盤輸入，語音輸入最大的優勢，其實一直都是「更快」。

而在AI能力加入之後，語音輸入也不再只是簡單「轉文字」了。實時修正、自動斷句、上下文記憶，以及更高的識別準確率，都開始讓它變得更實用。

與此同時，語音輸入的使用場景也在擴大。

過去，很多人只會在開車、走路時偶爾使用語音輸入。但現在，隨着輕聲識別、抗噪等能力出現，辦公室、咖啡店、圖書館等環境，也開始能夠正常使用。

某種程度上，AI語音輸入法正在重新改變人與電腦的輸入方式。或許未來很多人想打字，第一反應不是找鍵盤，而是先找麥克風。

免責聲明：投資有風險，本文並非投資建議，以上內容不應被視為任何金融產品的購買或出售要約、建議或邀請，作者或其他用戶的任何相關討論、評論或帖子也不應被視為此類內容。本文僅供一般參考，不考慮您的個人投資目標、財務狀況或需求。TTM對信息的準確性和完整性不承擔任何責任或保證，投資者應自行研究並在投資前尋求專業建議。

老虎證券

今天，用了豆包新品，我想扔掉鍵盤了

熱議股票