AI議事録の精度「99%」をどう読むか。文字起こし・話者分離・出所で意味が変わる【2026年版】
議事録AIを選ぶとき、最初に目に入るのが「精度99%」「認識率96%」といった数字です。ところが、この数字をそのまま信じて導入すると「思ったより文字起こしが違う」「誰の発言か分からない」と後悔することがあります。理由は単純で、各社が掲げる「精度◯%」は、測っているものも、測った人も、ばらばらだからです。同じ「99%」でも中身がまるで違います。本記事では、議事録AIの精度の数字を正しく読むための軸を、公開情報の出所つきで整理します。
精度には「3つの種類」がある
まず押さえたいのは、「精度」と呼ばれている数字が、実は別々のものを指しているという点です。大きく3種類あります。
| 精度の種類 | 何を測っているか | 公表されている例 |
|---|---|---|
| 文字認識率 | 音声を文字に変換したとき、文字の単位でどれだけ正しいか | LINE WORKS AiNote 90.8%(自社評価) |
| 文字起こし精度 | 書き起こした文章の全体がどれだけ正しいか | Krisp 96%(自称)、ログミーツ 94.9%(第三者の実機テスト) |
| 話者分離精度 | 「誰が話したか」をどれだけ正しく振り分けられたか | Notta 71%、ログミーツ 61%(いずれも第三者の実機テスト) |
文字認識率と文字起こし精度は、どちらも「文字をどれだけ正しく書き起こせたか」という文字側の話です。ただし、どの単位で測るか(1文字ごとか、単語ごとか、文字誤り率で見るか)が会社によって違うため、呼び方が同じでもそのまま比べられないことがあります。
そして話者分離精度は、文字側とは完全に別の軸です。文字をきれいに起こせていても、「Aさんの発言」と「Bさんの発言」を取り違えていれば、議事録としては使いものになりません。逆に話者の振り分けが完璧でも、専門用語が誤変換だらけなら校正の手間は残ります。文字側の数字が高いことと、話者分離が正確なことは、別の話だと考えてください。
実際にこの混同は起きています。LINE WORKS AiNoteが公表している90.8%は「文字認識率」、Krispが自称する96%は「文字起こし精度」で、どちらも話者分離の数字ではありません。「90.8%だから話者の振り分けも9割合う」と読むのは誤りです。
「AIだけの数字」か「人が直す前提の数字」か
精度の数字には、もう一つ確認したい点があります。その数字が「AIだけで出した結果」なのか、「人が後から直すことを前提にした運用」での話なのか、です。
文字起こしには、AIが自動で書き起こすものと、AIの下書きを人のオペレーターが校正して仕上げるもの(従来のテープ起こし代行に近いもの)があります。後者は人が直すぶん最終的な仕上がりは高くなりますが、それは「AIの精度」ではなく「人を含めた仕上がり」の数字です。同じ「99%」でも、AI単体の99%と、人の校正込みの99%は意味が違います。
今回確認した法人向けAI議事録の公表値は、基本的にAIによる自動処理の数値(自社評価や、機械にかけた実機テスト)です。ただし、数値の前提に運用設計が組み込まれている例もあります。たとえばログミーツは、第三者の実機テストで話者分離が約61%という数値が出ていますが、これは手動での補正を前提にした運用設計だと説明されています(出所: gijiroku-hikaku.com の実機テスト)。
つまり数字だけを見て「低い」と切り捨てるのではなく、その数字が「AI単体のものか」「人が直す前提のものか」をセットで読む必要があります。低めの自動精度でも、補正のしやすさや運用フローまで含めれば実務で十分使えることもあります。
「自社調べ」か「第三者検証」か
3つ目の軸は、その数字を「誰が測ったか」です。同じ精度の数字でも、出所によって重みが変わります。本記事では出所を次の3つに分けて扱います。
一つ目は自社調べです。ベンダーが自社のサイトで「精度◯%」「認識率◯%」と公表しているもので、表記としては「自社評価」「自称」「公称」と書かれます。測定条件は各社の裁量なので、有利な条件で測られている可能性があります。良い悪いではなく、前提が外から見えにくいという性質があります。
二つ目は第三者検証です。ベンダー以外の第三者が、自分で同じ音声を使って実機テストした数値です。本記事ではgijiroku-hikaku.comの実機テスト値などがこれにあたります。条件を統一して各社を測っているぶん、横並びの比較には向いていますが、テストに使った音声や話者数が自社の会議と同じとは限りません。
三つ目は伝聞・推定です。出所が明確な検証ではなく、まとめ記事などで紹介されている数値です。本記事ではChorus.aiの文字起こし精度「80〜90%」がこれにあたり、参考程度にとどめるべき数字です。
数字を見たら「これは自社調べか、第三者が測ったか、それとも伝聞か」を最初に確認する。これだけで、数字の受け止め方が変わります。
実例で読む。公開された精度を出所つきで仕分けする
ここまでの3つの軸(何の精度か / AI単体か人手前提か / 誰が測ったか)で、実際に公開されている数字を仕分けてみます。下の表は、本記事の調査で出所まで確認できた精度の公表値です。
| サービス | 公表値 | 何の精度か | 出所の区分 |
|---|---|---|---|
| LINE WORKS AiNote | 90.8% | 文字認識率 | 自社評価(公式) |
| Krisp | 96% | 文字起こし精度 | 自社の自称(公式・日本語は非対応) |
| JAPAN AI SPEECH | 94%以上 / 99%以上 | 文字起こし精度 / 正答率(定義の違いは未確認) | 公式(自社調べ) |
| Gong.io | 93〜96% | 文字起こし精度 | 自社の自称 |
| Otolio(旧スマート書記) | 90%以上 | 文字起こし精度 | 二次情報(公式は数値非公開) |
| Notta | 71% | 話者分離精度 | 第三者の実機テスト(二次) |
| ログミーツ | 94.9% / 61% | 文字起こし精度 / 話者分離精度 | 第三者の実機テスト(二次・gijiroku-hikaku.com) |
| Chorus.ai | 80〜90% | 文字起こし精度 | 伝聞・推定(三次) |
| Recall.ai | 100%(完璧と公称) | 話者分離(ダイアライゼーション) | 公式の公称(独立検証は推奨) |
この表から読み取れることがいくつかあります。
まず、同じ「90%台」でも中身が違います。LINE WORKS AiNoteの90.8%は文字認識率、Krispの96%は文字起こし精度、ログミーツの94.9%も文字起こし精度ですが、これらと並ぶNottaの71%やログミーツの61%は話者分離精度です。文字側の数字と話者分離の数字を、同じ物差しで並べることはできません。
次に、同じ会社が複数の数字を出していることもあります。JAPAN AI SPEECHは公式に「文字起こし精度94%以上」と「正答率99%以上」という2つの数値を掲げていますが、この2つの定義の違いは公開情報からは確認できませんでした(公式)。ログミーツも、文字起こし94.9%と話者分離61%という別々の数字を持ちます。「精度99%」と言われたら、それが同社のどの数字なのかを確かめる価値があります。
そして、出所の重みが違います。LINE WORKS・Krisp・JAPAN AI・Gongは自社調べ、Notta・ログミーツは第三者の実機テスト、Chorus.aiは伝聞・推定です。Recall.aiは話者分離について「100%完璧なダイアライゼーション」と公称していますが、これはあくまで公式サイト上の自己申告で、独立した検証は別途行うことが推奨されます。
なお、Nottaは話者分離71%とは別に、文字起こしの誤り率(CER)8.7%という数値も二次情報にあります。1社の中でも「文字側」と「話者側」で数字は分かれます。
精度を「非公開」にしている会社をどう見るか
ここまで数字のある会社を見てきましたが、実際には精度の数値を公開していない会社のほうが多数です。今回調べた法人向けAI議事録サービスでも、文字起こし精度や話者分離精度の数値を出していない社が大半でした。
ただ、非公開だから精度が低い、という読み方は正しくありません。精度は音声環境・話者数・専門用語の有無で大きく変わるため、条件を限定した単一の数値を出すと、かえって誤解を招くと考えて公開しない会社もあります。実際、話者分離については、本記事の調査範囲でも数値を公称しているのは一部にとどまり、多くは「対応あり」とだけ示しています。
参考までに、二次的なまとめ情報には数値が載っていても、各社の公式ページでは確認できなかったケースもあります(たとえば文字起こし精度95%といった数字が一覧記事に出ていても、公式での裏付けが取れない、というパターンです)。こうした数字は、出所が公式まで遡れない以上、参考値として扱うのが安全です。
数字の有無で良し悪しを決めるより、「自社の会議で実際にどうか」を試すほうが確実です。次に、その確かめ方をまとめます。
導入前に、自社で精度を確かめる方法
精度の数字は読み方を知っておく価値がありますが、最終的に効くのは「自社の会議で試した結果」です。多くのサービスに無料トライアルがあるので、契約前に次の条件で試すことをおすすめします。
実環境で試す。ベンダーのデモ音声は、静かな環境できれいに録られていることが多いです。自社の実際の会議室で、いつもの参加人数・いつものマイク環境・少しざわついた状態で録音し、そこで文字起こしと話者の振り分けを確認します。
話者数を本番に合わせる。話者分離の精度は人数が増えるほど落ちやすい傾向があります。2〜3人で良くても、6人以上の会議で同じとは限りません。普段の会議の人数で試してください。
専門用語を入れる。自社の製品名・略語・人名など、固有の言葉が出る議題で試します。一般的な会話はどのサービスでもそれなりに起こせますが、差が出るのは専門用語の変換です。
文字側と話者側を分けて見る。出てきた議事録を、「文字は合っているか」と「誰の発言かが合っているか」の2つの観点で別々にチェックします。本記事で見たとおり、この2つは別の精度だからです。
この4点を、本番に近い1〜2回の会議で試せば、カタログの「精度◯%」よりずっと確かな判断材料になります。
本記事の方針
本記事はfree-ai-tools.jp(合同会社IGS運営・i-gs.co.jp)の法人向けAIツール比較メディアが独自に作成しています。精度の数値・出所は2026年6月時点の公式サイトおよび信頼できる二次情報源に基づきます。「自社評価」「自称」「公称」と記載のあるものはベンダーの自己申告、「第三者の実機テスト」「二次情報」と記載のあるものはベンダー以外による検証値、「伝聞・推定」「三次」と記載のあるものは出所が公式まで遡れない参考値です。精度の定義・測定条件・話者数は各社で異なるため、同条件での厳密な比較はできません。導入前には必ず各社の公式情報と、自社環境での実測をご確認ください。
関連する比較記事
よくある質問
- Q. 精度99%という数字は信用していいですか?
- A. 数字そのものより「何を・誰が・どう測ったか」を確認するのが先です。その99%が文字起こしの精度なのか話者分離なのか、自社調べか第三者検証か、AI単体か人の校正込みかで意味が変わります。たとえばJAPAN AI SPEECHは「文字起こし精度94%以上」と「正答率99%以上」の2つの数値を公式に出していますが、この2つの定義の違いは公開情報からは確認できません。同じ会社の中でも数字は複数あり得ます。
- Q. 話者分離の精度はどう見ればいいですか?
- A. 話者分離(誰が話したかの振り分け)の精度を数値で公表している会社は多くありません。本記事で確認できたのはNotta(71%・第三者の実機テスト)とログミーツ(約61%・第三者の実機テスト)です。Recall.aiは「100%完璧なダイアライゼーション」と公称していますが、これは公式の自己申告で、独立した検証は別途推奨されます。LINE WORKS AiNoteはCLOVA Speech技術が「DIHARD3国際コンペ世界3位」という実績を示していますが、話者分離そのものの精度の数値は公表していません。
- Q. 文字認識率96%と話者分離96%は同じ意味ですか?
- A. 別物です。文字認識率や文字起こし精度は「文字をどれだけ正しく書き起こせたか」、話者分離精度は「誰の発言かをどれだけ正しく振り分けられたか」を指します。たとえばLINE WORKS AiNoteの90.8%は文字認識率、Krispの96%(自称)は文字起こし精度で、どちらも話者分離の数字ではありません。文字側が高くても、話者の振り分けが合うとは限りません。
- Q. 精度を公開していない会社は避けたほうがいいですか?
- A. 非公開イコール精度が低い、ではありません。精度は音声環境や話者数によって変わるため、あえて単一の数値を出さない会社もあります。今回調べた範囲でも、文字起こし精度や話者分離精度の数値を公開していない社が大半でした。数字の有無で判断するより、無料トライアルで自社の会議音声を実際に試すほうが確実です。
- Q. 自社で精度を確かめるには何をすればいいですか?
- A. 本番に近い環境で試すのが一番です。実際の会議室・参加人数・専門用語が出る議題で録音し、文字起こしと話者の振り分けがどれくらい合っているかを自分の目で確認します。ベンダーのデモ音声はきれいな条件で録られていることが多いので、自社のいつもの会議で試すと差が見えやすくなります。