A/B テスト 統計的有意性 計算無料・登録不要
A/B テストの結果(訪問数 + CV 数)から CVR / 改善率(lift)/ p-value / z スコア / 95% 信頼区間を自動算出。99%/95%/90% 信頼度の有意性バッジ付き。
良いA/B テスト 統計的有意性 計算の判断基準
A/Bテストの結果(訪問数とCV数)を入れて、差が偶然かどうかを確認する時に使います。p値やバッジが出ても、テストの設計と運用が正しくなければ判定は信頼できません。本番反映を決める前に下の判断基準で確認してください。
サンプル数と期間を事前に決めてから判定したか
結果を毎日覗いて、有意になった瞬間に止めるやり方は、偶然の差を拾う確率を上げてしまいます。テスト開始前に決めたサンプル数・期間まで回し切ってから、判定は1回だけ行います。
CV数は計算の前提を満たすだけあるか
CVが数件しかない場合、このツールが使う検定の前提が崩れることがあります。極端に少ないCV数での判定は、統計の専門的判断が必要な場合があります。
ユニークユーザーベースで数えているか
同じユーザーの複数回CVをそのまま数えると、計算の前提が崩れます。訪問数とCV数はユニークベースで揃えてから入力します。
1回のテストで比較している仮説は1つか
多くのパターンを同時に比較すると、どれかが偶然有意になる確率が上がります(多重比較)。パターン数が多い場合は、その分判定を厳しく見る必要があります。
「統計的に有意」と「実務的に意味のある差」を分けたか
有意性は「差が偶然でなさそうか」の判定であって、差の大きさの保証ではありません。改善幅を年間のCV数や売上に換算し、実装コストに見合うかは別途判断します。
テスト期間中に片方だけに影響する外部要因はなかったか
セール、メディア掲載、システム障害、流入元の変化などが期間中に起きていると、差の原因がパターンの違いとは言えなくなります。期間中の出来事を振り返ってから判定します。
ありがちな失敗例(NG → 改善)
NGテスト3日目にp値が0.05を下回ったのを見て即judge・本番反映し、翌週には差が消えていた
改善事前に決めたサンプル数・期間まで回し切り、判定は終了時点の1回だけにする
→ 途中経過を繰り返し確認して有意の瞬間に打ち切る運用は、偶然の差を本物と誤認しやすくなります。判定タイミングを事前に固定するのが防止策です。
NG「BがAに統計的に有意に勝った(CVR 2.1%→2.2%)。全ページに展開すべき」と差の大きさに触れずに報告する
改善改善幅と想定インパクト(年間CV増・売上換算)を併記し、展開にかかる工数・コストと比較して提案する
→ 統計的に有意でも、差が小さければ実装コストに見合わないことがあります。有意性だけを根拠にした展開提案は意思決定の材料として不十分です。
NG5パターン同時のテストでEだけp<0.05が出たので「Eが勝者」と断定して全面切り替えする
改善多パターン比較では偶然有意が混じりやすい前提に立ち、EとAの1対1で改めてテストしてから判断する
→ 比較するパターンが増えるほど、どれかが偶然有意になる確率は上がります。再現性を確認してから切り替えるほうが安全です。
A/B テスト 統計的有意性 計算の使い方
- 1テキストを入力またはペーストします
- 2「変換する」ボタンをクリックします
- 3結果を確認してコピーします
よくある質問
A/B テスト 統計的有意性 計算は無料ですか?
はい、完全無料でご利用いただけます。会員登録も不要です。
スマートフォンでも使えますか?
はい、スマートフォン・タブレット・PCなど、ブラウザがあればどのデバイスでもご利用いただけます。
関連ツール
A/B テスト 統計的有意性 計算について
A/B テスト 統計的有意性 計算が解決する課題
LP 改善 / 広告クリエイティブ / メール件名の A/B テストで「B が A より 0.5% 改善した!」と喜んでも、それがノイズか実際の差かは統計検定が必要。本ツールは訪問数 + CV 数を入れるだけで CVR・改善率・p-value・信頼区間・有意性バッジを瞬時に算出します。
統計的有意性の判断基準
【🟢 p < 0.01(99% 信頼)】本番反映の根拠として十分。新薬・医療系で求められる厳格基準。 【🟢 p < 0.05(95% 信頼)】SaaS / EC で一般的な合格ライン。マーケ業界標準。 【🟡 p < 0.10(90% 信頼)】示唆あり。追加サンプル収集を推奨。 【🔴 p ≥ 0.10】有意差なし。差がノイズの可能性大。継続テストかパターン変更。
こんなシーンで使えます
【1. LP ヘッドライン A/B】2 パターンの LP に同量トラフィックを送って 1 週間後判定。
【2. 広告クリエイティブ A/B】Meta / Google 広告で 2 クリエイティブ並走 → どちらが優位か検定。
【3. メール件名 A/B】メルマガ 2 件名で開封率比較 → 統計的に有意なら勝者展開。
【4. ボタン文言テスト】「無料で試す」vs「30 秒で始める」の CVR 差検定。
【5. プライシング A/B】¥9,800 vs ¥7,980 の CVR + LTV 差検定(注: 価格差は中長期 LTV 影響大)。
正しい A/B テストの進め方
1. 仮説立て: 「B の方が高い CVR を出す」と事前に明文化。 2. サンプルサイズ計算: 各パターン最低 1,000 訪問。CV 10 件以下では z-test 精度低下(Fisher 検定推奨)。 3. 期間: 最低 7 日(曜日変動考慮)、推奨 14 日(季節要因含む)。 4. 1 仮説 1 テスト: 複数テスト同時実施は影響混在。 5. 早めの停止禁止: 「目視で B が良さそう」だけで早期停止すると統計偏向。事前計画期間は守る。 6. 結果の解釈: p-value < 0.05 でも「実用的に意味ある差」かは別。lift 1% でも年間 LTV ベースで判断。
よくある失敗と注意点
1つ目: サンプル少 → 各 100 訪問で「30% 差」が出てもノイズの可能性大。最低 1,000 訪問 / 各パターン。
2つ目: 早期停止 → 開始 3 日で「もう勝者見えた」と止めると統計偏向。事前計画した期間 / サンプル数まで継続。
3つ目: 多重比較 → 5 つの A/B/C/D/E パターンで p < 0.05 を達成しても 23% は偶然。多重比較補正(Bonferroni 等)必要。
4つ目: SRM(Sample Ratio Mismatch) → 想定 50%/50% 分配のはずが 40%/60% になっていたら計測バグの可能性。比率も別途チェック。
5つ目: 二項分布の前提崩壊 → CV 1 ユーザー 1 回前提だが、同じユーザーが複数回 CV する仕様だと正規近似が崩れる。ユニーク CV で計算。