ジャレッド・スプールが語る｜NPSは役に立たないどころか害になる（UXはどうすべきか）

f:id:kazuya_nakamura:20171230211124p:plain

原文："Net Promoter Score Considered Harmful (and What UX Professionals Can Do About It)" by Jared M Spool

　2003年にコンサルタントのFred Reichheldがハーバードビジネスレビューの記事「伸ばすべきたった一つの数字 "The One Number You Need To Grow"」という記事でビジネス界に火をつけました。彼は顧客のロイヤリティーを測るたった一つの質問で経営者は顧客がビジネスに対する感情を測ることができると断言しました。彼は記事の最後に「この数字こそが伸ばすべきたった一つの数字です。シンプルで奥深い。」と締めくくりました。

　結局のところNPSはシンプルでもなければ奥深くもありませんでした。経営者が顧客のロイヤリティーを測る助けにもなりませんでした。

　それでもネットプロモータースコア(略してNPS)は「使える」ビジネス指標としての一般的な必要事項は満たしていました。

簡単に測定できる
トラッキングできる数字を生み出す
正当だと感じることができる

　NPSの正体が優れた多くの論文によって確固として暴かれた後でも、いまだにビジネスの世界では確固として使われ続けています。いまだに企業が新しいNPS測定プログラムを開始したと毎日のように聞きます。

　業界のリーダーたちはNPSを賞賛し続けています。例えばStephen BennettがIntuitのCEOだった時に「全ての事業ラインはNPSを戦略計画に含めている。業務予算のコンポーネントとなっているし、役員のボーナスにも組み込まれている。ビジネスの進捗をNPSで毎月レビューしている。」と語っていました。

　Intuitのような会社は会社の重要な決断をNPSを元にして行なっていましたが、この数値は彼らが測ろうとしていたことを測るものではありませんでした。実際のところNPSは特に何も測っていません。実際にNPSがどれほど空虚なものなのかを見ていきましょう。

NPSの数式の裏にある奇妙な科学

　NPSがおかしな点の一つはその数式にあります。インプットはシンプルな質問からきます。「あなたはこの[企業]を友人や同僚に薦める可能性はどのくらいありますか？」という質問に対して0なら「全く可能性がない」10なら「非常に高い可能性がある」と数字で回答します。(後のバージョンでFred Reichheldはその数字にした理由を聞くようにしています。それも後で見ていきましょう。)

　普通の統計学者であれば集められた数字の平均値を報告します。その理由はよく説明されてはいませんが、NPSでは平均値を利用しません。その代わりにスコアを三つのセグメントに分けます。

9と10は「プロモーター」

7と8は「受動的な立場」

6から0は「批判的な立場」

f:id:kazuya_nakamura:20171230160323j:plain — Net Promoter Score

　スコアを計算する式は以下の通り。

　NPS =「プロモーター」の割合マイナス「批判的立場」の割合

　例えば10人の回答者がいたとします。データは 0、0、1、4、5、6、7、8、9と10。

　この平均は5となります。

　NPSは「プロモーター」20%で「批判的立場」が60%なので、マイナス40となります。

f:id:kazuya_nakamura:20171230160721j:plain — NPSの分布

　5が平均というのは良くも悪くも有りません。ニュートラルと言えます。しかしマイナス40は非常に悪いですよね。 (マイナス100よりは悪くないですが、それでもすごく悪いです)

　なぜかというとNPSの考えではニュートラルなスコアをつける人は他人にその会社を薦めないからです。ロイヤルではありません。「プロモーター」に引き上げないといけないので「批判的な立場」とされます。

NPSはエクスペリエンスの成功を隠す

f:id:kazuya_nakamura:20171230160834j:plain — 回答が全て0だった場合

　例えばものすごい悪い日があったとします。10人の回答者全てゼロ：0、0、0、0、0、0、0、0、0で0。

　平均はゼロです（当然ながら）。

　NPSはマイナス100。これがNPSでの最悪のスコアです。

　理解できます。ゼロは最悪です。ゼロに祝福はありません。

　そして、チームはすごく頑張ったとします。プロダクトをよくしました。

f:id:kazuya_nakamura:20171230161032j:plain — 回答が全て6だった場合

　ガンバってスコアを全て６にしました。6、6、6、6、6、6、6、6、6と6。

　平均は６です。

　しかし、NPSはまだマイナス100です。

　何らかの理由でNPSは６はゼロと同じだと考えます。NPS以外ではそうは考えていませんが。Intuitのような会社で働いていると、ゼロから６に改善するために多大な努力をしたとしても認められません。役員もボーナスをもらえません。何もやってないのと同じ。

f:id:kazuya_nakamura:20171230161130j:plain — 回答が全て8だった場合

　もちろん、これはあなたが６しかもらえなかったから。例えば８をもらえるくらいプロダクトを改善したらどうでしょうか？8、8、8、8、8、8、8、8、8と8。

　平均は８でNPSは...ゼロです。

　全てのユーザーをゼロから８に引き上げるというのは普通の組織ではものすごい達成です。しかし、NPSを採用しているとゼロですのでボーナスはもらえません。

f:id:kazuya_nakamura:20171230161253j:plain — 回答が全て9だった場合

　ではデータを全て９にしてみましょう。9、9、9、9、9、9、9、9、9と9。

　平均は９で、なんとNPSは100です！

　８から見ると100%の改善です。やった！ボーナスがもらえる！データをちょっと押し上げるだけで真ん中から最高になりました。天才ですか？

　このようにNPSの計算は納得できる部分は多くありません。ビジネス的にも数学的にもこのようなスコアの急激な変化に意味はありません。

　小さな改善の蓄積が小さなスコアの改善に反映されるべきです。大きな改善のみ大きなスコアの変化に表れるべきです。NPSはそのようになっていませんし、それについて誰も説明できません。

　これはKate Rutterが言うところの「分析劇場」です。プロダクトやサービスを改善するためではなく、ドラマを生み出すため数字の劇的変化を演出する方法です。

　平均の方が数字で何が起きているのかを理解することができます。シンプルで改善を表現します。

もしNPSの問題が単なる計算式の問題だけであれば平均を使えば解決です。しかし、平均はデータに意味がある場合にのみ有効です。不幸にしてNPSの質問をどのように解釈するかによってデータは意味がなさなくなります。

ノイズが科学を装う11ポイントスケール

f:id:kazuya_nakamura:20171230161412j:plain — 3ポイントスケール

　「この記事が面白かったですか？」と質問をして「はい」「いいえ」「わからない」の三つの選択肢があったらどのように回答しますか？三つから選ぶのはさほど難しくありません。

f:id:kazuya_nakamura:20171230161516j:plain — 5ポイントスケール

　それが3ポイントスケールです。これを5ポイントスケールに引き上げると少し回答するのが難しくなります。「とても面白い」「ちょっと面白い」「わからない」「ちょっとつまらない」「とてもつまらない」。「ちょっとつまらない」ってなんでしょうか？ちょっと面白いけど最後まで読みおえるほどは面白くない？

f:id:kazuya_nakamura:20171230161626j:plain — 7ポイントスケール

　7ポイントスケールだとさらに難しくなります。ラベルがつけられなくなり、数字に頼るようになります。「とても面白い」、6と5、「わからない」、3と2、「とてもつまらない」。

　回答が難しいだけでなく、解釈も難しくなります。3と2の違いは何でしょうか？両方とも悪いスコアです。しかし、何が違うのでしょうか？回答者はその時々で一貫性がある回答をすることができるのでしょうか？他の回答者との一貫性はどうでしょうか？

f:id:kazuya_nakamura:20171230161733j:plain — 11ポイントスケール

　NPSでは11ポイントスケールを使います。これはとても多い数字ですし、数字の違いは明確ではありません。私とあなたは全く同じエクスペリエンスを体験するかもしれませが、私は7、あなたは6をつけるかもしれません。何か意味のある違いがあるのでしょうか？

　私たちは6と７の違いを理解すると何となく想定されていますが、多くの回答者は理解していません。何を選ぶかは気まぐれです。

　NPSでは6のみのデータセットではマイナス100で7のみのデータセットではゼロになります。NPSにとっては大きな区別ですが、回答者にとってはノイズでしかありません。回答者はどうしてその数字なのか説明できません。

NPSの質問：無意味なデータを入力すれば無意味な結果が返ってくる

　NPSを導入するときに、回答者に友達や同僚に[企業]を勧める可能性を聞きます。表面的に顧客のロイヤリティーについての質問にみえます。元々のハーバードビジネスレビューの記事でも著者は実際の再購入や紹介と強い関連性があると主張しています。

　しかし、後の調査で関連性は見つかりませんでした。その理由がこちら。

　良い質問は未来ではなく過去についての質問です。健康的な生活を送るつもりですか？とか砂糖をこれからは抑えますか？とかこの商品を買いますか？などの質問は未来を予測するものです。私たちはこれから何をするかよりもこれまでに何を行なったかに関心を持ちます。私たちは行動の予測ではなく実際の行動に関心を持ちます。

　こちらがその例となります。イギリスの分析コンサルタントでNPSの信奉者のDan Barkerに協力してもらいました。一つのeコマースから16ヶ月のNPSデータです。

f:id:kazuya_nakamura:20171230161916j:plain — eコマースのNPS

　DanのNPSデータポイントは5から10までの広がりがあります。このデータから読み取れないのは実際にそのような行動をとったかどうかです。その企業を実際に友人や同僚に勧めたかどうかわかりません。

　Danの購入履歴から彼の顧客はスコア8の回答に最もお金（$110）を使っています。一番安い買い物（$57.60）に9をつけています。スコア5がつけられた時の価格は10がつけられた時の価格と$3.00しか違いがありません。このデータから買い物の行動とNPSの回答の関連性はみられません。ロイヤリティーの関連性もです。

NPSは本当にロイヤリティーと成長の数値なのか？

　ロイヤリティーは長い道のりです。長期間の行動です。ハーバードビジネスレビューの記事でFred Reichheldは「ロイヤリティーは個人的な投資や犠牲と引き換えに企業との関係性を深めたいというのぞみです」と解説しています。

　しかしNPSの質問は投資や犠牲について触れていません。ロイヤリティーについても触れていません。会社を勧めるかどうかしか聞いていません。

　将来の行動についての質問はロイヤリティーではなく、楽観主義です。

　もし本当にロイヤリティーについて関心があるのであれば、別の質問ができます：「過去6週間に私たちのサービスを友達または同僚に紹介してもらえましたか？」。これはNetflixが初期に実際に顧客に質問したやり方です。Netflixはこれと同時に決定的な質問を購読者全員にします「新しく購読するにあたり、友達や家族から紹介されましたか？」

f:id:kazuya_nakamura:20171230162048j:plain — Netflix

　Netflixではこの質問の「はい」の回答と新しい購読者の成長と関連性を見出しました。そして「はい」の回答がなくなるとキャンセルが増え新しい購読者の成長が鈍りました。これらの質問はNetflixの成長と直接関連づいています。質問は過去の行動についてであり、未来の予測ではありません。

エクスペリエンスとNPSはマッチしない

　これを書いている時まさにユナイテッド航空のWebサイトで私が891,116マイルを飛んだと表示しています。今年だけで49回のフライトで73,890マイル飛んでいます。このデータだけでロイヤルカスタマーと言えるでしょう。

　私のTwitterをフォローしている人であれば私がユナイテッド航空のサービスに文句ばっかり言ってるのにお気づきでしょう。もしユナイテッド航空がNPSの質問をしたならば5以上の回答はあまりしないでしょう。（誰も殴られなかった時が5です）

　私はユナイテッド航空のロイヤルカスタマーでしょうか？NPSの質問（未来の行動）でもNetflixの質問（過去の行動でも）ユナイテッド航空に高い得点を与えるでしょう。

　驚くことに私はいつもユナイテッド航空を勧めています。ボストンから西海岸に移行するのにベストチョイスです。寛容できる程度の国際線サービスもあります。

　しかし「ベストチョイス」が「ウキウキするサービス」というわけではありません。最悪の中では一番マシというだけです。彼らが好きだから勧めるのではなく、他が大嫌いだから勧めるのです。

　この記事を書いていると知っている友人がCitiオンラインバンキングのNPS質問を送ってきてくれました。

f:id:kazuya_nakamura:20171230162209j:plain — CitibankのNPS

　その友人はお金を送るためにCitiのアカウントにログインんしました。その取引は平凡なものでした。なんで平凡なサービスのためにCitiを銀行として推薦するのでしょうか。そもそも普段の銀行取引は平凡なものです。何か違ったことがあるとしたら、それは悪い知らせです。

　NPSはユーザーのこのような粒度を反映してデザインされていません。この質問をされる前に4回別の取引をしたかもしれません。どうしてそれらを覚えているでしょうか？うまくいったのでしょうか？

　NPSが目的とするデザインの通り試したのですが、企業がこのやり方を試す時には問題に直面します。回答に何も意味はないのですから。

NPSを質的調査に組み込んでみる

　数年の間、私たちはNPSの質問を質的調査に組み込んでみました。どうしてそのスコアを選んだのか。私たちの発見は、人々はその質問の意味を理解していなかったということです。

　低いスコアをつける典型的な参加者は全く問題のないサービスやプロダクトのエクスペリエンスを私たちのラボでは体験します。なぜ低いスコアをつけたかを聞くと、過去に悪い体験をしたためにそのサービスを勧めるのに抵抗があると言います。そのサービスやプロダクトをそれ以来使っていないかというと、何回も使ってると言います。

　またサービスやプロダクトを使いにくそうにしていたのに10をつけた参加者がいました。彼らの答えは「思ったより良かった」や「まあ、いいかも」でした。このプロダクトやサービスを実際に使うかどうかを聞くと「多分使わない」です。

　私たちは「誰に推薦するか思いつかない」という理由で0をつける多くの参加者をみてきました。他の人たちは友達がその会社で働いているという理由で10を付けました。企業が回答に対してAmazonのギフトカードなどインセンティブを提供する場合もスコアは高くなる傾向があります。「ゼロをつける参加者にギフトはもらえないだろう」と考えるからです。

　私たちはNPSが顧客のエクスペリエンスもロイヤリティーも表していないことを学びました。実際にNPSは何も有益なことを表していません。

NPSは簡単に操作できる

　もしボーナスがNPSスコアと連動しているなら $100のインセンティブはスコアを上げる有効な手段です。そしてこれはNPSを操作する唯一の手段ではありません。

　質問をユーザープロセスの最後にすることでもスコアを上げることができます。理想的なタイミングはタスクの完了を成功したときです。例えば購入とか。

　それにより、成功した人にだけ質問をすることができます。プロセスにフラストレーションを感じて途中でやめた人を除外できます。回答は自然とポジティブなものが集まります。

f:id:kazuya_nakamura:20171230162355j:plain — 回答率7%

　もう一つの方法は回答率を無視することですｈほとんどのNPS調査でのフィローアップ質問の回答率は4%から7%です。7%の回答率というのは1人から回答のあったら13人は回答していないということです。この答えなかった13人は答えた1人と同じ回答でしょうか？おそらく違うでしょう。

　イライラした人はわざわざフィードバックをしないというのが低い回答率の説明の一つです。 Fred Reichheldのロイヤリティの定義で言えば、興味のない人はさらなる投資をしません。

　スコアを更に操作するならば、「批判的な立場」のユーザーには早い段階で脱落してもらうことです。悪いエクスペリエンスによって意識的に離脱を促し、スコアを改善することができます。意図的でなくとも、これを発見して改善する方法はほぼないので、結果的にそうなりやすいです。

　このようなNPSのダークなテクニックで高いスコアを獲得でき、もっとボーナスがもらえます。みんなが幸せになりますよね？

　私たちはNPSを有害だと考えます。全く改善していないエクスペリエンスをあたかも改善したように操作できます。

フォローアップ質問の本当の価値

　NPS信者は数字以外は何も質問しないといいます。スマートな実施は常になぜそのスコアなのかフォローアップ質問をします。洗練された調査ではスコアによってフォローアップ質問を変えます。プロモーターには「何が良かったのか」、批判的な立場には「どう改善すればいいか」を聞きます。

　これはとても正しいことです。本当の価値は「なぜ」という質問です。ユーザーは何が実際に起こり、どうすれば改善できるのかを教えてくれます。また、すでによくできていることを壊さないように。

　NPS信奉者に私は素晴らしいデータを取っていると言います。なんでわざわざ数字の質問までするんでしょうか？質的な質問で十分ではないでしょうか。彼らの反応はモゴモゴ口ごもったり、セグメントやインディケーターに関するフワフワした説明や理屈のつかないタワゴトです。

　私たちは「なぜ」の質問を対面の質的ユーザー調査に追加します。その反応はデザインに関する問題部分とうまくいっている部分に関するヒントを与えてくれます。しかし、NPSスコアの反応はそのセッションで何が起きたかと関係がありません。これは私たちが実際に集めたデータにも表れています。NPSは現実を表していません。

でも、偉い人たちは数字が欲しいんですよ！

　最近Fortune 500企業のデザイン担当の上級副社長が「全ての部門の役員ミーティングでは数字を発表します。多くの場合、NPSだったりします。NPSじゃなければ何か改善を示す別の数字が必要なんですよ」と言いました。

　数字なんてたくさんあります。実際に無数にあります。

　それでも企業のカスタマーエクスペリエンスを表すたった一つの数字はありません。NPSですらです。だからといって、挑戦をやめる理由にはなりません。

　私たちは事業の数字を使うことができます。サブスクリプションの数や離脱率など。売上、純収益や利益でも構いません。

　これらの数字はプロダクトのデザインに直接関係してきます。顧客が満足なのか、さらにワクワクしているのかはわかりません。

　これこそがNPSがやろうとしていることです。成功していないというだけで。ではどうしたらいいでしょうか？以下は代替案です。

f:id:kazuya_nakamura:20171230162605j:plain — どれくらいウキウキ、それともイライラしましたか？

f:id:kazuya_nakamura:20171230162705j:plain — お役に立てましたか？

f:id:kazuya_nakamura:20171230162737j:plain — ハッピーにできましたか？

　どれでも構わないと思います。もっと大事なのが次の質問です。

f:id:kazuya_nakamura:20171230162842j:plain — どのようにすればもっとよくなりますか？

　このフォローアップ質問こそが価値となります。いろんな質問の仕方があるでしょう。顧客に耳を傾けるのが重要なのです。

カスタマーエクスペリエンスを一つの数字で表すことはできない

　これがNPSの欠陥です。達成できない結果を達成しようとする。簡単に問題を解決するという約束自体が経営陣には魅力的なのです。実際に問題は解決しないのですが。

　カスタマーエクスペリエンスとは製品、Webサイト、従業員やブランド全てとの関わりの総合点です。そのやりとりの流れは顧客によって全て違います。

　NPSを信じる人たちは欲しているものを実現しないものを欲しています。NPSは星占いのようなもので、科学的ではありません。信仰です。

　UXのプロといえど星占いが本物だと信じている人を説得するのは難しいでしょう。それでも私たちは罠を避け、組織に対して価値のある測定をすることはできます。

　この記事を友人や同僚に勧める可能性はどれくらいありますか？

解説

ジャレッド・スプールはUIEの創業者でUI/UXの専門家として知られています。最近だとKickstarterキャンペーンでCenter CentreというUXデザインを教える教育機関を設立しました。ボク個人もNPSには納得できない部分があって、こうやって説明されると「なるほどな」と思います。

カタパルトスープレックスなかむらかずや