目次
みなさん、はじめまして。熊野コミチと申します。
メーカーで製品開発に携わっているかたわら、仕事で使える統計学というYouTubeチャンネルを運営しており、主にメーカーで使える統計学、品質工学などを解説しています。今回のコラムでは、ものづくりのための統計学をテーマに、実際に現場で統計学を使う際のポイントや罠、現実などを普段活用している立場からお話していきます。
(執筆:熊野コミチ)
記事一覧:【連載】熊野コミチの「ものづくり統計学」

「統計学、分かるとちょっとカッチョイイ」(詠み人・熊野)
統計学って、皆さんも当然耳にしたことがあると思います。「データを駆使して問題解決出来たら超スマート」「周りから一目置かれる人材、カッチョイイ」――そんなイメージありません? 私にはありました。
私が統計学を学び始めたきっかけはそんなもんだったのです。
まあ、ものづくり現場で統計学を使っている人、見たことがないんですけどね
冗談はさておいても、昨今、というか、『統計学が最強の学問である』(西内 啓・著、2013年)が出版されてからというもの、データ活用の重要性は周知の事実だと思います。
しかしながら、あなたの周りを見渡してみてください。データを活用している人はいらっしゃるでしょうか? 少なくとも私はこれまで3社ほどメーカーを渡り歩き、品質管理や製品開発といったデータを扱いそうな部署を経験してきたにも関わらず、統計学を活用して仕事を進めている人を見たことがありません。
なんで? 統計学が難しいから? そりゃ本格的な手法は難しいのは確かですが、実用性十分かつ比較的簡単な手法はいくつもあります。大学卒業した理系がうごめいているであろう製品開発部署の人間が理解できずに挫折するってのは少し考えにくいのです。
ものづくりの現場で統計学が使われない理由
ということで、前置きが長くなりました。記念すべき第1回のテーマは、「ものづくりの現場で統計学が使われない理由」ということで、お話させてもらいます。
【理由その1】データが足りない
実験サンプル作り、量産だと自動になるはんだも手作業になったりね…
そもそも、分析手法を活用できるほどのデータが手元に存在しないというのがあります。統計学の手法は、少なくとも30、可能であれば100とかそれ以上のサンプルサイズ(標本数)が求められるものが多いです。
そして私が携わっている製品開発では、この量のデータを集めるのは至難の業です。実験室でサンプルを作製することが多いのですが、サンプル1つ作るのにも莫大な労力と時間(ひっくるめるとコスト)がかかるからです。

ゆえに結局準備できるサンプルサイズは3~5程度になる。このサンプルサイズでは標準偏差が安定しないので範囲(最大-最小)でばらつきを把握するしかなく、箱ひげ図も機能しないので棒グラフにエラーバーを付けて比較するのが関の山になります。
よって、「手法は勉強して知っているのに、このデータ量じゃ使える手法ないじゃん」ってなるわけです。
【理由その2】データの前処理がしんどすぎ
だからセル結合するなって何度も…

「確かに実験室ではそうだろう。でも現場ならどうよ。日々大量の製品を作って品質データを測定しているよね? データ量が足りないってことはないだろう」って思う人もいるかも知れませんが……。確かに、量的には十分な場合も、もちろんあります。
ですが、データがあったらあったなりで大変なんです。そもそもそれまで統計学を活用していない職場で蓄積されたデータというのは、分析に向いた保存のされ方をしていません。
紙に記録され棚に保管されている場合は、そのすべてをデジタルに変換しないと分析できません。デジタルに保管されていても、「構造化データ」という「行と列に品目やデータが記入された形式」になっていないと分析できません。
構造化データはPCには認識させやすい形なのですが、人が見たら「ただの文字や数字の羅列」なので不便です。データリテラシーがない職場のPC上に記録されているデータは、人の目に見やすい表の形式になっているので、これを分析できる形に打ち直すのはひと苦労です。
例えば、X上でExcelの「セルの結合」にブチ切れている人を見かけたことありませんか? これがうまくデータ処理できない理由であることがたくさんあるんです。
さらに歯抜けのデータや、数値として扱えない情報も含まれるでしょう。それらもPCで処理できるように、さらに前処理をしないといけないわけです。
よって実際、データ分析以前に、こうした前処理に時間の大半が消費されます。学んで初めて分析するぞってなって、最初にこれらの高負荷が立ちはだかってきたら、相当に強い意志がないと挫折するんじゃないでしょうか?
【理由その3】項目数が不足しがち
結局、勘かよ! データって何だっけ??
統計学をはじめとしたデータ分析手法は魔法なんかじゃありません。解析元の生データに情報が入ってなければ、当然良い答えは得られないのです。いわゆる「ガベージインガベージアウト」(Garbage In, Garbage Out、[ゴミを食わせば、ゴミが出てくる」)ってやつです。これは、「生データの質が重要」という話なのですが、データの質は項目数で決定されます。

ここでは、「加熱と圧縮を加えることで作られる部材の強度がいつものロットと比べて強度が不足した」というシチュエーションを考えてみましょう。記録しているのは加熱の設定値と圧縮の設定値です。またそれに加えて「加工に携わった人」「何月何日に作られたか」「当時の気温と室温」なども記録していたとします。これまで繰り返し作ってきたので、情報量は十分。蓄積してきたデータを散布図行列や箱ひげ図、回帰分析などを駆使して解析してみたとします。しかし全然分からない……。どの情報も、強度に対してあまり寄与が見られないという結果になりました、と。
なので結局蓄積したデータに頼らずブレストしてみると、「そもそも加熱と圧縮の設定値は一緒だけど実際の値は一緒なの?」というアイデアが出て、実際に測定してみるとばらつきがひどく、加熱と圧縮のエネルギーが最も低くなる組み合わせが重なった場合、強度が著しく下がることが分かりましたとさ。はいめでたしめでたし。
……どうでしょう。似たような状況に遭遇したことありませんか? 結局蓄積したデータの解析より、技術者のアイデアをより集めて見逃していた情報に目を付けて解決という状況が多いと思います。これも結局蓄積しているデータに加熱と圧縮の実測値という項目が入っていなかったから気づかなかったというオチなわけです。こういう経験を重ねると「データ分析したところで無駄やがな」となってしまうわけなのです。
熊野もまさに直面中! 統計学活用の障壁
「データが足りない」「前処理の負荷がでかい」「データの質が悪い」――これらの壁は時間が経過するほど高くなります。しかもこれらの前提を攻略したら絶対に新しい価値(生産数が上がる、画期的な性能が得られる、コストが下がるなど)が生み出せる保障はどこにもありません。なので全体を巻き込もうにも納得させることが非常に困難です。
これが、私がこれまで実務で統計学の活用にチャレンジして肌身で感じた障壁です。だから、もてはやされる割に統計学を使う技術者が案外少ないのだと思います。
逆を言えば、他のメーカーも同様に、データの活用に難儀しているともいえるので、自分たちが活用できれば差を生み出すことができるかもしれないのです。そういう意味ではチャンスがまだまだ目の前に転がっているといえます。
ちなみに私自身の場合は、製品開発業務担当なので、もろに【理由その1】「データが足りない」という場面に直面しています。そこに対しての対処として、実験計画法を積極的に活用しています。
実験計画法を使えば、最小限の実験数で項目数を十分な量そろえることが可能になるので、「【理由その3】項目数が不足しがち」については解決します。解析する上で非常に理想的なデータが取れるので、データの力を十全に活用出来るのです。一人でも実践でき、特別なソフトも不要なので、周りの同意を必要とせずに始められるのも魅力ですしね。
いつかこちらのコラムでも解説したいと考えていますが、「それまで待てないよ」という方は私のYouTubeチャンネルで実験計画法の解説をしていますので、ぜひのぞいていってください。
(次回へ続く)
関連リンク:熊野コミチ 統計とお仕事チャンネル(YouTube)
記事一覧:【連載】熊野コミチの「ものづくり統計学」
執筆者プロフィール
熊野コミチ
メーカーで製品開発に従事。過去には品質管理・保証業務で統計を使った工程管理や分析を経験。仕事で使える統計学をテーマに、最近では品質工学、品質管理、実験計画法などをYouTubeなどで情報発信している。
ただ単に聞きかじった教科書的な知識ではなく、実際に実用し失敗したりうまくいったりした経験から得たポイントや、“現場で使える”ノウハウを強みとして発信を続けている。登録者数は1万7000人を超える。
執筆者サイト、SNS
