公的データのフォーマット

2019年2月現在、統計改ざんの話題が上がっていて、統計学に対するいい学習機会だと実は思っています。
改ざんは絶対に許されないことなのですが、それと同じようにいけないことが統計データにはいくつかあります。
例えば、誤解しやすいデータの発表のされ方をしてるとか。
もうひとつ、今回取り上げたいのが、データの再利用性なのです。Excelでせっかく配られているのなら、ただ見るだけではなく、Excelに取り込んで各自の解釈で分析してみたい。
この記事は、公的データがExcelで配布されているにも関わらず、Excelで利用できないような形になっていることに対しての意見記事です。

現行の公的データ

まず、統計データではないもので恐縮なのですが、ものすごくわかりやすい例なので、「平成30年分 源泉徴収税額表」のデータを見てみたいと思います。

平成30年分 源泉徴収税額表|国税庁

月額表のExcelデータを見てみます。

Excelで開くとこのような形です。

整然とデータが並んでいます。
例えば給与額が91300円で扶養がなければ、91000円の欄の額が適用されます。
ExcelのVLOOKUP関数でも同じようなことができるじゃないですか。

その場合、

=VLOOKUP(給与額,A8:K1000,不要人数+3,FALSE)

で求められますよね、とてもシンプルに。
しかし、実際には求まりません。
原因は、92000と93000の間に空白行が入っているからです。これは人が見やすいように5行ごとに空白行を入れていると思うのですが、これがVLOOKUP関数の近似値一致のやり方では指定できないのです。
この空白をすべて削除するのは、並べ替えをすればいいのかなと思うのですが、並べ替えをしたところで他のところがずれてしまうようなことが絶対に起きない保証がないので、その確認のために1、2時間を要してしまうのです。
本当は一つ計算式を作成すればいいだけなのに。
せっかくExcelで提供されていても、これでは、給与計算とかに使えないということになります。
これは例えばそれぞれの企業でそのまま参照できないためにかかる労力があったとして、すべての企業数の3割がExcelで計算できるししたいと思っている場合、活用するまでの時間工数として考えたら、積み上げたときの金額コストってどれだけの莫大なものになるか、わかりますよね。
これをきちんとExcelで活用できるフォーマットで公開してもらうことで世の中の生産性の無駄がそれだけなくなるということになります。

次に、よく使うであろう人口推計データです。これは政府の統計データを公開しているe-Statという日本政府のサイトです。

人口推計 各月1日現在人口 月次 2019年1月 | ファイル | 統計データを探す | 政府統計の総合窓口
人口推計は、国勢調査による人口を基に、その後の各月における出生・死亡、入国・出国などの人口の動きを他の人口関連資料から得ることで、毎月1日現在の男女別、年齢階級別の人口を推計しています。また、毎年10月1日現在の全国各歳別結果及び都道府県別結果も推計しています。  推計結果は、各種白書や国際機関における人口分析、経済分...

年齢性別別の推計を見てみます。
やっぱり5階級ごとに空白行が入っています。このデータの場合、空白行じゃなくて行の高さで調整されているところは考えてるなと思いますし、そもそもVLOOKUP関数で何かを調べるという目的では使わないと思いますが。
でも。。。5階級は何かの決まりなんでしょうか。

ここで問題になってくるのは、項目ごとのタイトルです。
例えば、D列のタイトルを見ると、2019年の男女の総人口というのは見ればわかります。
しかし、Excelはそう判断できるでしょうか。
例えば4行目をタイトルして考えると、これはセル結合されていると思うので、D列には項目名は入っていますが、E列には項目名は入っていない。
9行目をタイトルとして考えると、D列の項目名と同じものがH列にも入っているし、K列にも入っているのでどれがどれだかわからないのです。
これの処理はかなり大変で、一つ&で結合した文字列で項目名を作って単純にコピーすればいいってものでもありません。
項目名はすべてバラバラで一個も同じものがあってはいけない、空白の項目名があってはいけないという原則に違反します。
もっと具体的に具体的に言うと、Excelのピボットテーブルで集計できる形になっていないと言えます。
せっかくExcelで配布しているのに、実際の分析作業の前にデータ加工が必要で、そのコストがかかるっていうのは本当によくないと思います。
さらに、項目名で問題なのが、セルD7など。

Excelとしては、セルD7は「総人口」ではなく「総[空白]人[空白]口」という項目なのです。
これは確実に誤解を生みます。
見た目をよくしても、データの正確性が失われてはいけません。
こうなってるところ、何か所かありますね。
これは私たちが普段Excelデータを作る時も注意したい部分です。
インデント付きで均等割り付けすれば問題ないです。

まとめ

何のためにExcelで配布しているのか、そのデータを印刷して見るだけなら現状でもいいと思います。
しかし、たくさんの大学や企業でもこのデータはExcelなどを使って統計的に活用しています。
人間の見た目だけではなくて、Excelがきちんと理解できる形であるからExcelで配布する意味が出てくると思うので、このあたりも統計の専門家だけではなく、Excelの専門家も交えて、さらにどんな活用ができるのか、その活用するツールそれぞれの専門家やベンダーも巻き込んで公開していかないと、無駄なコストが無駄にかかってしまいます。そしてせっかく公開されているデータの利用数も使いにくいからといってどんどん敬遠されていきます。
e-StatならびにExcelデータを公開している公的機関のみなさまには、今一度利用者視点にたった公開方法の検討をお願いしたいと思います。

コメント

タイトルとURLをコピーしました