明星大学

2023年よりリニューアルされ、分野を超えたフレキシブルな学びを実現させた明星大学。その理工学部 総合理工学科 大気科学研究室では、データ分析の高度化によってさらに研究を充実させるため、TIBCO Spotfire®(ティブコ スポットファイア)に着目。TIBCOの国内総代理店 NTTコム オンライン・マーケティング株式会社のパートナーである株式会社カズテクニカへ協力を仰ぎ、Spotfireを活用する共同研究をスタートさせました。ここでは共同研究開始の経緯と現在の活用ぶり、今後の展望について、理工学部 総合理工学科 教授の櫻井氏、大気科学研究室に所属する学生の細越氏、同研究室と共同研究を実施している株式会社カズテクニカ データソリューション部 部長の湯山氏にうかがいました。

産学連携が実現させた「TIBCO Spotfire®による学術研究×データサイエンスのイノベーション」

[お話を伺った方]

明星大学 理工学部 総合理工学科
教授
櫻井 達也 氏

明星大学 理工学部 総合理工学科
大気科学研究室
細越 英彰 氏

株式会社カズテクニカ
データソリューション部
部長
湯山 強 氏

左から「櫻井氏」「細越氏」「湯山氏」

【目的】

  • 大気汚染に関連する大量の観測データを、機械学習させて、大気汚染予報ができるモデルを開発したい。

【課題】

  • 大気科学を対象とした従来のシミュレーションモデルを導入・使用するためには、Linux環境の構築や高度なプログラミング知識が求められるため、研究者以外への展開が困難。
  • 表計算ソフトでは扱えるデータ量に限界があり、逆に研究テーマを狭めざるを得ない状況も懸念された。

【効果】

  • 従来のシミュレーション研究とは異なる内容を扱うにあたり、データ読み込みから機械学習まで一連の流れとしてSpotfireで完結できたこと。
  • 広域かつ長期間における膨大な大気観測データや発生源情報のデータ整理および解析、作図にかかる手間や時間が大幅に軽減できたこと。
  • カズテクニカが環境提供、技術面のサポートを行うことで、学生にとっても単なる技術習得を超えた社会経験に。引き続き、演習授業などでも協力を予定。

実施ハードルの高かった大気汚染の将来予測をSpotfireで簡単に実施できるように

大気科学研究室では、株式会社カズテクニカとSpotfireを用いた共同研究を行っているとのことですが、研究内容について教えてください。

櫻井氏:端的に言えば「大気汚染予報モデルの開発」ですね。例えば、みなさんスマートフォンで全国から集まった「アメダス」の情報をご覧になったりすることがありますよね。同じように今、全国各地に約1,500地点、大気汚染について観測する拠点が散らばっていて、その情報を集めたものがリアルタイムで見られるようになっています。リアルタイムで確認できるなら、そのデータを過去まで遡り教師データ(トレーニングデータ)とすることで、大気汚染の将来予測ができるのではないか?というのが最初のモチベーションでした。「これから大気汚染がひどくなりそうだ」とわかれば、自治体から警報や注意報を出すといった行政のニーズに応えられると考えたのです。

とはいえこれまで、大気汚染の将来予測は大変ハードルが高いものでした。コンピューターでシミュレーションを行うために、例えばLinuxやFortranといった高い専門的な知識が求められていました。従来は私の研究でも、このハードルの高いプログラミングを用いたシミュレーションをやってきました。

理工学部は、2023年度からSociety 5.0やDX、GXを見据えてデータサイエンスを取り入れた新カリキュラムをスタートしています。そこで、私の研究室でもSpotfireを導入することによって将来予測に対して機械学習を取り込み、大気汚染予測の裾野を広げたいと考えて、今回カズテクニカ様との共同研究に至ったのです。

「大量のデータを分析するハードルの高さ」が、研究テーマすら狭めてしまう

―この共同研究の中心となったのが、学生として研究室に所属していた細越さんなのですね。どのような形で取り組んでいたのかうかがえますか。

細越氏:研究内容としては、大気環境や大気汚染物質に関するデータをもとに「入力されたデータをプログラムが自ら選定し、目的とされた答えを抽出していく」というプログラムをPythonで作っています。テーマは大気科学ですが、工学部的な知見からプログラムの学習工程を考えていく研究でもありますね。

―さまざまなツールがある中で、Spotfireを選んでいただいた決め手はどのようなことだったのでしょうか。

櫻井氏:大気汚染の予測研究には、最初のステップとして気象データはもちろん、どこでどれだけ汚染物質が排出されているかなど、さまざまな種類の膨大なデータを取り込む必要があります。さらに次のステップとしてそれを統計解析したり、可視化したりするプロセスも生じます。

従来はこの一つ一つのプロセスで全部違うソフトを使うことも珍しくなく、それらのソフトの操作を覚えなければならない、そこがハードルの高さになっていました。FortranやLinuxを使える人材を育成するとなれば、研究の本筋とは別の手間がかかってしまいますから、研究者以外には展開しづらい面があったのです。

Spotfireであれば、大量のデータを読み込むことも、機械学習も一連の流れとして全部カバーしていますから、スムーズに入ることができました。そこが今回、彼の「裾野を広げる」研究につながったのです。

―LinuxやFortranの知識が求められるポイントの1つはそこにあったのですね。

櫻井氏:そうです。先ほどの「国内の大気汚染に関する観測データ」はすべてインターネットからCSV形式で自由にダウンロードできるようになっています。従来は学生も表計算ソフトを使って自らデータを加工していたのですが、表計算ソフトでは全国のデータとなると量が多すぎて一度に扱うことができないので、研究テーマ自体を東京都内に限定せざるを得ない……といったことが起きていたのです。

Spotfireではこれを一気に読み込めて、しかも感覚的にスムーズに扱えるようになりました。例えば空気の成分は、数キロほどの離れた地点同士でも結構違っています。地理的・時間的に空気の質が変わってくるので、それを地図上にプロットして行う研究もあります。SpotfireにはGIS(地理情報システム)が入っているのでこの作業がしやすく、研究でもかなり使っています。

それにSpotfireだと扱える「次元」が多くなるのです。例えば、表計算ソフトは「空間3次元(縦・横・高さ)」だけでも表現するのが難しい。今回の研究だと「時間方向」と「気温の変化」も加わりますから、それだけで5次元になります。こういった高次元での可視化となると、Spotfireは強いと感じましたね。

マップチャートによる大気汚染発生時の風向分析
ディープラーニングに基づく光化学オキシダント(Ox)濃度の時間変動予測

「Spotfireのおかげで研究が進みすぎる」ほどの経験をして、価値観にも変化が

―細越さんは、Spotfireを実際に研究へ使ってみていかがでしたか。

細越氏:大量のデータを扱うための機能には特に優れている印象ですね。これまでの課題や研究などで扱ってきたデータ量とは何桁も違う量を扱うことになるので、表計算ソフトではなかなか動かないし、保存にも時間がかかります。しかも表計算ソフトでは自分でデータを抽出して比較するので、どうしても「自分が選ぶ」というバイアスがかかってしまう。Spotfireでは常に全体のデータを扱えるので、このバイアスに引っ張られずにデータを選べるというのはよかったです。

それにトレリス機能(グラフを格子状にグループ分割表示できる機能)は、研究の内容や経過を説明する際に役立ちました。可視化されたグラフに対して、データの範囲や切り口を変えて展開していく作業がその場でできますから、例えば「こういう場合はどうですか?」と聞かれた瞬間に、一度持ち帰ってグラフを作り直さなくても、その場でSpotfireを操作して瞬時に指定カラムによるパネル分割表示が一瞬で作成できる。これを表計算ソフトでやるのはかなり手間がかかりますが、Spotfireならボタン1つで変えられます。複数条件のフィルタもすぐにかけられるので、「痛いところを突かれる」質問にも、すぐ対応できて助かりました(笑)。

Spotfireの導入にあたっては、2週間ほど毎日カズテクニカ様へ通って、トレーニングを受けました。研究中にも、行き詰まることがあるとカズテクニカ様に教えていただいて、無事に進めることができました。

湯山氏:意欲のある学生さんですから、物覚えが早く、ぐんぐん吸収していかれましたね。

櫻井氏:実際に社会で活躍されている方が学生に教えてくださるというのは大変ありがたいことだと感じています。学生に届く重みも違うのではないかと。

ご自身での研究にも、発表などでのみなさんとの意見交換にも役立てていただいたのですね。

「当初見込んでいたよりも研究が進んでしまって、価値観すらも変わった。この研究はSpotfireがなければ成り立たなかった」と細越氏

細越氏:この研究はSpotfireがなければ成り立たなかったと思っています。表計算ソフトを使っていたら、データを加工するだけで膨大な時間がかかっていたはずなので。しかも「ファイルを保存した後に間違いに気づいた」というような場合には、まずバックアップをどこまで取ってあるか確認して、悪くすると全部やり直すことになってしまう。

Spotfireは履歴が残っていますから、途中時点を選んで修正・改変できます。修正するとその後のバージョンも間違った部分だけが修正されていくので、「やり直し」に時間を取られることがなくなる。これは感動しました。

結局、当初見込んでいたよりも研究が進んでしまって、ただそうなると「まだ進められる」という物足りなさも出てきて、どこで完結させるか何度も考え直したほどでした。結果を出すまでのプロセスに時間を取られず、結果を見て考察する時間がしっかりあるという経験をしたことで、価値観すらも変わったと感じています。

データサイエンスのやり方だけでなく「何に使うか」、「何が起きているか」も学ぶ

―今後、Spotfireをどのように活用していきたいとお考えですか。

「人間の側に余裕が出るとなれば、次に何をするか「人間ならではの価値」に目を向けなければ」と櫻井氏

櫻井氏: 今後「ある種の専門性を持った上で、データサイエンスという道具を使える」ことが優位性になると思います。例えば「ある大気汚染が発生する原因」は多岐にわたります。つまり、データさえあれば解決するものではなく「どういう説明因子を教師データとして選ぶか」というセンスを問われるようになる。学生たちにはデータサイエンスを学ぶのと並行して、それを的確に活用するため別の専門分野についても勉強するといった学び方が重要になってくるのではないでしょうか。

本学には2023年度より「データサイエンス学環」が新設されました。データサイエンスを学びの中心に置き、情報学部、理工学部、経済学部の学びを環状につなぐことから、学部・学科ではない「学環」となっています。具体的には、学生が経済に関心を持てば「経済学でデータサイエンスを活かす」、理工に関心が高ければ「理工学にデータサイエンスを活かす」というわけです。

我々は理工学部やデータサイエンス学環において「理工学にデータサイエンスを活かす」ことをサポートしていきます。実際にカズテクニカ様から講師を迎え、Spotfireを取り入れた演習授業を行いたいと考えています。

まずSpotfireを使えれば統計解析などが機械学習でできるようになります。それだけでも、表計算ソフトとは圧倒的に仕事の質と量が違いますから、優位性になると思います。同じ時間で従来以上のことができるわけですから。

ただ、理工学部としては「機械学習で処理している部分をブラックボックスにしない」ことも重視しようと。例えば、単回帰分析に必要な最小二乗法などを例に、微分や線形代数がどのように役立つかなどといった数学の知識もしっかりと教えていく。こうした座学を踏まえ、実際にはどのように機械学習が行われるのかという演習を行う、両輪でやっていきたいですね。

湯山氏: 弊社で行う予定の演習授業では、Spotfireの演習だけではなく、データサイエンスが実社会でどのように活用されているかをイメージしてもらえるようにしたいと思います。今後大学におけるデータサイエンス教育の重要性はさらに増してきますので、共同研究や授業を通して、課題解決につながる統計的思考力やコミュニケーション力が身に付けられるように弊社が手助けしていければと考えています。

演習授業の講師には弊社に入社した大学OBを予定しています。母校のお役に立てる、後輩に教えられるということで本人も楽しみにしていますよ。

―教える側にも、これまで以上に広い視野や、柔軟な思考が求められますね。

櫻井氏:教員も古い考えを捨てて、アップデートしていかなければなりませんね。実際、昔の感覚で「大変だろう」と想定していた作業が、Spotfireでは瞬時にできているわけですから。大量のデータをスムーズに扱えるようになる、つまり人間の側に余裕が出るとなれば、次に何をするか「人間ならではの価値」に目を向けなければ。それがSociety 5.0だと感じています。

―Spotfireに任せるだけでなく、自らも「次の価値」を目指して進まれる姿勢に大変感じ入りました。我々もSpotfireでできることをさらに増やすべく、引き続き努めてまいります。本日はありがとうございました。