人間社会の営みの中に自然法則を見つけ出す 女性研究者が探るデータの未来
プロフィール
- 佐野 幸恵 筑波大学 システム情報系 助教
- 博士(理学)。2003年奈良女子大学 大学院物理科学専攻修了。2007年まで消防システムのエンジニアとして勤務後、再び大学へ戻る。2010年まで東京工業大学の博士後期課程に在籍。日本大学理工学部 助手を経て2014年より現職。専門は社会経済物理で、主にソーシャルメディアに関する研究に従事。子供の頃の夢は天文学者か宇宙飛行士。
ビッグデータで加速する、社会経済物理学
社会経済物理学とは、人間の集団から生まれる社会、経済、文化、政治的な現象の中に自然法則を見つけ出し、数理モデルを組み上げ理解するという分野だ。
人間ひとりひとりには意思があり、それぞれが思い思いに行動している。だが集団になるとブームやパニックによって一斉に同じような行動をしてしまうことがある。ならば、人間集団を「相互作用の強弱が切り替わる粒子の集まり」として捉えることで、社会の動きも物理法則として記述する事ができるはずだ。
社会経済物理学は、統計物理学から派生した研究分野のひとつとして位置づけられる。
物質ではない事象を物理学的アプローチで研究する分野を横断した取り組みは「Interdisciplinary physics」と呼ばれ、近年急速に発展している。その背景にはビッグデータ時代の到来が大きく影響しているようだ。様々な事象の膨大な実測データを取得し解析できるようになったため、多くの分野で物理学的アプローチでの理論モデルを検証する事が可能になったのだ。
社会経済物理学の基本的な研究のアプローチは4段階に分かれ、統計物理学の基本的なアプローチと同じだ
【データ解析】:検索エンジンを使い、ブログに含まれる特定の単語の出現頻度を時系列に収集し解析する
【法則性発見】:解析したデータから法則性や数理的パターンを見つけ出す
【理論モデル】:見つけ出した法則性を再現する数理モデルを構築する
【応用】:数理モデルによって特定の単語の出現頻度を予測。実測データと比較し実証する
ブログを観測して人間集団を理解する
佐野先生の研究は、インターネット上に溢れる数多のブログデータを解析し、ブログ空間の人間集団の振る舞いを数理モデル化するというものだ。
佐野 「元々ブログを読んだり書く事も好きだったこともありますが、社会経済物理学の研究室に所属した頃に、ブログを使って解析をしないかというお話をいただいたのがきっかけです。」
佐野先生の研究分野では、扱う対象が物質ではなくブログ空間だが、ブログには本質的に物理法則を見出すことができる要素があるという。
佐野 「統計物理の大原則として“等重率の原理”というものがあります。分子ひとつひとつの個別性は無視して、すべて同じ速度、同じ確率で別々の方向に動くと仮定する。その積み重ねによって成功してきました。人間はもちろん個別性がありますが、それを削ぎ落としてシンプルにした時に、どこまで社会現象を説明できるのか。それにチャレンジしているのが社会経済物理学の分野なんです。研究を始めた当初、ブログを使って物理学ができるのかという事は若干、半信半疑ではありました。でも、ブログにはデータベースとして時系列があります。さらにひとつひとつを見ていくと、単語や文脈といったテキストデータがあるし、誰が投稿しているのかトレースすることもできます。テキストというミクロなデータもあるし時系列というマクロなデータもあるので、統計物理学の考え方が使えるのではないかと思いました。」
ブログ解析の重要な基盤となる日常語のゆらぎの数理モデル
ブログ空間のデータを収集した時に、ある単語の出現頻度に少し目立った動きがあったとする。だが、それは本当に「目立った動き」なのだろうか?特徴を見つけ出すには平時の状態がどういうものかを知る必要がある。そこで佐野先生が導きだしたのが日常語のゆらぎの数理モデルだ。
日常語とは助詞や接続詞などどんな話題でも日常的に書き込まれる言葉のことだ。英語ではstop wordと呼ばれ、検索対象から外されていることが多い。日常語がどのようなゆらぎを持って日々書き込まれているのかを知る事ができれば、そのゆらぎの範囲から飛び出た単語は何らかの特徴を持つと考える事が可能になる。
ブログにおける日常語のゆらぎを把握するため、まずはデータを収集する。形容詞1781単語の時系列を取り出し、2006年11月1日から4年間の全期間での平均と標準偏差をプロットする。(図:「平均と揺らぎの関係」)
取り出した単語の標準偏差は、単語の出現頻度が低い(平均が低い)場合ではポアソン過程に従って分布する事が確認される。
しかし、出現頻度が高くなるにつれ、ポアソン過程で導かれるラインから外れていき、平均に対して線形に増えはじめていく。
「平均が大きくなるにつれ、ゆらぎが線形に増えていく」という現象は鳥の群の大きさやハイウェイの交通量など、自然界から社会現象まで幅広い事象で観測されている。これはテイラーのスケーリング則と呼ばれ、すでに数理モデルも確立されていた。
その法則を応用してブログでの日常語のゆらぎをモデル化したものが次の式だ。(図:「現象を再現するモデル」)
この数理モデルの特徴的な点は、単語の書き込みに関与する人の数がランダムに変動するという点にある。つまり、全ブロガーが毎日書き込みをしているのではなく、全ブロガーの中で「その日にブログを書いた/書かなかった」というゆらぎがあり、「その日にブログを書き、かつ観測される単語を書いた/書かなかった」という2重のゆらぎが存在するのである。(図:「平均と揺らぎの関係 – 再現モデル」)
2重のゆらぎを加味した上で導きだした数理モデルは、実測データの分布と一致している事がわかる。このモデルに当てはまる動きをする単語は「日常語」として扱える。逆に、モデルとは異なる動きをした単語が、何らかの要因により書き込まれている「非日常語」として判断する事が可能になったのだ。
ここまでは“ブログ観測の際に日常語と非日常語を区別するための基盤モデル”について解説してきた。佐野先生はさらに、“ある言葉(非日常語)がブログにどのような頻度で書き込まれるかの予測モデル”も導き出している。
物質の相転移はブログにも見られる
物質の温度を変化させていくと、ある温度から急激に状態(形や磁性)が変化する。これは相転移という現象だが、ブログ空間においても同じような変化を観測する事ができる。
磁性体の温度を上げていくと、ある温度から磁化率は急激に変化する。
(キュリー・ワイスの法則)例えば鉄では770℃で磁化率が臨界点に達する。(図:「磁化率の変化」)
この変化のカーブと同じ法則性がブログの書き込みにも見る事ができる。図:「ブログ数の変化」は「こどもの日」を含むブログ記事数の変動を表したものだ。ピーク日をtcと表すと、ちょうど毎年5月5日にピーク日tcを迎え、その前後での変動はピーク日からの日数に対して、ベキ関数的に変動している。下図左の磁化率の変化と同じように、臨界点tc前後で急激に変動している事がわかる。
物質の相転移の臨界温度は、ブログで置き換えるならば「特定の言葉を書き込む締め切り日」だ。つまり、ブログにおける相転移とは、特定の言葉がベキ関数的に出現することである。その変化量を数理モデル化することができれば、あらかじめ締め切り日がわかっている言葉(クリスマス、海の日など)がどのように出現するかの予測を立てる事ができる。
この数理モデルでは、特定の単語(j)を含むブログ投稿数 wj(t)の時間変化△wj(t)の中に、“締め切り効果”と“書き込み数のフィードバック効果”が含まれていることがポイントだ。(図:「ベキ発散を説明する数理モデル1」)
締め切り効果:時間変化△wj(t)は、締め切り日までの日数の逆数に比例する
書き込み数のフィードバック効果:前日に投稿された単語jを含む記事数に比例する
実際に観測されたデータの推移と、予測推移(黒ライン)を比較すると、予測モデルの妥当性が確認できる。(図:「ベキ発散を説明する数理モデル2」)
神様のパズルを解く。普遍性を見つける楽しさ
物事を究極まで削ぎ落として、最後に残った本質的なものを捉える事がこの学問のポイントだと佐野先生は語る。
佐野 「シンプルだけどいろいろなものに適用できる法則に私は心を惹かれます。そういったものが自然現象だけじゃなくて社会現象にも眠っているんじゃないか。宝探しのようなイメージですね。法則性を見つけた事だけでも嬉しいんですが、さらに自分でモデルを構築して、その上にきちんと事象が当てはまってくれると、まるで神様のパズルの1ピースが解けたんじゃないかなと思います。」
今後、世界のビッグデータサイエンスの流れはさらに加速し、IoT(Internet of Things)によって人間の行動だけでなく、人間が使う「モノ」が生成するデータも大量に取得できる時代になるはずだ。佐野先生の研究分野も、さらに新たな領域に広がっていくだろう。