東京オリンピックのような国民の関心が高いイベントの開催期間中は、SNSにもその影響が顕著に見られます。特に世界的にユーザーの多いTwitterでは各種競技についての発信が増えます。通常はどの国がどの種目でメダルを何枚取ったか、という指標で評価される事になりますが、視聴者がどの種目にどれだけ注目したかというデータを知ろうとすると、TV視聴率のデータベースを使って種目毎の中継時間帯にどれだけの視聴率だったかを逐一調べて集計するということが必要になります。
その点Twitter上のPythonデータ分析では、APIによりデータ取得と分析、グラフ表示などが一括でできるので比較的簡便です。以下の画像は、オリンピック公式アカウントのツイートについたいいね数の開催期間中の推移です。横軸が開催期間を、縦軸が当日の公式ツイートについたいいねの合計です。今回解説するPythonプログラムで作成しました。
大まかにピークが2つ確認できます。1つ目のピークは7/25に確認でき、最初の大きな盛り上がりがこのタイミングで起こったことが示唆されます。実際にどの種目がどれだけ関与しているかを明らかにするために、本レシピの後半では比較的多くいいねがついたツイート群を可視化する方法も解説しています。
結論から言うと1つ目のピークに最も寄与していたのは以下のツイートでした。
詳しい考察は最後に掲載しますが、TVメディアだけを見ていると総じて盛り上がっているように見える各競技の実態がよくわかるので面白いです。今回は上述したようなTwitterAPIとmatplotlibでデータの取得と可視化をするプログラムの解説をします。