Googleの検索エンジンではユーザーの検索したキーワードセットや閲覧履歴などの情報が常に記録されていて、これを元にユーザーの嗜好を抽出してそれに対応したWeb広告を表示することでマーケティングを最適化しています。
更にいえば各Webページはクローラーと言うボットにより形態素解析され、どんなキーワードが含まれているか、どんな内容かを分析してGoogleのサーバーに記録し、これによりWebページをランク付けしたりどのようなキーワードで検索された際にページを表示するかを決定しています。
Google Chromeの閲覧履歴はPCのローカルファイルにSQLiteの形で保存されています。Pythonを使えばここから履歴データ取り出すことができ、更に形態素解析による分析も可能になります。
このレシピではPythonのJanomeと言う形態素解析ライブラリを使って、Google Chromeの履歴データから頻出単語を取り出してランキング化し、ユーザーのWebページ閲覧の傾向を分析する方法を解説します。