background-eyecatch

日本語BERT事前学習モデルを使ってMultilabel Sentiment分類器を学習するレシピ

4.9(9)
0

メニュー

概要

このレシピでは、日本語を対象にしたマルチラベル問題の分類器を作成します。
最初にTwitter APIを使って教師データを集めて、BERTの事前学習モデルをFinetuningします。
学習にはHuggingFaceで公開されている事前学習モデルを使います。

学べること

  • Twitter APIを使ったツイートの収集
  • 事前学習モデルを使ったマルチラベルデータの学習
  • テキストの感情分類をするモデルの作成

始める前のスキルセット

  • Pythonの基本構文
  • 機械学習の基礎知識

実務活用例

  • SNSのモニタリング
  • 商品に関する市場調査
  • アンケートの傾向分析

キッチン

開発環境

  • Python
  • Jupyter Notebook

ツール

  • notebook==6.4.0
  • pandas==1.2.4
  • ipywidgets==7.6.3
  • sklearn==0.0
  • transformers==4.6.1
  • matplotlib==3.4.2
  • seaborn==0.11.1
  • numpy==1.20.3
  • torch==1.8.1
  • fugashi==1.1.0
  • unidic-lite==1.0.8
  • datasets==1.7.0
  • tensorboard==2.5.0
  • cloud-tpu-client==0.10

調理

テスト

テストを受けてみよう

TwitterAPIを使ってツイート本文を取得するときに気を付けるべきことはどれですか?

データセットを分割する関数はどれですか?

今回使用したデータセットのツイートに含まれるトークンの分布で最も多いのはどれですか?