background-eyecatch

日本語の択一問題を解くレシピ

4.5(30)
0

メニュー

概要

先日、rinna株式会社が日本語GPT-2/BERTの事前学習モデルを開発しオープンソース化したことを発表しました。

GPT-2やBERTをはじめとする言語モデルは、会話や文章の「人間が使う言葉」を確率としてモデル化したものです。
優れた言語モデルとは、確率を正確に推定できるものを指します。
例えば、 “確率(吾輩は猫である)>確率(吾輩が猫である)” と推定できるのが、言語モデルの能力です。

今回、rinna社が公開したHuggingFaceのデモページでは、一般的な日本語テキストの特徴を有した高度な日本語文章の自動生成を実行できます。
例えば「生命、宇宙、そして万物についての究極の疑問の答えは」と入力文に対して実行すると「生命、宇宙、そして万物についての究極の疑問の答えは、何だったか。 そう思いながらもそのままにしていると、ある日、不思議な現象が起こりました。それはもう、 地球での生活に必要な、最低限の食事ですら」と続きの文章が自動生成されます。

日本語文章の自動生成以外にも様々なタスクを実行することができます。
本レシピではそれらのタスクのうち、択一問題を解くことをテーマに解説します。
択一問題というと試験を想像される方が多いと思います。
試験を解くAIというと代表的なプロジェクトは「東ロボくん」です。
目的の東大合格を果たすことなく凍結してしまったようですが、その復活が見込めるほどの日本語言語モデルの発展を本レシピにより味わうことができます。

学べること

  • 日本語GPT-2/BERTの事前学習モデルの実装
  • 自然言語処理のうち日本語の択一問題というタスク

始める前のスキルセット

  • Pythonの基礎
  • 自然言語処理の基礎

実務活用例

日本語の択一問題を解くモデルを実装できます。

キッチン

開発環境

  • Google Colaboratory

ツール

  • Python 3
  • transformers
  • sentencepiece
  • japanese-pretrained-models

調理

テスト

テストを受けてみよう

transformersを開発しているのはどれですか?

BERTに基づかないモデルはどれですか?

「四季は春と夏と秋と冬です」をトークン化したものはどれですか?