##### Copyright 2022 The TensorFlow Authors.

In [None]:
#@title Licensed under the Apache License, Version 2.0 (the "License");
# you may not use this file except in compliance with the License.
# You may obtain a copy of the License at
#
# https://www.apache.org/licenses/LICENSE-2.0
#
# Unless required by applicable law or agreed to in writing, software
# distributed under the License is distributed on an "AS IS" BASIS,
# WITHOUT WARRANTIES OR CONDITIONS OF ANY KIND, either express or implied.
# See the License for the specific language governing permissions and
# limitations under the License.

# データセットコレクション

<table class="tfo-notebook-buttons" align="left">
  <td><a target="_blank" href="https://www.tensorflow.org/datasets/dataset_collections"><img src="https://www.tensorflow.org/images/tf_logo_32px.png">TensorFlow.org で表示</a></td>
  <td><a target="_blank" href="https://colab.research.google.com/github/tensorflow/docs-l10n/blob/master/site/ja/datasets/dataset_collections.ipynb"><img src="https://www.tensorflow.org/images/colab_logo_32px.png">Google Colab で実行</a></td>
  <td><a target="_blank" href="https://github.com/tensorflow/docs-l10n/blob/master/site/ja/datasets/dataset_collections.ipynb"><img src="https://www.tensorflow.org/images/GitHub-Mark-32px.png">GitHub で表示</a></td>
  <td><a href="https://storage.googleapis.com/tensorflow_docs/docs-l10n/site/ja/datasets/dataset_collections.ipynb"><img src="https://www.tensorflow.org/images/download_logo_32px.png">ノートブックをダウンロード</a></td>
</table>

## 概要

データセットコレクションは、任意の数の既存の TFDS データセットをグループ化し、それらに単純な演算を実行するための単純な方法を提供します。

たとえば、同じタスクに関連する様々なデータセットをグループ化したり、一定の数の様々なタスクでモデルを簡単に[ベンチマーク](https://ruder.io/nlp-benchmarking/)したりするのに役立ちます。

## セットアップ

まず、いくつかのパッケージをインストールします。

In [None]:
# Use tfds-nightly to ensure access to the latest features.
!pip install -q tfds-nightly tensorflow
!pip install -U conllu

TensorFlow と Tensorflow Datasets パッケージを開発環境にインポートします。

In [None]:
import pprint

import tensorflow as tf
import tensorflow_datasets as tfds

データセットコレクションは、任意の数の既存の TensorFlow Datasets（TFDS）データセットをグループ化し、それらに単純な演算を実行するための単純な方法を提供します。

たとえば、同じタスクに関連する様々なデータセットをグループ化したり、一定の数の様々なタスクでモデルを簡単に[ベンチマーク](https://ruder.io/nlp-benchmarking/)したりするのに役立ちます。

## 利用可能なデータセットコレクションを見つける

すべてのデータセットコレクションは、`tfds.core.dataset_collection_builder.DatasetCollection` のサブクラスです。

利用可能なビルダーのリストを取得するには、`tfds.list_dataset_collections()` を使用します。


In [None]:
tfds.list_dataset_collections()

## データセットコレクションを読み込んで検査する

データセットコレクションを読み込む最も簡単な方法は、[`tfds.dataset_collection`](https://www.tensorflow.org/datasets/api_docs/python/tfds/dataset_collection) コマンドを使用して `DatasetCollectionLoader` オブジェクトをインスタンス化することです。


In [None]:
collection_loader = tfds.dataset_collection('xtreme')

TFDS データセットと同じ構文に従って、データセットコレクションの特定のバージョンを読み込むことができます。

In [None]:
collection_loader = tfds.dataset_collection('xtreme:1.0.0')

データセットコレクションローダーは、コレクションに関する情報を表示できます。

In [None]:
collection_loader.print_info()

データセットコレクションローダーは、コレクションに含まれるデータセットに関する情報も表示できます。

In [None]:
collection_loader.print_datasets()

### データセットコレクションからデータセットを読み込む

コレクションから 1 つのデータセットを読み込む最も簡単な方法は、`DatasetCollectionLoader` オブジェクトの `load_dataset` メソッドを使用することです。これは、[`tfds.load`](https://www.tensorflow.org/datasets/api_docs/python/tfds/load) を呼び出して、必要なデータセットを読み込みます。

この呼び出しは、分割名とそれに対応する `tf.data.Dataset` のディクショナリを返します。

In [None]:
splits = collection_loader.load_dataset("ner")

pprint.pprint(splits)

`load_dataset` は、以下のオプションのパラメータを受け入れます。

- `split`: 読み込む分割。単一の分割（`split="test"`）または分割のリスト（`split=["train", "test"]`）を受け付けます。指定されていない場合は、特定のデータセットのすべての分割を読み込みます。
- `loader_kwargs`: `tfds.load` 関数に渡されるキーワード引数。様々な読み込みオプションの総合的な概要については、[`tfds.load`](https://www.tensorflow.org/datasets/api_docs/python/tfds/load) ドキュメントをご覧ください。

### データセットコレクションから複数のデータセットを読み込む

コレクションから複数のデータセットを読み込む最も簡単な方法は、`DatasetCollectionLoader` オブジェクトの `load_datasets` メソッドを使用することです。これは、[`tfds.load`](https://www.tensorflow.org/datasets/api_docs/python/tfds/load) を呼び出して、必要なデータセットを読み込みます。

このメソッドはデータセット名のディクショナリを返し、以下の例のように、それぞれが分割名とそれに対応する `tf.data.Dataset` のディクショナリに関連付けられています。

In [None]:
datasets = collection_loader.load_datasets(['xnli', 'bucc'])

pprint.pprint(datasets)

`load_all_datasets` メソッドは、特定のコレクションの利用可能な*すべて*のデータセットを読み込みます。

In [None]:
all_datasets = collection_loader.load_all_datasets()

pprint.pprint(all_datasets)

`load_datasets` メソッドは、以下のオプションのパラメータを受け入れます。

- `split`: 読み込む分割。単一の分割（`split="test"`）または分割のリスト（`split=["train", "test"]`）を受け付けます。指定されていない場合は、特定のデータセットのすべての分割を読み込みます。
- `loader_kwargs`: `tfds.load` 関数に渡されるキーワード引数。様々な読み込みオプションの総合的な概要については、[`tfds.load`](https://www.tensorflow.org/datasets/api_docs/python/tfds/load) ドキュメントをご覧ください。

### `loader_kwargs` を指定する

`loader_kwargs` は、[`tfds.load`](https://www.tensorflow.org/datasets/api_docs/python/tfds/load) 関数に渡されるオプションのキーワード引数です。以下の 3 つの方法で指定できます。

1. `DatasetCollectionLoader` クラスの初期化時:

In [None]:
collection_loader = tfds.dataset_collection('xtreme', loader_kwargs=dict(split='train', batch_size=10, try_gcs=False))

1. `DatasetCollectioLoader` の `set_loader_kwargs` メソッドを使用する:

In [None]:
collection_loader.set_loader_kwargs(dict(split='train', batch_size=10, try_gcs=False))

1. `load_dataset`、`load_datasets`、および `load_all_datasets` メソッドのオプションのパラメータとして:

In [None]:
dataset = collection_loader.load_dataset('ner', loader_kwargs=dict(split='train', batch_size=10, try_gcs=False))

### フィードバック

データセット作成ワークフローは継続的な改善が進められていますが、問題を認識していなければ、改善することはできません。データセットの作成中にどのような問題またはエラーが発生しましたか？混乱したり、初めて使用したときに機能しなかった部分はありませんでしたか？フィードバックを [GitHub](https://github.com/tensorflow/datasets/issues) にお送りください。