{ "cells": [ { "cell_type": "markdown", "metadata": { "id": "OoasdhSAp0zJ" }, "source": [ "##### Copyright 2019 The TensorFlow Authors." ] }, { "cell_type": "code", "execution_count": 1, "metadata": { "cellView": "form", "execution": { "iopub.execute_input": "2022-12-14T22:33:25.094779Z", "iopub.status.busy": "2022-12-14T22:33:25.094036Z", "iopub.status.idle": "2022-12-14T22:33:25.098337Z", "shell.execute_reply": "2022-12-14T22:33:25.097745Z" }, "id": "cIrwotvGqsYh" }, "outputs": [], "source": [ "#@title Licensed under the Apache License, Version 2.0 (the \"License\");\n", "# you may not use this file except in compliance with the License.\n", "# You may obtain a copy of the License at\n", "#\n", "# https://www.apache.org/licenses/LICENSE-2.0\n", "#\n", "# Unless required by applicable law or agreed to in writing, software\n", "# distributed under the License is distributed on an \"AS IS\" BASIS,\n", "# WITHOUT WARRANTIES OR CONDITIONS OF ANY KIND, either express or implied.\n", "# See the License for the specific language governing permissions and\n", "# limitations under the License.\n" ] }, { "cell_type": "markdown", "metadata": { "id": "C81KT2D_j-xR" }, "source": [ "# 추정기(Estimator)로 선형 모델 만들기\n", "\n", "\n", " \n", " \n", " \n", " \n", "
TensorFlow.org에서 보기Google Colab에서 실행하기GitHub에서 소스 보기노트북 다운로드하기
" ] }, { "cell_type": "markdown", "metadata": { "id": "JOccPOFMm5Tc" }, "source": [ "> 경고: Estimator는 새 코드에 권장되지 않습니다. Estimator는 `v1.Session` 스타일 코드를 실행하며, 이 코드는 올바르게 작성하기가 좀 더 어렵고 특히 TF 2 코드와 결합할 경우 예기치 않게 작동할 수 있습니다. Estimator는 [호환성 보장](https://tensorflow.org/guide/versions)이 적용되지만 보안 취약점 외에는 수정 사항이 제공되지 않습니다. 자세한 내용은 [마이그레이션 가이드](https://tensorflow.org/guide/migrate)를 참조하세요." ] }, { "cell_type": "markdown", "metadata": { "id": "tUP8LMdYtWPz" }, "source": [ "## 개요\n", "\n", "Note: 이 문서는 텐서플로 커뮤니티에서 번역했습니다. 커뮤니티 번역 활동의 특성상 정확한 번역과 최신 내용을 반영하기 위해 노력함에도 불구하고 [공식 영문 문서](https://www.tensorflow.org/?hl=en)의 내용과 일치하지 않을 수 있습니다. 이 번역에 개선할 부분이 있다면 [tensorflow/docs-l10n](https://github.com/tensorflow/docs-l10n/) 깃헙 저장소로 풀 리퀘스트를 보내주시기 바랍니다. 문서 번역이나 리뷰에 참여하려면 [docs-ko@tensorflow.org](https://groups.google.com/a/tensorflow.org/forum/#!forum/docs-ko)로 메일을 보내주시기 바랍니다.\n", "\n", "참고: Keras 로지스틱 회귀 예제를 [사용할 수](https://tensorflow.org/guide/migrate/tutorials/keras/regression) 있으며 이 튜토리얼보다 권장됩니다.\n" ] }, { "cell_type": "markdown", "metadata": { "id": "vkC_j6VpqrDw" }, "source": [ "## 설정" ] }, { "cell_type": "code", "execution_count": 2, "metadata": { "execution": { "iopub.execute_input": "2022-12-14T22:33:25.102402Z", "iopub.status.busy": "2022-12-14T22:33:25.101878Z", "iopub.status.idle": "2022-12-14T22:33:27.663009Z", "shell.execute_reply": "2022-12-14T22:33:27.662093Z" }, "id": "rutbJGmpqvm3" }, "outputs": [ { "name": "stdout", "output_type": "stream", "text": [ "Collecting sklearn\r\n" ] }, { "name": "stdout", "output_type": "stream", "text": [ " Downloading sklearn-0.0.post1.tar.gz (3.6 kB)\r\n" ] }, { "name": "stdout", "output_type": "stream", "text": [ " Preparing metadata (setup.py) ... \u001b[?25l-" ] }, { "name": "stdout", "output_type": "stream", "text": [ "\b \bdone\r\n", "\u001b[?25hBuilding wheels for collected packages: sklearn\r\n" ] }, { "name": "stdout", "output_type": "stream", "text": [ " Building wheel for sklearn (setup.py) ... \u001b[?25l-" ] }, { "name": "stdout", "output_type": "stream", "text": [ "\b \bdone\r\n", "\u001b[?25h Created wheel for sklearn: filename=sklearn-0.0.post1-py3-none-any.whl size=2935 sha256=27d86ea05ec407f5bede7b71fde558d0ed57ae3e4ea2c01e40f51cc339c58c5e\r\n", " Stored in directory: /home/kbuilder/.cache/pip/wheels/03/8b/6f/9f13c705de81a6b351b718b3cf917e41ad7c0933c8630d4dd4\r\n", "Successfully built sklearn\r\n" ] }, { "name": "stdout", "output_type": "stream", "text": [ "Installing collected packages: sklearn\r\n" ] }, { "name": "stdout", "output_type": "stream", "text": [ "Successfully installed sklearn-0.0.post1\r\n" ] } ], "source": [ "!pip install sklearn\n" ] }, { "cell_type": "code", "execution_count": 3, "metadata": { "execution": { "iopub.execute_input": "2022-12-14T22:33:27.668041Z", "iopub.status.busy": "2022-12-14T22:33:27.667367Z", "iopub.status.idle": "2022-12-14T22:33:28.343253Z", "shell.execute_reply": "2022-12-14T22:33:28.342430Z" }, "id": "54mb4J9PqqDh" }, "outputs": [], "source": [ "import os\n", "import sys\n", "\n", "import numpy as np\n", "import pandas as pd\n", "import matplotlib.pyplot as plt\n", "from IPython.display import clear_output\n", "from six.moves import urllib" ] }, { "cell_type": "markdown", "metadata": { "id": "fsjkwfsGOBMT" }, "source": [ "## 타이타닉 데이터셋을 불러오기\n", "\n", "타이타닉 데이터셋을 사용할 것입니다. 성별, 나이, 클래스, 기타 등 주어진 정보를 활용하여 승객이 살아남을 것인지 예측하는 것을 목표로 합니다." ] }, { "cell_type": "code", "execution_count": 4, "metadata": { "execution": { "iopub.execute_input": "2022-12-14T22:33:28.347740Z", "iopub.status.busy": "2022-12-14T22:33:28.347097Z", "iopub.status.idle": "2022-12-14T22:33:30.238190Z", "shell.execute_reply": "2022-12-14T22:33:30.237420Z" }, "id": "bNiwh-APcRVD" }, "outputs": [ { "name": "stderr", "output_type": "stream", "text": [ "2022-12-14 22:33:29.380734: W tensorflow/compiler/xla/stream_executor/platform/default/dso_loader.cc:64] Could not load dynamic library 'libnvinfer.so.7'; dlerror: libnvinfer.so.7: cannot open shared object file: No such file or directory\n", "2022-12-14 22:33:29.380865: W tensorflow/compiler/xla/stream_executor/platform/default/dso_loader.cc:64] Could not load dynamic library 'libnvinfer_plugin.so.7'; dlerror: libnvinfer_plugin.so.7: cannot open shared object file: No such file or directory\n", "2022-12-14 22:33:29.380876: W tensorflow/compiler/tf2tensorrt/utils/py_utils.cc:38] TF-TRT Warning: Cannot dlopen some TensorRT libraries. If you would like to use Nvidia GPU with TensorRT, please make sure the missing libraries mentioned above are installed properly.\n" ] } ], "source": [ "import tensorflow.compat.v2.feature_column as fc\n", "\n", "import tensorflow as tf" ] }, { "cell_type": "code", "execution_count": 5, "metadata": { "execution": { "iopub.execute_input": "2022-12-14T22:33:30.242922Z", "iopub.status.busy": "2022-12-14T22:33:30.242085Z", "iopub.status.idle": "2022-12-14T22:33:30.331919Z", "shell.execute_reply": "2022-12-14T22:33:30.331157Z" }, "id": "DSeMKcx03d5R" }, "outputs": [], "source": [ "# Load dataset.\n", "dftrain = pd.read_csv('https://storage.googleapis.com/tf-datasets/titanic/train.csv')\n", "dfeval = pd.read_csv('https://storage.googleapis.com/tf-datasets/titanic/eval.csv')\n", "y_train = dftrain.pop('survived')\n", "y_eval = dfeval.pop('survived')" ] }, { "cell_type": "markdown", "metadata": { "id": "jjm4Qj0u7_cp" }, "source": [ "## 데이터 탐험하기" ] }, { "cell_type": "markdown", "metadata": { "id": "UrQzxKKh4d6u" }, "source": [ "데이터셋은 다음의 특성을 가집니다" ] }, { "cell_type": "code", "execution_count": 6, "metadata": { "execution": { "iopub.execute_input": "2022-12-14T22:33:30.335865Z", "iopub.status.busy": "2022-12-14T22:33:30.335596Z", "iopub.status.idle": "2022-12-14T22:33:30.349787Z", "shell.execute_reply": "2022-12-14T22:33:30.349186Z" }, "id": "rTjugo3n308g" }, "outputs": [ { "data": { "text/html": [ "
\n", "\n", "\n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", "
sexagen_siblings_spousesparchfareclassdeckembark_townalone
0male22.0107.2500ThirdunknownSouthamptonn
1female38.01071.2833FirstCCherbourgn
2female26.0007.9250ThirdunknownSouthamptony
3female35.01053.1000FirstCSouthamptonn
4male28.0008.4583ThirdunknownQueenstowny
\n", "
" ], "text/plain": [ " sex age n_siblings_spouses parch fare class deck \\\n", "0 male 22.0 1 0 7.2500 Third unknown \n", "1 female 38.0 1 0 71.2833 First C \n", "2 female 26.0 0 0 7.9250 Third unknown \n", "3 female 35.0 1 0 53.1000 First C \n", "4 male 28.0 0 0 8.4583 Third unknown \n", "\n", " embark_town alone \n", "0 Southampton n \n", "1 Cherbourg n \n", "2 Southampton y \n", "3 Southampton n \n", "4 Queenstown y " ] }, "execution_count": 6, "metadata": {}, "output_type": "execute_result" } ], "source": [ "dftrain.head()" ] }, { "cell_type": "code", "execution_count": 7, "metadata": { "execution": { "iopub.execute_input": "2022-12-14T22:33:30.353173Z", "iopub.status.busy": "2022-12-14T22:33:30.352941Z", "iopub.status.idle": "2022-12-14T22:33:30.371058Z", "shell.execute_reply": "2022-12-14T22:33:30.370424Z" }, "id": "y86q1fj44lZs" }, "outputs": [ { "data": { "text/html": [ "
\n", "\n", "\n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", "
agen_siblings_spousesparchfare
count627.000000627.000000627.000000627.000000
mean29.6313080.5454550.37958534.385399
std12.5118181.1510900.79299954.597730
min0.7500000.0000000.0000000.000000
25%23.0000000.0000000.0000007.895800
50%28.0000000.0000000.00000015.045800
75%35.0000001.0000000.00000031.387500
max80.0000008.0000005.000000512.329200
\n", "
" ], "text/plain": [ " age n_siblings_spouses parch fare\n", "count 627.000000 627.000000 627.000000 627.000000\n", "mean 29.631308 0.545455 0.379585 34.385399\n", "std 12.511818 1.151090 0.792999 54.597730\n", "min 0.750000 0.000000 0.000000 0.000000\n", "25% 23.000000 0.000000 0.000000 7.895800\n", "50% 28.000000 0.000000 0.000000 15.045800\n", "75% 35.000000 1.000000 0.000000 31.387500\n", "max 80.000000 8.000000 5.000000 512.329200" ] }, "execution_count": 7, "metadata": {}, "output_type": "execute_result" } ], "source": [ "dftrain.describe()" ] }, { "cell_type": "markdown", "metadata": { "id": "8JSa_duD4tFZ" }, "source": [ "훈련셋은 627개의 샘플로 평가셋은 264개의 샘플로 구성되어 있습니다." ] }, { "cell_type": "code", "execution_count": 8, "metadata": { "execution": { "iopub.execute_input": "2022-12-14T22:33:30.374665Z", "iopub.status.busy": "2022-12-14T22:33:30.374038Z", "iopub.status.idle": "2022-12-14T22:33:30.378606Z", "shell.execute_reply": "2022-12-14T22:33:30.378041Z" }, "id": "Fs3Nu5pV4v5J" }, "outputs": [ { "data": { "text/plain": [ "(627, 264)" ] }, "execution_count": 8, "metadata": {}, "output_type": "execute_result" } ], "source": [ "dftrain.shape[0], dfeval.shape[0]" ] }, { "cell_type": "markdown", "metadata": { "id": "RxCA4Nr45AfF" }, "source": [ "대부분의 승객은 20대와 30대 입니다." ] }, { "cell_type": "code", "execution_count": 9, "metadata": { "execution": { "iopub.execute_input": "2022-12-14T22:33:30.382017Z", "iopub.status.busy": "2022-12-14T22:33:30.381487Z", "iopub.status.idle": "2022-12-14T22:33:30.579189Z", "shell.execute_reply": "2022-12-14T22:33:30.578349Z" }, "id": "RYeCMm7K40ZN" }, "outputs": [ { "data": { "text/plain": [ "" ] }, "execution_count": 9, "metadata": {}, "output_type": "execute_result" }, { "data": { "image/png": "\n", "text/plain": [ "
" ] }, "metadata": {}, "output_type": "display_data" } ], "source": [ "dftrain.age.hist(bins=20)" ] }, { "cell_type": "markdown", "metadata": { "id": "DItSwJ_B5B0f" }, "source": [ "남자 승객이 여자 승객보다 대략 2배 많습니다." ] }, { "cell_type": "code", "execution_count": 10, "metadata": { "execution": { "iopub.execute_input": "2022-12-14T22:33:30.582925Z", "iopub.status.busy": "2022-12-14T22:33:30.582646Z", "iopub.status.idle": "2022-12-14T22:33:30.711891Z", "shell.execute_reply": "2022-12-14T22:33:30.710634Z" }, "id": "b03dVV9q5Dv2" }, "outputs": [ { "data": { "text/plain": [ "" ] }, "execution_count": 10, "metadata": {}, "output_type": "execute_result" }, { "data": { "image/png": "\n", "text/plain": [ "
" ] }, "metadata": {}, "output_type": "display_data" } ], "source": [ "dftrain.sex.value_counts().plot(kind='barh')" ] }, { "cell_type": "markdown", "metadata": { "id": "rK6WQ29q5Jf5" }, "source": [ "대부분의 승객은 \"삼등석\" 입니다." ] }, { "cell_type": "code", "execution_count": 11, "metadata": { "execution": { "iopub.execute_input": "2022-12-14T22:33:30.716247Z", "iopub.status.busy": "2022-12-14T22:33:30.715336Z", "iopub.status.idle": "2022-12-14T22:33:30.837497Z", "shell.execute_reply": "2022-12-14T22:33:30.836592Z" }, "id": "dgpJVeCq5Fgd" }, "outputs": [ { "data": { "text/plain": [ "" ] }, "execution_count": 11, "metadata": {}, "output_type": "execute_result" }, { "data": { "image/png": "\n", "text/plain": [ "
" ] }, "metadata": {}, "output_type": "display_data" } ], "source": [ "dftrain['class'].value_counts().plot(kind='barh')" ] }, { "cell_type": "markdown", "metadata": { "id": "FXJhGGL85TLp" }, "source": [ "여자는 남자보다 살아남을 확률이 훨씬 높습니다. 이는 명확하게 모델에 유용한 특성입니다." ] }, { "cell_type": "code", "execution_count": 12, "metadata": { "execution": { "iopub.execute_input": "2022-12-14T22:33:30.841807Z", "iopub.status.busy": "2022-12-14T22:33:30.841049Z", "iopub.status.idle": "2022-12-14T22:33:30.976353Z", "shell.execute_reply": "2022-12-14T22:33:30.975400Z" }, "id": "lSZYa7c45Ttt" }, "outputs": [ { "data": { "text/plain": [ "Text(0.5, 0, '% survive')" ] }, "execution_count": 12, "metadata": {}, "output_type": "execute_result" }, { "data": { "image/png": "\n", "text/plain": [ "
" ] }, "metadata": {}, "output_type": "display_data" } ], "source": [ "pd.concat([dftrain, y_train], axis=1).groupby('sex').survived.mean().plot(kind='barh').set_xlabel('% survive')" ] }, { "cell_type": "markdown", "metadata": { "id": "qCHvgeorEsHa" }, "source": [ "## 모델의 특성 엔지니어링" ] }, { "cell_type": "markdown", "metadata": { "id": "Dhcq8Ds4mCtm" }, "source": [ "> 경고: 이 튜토리얼에 설명된 tf.feature_columns 모듈은 새 코드에는 권장되지 않습니다. [Keras 전처리 레이어](https://tensorflow.org/guide/versions)에서 이 기능을 다룹니다. 마이그레이션 지침은 마이그레이션 특성 열 가이드를 참조하세요. tf.feature_columns 모듈은 TF1 Estimators와 함께 사용하도록 설계되었습니다. 이는 우리의 호환성 보장 대상에 해당하지만 보안 취약점 외에는 수정 사항이 제공되지 않습니다." ] }, { "cell_type": "markdown", "metadata": { "id": "VqDKQLZn8L-B" }, "source": [ "추정기는 [특성 열](https://www.tensorflow.org/tutorials/structured_data/feature_columns)이라는 시스템을 사용하여 모델이 각 원시 입력 특성을 해석하는 방식을 설명합니다. 추정기는 숫자 입력의 벡터를 예상하고 *특성 열*은 모델이 각 특성을 변환하는 방식을 설명합니다.\n", "\n", "효과적인 모델 학습에서는 적절한 특성 열을 고르고 다듬는 것이 키포인트 입니다. 하나의 특성 열은 특성 딕셔너리(dict)의 원본 입력으로 만들어진 열(*기본 특성 열*)이거나 하나 이상의 기본 열(*얻어진 특성 열*)에 정의된 변환을 이용하여 새로 생성된 열입니다.\n", "\n", "선형 추정기는 수치형, 범주형 특성을 모두 사용할 수 있습니다. 특성 열은 모든 텐서플로 추정기와 함께 작동하고 목적은 모델링에 사용되는 특성들을 정의하는 것입니다. 또한 원-핫-인코딩(one-hot-encoding), 정규화(normalization), 버킷화(bucketization)와 같은 특성 공학 방법을 지원합니다." ] }, { "cell_type": "markdown", "metadata": { "id": "puZFOhTDkblt" }, "source": [ "### 기본 특성 열" ] }, { "cell_type": "code", "execution_count": 13, "metadata": { "execution": { "iopub.execute_input": "2022-12-14T22:33:30.980515Z", "iopub.status.busy": "2022-12-14T22:33:30.980247Z", "iopub.status.idle": "2022-12-14T22:33:30.986860Z", "shell.execute_reply": "2022-12-14T22:33:30.986204Z" }, "id": "GpveXYSsADS6" }, "outputs": [], "source": [ "CATEGORICAL_COLUMNS = ['sex', 'n_siblings_spouses', 'parch', 'class', 'deck',\n", " 'embark_town', 'alone']\n", "NUMERIC_COLUMNS = ['age', 'fare']\n", "\n", "feature_columns = []\n", "for feature_name in CATEGORICAL_COLUMNS:\n", " vocabulary = dftrain[feature_name].unique()\n", " feature_columns.append(tf.feature_column.categorical_column_with_vocabulary_list(feature_name, vocabulary))\n", "\n", "for feature_name in NUMERIC_COLUMNS:\n", " feature_columns.append(tf.feature_column.numeric_column(feature_name, dtype=tf.float32))" ] }, { "cell_type": "markdown", "metadata": { "id": "Gt8HMtwOh9lJ" }, "source": [ "`input_function`은 입력 파이프라인을 스트리밍으로 공급하는 `tf.data.Dataset`으로 데이터를 변환하는 방법을 명시합니다. `tf.data.Dataset`은 데이터 프레임, CSV 형식 파일 등과 같은 여러 소스를 사용합니다." ] }, { "cell_type": "code", "execution_count": 14, "metadata": { "execution": { "iopub.execute_input": "2022-12-14T22:33:30.990172Z", "iopub.status.busy": "2022-12-14T22:33:30.989726Z", "iopub.status.idle": "2022-12-14T22:33:30.994712Z", "shell.execute_reply": "2022-12-14T22:33:30.994049Z" }, "id": "qVtrIHFnAe7w" }, "outputs": [], "source": [ "def make_input_fn(data_df, label_df, num_epochs=10, shuffle=True, batch_size=32):\n", " def input_function():\n", " ds = tf.data.Dataset.from_tensor_slices((dict(data_df), label_df))\n", " if shuffle:\n", " ds = ds.shuffle(1000)\n", " ds = ds.batch(batch_size).repeat(num_epochs)\n", " return ds\n", " return input_function\n", "\n", "train_input_fn = make_input_fn(dftrain, y_train)\n", "eval_input_fn = make_input_fn(dfeval, y_eval, num_epochs=1, shuffle=False)" ] }, { "cell_type": "markdown", "metadata": { "id": "P7UMVkQnkrgb" }, "source": [ "다음과 같이 데이터셋을 점검할 수 있습니다:" ] }, { "cell_type": "code", "execution_count": 15, "metadata": { "execution": { "iopub.execute_input": "2022-12-14T22:33:30.998316Z", "iopub.status.busy": "2022-12-14T22:33:30.997717Z", "iopub.status.idle": "2022-12-14T22:33:34.747402Z", "shell.execute_reply": "2022-12-14T22:33:34.746542Z" }, "id": "8ZcG_3KiCb1M" }, "outputs": [ { "name": "stdout", "output_type": "stream", "text": [ "Some feature keys: ['sex', 'age', 'n_siblings_spouses', 'parch', 'fare', 'class', 'deck', 'embark_town', 'alone']\n", "\n", "A batch of class: [b'Third' b'Third' b'First' b'Third' b'Third' b'Third' b'First' b'Third'\n", " b'Second' b'First']\n", "\n", "A batch of Labels: [0 0 1 0 1 0 0 0 1 1]\n" ] } ], "source": [ "ds = make_input_fn(dftrain, y_train, batch_size=10)()\n", "for feature_batch, label_batch in ds.take(1):\n", " print('Some feature keys:', list(feature_batch.keys()))\n", " print()\n", " print('A batch of class:', feature_batch['class'].numpy())\n", " print()\n", " print('A batch of Labels:', label_batch.numpy())" ] }, { "cell_type": "markdown", "metadata": { "id": "lMNBMyodjlW3" }, "source": [ "또한 `tf.keras.layers.DenseFeatures` 층을 사용하여 특정한 특성 열의 결과를 점검할 수 있습니다:" ] }, { "cell_type": "code", "execution_count": 16, "metadata": { "execution": { "iopub.execute_input": "2022-12-14T22:33:34.751025Z", "iopub.status.busy": "2022-12-14T22:33:34.750742Z", "iopub.status.idle": "2022-12-14T22:33:34.777588Z", "shell.execute_reply": "2022-12-14T22:33:34.776912Z" }, "id": "IMjlmbPlDmkB" }, "outputs": [ { "data": { "text/plain": [ "array([[29.],\n", " [51.],\n", " [28.],\n", " [30.],\n", " [ 4.],\n", " [ 4.],\n", " [31.],\n", " [30.],\n", " [21.],\n", " [58.]], dtype=float32)" ] }, "execution_count": 16, "metadata": {}, "output_type": "execute_result" } ], "source": [ "age_column = feature_columns[7]\n", "tf.keras.layers.DenseFeatures([age_column])(feature_batch).numpy()" ] }, { "cell_type": "markdown", "metadata": { "id": "f4zrAdCIjr3s" }, "source": [ "`DenseFeatures`는 조밀한(dense) 텐서만 허용합니다. 범주형 데이터를 점검하려면 우선 범주형 열에 indicator_column 함수를 적용해야 합니다:" ] }, { "cell_type": "code", "execution_count": 17, "metadata": { "execution": { "iopub.execute_input": "2022-12-14T22:33:34.781341Z", "iopub.status.busy": "2022-12-14T22:33:34.780778Z", "iopub.status.idle": "2022-12-14T22:33:34.809309Z", "shell.execute_reply": "2022-12-14T22:33:34.808654Z" }, "id": "1VXmXFTSFEvv" }, "outputs": [ { "data": { "text/plain": [ "array([[0., 1.],\n", " [1., 0.],\n", " [1., 0.],\n", " [1., 0.],\n", " [0., 1.],\n", " [1., 0.],\n", " [1., 0.],\n", " [1., 0.],\n", " [0., 1.],\n", " [0., 1.]], dtype=float32)" ] }, "execution_count": 17, "metadata": {}, "output_type": "execute_result" } ], "source": [ "gender_column = feature_columns[0]\n", "tf.keras.layers.DenseFeatures([tf.feature_column.indicator_column(gender_column)])(feature_batch).numpy()" ] }, { "cell_type": "markdown", "metadata": { "id": "MEp59g5UkHYY" }, "source": [ "모든 기본 특성을 모델에 추가한 다음에 모델을 훈련해 봅시다. 모델을 훈련하려면 `tf.estimator` API를 이용한 메서드 호출 한번이면 충분합니다:" ] }, { "cell_type": "code", "execution_count": 18, "metadata": { "execution": { "iopub.execute_input": "2022-12-14T22:33:34.813213Z", "iopub.status.busy": "2022-12-14T22:33:34.812675Z", "iopub.status.idle": "2022-12-14T22:33:42.236989Z", "shell.execute_reply": "2022-12-14T22:33:42.236265Z" }, "id": "aGXjdnqqdgIs" }, "outputs": [ { "name": "stdout", "output_type": "stream", "text": [ "{'accuracy': 0.7462121, 'accuracy_baseline': 0.625, 'auc': 0.8314049, 'auc_precision_recall': 0.7929586, 'average_loss': 0.4918203, 'label/mean': 0.375, 'loss': 0.48571348, 'precision': 0.64285713, 'prediction/mean': 0.4394845, 'recall': 0.72727275, 'global_step': 200}\n" ] } ], "source": [ "linear_est = tf.estimator.LinearClassifier(feature_columns=feature_columns)\n", "linear_est.train(train_input_fn)\n", "result = linear_est.evaluate(eval_input_fn)\n", "\n", "clear_output()\n", "print(result)" ] }, { "cell_type": "markdown", "metadata": { "id": "3tOan4hDsG6d" }, "source": [ "### 도출된 특성 열" ] }, { "cell_type": "markdown", "metadata": { "id": "NOG2FSTHlAMu" }, "source": [ "이제 정확도 75%에 도달했습니다. 별도로 각 기본 특성 열을 사용하면 데이터를 설명하기에는 충분치 않을 수 있습니다. 예를 들면, 성별과 레이블간의 상관관계는 성별에 따라 다를 수 있습니다. 따라서 `gender=\"Male\"`과 'gender=\"Female\"`의 단일 모델가중치만 배우면 모든 나이-성별 조합(이를테면 `gender=\"Male\" 그리고 'age=\"30\"`그리고`gender=\"Male\"`그리고`age=\"40\"`을 구별하는 것)을 포함시킬 수 없습니다.\n", "\n", "서로 다른 특성 조합들 간의 차이를 학습하기 위해서 모델에 *교차 특성 열*을 추가할 수 있습니다(또한 교차 열 이전에 나이 열을 버킷화할 수 있습니다):" ] }, { "cell_type": "code", "execution_count": 19, "metadata": { "execution": { "iopub.execute_input": "2022-12-14T22:33:42.240965Z", "iopub.status.busy": "2022-12-14T22:33:42.240408Z", "iopub.status.idle": "2022-12-14T22:33:42.244115Z", "shell.execute_reply": "2022-12-14T22:33:42.243472Z" }, "id": "AM-RsDzNfGlu" }, "outputs": [], "source": [ "age_x_gender = tf.feature_column.crossed_column(['age', 'sex'], hash_bucket_size=100)" ] }, { "cell_type": "markdown", "metadata": { "id": "DqDFyPKQmGTN" }, "source": [ "조합 특성을 모델에 추가하고 모델을 다시 훈련합니다:" ] }, { "cell_type": "code", "execution_count": 20, "metadata": { "execution": { "iopub.execute_input": "2022-12-14T22:33:42.247711Z", "iopub.status.busy": "2022-12-14T22:33:42.247153Z", "iopub.status.idle": "2022-12-14T22:33:49.279273Z", "shell.execute_reply": "2022-12-14T22:33:49.278590Z" }, "id": "s8FV9oPQfS-g" }, "outputs": [ { "name": "stdout", "output_type": "stream", "text": [ "{'accuracy': 0.7537879, 'accuracy_baseline': 0.625, 'auc': 0.84459746, 'auc_precision_recall': 0.79323035, 'average_loss': 0.4729848, 'label/mean': 0.375, 'loss': 0.46476856, 'precision': 0.6666667, 'prediction/mean': 0.41475508, 'recall': 0.68686867, 'global_step': 200}\n" ] } ], "source": [ "derived_feature_columns = [age_x_gender]\n", "linear_est = tf.estimator.LinearClassifier(feature_columns=feature_columns+derived_feature_columns)\n", "linear_est.train(train_input_fn)\n", "result = linear_est.evaluate(eval_input_fn)\n", "\n", "clear_output()\n", "print(result)" ] }, { "cell_type": "markdown", "metadata": { "id": "rwfdZj7ImLwb" }, "source": [ "이제 정확도 77.6%에 도달했습니다. 기본 특성만 이용한 학습보다는 약간 더 좋았습니다. 더 많은 특성과 변환을 사용해서 더 잘할 수 있다는 것을 보여주세요!" ] }, { "cell_type": "markdown", "metadata": { "id": "8_eyb9d-ncjH" }, "source": [ "이제 훈련 모델을 이용해서 평가셋에서 승객에 대해 예측을 할 수 있습니다. 텐서플로 모델은 한번에 샘플의 배치 또는 일부에 대한 예측을 하도록 최적화되어있습니다. 앞서, `eval_input_fn`은 모든 평가셋을 사용하도록 정의되어 있었습니다." ] }, { "cell_type": "code", "execution_count": 21, "metadata": { "execution": { "iopub.execute_input": "2022-12-14T22:33:49.283204Z", "iopub.status.busy": "2022-12-14T22:33:49.282591Z", "iopub.status.idle": "2022-12-14T22:33:50.786720Z", "shell.execute_reply": "2022-12-14T22:33:50.785988Z" }, "id": "wiScyBcef6Dq" }, "outputs": [ { "name": "stdout", "output_type": "stream", "text": [ "INFO:tensorflow:Calling model_fn.\n" ] }, { "name": "stdout", "output_type": "stream", "text": [ "INFO:tensorflow:Done calling model_fn.\n" ] }, { "name": "stdout", "output_type": "stream", "text": [ "INFO:tensorflow:Graph was finalized.\n" ] }, { "name": "stdout", "output_type": "stream", "text": [ "INFO:tensorflow:Restoring parameters from /tmpfs/tmp/tmps9yhceth/model.ckpt-200\n" ] }, { "name": "stdout", "output_type": "stream", "text": [ "INFO:tensorflow:Running local_init_op.\n" ] }, { "name": "stdout", "output_type": "stream", "text": [ "INFO:tensorflow:Done running local_init_op.\n" ] }, { "data": { "text/plain": [ "" ] }, "execution_count": 21, "metadata": {}, "output_type": "execute_result" }, { "data": { "image/png": "\n", "text/plain": [ "
" ] }, "metadata": {}, "output_type": "display_data" } ], "source": [ "pred_dicts = list(linear_est.predict(eval_input_fn))\n", "probs = pd.Series([pred['probabilities'][1] for pred in pred_dicts])\n", "\n", "probs.plot(kind='hist', bins=20, title='predicted probabilities')" ] }, { "cell_type": "markdown", "metadata": { "id": "UEHRCd4sqrLs" }, "source": [ "마지막으로, 수신자 조작 특성(receiver operating characteristic, ROC)을 살펴보면 정탐률(true positive rate)과 오탐률(false positive rate)의 상충관계에 대해 더 잘 이해할 수 있습니다." ] }, { "cell_type": "code", "execution_count": 22, "metadata": { "execution": { "iopub.execute_input": "2022-12-14T22:33:50.790925Z", "iopub.status.busy": "2022-12-14T22:33:50.790154Z", "iopub.status.idle": "2022-12-14T22:33:51.183485Z", "shell.execute_reply": "2022-12-14T22:33:51.182766Z" }, "id": "kqEjsezIokIe" }, "outputs": [ { "data": { "text/plain": [ "(0.0, 1.05)" ] }, "execution_count": 22, "metadata": {}, "output_type": "execute_result" }, { "data": { "image/png": "\n", "text/plain": [ "
" ] }, "metadata": {}, "output_type": "display_data" } ], "source": [ "from sklearn.metrics import roc_curve\n", "from matplotlib import pyplot as plt\n", "\n", "fpr, tpr, _ = roc_curve(y_eval, probs)\n", "plt.plot(fpr, tpr)\n", "plt.title('ROC curve')\n", "plt.xlabel('false positive rate')\n", "plt.ylabel('true positive rate')\n", "plt.xlim(0,)\n", "plt.ylim(0,)" ] } ], "metadata": { "colab": { "collapsed_sections": [], "name": "linear.ipynb", "toc_visible": true }, "kernelspec": { "display_name": "Python 3", "name": "python3" }, "language_info": { "codemirror_mode": { "name": "ipython", "version": 3 }, "file_extension": ".py", "mimetype": "text/x-python", "name": "python", "nbconvert_exporter": "python", "pygments_lexer": "ipython3", "version": "3.9.16" } }, "nbformat": 4, "nbformat_minor": 0 }