add text generation tutorial with transformers

x4nth055 · x4nth055 · commit 3c5c702a3ddd · 2021-12-11T13:01:25.000+01:00
diff --git a/machine-learning/nlp/text-generation-transformers/README.md b/machine-learning/nlp/text-generation-transformers/README.md
@@ -0,0 +1 @@
+# [Text Generation with Transformers in Python](https://www.thepythoncode.com/article/text-generation-with-transformers-in-python)
diff --git a/machine-learning/nlp/text-generation-transformers/TextGeneration_Transformers_PythonCodeTutorial.ipynb b/machine-learning/nlp/text-generation-transformers/TextGeneration_Transformers_PythonCodeTutorial.ipynb
@@ -0,0 +1,214 @@
+{
+  "nbformat": 4,
+  "nbformat_minor": 0,
+  "metadata": {
+    "colab": {
+      "name": "TextGeneration-Transformers-PythonCodeTutorial.ipynb",
+      "private_outputs": true,
+      "provenance": [],
+      "collapsed_sections": [],
+      "machine_shape": "hm"
+    },
+    "kernelspec": {
+      "name": "python3",
+      "display_name": "Python 3"
+    },
+    "language_info": {
+      "name": "python"
+    }
+  },
+  "cells": [
+    {
+      "cell_type": "code",
+      "metadata": {
+        "id": "6bjli5Z7ZEVh"
+      },
+      "source": [
+        "!pip install transformers"
+      ],
+      "execution_count": null,
+      "outputs": []
+    },
+    {
+      "cell_type": "code",
+      "metadata": {
+        "id": "SPADZcRSY-3Y"
+      },
+      "source": [
+        "from transformers import pipeline"
+      ],
+      "execution_count": null,
+      "outputs": []
+    },
+    {
+      "cell_type": "code",
+      "metadata": {
+        "id": "k0zHPjIkqcEx"
+      },
+      "source": [
+        "# download & load GPT-2 model\n",
+        "gpt2_generator = pipeline('text-generation', model='gpt2')"
+      ],
+      "execution_count": null,
+      "outputs": []
+    },
+    {
+      "cell_type": "code",
+      "metadata": {
+        "id": "me1PAIvlqwKf"
+      },
+      "source": [
+        "# generate 3 different sentences\n",
+        "# results are sampled from the top 50 candidates\n",
+        "sentences = gpt2_generator(\"To be honest, neural networks\", do_sample=True, top_k=50, temperature=0.6, max_length=128, num_return_sequences=3)\n",
+        "for sentence in sentences:\n",
+        "  print(sentence[\"generated_text\"])\n",
+        "  print(\"=\"*50)"
+      ],
+      "execution_count": null,
+      "outputs": []
+    },
+    {
+      "cell_type": "code",
+      "metadata": {
+        "id": "aXI92oauZCD4"
+      },
+      "source": [
+        "# download & load GPT-J model! It's 22.5GB in size\n",
+        "gpt_j_generator = pipeline('text-generation', model='EleutherAI/gpt-j-6B')"
+      ],
+      "execution_count": null,
+      "outputs": []
+    },
+    {
+      "cell_type": "code",
+      "metadata": {
+        "id": "EaOAqXnXtOI0"
+      },
+      "source": [
+        "# generate sentences with TOP-K sampling\n",
+        "sentences = gpt_j_generator(\"To be honest, robots will\", do_sample=True, top_k=50, temperature=0.6, max_length=128, num_return_sequences=3)\n",
+        "for sentence in sentences:\n",
+        "  print(sentence[\"generated_text\"])\n",
+        "  print(\"=\"*50)"
+      ],
+      "execution_count": null,
+      "outputs": []
+    },
+    {
+      "cell_type": "code",
+      "metadata": {
+        "id": "6N5qFdcFZG1v"
+      },
+      "source": [
+        "# generate Python Code!\n",
+        "print(gpt_j_generator(\n",
+        "\"\"\"\n",
+        "import os\n",
+        "# make a list of all african countries\n",
+        "\"\"\",\n",
+        "    do_sample=True, top_k=10, temperature=0.05, max_length=256)[0][\"generated_text\"])"
+      ],
+      "execution_count": null,
+      "outputs": []
+    },
+    {
+      "cell_type": "code",
+      "metadata": {
+        "id": "-TOTvHiwwbK-"
+      },
+      "source": [
+        "print(gpt_j_generator(\n",
+        "\"\"\"\n",
+        "import cv2\n",
+        "\n",
+        "image = \"image.png\"\n",
+        "\n",
+        "# load the image and flip it\n",
+        "\"\"\",\n",
+        "    do_sample=True, top_k=10, temperature=0.05, max_length=256)[0][\"generated_text\"])"
+      ],
+      "execution_count": null,
+      "outputs": []
+    },
+    {
+      "cell_type": "code",
+      "metadata": {
+        "id": "_52OftmglAAv"
+      },
+      "source": [
+        "# complete bash script!\n",
+        "print(gpt_j_generator(\n",
+        "\"\"\"\n",
+        "# get .py files in /opt directory\n",
+        "ls *.py /opt\n",
+        "# get public ip address\n",
+        "\"\"\", max_length=256, top_k=50, temperature=0.05, do_sample=True)[0][\"generated_text\"])"
+      ],
+      "execution_count": null,
+      "outputs": []
+    },
+    {
+      "cell_type": "code",
+      "metadata": {
+        "id": "2x527AykVquF"
+      },
+      "source": [
+        "# generating bash script!\n",
+        "print(gpt_j_generator(\n",
+        "\"\"\"\n",
+        "# update the repository\n",
+        "sudo apt-get update\n",
+        "# install and start nginx\n",
+        "\"\"\", max_length=128, top_k=50, temperature=0.1, do_sample=True)[0][\"generated_text\"])"
+      ],
+      "execution_count": null,
+      "outputs": []
+    },
+    {
+      "cell_type": "code",
+      "metadata": {
+        "id": "elK4JyyxwCPM"
+      },
+      "source": [
+        "# Java code!\n",
+        "print(gpt_j_generator(\n",
+        "\"\"\"\n",
+        "public class Test {\n",
+        "\n",
+        "public static void main(String[] args){\n",
+        "  // printing the first 20 fibonacci numbers\n",
+        "\"\"\", max_length=128, top_k=50, temperature=0.1, do_sample=True)[0][\"generated_text\"])"
+      ],
+      "execution_count": null,
+      "outputs": []
+    },
+    {
+      "cell_type": "code",
+      "metadata": {
+        "id": "0US1Tv5xh-F2"
+      },
+      "source": [
+        "# LATEX!\n",
+        "print(gpt_j_generator(\n",
+        "r\"\"\"\n",
+        "% list of Asian countries\n",
+        "\\begin{enumerate}\n",
+        "\"\"\", max_length=128, top_k=15, temperature=0.1, do_sample=True)[0][\"generated_text\"])"
+      ],
+      "execution_count": null,
+      "outputs": []
+    },
+    {
+      "cell_type": "code",
+      "metadata": {
+        "id": "clkMMnsgh_YF"
+      },
+      "source": [
+        ""
+      ],
+      "execution_count": null,
+      "outputs": []
+    }
+  ]
+}
diff --git a/machine-learning/nlp/text-generation-transformers/requirements.txt b/machine-learning/nlp/text-generation-transformers/requirements.txt
@@ -0,0 +1 @@
+transformers
diff --git a/machine-learning/nlp/text-generation-transformers/textgeneration_transformers_pythoncodetutorial.py b/machine-learning/nlp/text-generation-transformers/textgeneration_transformers_pythoncodetutorial.py
@@ -0,0 +1,83 @@
+# -*- coding: utf-8 -*-
+"""TextGeneration-Transformers-PythonCodeTutorial.ipynb
+
+Automatically generated by Colaboratory.
+
+Original file is located at
+    https://colab.research.google.com/drive/1OUgJ92vQeFFYatf5gwtGulhA-mFwS0Md
+"""
+
+# !pip install transformers
+
+from transformers import pipeline
+
+# download & load GPT-2 model
+gpt2_generator = pipeline('text-generation', model='gpt2')
+
+# generate 3 different sentences
+# results are sampled from the top 50 candidates
+sentences = gpt2_generator("To be honest, neural networks", do_sample=True, top_k=50, temperature=0.6, max_length=128, num_return_sequences=3)
+for sentence in sentences:
+  print(sentence["generated_text"])
+  print("="*50)
+
+# download & load GPT-J model! It's 22.5GB in size
+gpt_j_generator = pipeline('text-generation', model='EleutherAI/gpt-j-6B')
+
+# generate sentences with TOP-K sampling
+sentences = gpt_j_generator("To be honest, robots will", do_sample=True, top_k=50, temperature=0.6, max_length=128, num_return_sequences=3)
+for sentence in sentences:
+  print(sentence["generated_text"])
+  print("="*50)
+
+# generate Python Code!
+print(gpt_j_generator(
+"""
+import os
+# make a list of all african countries
+""",
+    do_sample=True, top_k=10, temperature=0.05, max_length=256)[0]["generated_text"])
+
+print(gpt_j_generator(
+"""
+import cv2
+
+image = "image.png"
+
+# load the image and flip it
+""",
+    do_sample=True, top_k=10, temperature=0.05, max_length=256)[0]["generated_text"])
+
+# complete bash script!
+print(gpt_j_generator(
+"""
+# get .py files in /opt directory
+ls *.py /opt
+# get public ip address
+""", max_length=256, top_k=50, temperature=0.05, do_sample=True)[0]["generated_text"])
+
+# generating bash script!
+print(gpt_j_generator(
+"""
+# update the repository
+sudo apt-get update
+# install and start nginx
+""", max_length=128, top_k=50, temperature=0.1, do_sample=True)[0]["generated_text"])
+
+# Java code!
+print(gpt_j_generator(
+"""
+public class Test {
+
+public static void main(String[] args){
+  // printing the first 20 fibonacci numbers
+""", max_length=128, top_k=50, temperature=0.1, do_sample=True)[0]["generated_text"])
+
+# Commented out IPython magic to ensure Python compatibility.
+# LATEX!
+print(gpt_j_generator(
+r"""
+# % list of Asian countries
+\begin{enumerate}
+""", max_length=128, top_k=15, temperature=0.1, do_sample=True)[0]["generated_text"])
+

Original file line number	Diff line number	Diff line change
`@@ -0,0 +1 @@`
	`1`	`+# [Text Generation with Transformers in Python](https://www.thepythoncode.com/article/text-generation-with-transformers-in-python)`