codebasics
diff --git a/‎13_word_vectors_spacy_overview/overview_spacy_word_vectors.ipynb
Lines changed: 209 additions & 0 deletions b/‎13_word_vectors_spacy_overview/overview_spacy_word_vectors.ipynb
Lines changed: 209 additions & 0 deletions
@@ -0,0 +1,209 @@
+{
+ "cells": [
+  {
+   "cell_type": "code",
+   "execution_count": 1,
+   "id": "e0a80da8",
+   "metadata": {},
+   "outputs": [],
+   "source": [
+    "import spacy\n",
+    "\n",
+    "# word vectors occupy lot of space. hence en_core_web_sm model do not have them included. \n",
+    "# In order to download\n",
+    "# word vectors you need to install large or medium english model. We will install the large one!\n",
+    "# make sure you have run \"python -m spacy download en_core_web_lg\" to install large english model\n",
+    "nlp = spacy.load(\"en_core_web_lg\")"
+   ]
+  },
+  {
+   "cell_type": "code",
+   "execution_count": 5,
+   "id": "f7b0ef24",
+   "metadata": {},
+   "outputs": [
+    {
+     "name": "stdout",
+     "output_type": "stream",
+     "text": [
+      "dog Vector: True OOV: False\n",
+      "cat Vector: True OOV: False\n",
+      "banana Vector: True OOV: False\n",
+      "kem Vector: False OOV: True\n"
+     ]
+    }
+   ],
+   "source": [
+    "doc = nlp(\"dog cat banana kem\")\n",
+    "\n",
+    "for token in doc:\n",
+    "    print(token.text, \"Vector:\", token.has_vector, \"OOV:\", token.is_oov)"
+   ]
+  },
+  {
+   "cell_type": "code",
+   "execution_count": 7,
+   "id": "c1213a20",
+   "metadata": {},
+   "outputs": [
+    {
+     "data": {
+      "text/plain": [
+       "(300,)"
+      ]
+     },
+     "execution_count": 7,
+     "metadata": {},
+     "output_type": "execute_result"
+    }
+   ],
+   "source": [
+    "doc[0].vector.shape"
+   ]
+  },
+  {
+   "cell_type": "code",
+   "execution_count": 11,
+   "id": "e62cde6f",
+   "metadata": {},
+   "outputs": [
+    {
+     "data": {
+      "text/plain": [
+       "(300,)"
+      ]
+     },
+     "execution_count": 11,
+     "metadata": {},
+     "output_type": "execute_result"
+    }
+   ],
+   "source": [
+    "base_token = nlp(\"bread\")\n",
+    "base_token.vector.shape"
+   ]
+  },
+  {
+   "cell_type": "code",
+   "execution_count": 13,
+   "id": "443e1130",
+   "metadata": {},
+   "outputs": [
+    {
+     "name": "stdout",
+     "output_type": "stream",
+     "text": [
+      "bread <-> bread: 1.0\n",
+      "sandwich <-> bread: 0.6341067010130894\n",
+      "burger <-> bread: 0.47520687769584247\n",
+      "car <-> bread: 0.06451533308853552\n",
+      "tiger <-> bread: 0.04764611675903374\n",
+      "human <-> bread: 0.2151154210812192\n",
+      "wheat <-> bread: 0.6150360888607199\n"
+     ]
+    }
+   ],
+   "source": [
+    "doc = nlp(\"bread sandwich burger car tiger human wheat\")\n",
+    "\n",
+    "for token in doc:\n",
+    "    print(f\"{token.text} <-> {base_token.text}:\", token.similarity(base_token))"
+   ]
+  },
+  {
+   "cell_type": "code",
+   "execution_count": 14,
+   "id": "e9c35619",
+   "metadata": {},
+   "outputs": [],
+   "source": [
+    "def print_similarity(base_word, words_to_compare):\n",
+    "    base_token = nlp(base_word)\n",
+    "    doc = nlp(words_to_compare)\n",
+    "    for token in doc:\n",
+    "        print(f\"{token.text} <-> {base_token.text}: \", token.similarity(base_token))"
+   ]
+  },
+  {
+   "cell_type": "code",
+   "execution_count": 15,
+   "id": "4071a3c7",
+   "metadata": {},
+   "outputs": [
+    {
+     "name": "stdout",
+     "output_type": "stream",
+     "text": [
+      "apple <-> iphone:  0.4387907401919904\n",
+      "samsung <-> iphone:  0.670859081425417\n",
+      "iphone <-> iphone:  1.0\n",
+      "dog <-> iphone:  0.08211864228011527\n",
+      "kitten <-> iphone:  0.10222317834969896\n"
+     ]
+    }
+   ],
+   "source": [
+    "print_similarity(\"iphone\", \"apple samsung iphone dog kitten\")"
+   ]
+  },
+  {
+   "cell_type": "code",
+   "execution_count": 16,
+   "id": "daffd61f",
+   "metadata": {},
+   "outputs": [],
+   "source": [
+    "king = nlp.vocab[\"king\"].vector\n",
+    "man = nlp.vocab[\"man\"].vector\n",
+    "woman = nlp.vocab[\"woman\"].vector\n",
+    "queen = nlp.vocab[\"queen\"].vector\n",
+    "\n",
+    "result = king - man + woman"
+   ]
+  },
+  {
+   "cell_type": "code",
+   "execution_count": 17,
+   "id": "ab939b13",
+   "metadata": {},
+   "outputs": [
+    {
+     "data": {
+      "text/plain": [
+       "array([[0.6178015]], dtype=float32)"
+      ]
+     },
+     "execution_count": 17,
+     "metadata": {},
+     "output_type": "execute_result"
+    }
+   ],
+   "source": [
+    "from sklearn.metrics.pairwise import cosine_similarity\n",
+    "\n",
+    "cosine_similarity([result], [queen])"
+   ]
+  }
+ ],
+ "metadata": {
+  "kernelspec": {
+   "display_name": "Python 3",
+   "language": "python",
+   "name": "python3"
+  },
+  "language_info": {
+   "codemirror_mode": {
+    "name": "ipython",
+    "version": 3
+   },
+   "file_extension": ".py",
+   "mimetype": "text/x-python",
+   "name": "python",
+   "nbconvert_exporter": "python",
+   "pygments_lexer": "ipython3",
+   "version": "3.8.10"
+  }
+ },
+ "nbformat": 4,
+ "nbformat_minor": 5
+}