0% found this document useful (0 votes)

13 views9 pages

Sentence Embedding Code

Uploaded by

bhattibaba118

We take content rights seriously. If you suspect this is your content, claim it here.

Available Formats

Download as DOCX, PDF, TXT or read online on Scribd

0% found this document useful (0 votes)

13 views9 pages

Sentence Embedding Code

Uploaded by

bhattibaba118

We take content rights seriously. If you suspect this is your content, claim it here.

Available Formats

Download as DOCX, PDF, TXT or read online on Scribd

You are on page 1/ 9

import tensorflow as tf

from tensorflow.keras.preprocessing.text import Tokenizer

from tensorflow.keras.preprocessing.sequence import pad_sequences
from tensorflow.keras.models import Sequential
from tensorflow.keras.layers import Embedding, LSTM, Bidirectional, GRU, Conv1D,
MaxPooling1D, Flatten, Dense, Dropout, SimpleRNN
from tensorflow.keras.optimizers import Adam
from gensim.models import Word2Vec, KeyedVectors
from gensim.scripts.glove2word2vec import glove2word2vec
from gensim.models.fasttext import FastText
import transformers
import numpy as np
import pandas as pd
from sklearn.model_selection import train_test_split
from sklearn.preprocessing import StandardScaler
from tensorflow.keras.models import Sequential
from tensorflow.keras.layers import LSTM, Bidirectional, Dense, Embedding,
Dropout
from torchtext.vocab import GloVe
!pip install sentence-transformers
from sentence_transformers import SentenceTransformer

import pandas as pd
import json
import re
import numpy as np
import spacy
import tqdm
import xgboost as xgb
import lightgbm as lgb
import nltk
from sklearn.model_selection import train_test_split
from sklearn.feature_extraction.text import TfidfVectorizer, CountVectorizer
from sklearn.pipeline import FeatureUnion
from sklearn.base import BaseEstimator, TransformerMixin
from sklearn.metrics import confusion_matrix, accuracy_score, classification_report
from sklearn.linear_model import LogisticRegression
from sklearn.ensemble import RandomForestClassifier, GradientBoostingClassifier,
AdaBoostClassifier
from sklearn.tree import DecisionTreeClassifier
from sklearn.neighbors import KNeighborsClassifier
from sklearn.naive_bayes import MultinomialNB
from xgboost import XGBClassifier
from sklearn.svm import SVC
from nltk import pos_tag, word_tokenize
from sklearn.pipeline import Pipeline
from nltk.corpus import stopwords
from nltk.stem import WordNetLemmatizer, PorterStemmer

# Download NLTK data

nltk.download('punkt')
nltk.download('averaged_perceptron_tagger')
nltk.download('stopwords')
nltk.download('wordnet')

# Function to read JSON lines file

def read_json_lines(file_path):
data = []
with open(file_path, 'r') as file:
for line in file:
data.append(json.loads(line))
return data

# Load the datasets

file1_path = '/kaggle/input/sarcasm/Sarcasm_Headlines_Dataset.json'
file2_path = '/kaggle/input/sarcasm/Sarcasm_Headlines_Dataset_v2.json'

df1 = pd.read_json(file1_path, lines=True)

df2 = pd.read_json(file2_path, lines=True)

# Concatenate the datasets

df = pd.concat([df1, df2], ignore_index=True)

# Preprocessing
df.drop(columns=['article_link'], inplace=True) # Drop the 'article_link' column
df.dropna(inplace=True) # Drop any rows with missing values
df['headline'] = df['headline'].str.lower() # Convert text to lowercase

# Basic text preprocessing

stop_words = set(stopwords.words('english'))

def preprocess_text(text):
# Lowercase
text = text.lower()
# Remove URLs
text = re.sub(r'http\S+|www\S+|https\S+', '', text, flags=re.MULTILINE)
# Remove punctuation
text = re.sub(r'[!"#$%&\'()*+,-./:;<=>?@[\]^_`{|}~]', '', text)
# Tokenize
tokens = word_tokenize(text)

# Remove stopwords
tokens = [word for word in tokens if word not in stop_words]
return text

df['headline'] = df['headline'].apply(preprocess_text)

# Check for any missing values

df.isnull().sum()

# Display the first few rows after preprocessing

print("\nAfter Preprocessing:")
print(df.head())

# Example model training (Logistic Regression as a placeholder)

X = df['headline']
y = df['is_sarcastic']

# Tokenization
tokenizer = Tokenizer()
tokenizer.fit_on_texts(X_train)
X_train_seq = tokenizer.texts_to_sequences(X_train)
X_test_seq = tokenizer.texts_to_sequences(X_test)

# Padding
maxlen = 100 # You can adjust this value
X_train_pad = pad_sequences(X_train_seq, maxlen=maxlen)
X_test_pad = pad_sequences(X_test_seq, maxlen=maxlen)
# Vocabulary size
vocab_size = len(tokenizer.word_index) + 1

print(type(X_train))
print(type(X_test))
X_train = X_train.tolist()
X_test = X_test.tolist()

import numpy as np
import pandas as pd
from sklearn.model_selection import train_test_split
from sklearn.preprocessing import LabelEncoder
from sentence_transformers import SentenceTransformer
from keras.models import Sequential
from keras.layers import Dense, LSTM, Bidirectional, GRU, Conv1D,
GlobalMaxPooling1D, Embedding, SimpleRNN
from keras.utils import to_categorical

# Prepare data
X = df['headline'].values
y = df['is_sarcastic'].values

# Encode labels
le = LabelEncoder()
y = le.fit_transform(y)
y = to_categorical(y)

# Split the dataset into train and test sets

X_train, X_test, y_train, y_test = train_test_split(X, y, test_size=0.2,
random_state=42)

# Initialize Sentence Transformer model

sbert_model = SentenceTransformer('bert-base-nli-mean-tokens')

# Generate sentence embeddings

X_train_embeddings = sbert_model.encode(X_train)
X_test_embeddings = sbert_model.encode(X_test)

# Define model architectures using sentence embeddings

def create_lstm_model(input_shape):
model = Sequential()
model.add(LSTM(128, input_shape=input_shape, return_sequences=True))
model.add(LSTM(128))
model.add(Dense(2, activation='softmax'))
model.compile(loss='categorical_crossentropy', optimizer='adam',
metrics=['accuracy'])
return model

def create_bilstm_model(input_shape):
model = Sequential()
model.add(Bidirectional(LSTM(128, return_sequences=True),
input_shape=input_shape))
model.add(Bidirectional(LSTM(128)))
model.add(Dense(2, activation='softmax'))
model.compile(loss='categorical_crossentropy', optimizer='adam',
metrics=['accuracy'])
return model

def create_gru_model(input_shape):
model = Sequential()
model.add(GRU(128, return_sequences=True, input_shape=input_shape))
model.add(GRU(128))
model.add(Dense(2, activation='softmax'))
model.compile(loss='categorical_crossentropy', optimizer='adam',
metrics=['accuracy'])
return model

def create_bigru_model(input_shape):
model = Sequential()
model.add(Bidirectional(GRU(128, return_sequences=True),
input_shape=input_shape))
model.add(Bidirectional(GRU(128)))
model.add(Dense(2, activation='softmax'))
model.compile(loss='categorical_crossentropy', optimizer='adam',
metrics=['accuracy'])
return model

def create_cnn_model(input_shape):
model = Sequential()
model.add(Conv1D(128, 5, activation='relu', input_shape=input_shape))
model.add(GlobalMaxPooling1D())
model.add(Dense(2, activation='softmax'))
model.compile(loss='categorical_crossentropy', optimizer='adam',
metrics=['accuracy'])
return model

def create_rnn_model(input_shape):
model = Sequential()
model.add(SimpleRNN(128, return_sequences=True, input_shape=input_shape))
model.add(SimpleRNN(128))
model.add(Dense(2, activation='softmax'))
model.compile(loss='categorical_crossentropy', optimizer='adam',
metrics=['accuracy'])
return model

# Train and evaluate models

def train_and_evaluate_model(model, X_train, y_train, X_test, y_test):
model.fit(X_train, y_train, epochs=100, batch_size=32, validation_split=0.2)
y_pred = model.predict(X_test)
y_pred_classes = np.argmax(y_pred, axis=1)
y_test_classes = np.argmax(y_test, axis=1)
print(classification_report(y_test_classes, y_pred_classes))
cm = confusion_matrix(y_test_classes, y_pred_classes)
print("Confusion Matrix:\n", cm)
return model

# Create a dictionary of models

models = {
"LSTM": create_lstm_model((X_train_embeddings.shape[1], 1)),
"Bi-LSTM": create_bilstm_model((X_train_embeddings.shape[1], 1)),
"GRU": create_gru_model((X_train_embeddings.shape[1], 1)),
"Bi-GRU": create_bigru_model((X_train_embeddings.shape[1], 1)),
"CNN": create_cnn_model((X_train_embeddings.shape[1], 1)),
"RNN": create_rnn_model((X_train_embeddings.shape[1], 1))
}

# Train and evaluate each model

results = {}
for name, model in models.items():
print(f"Training {name}...")
trained_model = train_and_evaluate_model(model, X_train_embeddings, y_train,
X_test_embeddings, y_test)
results[name] = trained_model

# Print results
for name, result in results.items():
print(f"{name} model trained and evaluated.")

Manual Caterpillar 928g It28g Wheel Loaders Implements System Hydraulic Control Valves Kickout Positioner PDF
100% (11)
Manual Caterpillar 928g It28g Wheel Loaders Implements System Hydraulic Control Valves Kickout Positioner PDF
8 pages
Assignment JTW115E 2023-2024 v5
No ratings yet
Assignment JTW115E 2023-2024 v5
5 pages
Transform Raw Texts Into Training and Development Data: Instructor: Nikos Aletras
No ratings yet
Transform Raw Texts Into Training and Development Data: Instructor: Nikos Aletras
2 pages
Mastercam PDF
0% (1)
Mastercam PDF
2 pages
Sample
No ratings yet
Sample
6 pages
566f0619-9145-4b8f-b12b-cb8a5b0cd30d
No ratings yet
566f0619-9145-4b8f-b12b-cb8a5b0cd30d
17 pages
DL Lab Manual
No ratings yet
DL Lab Manual
18 pages
CV Prince
No ratings yet
CV Prince
120 pages
DL
No ratings yet
DL
17 pages
Code Text
No ratings yet
Code Text
4 pages
Sample Code
No ratings yet
Sample Code
8 pages
Nlp Lab Assignment -05 (1)
No ratings yet
Nlp Lab Assignment -05 (1)
6 pages
Bertweet Tokenizer
No ratings yet
Bertweet Tokenizer
2 pages
DL 5 Excuted
No ratings yet
DL 5 Excuted
13 pages
Medical Text Classifier GabrieldeOlaguibel
No ratings yet
Medical Text Classifier GabrieldeOlaguibel
12 pages
DL Lab Answers Batch 2
No ratings yet
DL Lab Answers Batch 2
27 pages
DL Programs
No ratings yet
DL Programs
12 pages
Lab 1 Assignment - W2022
No ratings yet
Lab 1 Assignment - W2022
7 pages
Spam Detection Using Tensorflow
No ratings yet
Spam Detection Using Tensorflow
13 pages
Unit 4
No ratings yet
Unit 4
23 pages
Deep Learning Pgm 1[1]
No ratings yet
Deep Learning Pgm 1[1]
6 pages
Pythonprogram
No ratings yet
Pythonprogram
6 pages
22BCE9752 NLPDigital Assignment 02
No ratings yet
22BCE9752 NLPDigital Assignment 02
21 pages
DL Exps
No ratings yet
DL Exps
9 pages
NER Brahui NLP Project
No ratings yet
NER Brahui NLP Project
12 pages
DL Practical 09text Pre Processing
No ratings yet
DL Practical 09text Pre Processing
6 pages
IRT Lab Programs
No ratings yet
IRT Lab Programs
9 pages
Course 3 - Week 2 - Exercise - Answer - Ipynb - Colaboratory
No ratings yet
Course 3 - Week 2 - Exercise - Answer - Ipynb - Colaboratory
8 pages
Lab 2 Assignment - W2022
No ratings yet
Lab 2 Assignment - W2022
8 pages
Practical No10
No ratings yet
Practical No10
4 pages
Exp No 5
No ratings yet
Exp No 5
5 pages
Deep Learning Manual
No ratings yet
Deep Learning Manual
53 pages
Case Study - Sentiment Analysis With RNNs
No ratings yet
Case Study - Sentiment Analysis With RNNs
8 pages
Nndlmac
No ratings yet
Nndlmac
9 pages
DL 3
No ratings yet
DL 3
6 pages
TensorFlow Cheat Sheet
No ratings yet
TensorFlow Cheat Sheet
7 pages
AI Lab 8
No ratings yet
AI Lab 8
14 pages
Nndlrepo 2
No ratings yet
Nndlrepo 2
3 pages
Fine-Tuned Vs RAG Short Notes ?
No ratings yet
Fine-Tuned Vs RAG Short Notes ?
25 pages
Lab 5
No ratings yet
Lab 5
7 pages
Practical No11
No ratings yet
Practical No11
6 pages
Intent Recognizer
No ratings yet
Intent Recognizer
5 pages
Python CA 4
No ratings yet
Python CA 4
9 pages
Microproject Report
No ratings yet
Microproject Report
23 pages
CCS355
No ratings yet
CCS355
29 pages
DL 5
No ratings yet
DL 5
7 pages
Exercise 8
No ratings yet
Exercise 8
6 pages
Deep DL Manual Deep
No ratings yet
Deep DL Manual Deep
8 pages
Deep Learning Programs Updated
No ratings yet
Deep Learning Programs Updated
24 pages
A Comprehensive Guide To Understand and Implement Text Classification in Python
No ratings yet
A Comprehensive Guide To Understand and Implement Text Classification in Python
34 pages
Exp 5
No ratings yet
Exp 5
9 pages
Assingment-3 NLP
No ratings yet
Assingment-3 NLP
5 pages
Deep Learning
No ratings yet
Deep Learning
46 pages
Untitled 10
No ratings yet
Untitled 10
6 pages
Import As From Import From Import From Import From Import: # Load The IMDB Dataset
No ratings yet
Import As From Import From Import From Import From Import: # Load The IMDB Dataset
6 pages
Hand Written
No ratings yet
Hand Written
13 pages
DL - 5 Excuted
No ratings yet
DL - 5 Excuted
13 pages
DLWP Chapter6
No ratings yet
DLWP Chapter6
6 pages
Exp 6,7,8
No ratings yet
Exp 6,7,8
17 pages
NLP Lab1
No ratings yet
NLP Lab1
6 pages
Python-Cheatsheets Merged 230118 192222
No ratings yet
Python-Cheatsheets Merged 230118 192222
22 pages
Shaurya DL File
No ratings yet
Shaurya DL File
75 pages
Computer Engineering Laboratory Solution Primer
From Everand
Computer Engineering Laboratory Solution Primer
Karan Bhandari
No ratings yet
15 Top Data Science Certifications CIO
No ratings yet
15 Top Data Science Certifications CIO
1 page
Report Plan Assessment 04
No ratings yet
Report Plan Assessment 04
9 pages
Meeting Minutes NIT
No ratings yet
Meeting Minutes NIT
2 pages
Report of Hotel
No ratings yet
Report of Hotel
7 pages
Topic 10-Data Mining
No ratings yet
Topic 10-Data Mining
24 pages
Report Plan Assessment 04
No ratings yet
Report Plan Assessment 04
9 pages
Report Template
No ratings yet
Report Template
3 pages
Reflective Report on Presentation
No ratings yet
Reflective Report on Presentation
1 page
Topic 09-Presenting BA
No ratings yet
Topic 09-Presenting BA
37 pages
Reflective Report on Presentation
No ratings yet
Reflective Report on Presentation
1 page
ICT515 Assignment1
No ratings yet
ICT515 Assignment1
2 pages
ICT582 Topic 08
No ratings yet
ICT582 Topic 08
37 pages
Topic 05-Effective Visual Design
No ratings yet
Topic 05-Effective Visual Design
43 pages
Week 04
No ratings yet
Week 04
2 pages
L2 - Mathematical Preliminaries.
No ratings yet
L2 - Mathematical Preliminaries.
42 pages
Topic 8
No ratings yet
Topic 8
25 pages
Assignment 2 Data Science Application Project
No ratings yet
Assignment 2 Data Science Application Project
3 pages
Topic 1
No ratings yet
Topic 1
3 pages
ICT583 Case Study (1) (1) .Edited
No ratings yet
ICT583 Case Study (1) (1) .Edited
9 pages
Computers Education: Chiu-Liang Chen, Cheng-Chih Wu
No ratings yet
Computers Education: Chiu-Liang Chen, Cheng-Chih Wu
18 pages
Topic 3
No ratings yet
Topic 3
18 pages
Topic 7
No ratings yet
Topic 7
16 pages
Topic 6
No ratings yet
Topic 6
32 pages
Topic 5
No ratings yet
Topic 5
29 pages
Assignment1 PC Template
No ratings yet
Assignment1 PC Template
12 pages
ICT622 Topic 6 Workshop Slides 2024
No ratings yet
ICT622 Topic 6 Workshop Slides 2024
40 pages
ICT622 Topic 10 Lecture Slides 2024
No ratings yet
ICT622 Topic 10 Lecture Slides 2024
30 pages
Field Test Genius 20 - Gearless
100% (1)
Field Test Genius 20 - Gearless
3 pages
Retaining Wall Drawing
No ratings yet
Retaining Wall Drawing
1 page
Setup and Configuration For OpenSSH
No ratings yet
Setup and Configuration For OpenSSH
13 pages
Pharmaceuticals 18 00217
No ratings yet
Pharmaceuticals 18 00217
25 pages
Final Report v1.5 Lucknow
No ratings yet
Final Report v1.5 Lucknow
173 pages
CTM 8
No ratings yet
CTM 8
30 pages
Mathematics SL Internal Assessment Does My Dog Walk More Than Me?
No ratings yet
Mathematics SL Internal Assessment Does My Dog Walk More Than Me?
15 pages
H.S.C Result Distribution 2020
No ratings yet
H.S.C Result Distribution 2020
3 pages
061 General Navigation
100% (1)
061 General Navigation
11 pages
Concept Map - Intro To Python Programming - Y8
No ratings yet
Concept Map - Intro To Python Programming - Y8
1 page
Chemical Transducer
100% (1)
Chemical Transducer
15 pages
POLB-Wharf Design (Version 2.0)
No ratings yet
POLB-Wharf Design (Version 2.0)
103 pages
Preparation of Specimens FR Immunohistochemistry - PPT (2) - 1
No ratings yet
Preparation of Specimens FR Immunohistochemistry - PPT (2) - 1
33 pages
CSEC Technical Drawing June 2010 P032
No ratings yet
CSEC Technical Drawing June 2010 P032
6 pages
Eriez CrossFlowTeeterBedSeparators Brochure
No ratings yet
Eriez CrossFlowTeeterBedSeparators Brochure
2 pages
Hyd Cylinder Details Jyo Make
No ratings yet
Hyd Cylinder Details Jyo Make
4 pages
Exp 2 (Homemade Ice Cream)
No ratings yet
Exp 2 (Homemade Ice Cream)
8 pages
What Can You Grow Hydroponically?: Flowers
No ratings yet
What Can You Grow Hydroponically?: Flowers
11 pages
Vector Addition Activity
No ratings yet
Vector Addition Activity
4 pages
Fresh Water Generator
No ratings yet
Fresh Water Generator
6 pages
ChatGPT in Exploratory Data Analysis
No ratings yet
ChatGPT in Exploratory Data Analysis
6 pages
Data Mining
No ratings yet
Data Mining
32 pages
To Check Yourself
No ratings yet
To Check Yourself
12 pages
IT SKILL LAB KMBN MBA 1st Sem
No ratings yet
IT SKILL LAB KMBN MBA 1st Sem
23 pages
NetSDK Programming Manual
No ratings yet
NetSDK Programming Manual
49 pages
Flowin Open Channels
No ratings yet
Flowin Open Channels
22 pages
Electromagnetism Research Paper
No ratings yet
Electromagnetism Research Paper
3 pages