日韩性视频-久久久蜜桃-www中文字幕-在线中文字幕av-亚洲欧美一区二区三区四区-撸久久-香蕉视频一区-久久无码精品丰满人妻-国产高潮av-激情福利社-日韩av网址大全-国产精品久久999-日本五十路在线-性欧美在线-久久99精品波多结衣一区-男女午夜免费视频-黑人极品ⅴideos精品欧美棵-人人妻人人澡人人爽精品欧美一区-日韩一区在线看-欧美a级在线免费观看

歡迎訪問 生活随笔!

生活随笔

當前位置: 首頁 > 编程资源 > 编程问答 >内容正文

编程问答

[Kaggle] Spam/Ham Email Classification 垃圾邮件分类(RNN/GRU/LSTM)

發布時間:2024/7/5 编程问答 38 豆豆
生活随笔 收集整理的這篇文章主要介紹了 [Kaggle] Spam/Ham Email Classification 垃圾邮件分类(RNN/GRU/LSTM) 小編覺得挺不錯的,現在分享給大家,幫大家做個參考.

文章目錄

    • 1. 讀入數據
    • 2. 文本處理
    • 3. 建模
    • 4. 訓練
    • 5. 測試

練習地址:https://www.kaggle.com/c/ds100fa19
相關博文
[Kaggle] Spam/Ham Email Classification 垃圾郵件分類(spacy)
[Kaggle] Spam/Ham Email Classification 垃圾郵件分類(BERT)

1. 讀入數據

  • 讀取數據,test集沒有標簽
import pandas as pd import numpy as np train = pd.read_csv("train.csv") test = pd.read_csv("test.csv") train.head()

  • 數據有無效的單元
print(np.sum(np.array(train.isnull()==True), axis=0)) print(np.sum(np.array(test.isnull()==True), axis=0))

存在 Na 單元格

[0 6 0 0] [0 1 0]
  • fillna 填充處理
train = train.fillna(" ") test = test.fillna(" ") print(np.sum(np.array(train.isnull()==True), axis=0)) print(np.sum(np.array(test.isnull()==True), axis=0))

填充完成,顯示 sum = 0

[0 0 0 0] [0 0 0]
  • y 標簽 只有 0 不是垃圾郵件, 1 是垃圾郵件
print(train['spam'].unique()) [0 1]

2. 文本處理

  • 郵件內容和主題合并為一個特征
X_train = train['subject'] + ' ' + train['email'] y_train = train['spam'] X_test = test['subject'] + ' ' + test['email']
  • 文本轉成 tokens ids 序列
from keras.preprocessing.text import Tokenizer max_words = 300 tokenizer = Tokenizer(num_words=max_words, lower=True, split=' ') # 只給頻率最高的300個詞分配 id,其他的忽略 tokenizer.fit_on_texts(list(X_train)+list(X_test)) # tokenizer 訓練 X_train_tokens = tokenizer.texts_to_sequences(X_train) X_test_tokens = tokenizer.texts_to_sequences(X_test)
  • pad ids 序列,使之長度一樣
# 樣本 tokens 的長度不一樣,pad maxlen = 100 from keras.preprocessing import sequence X_train_tokens_pad = sequence.pad_sequences(X_train_tokens, maxlen=maxlen,padding='post') X_test_tokens_pad = sequence.pad_sequences(X_test_tokens, maxlen=maxlen,padding='post')

3. 建模

embeddings_dim = 30 # 詞嵌入向量維度 from keras.models import Model, Sequential from keras.layers import Embedding, LSTM, GRU, SimpleRNN, Dense model = Sequential() model.add(Embedding(input_dim=max_words, # Size of the vocabularyoutput_dim=embeddings_dim, # 詞嵌入的維度input_length=maxlen)) model.add(GRU(units=64)) # 可以改為 SimpleRNN , LSTM model.add(Dense(units=1, activation='sigmoid')) model.summary()

模型結構:

Model: "sequential_5" _________________________________________________________________ Layer (type) Output Shape Param # ================================================================= embedding_2 (Embedding) (None, 100, 30) 9000 _________________________________________________________________ gru (GRU) (None, 64) 18432 _________________________________________________________________ dense_2 (Dense) (None, 1) 65 ================================================================= Total params: 27,497 Trainable params: 27,497 Non-trainable params: 0 _________________________________________________________________

4. 訓練

model.compile(optimizer='adam',loss='binary_crossentropy',metrics=['accuracy']) # 配置模型 history = model.fit(X_train_tokens_pad, y_train,batch_size=128, epochs=10, validation_split=0.2) model.save("email_cat_lstm.h5") # 保存訓練好的模型
  • 繪制訓練曲線
from matplotlib import pyplot as plt pd.DataFrame(history.history).plot(figsize=(8, 5)) plt.grid(True) plt.show()

5. 測試

pred_prob = model.predict(X_test_tokens_pad).squeeze() pred_class = np.asarray(pred_prob > 0.5).astype(np.int32) id = test['id'] output = pd.DataFrame({'id':id, 'Class': pred_class}) output.to_csv("submission_gru.csv", index=False)
  • 3種RNN模型對比:

總結

以上是生活随笔為你收集整理的[Kaggle] Spam/Ham Email Classification 垃圾邮件分类(RNN/GRU/LSTM)的全部內容,希望文章能夠幫你解決所遇到的問題。

如果覺得生活随笔網站內容還不錯,歡迎將生活随笔推薦給好友。