日韩性视频-久久久蜜桃-www中文字幕-在线中文字幕av-亚洲欧美一区二区三区四区-撸久久-香蕉视频一区-久久无码精品丰满人妻-国产高潮av-激情福利社-日韩av网址大全-国产精品久久999-日本五十路在线-性欧美在线-久久99精品波多结衣一区-男女午夜免费视频-黑人极品ⅴideos精品欧美棵-人人妻人人澡人人爽精品欧美一区-日韩一区在线看-欧美a级在线免费观看

歡迎訪問 生活随笔!

生活随笔

當前位置: 首頁 > 编程资源 > 编程问答 >内容正文

编程问答

NLP之替换不在词表中的分词为‘UNK‘

發布時間:2024/1/18 编程问答 35 豆豆
生活随笔 收集整理的這篇文章主要介紹了 NLP之替换不在词表中的分词为‘UNK‘ 小編覺得挺不錯的,現在分享給大家,幫大家做個參考.

1. 問題描述
現在有一個詞表,它是取分詞后的語料,統計出現頻率最高的300個(前300個)詞構建的詞表。現在要將分詞后的語料進行替換,替換掉那些不在詞表中的token為“UNK”,在詞表中的則保持不變。
語料csv文件內容格式如下:

paramparsedwords
未正則化的原始語料正則化并分詞后的語料查詢詞表后待生成的列

?2. 解決方法

# 根據第二列parsed,查詢詞表后,生成第三列words def generate_words(col_parsed, evil_word_vocab):lst = []for i in col_parsed:words = []for j in i:if j in evil_word_vocab:words.append(j)else:words.append('UNK')lst.append(words)words = words.copy()words.clear()return lst # 這里要用 tolist()方法 將詞表中詞那一列轉化為列表 list_words = generate_words(evil['parsed'], evil_word_vocab['word'].tolist()) # 將新生成的word列添加到原csv文件中 evil['words'] = list_words

總結

以上是生活随笔為你收集整理的NLP之替换不在词表中的分词为‘UNK‘的全部內容,希望文章能夠幫你解決所遇到的問題。

如果覺得生活随笔網站內容還不錯,歡迎將生活随笔推薦給好友。