當(dāng)前位置：首頁 > 编程语言 > python >内容正文

python

易百教程人工智能python修正-人工智能NLTK性别发现器

發(fā)布時間：2025/3/18 python 37 豆豆

生活随笔收集整理的這篇文章主要介紹了易百教程人工智能python修正-人工智能NLTK性别发现器小編覺得挺不錯的,現(xiàn)在分享給大家,幫大家做個參考.

在這個問題陳述中，將通過提供名字來訓(xùn)練分類器以找到性別(男性或女性)。我們需要使用啟發(fā)式構(gòu)造特征向量并訓(xùn)練分類器。這里使用scikit-learn軟件包中的標(biāo)簽數(shù)據(jù)。以下是構(gòu)建性別查找器的Python代碼 -

導(dǎo)入必要的軟件包 -

import randomfrom nltk import NaiveBayesClassifier from nltk.classify import accuracy as nltk_accuracy from nltk.corpus import names

現(xiàn)在需要從輸入字中提取最后的N個字母。這些字母將作為功能 - def extract_features(word, N = 2): last_n_letters = word[-N:] return {'feature': last_n_letters.lower()} if __name__=='__main__':

使用NLTK中提供的標(biāo)簽名稱(男性和女性)創(chuàng)建培訓(xùn)數(shù)據(jù) -

male_list = [(name, 'male') for name in names.words('male.txt')] female_list = [(name, 'female') for name in names.words('female.txt')] data = (male_list + female_list) random.seed(5) random.shuffle(data)

現(xiàn)在，測試數(shù)據(jù)將被創(chuàng)建如下 -

namesInput = ['Rajesh', 'Gaurav', 'Swati', 'Shubha']

使用以下代碼定義用于列車和測試的樣本數(shù) -

train_sample = int(0.8 * len(data))

現(xiàn)在，需要迭代不同的長度，以便可以比較精度 -

for i in range(1, 6): print('\nNumber of end letters:', i) features = [(extract_features(n, i), gender) for (n, gender) in data] train_data, test_data = features[:train_sample], features[train_sample:] classifier = NaiveBayesClassifier.train(train_data)

分類器的準(zhǔn)確度可以計(jì)算如下 -

accuracy_classifier = round(100 * nltk_accuracy(classifier, test_data), 2) print('Accuracy = ' + str(accuracy_classifier) + '%')

現(xiàn)在，可以預(yù)測輸出結(jié)果 -

for name in namesInput:print(name, '==>', classifier.classify(extract_features(name, i))

上述程序?qū)⑸梢韵螺敵?-

Number of end letters: 1 Accuracy = 74.7% Rajesh -> female Gaurav -> male Swati -> female Shubha -> femaleNumber of end letters: 2 Accuracy = 78.79% Rajesh -> male Gaurav -> male Swati -> female Shubha -> femaleNumber of end letters: 3 Accuracy = 77.22% Rajesh -> male Gaurav -> female Swati -> female Shubha -> femaleNumber of end letters: 4 Accuracy = 69.98% Rajesh -> female Gaurav -> female Swati -> female Shubha -> femaleNumber of end letters: 5 Accuracy = 64.63% Rajesh -> female Gaurav -> female Swati -> female Shubha -> female 在上面的輸出中可以看到，結(jié)束字母的最大數(shù)量的準(zhǔn)確性是兩個，并且隨著結(jié)束字母數(shù)量的增加而減少。

完整代碼

import randomfrom nltk import NaiveBayesClassifier from nltk.classify import accuracy as nltk_accuracy from nltk.corpus import namesdef extract_features(word, N=2):last_n_letters = word[-N:]return {'feature': last_n_letters.lower()}if __name__ == '__main__':male_list = [(name, 'male') for name in names.words('male.txt')]female_list = [(name, 'female') for name in names.words('female.txt')]data = (male_list + female_list)random.seed(5)random.shuffle(data)namesInput = ['Rajesh', 'Gaurav', 'Swati', 'Shubha']train_sample = int(0.8 * len(data))for i in range(1, 6):print('\nNumber of end letters:', i)features = [(extract_features(n, i), gender) for (n, gender) in data]train_data, test_data = features[:train_sample], features[train_sample:]classifier = NaiveBayesClassifier.train(train_data)accuracy_classifier = round(100 * nltk_accuracy(classifier, test_data), 2)print('Accuracy = ' + str(accuracy_classifier) + '%')for name in namesInput:print(name, '==>', classifier.classify(extract_features(name, i)))

轉(zhuǎn)載于:https://www.cnblogs.com/duoba/p/9535701.html

總結(jié)

以上是生活随笔為你收集整理的易百教程人工智能python修正-人工智能NLTK性别发现器的全部內(nèi)容，希望文章能夠幫你解決所遇到的問題。

如果覺得生活随笔網(wǎng)站內(nèi)容還不錯，歡迎將生活随笔推薦給好友。

上一篇： python综合学习一之多线程
下一篇： Python 字典 fromkeys()