9-3|使用Python的scikit-learn库来训练一个逻辑回归模型，检测句子是否含有侮辱性内容：-CFANZ编程社区

9-3|使用Python的scikit-learn库来训练一个逻辑回归模型，检测句子是否含有侮辱性内容：

当然可以。以下是一个简单的例子，使用Python的`scikit-learn`库来训练一个逻辑回归模型，检测句子是否含有侮辱性内容：

```python

from sklearn.feature_extraction.text import TfidfVectorizer

from sklearn.linear_model import LogisticRegression

from sklearn.model_selection import train_test_split

from sklearn.metrics import accuracy_score

# 模拟数据

data = [

"你真棒",

"太美了",

"你真笨",

"你这个傻瓜",

"我喜欢你",

"你真讨厌"

]

labels = [0, 0, 1, 1, 0, 1] # 0表示正常，1表示侮辱性

# 分割数据集

X_train, X_test, y_train, y_test = train_test_split(data, labels, test_size=0.2, random_state=42)

# 使用TF-IDF向量化文本数据

vectorizer = TfidfVectorizer()

X_train_vec = vectorizer.fit_transform(X_train)

X_test_vec = vectorizer.transform(X_test)

# 训练逻辑回归模型

clf = LogisticRegression()

clf.fit(X_train_vec, y_train)

# 预测

y_pred = clf.predict(X_test_vec)

# 评估

print("Accuracy:", accuracy_score(y_test, y_pred))

# 预测新的句子

new_sentence = vectorizer.transform(["你是个好人"])

prediction = clf.predict(new_sentence)

if prediction[0] == 1:

print("这句话是侮辱性的。")

else:

print("这句话是正常的。")

```

请注意，此示例是非常基础的，并且使用的是模拟数据。实际应用中，需要大量的标注数据，以及可能需要进行更多的文本预处理和参数调整来提高模型的性能。

0 条评论