0
点赞
收藏
分享

微信扫一扫

机器学习流程—数据预处理 Encoding

九点韶留学 03-12 23:00 阅读 3

机器学习流程—数据预处理 Encoding

在机器学习中,我们经常会遇到分类变量,这些分量变量往往机器学习模型没有办法从中学习,往往有两种,一种是字符型,一种是数值型。通常需要对分类型变量做一些处理,常用的方法有两种:label encoding和one hot encoding。

例如,假设数据集有一个Gender列,其中包含Male 和 Female等分类元素。

  1. 如果分类变量使用数值型表示:这些标签没有特定的偏好顺序,而且由于数据是字符串标签,机器学习模型会误解其中存在某种层次结构。
  2. 如果分类变量使用字符型表示:机器学习模型无法从中学习

解决此问题的一种方法是标签编码,我们将为这些标签分配一个数值,例如将MaleFemale映射到01。但这可能会在我们的模型中增加偏差,因为它将开始对女性参数给予更高的偏好,即 1>0,但理想情况下,两个标签在数据集中同样重要。为了解决这个问题,我们将使用 One Hot Encoding 技术。

One Hot Encoding

对于无层次关系型变量,最好做one hot encoding

优点
它允许在需要数字输入的模型中使用分类变量。

它可以通过向模型提供有关分类变量的更多信息来提高模型性能。

它可以帮助避免序数问题,当分类变量具有自然排序(例如“小”、“中”、“大”)时可能会出现序数问题。

<

举报

相关推荐

0 条评论