• 请不要在回答技术问题时复制粘贴 AI 生成的内容
SlipStupig
V2EX  ›  程序员

sklearn 混合特征工程如何进行训练呢?

  •  
  •   SlipStupig · Jan 10, 2020 · 2229 views
    This topic created in 2340 days ago, the information mentioned may be changed or developed.

    想用 sklearn 做个多特征的分类器,特征分别是:

    • 用户 ID
    • 发帖正文
    • 发帖时间
    • 点赞数

    我现在做的时候使用TF-IDF,做分类,单其它特征就没有用上,有什么办法能把所有特征用上呢?

    Supplement 1  ·  Jan 11, 2020

    这个个分类器主要是用于鉴定用户发帖中是否存在spam,我想用基于行为加上正文内容来做分类,我现在正文用的是sklearn中的tfidfvectorizer,fit之后会有一个矩阵,但是我如何把其它特征和fit后的结果合并到一起呢?

    5 replies    2020-01-11 10:12:43 +08:00
    qza1212
        1
    qza1212  
       Jan 11, 2020
    直接特征拼起来 + 树形分类器 e.g. rf xgboost
    GrayXu
        2
    GrayXu  
       Jan 11, 2020
    看你的模型是什么呗,比如 ls 说的如果使用 xgb 之类的重家伙,直接 concat 就好了
    xmoiduts
        3
    xmoiduts  
       Jan 11, 2020 via Android
    树形结构例如 rf 的话,特征数量会不会有点少……最近做项目用的是 9 个特征,多个 rf 模型做 4 个输出的回归 /分类。效果(也就那样吧),很神奇的是:均方差比神经网络低一半,rf 和 xgboost 表现几乎一样。
    kuhung
        4
    kuhung  
       Jan 11, 2020 via iPhone
    直接拼接。不过事先要观察相关性,无脑上特征不一定好。
    xou130
        5
    xou130  
       Jan 11, 2020
    lightgbm, 但是这类分类器吃特征数量,做比赛一般是 40 个特征起
    About   ·   Help   ·   Advertise   ·   Blog   ·   API   ·   FAQ   ·   Solana   ·   1391 Online   Highest 6679   ·     Select Language
    创意工作者们的社区
    World is powered by solitude
    VERSION: 3.9.8.5 · 36ms · UTC 16:50 · PVG 00:50 · LAX 09:50 · JFK 12:50
    ♥ Do have faith in what you're doing.