http://ift.tt/2rLUGmC
为了克服标注样本不足的难题,垃圾信息过滤可以引入半监督学习方法来增强信息处理的能力。半监督学习方法的优势是能够在只有少量标注数据的条件下,综合利用已标注数据和未标注数据的信息,达到较好的过滤效果。达观的文本挖掘系统在多个模块里面都使用到了半监督学习的方法,主要方式是通过外部知识来对训练样本进行语义扩展,然后结合数量较多的未标注样本选取预测置信度高的子集作为新样本加入训练集进行模型训练。
By 张健
IT.数码
via 未注册用户的 InfoQ 个性化 RSS Feed – 请注册后升级! http://ift.tt/rpkzfm
June 24, 2017 at 03:27PM