类别不平衡问题

发表于 2019-08-10

字数统计: 2.5k | 阅读时长 ≈ 8

概述

类别不均衡是指在分类学习算法中，不同类别样本的比例相差悬殊，它会对算法的学习过程造成重大的干扰。比如在一个二分类的问题上，有1000个样本，其中5个正样本，995个负样本，在这种情况下，算法只需将所有的样本预测为负样本，那么它的精度也可以达到99.5%，虽然结果的精度很高，但它依然没有价值，因为这样的学习算法不能预测出正样本。这里我们可以知道不均衡问题会导致样本较少那一类的高错分率，即较少一类的样本会有较大的比例会被预测成样本数量较多的那一类。

样本分布不均衡将导致样本量少的分类所包含的特征过少，并很难从中提取规律；即使得到分类模型，也容易产生过度依赖于有限的数据样本而导致过拟合的问题，当模型应用到新的数据上时，模型的准确性和鲁棒性将很差。

阅读全文 »

评估指标与曲线

发表于 2019-08-08

字数统计: 1.1k | 阅读时长 ≈ 4

![混淆矩阵图](评估指标与曲线/matrix1.jpg)

阅读全文 »

Git常用命令

发表于 2019-07-26

字数统计: 1.2k | 阅读时长 ≈ 5

键盘对应图

阅读全文 »

我的杂诗纪事

发表于 2019-07-25

字数统计: 462 | 阅读时长 ≈ 1

持续更新中……

键盘对应图

《夏天暴雨来临前情景》

2019年7月20日纪事

阅读全文 »

VIM常用命令

发表于 2019-07-24

字数统计: 5.1k | 阅读时长 ≈ 18

1.删除字符

要删除一个字符，只需要将光标移到该字符上按下”x”。

2.删除一行

删除一整行内容使用”dd”命令。删除后下面的行会移上来填补空缺。

阅读全文 »

Markdown写博客

发表于 2019-07-20

字数统计: 847 | 阅读时长 ≈ 3

没有动笔的理由

良好的写作来源于平时的积累，之前一直没有动笔，可能是机缘未到。

没有遇到提醒你写作重要性的人；
没有找到合适的园地以及没有接触到顺手的工具。
现在万事具备，即将开始全新的写作之旅。

先讲讲顺手的工具。markdown这几年逐渐流行起来，还是在于大家在写作时遇到的共性问题：

在编写文档时遇到的问题

在编写html时需要时刻注意字体格式、整体样式，所以把图片、文字、堆积成美丽的页面需要花费太多的时间；
在编写网页博客之类的网页时，主要还是关注文章的结构和内容，而对网页的布局与美化不会有过高的要求。
Office本身功能非常强大，功能强大的另一面时软件本身运行起来越来越耗费资源。word文件在打开时经常出现卡顿，分散精力的部分非常多。
Latex非常适合程序员写作，而且轻便，也能应用于网页的发布，有很好的用户体验，但对于普通用户并不容易掌握，而且在把tex文件转化成网页时遇到很多问题。

为了解决以上列举的问题，markdown应运而生。

阅读全文 »

AB测试

发表于 2019-07-19

字数统计: 2.3k | 阅读时长 ≈ 7

一、ABTest与统计学

数据分析告诉我们要不要去做一件事情，ab 实验反馈告诉我们我们做得好不好，哪里有问题，以及衡量可以带来多少确定性的增长。

ABTest的目的是为了快速验证一个版本是不是比另外一个版本要好。

统计学能告诉我们如何抽样才能具有充分的代表性，如何从样本反应出的信息中推测总体状况。

阅读全文 »