算法
1、 正态分布
https://blog.csdn.net/hhaowang/article/details/83898881
2、 概率论:均值、方差与协方差矩阵
https://blog.csdn.net/pipisorry/article/details/48788671
3、 三种常用数据标准化方法
https://blog.csdn.net/bbbeoy/article/details/70185798
4、 TF-IDF
介绍:TFIDF介绍
https://www.cnblogs.com/cppb/p/5976266.html
实现:使用不同的方法计算TF-IDF值
https://www.jianshu.com/p/f3b92124cd2b
5、 稀疏向量和密集向量
密集向量和稀疏向量的区别:
密集向量的值就是一个普通的Double数组 而稀疏向量由两个并列的 数组indices和values组成 例如:向量
(1.0,0.0,1.0,3.0)用密集格式表示为[1.0,0.0,1.0,3.0],用稀疏格式表示为(4,[0,2,3],[1.0,1.0,3.0]) 第一
个4表示向量的长度(元素个数),[0,2,3]就是indices数组,[1.0,1.0,3.0]是values数组 表示向量0的位置的值是
1.0,2的位置的值是1.0,而3的位置的值是3.0,其他的位置都是0
稀疏向量
通常用两部分表示:一部分是顺序向量,另一部分是值向量。例如稀疏向量(4,0,28,53,0,0,4,8)可用值向量(4,
28,53,4,8)和顺序向量(1,0,1,1,0,0,1,1)表示。
6、 K-近邻(KNN)算法
https://www.cnblogs.com/ybjourney/p/4702562.html
7、 贝叶斯 算法
https://www.cnblogs.com/ybjourney/p/4702562.html
8、 回归算法
https://blog.csdn.net/program_developer/article/details/79113765
9、 决策树
https://www.cnblogs.com/yonghao/p/5061873.html
10、 Java类型的double、float 精度原理
https://blog.csdn.net/Ideality_hunter/article/details/78432486
11、 Bloom Filter
https://www.cnblogs.com/z941030/p/9218356.html
