knn基本概念
knn把每个样例看做是空间上的一个点,给定一个测试样例,
使用适当的邻近性度量算法,计算出该点与训练集中其他点的邻近度。选择K个最相近的点。
在选择出的K个样例中,比例最好的类就是测试样例的类。
从以上描述中可以看出,如果k选择的太小,该算法容易受到噪声的影响,而产生过度拟合的影响,然而如果选择的过大,可能造成误分类。
算法描述:
k是最近邻数目,D是训练样例的集合,z是测试样例
for 样例 in 训练样例集合:
z和每个样例的相似度
找到k个最相近的样例集合
k个样例中类标号最多的类,就是测试样例的类标号。
Orange中的knn
以iris数据为例:
import Orange
#加载数据
iris = Orange.data.Table('iris')
knn = Orange.classification.knn.kNNLearner(iris, k=10)
for i in iris:
#将预测结果和实际结果不同的部分输出
if i.getclass()!=knn(i):
print i.getclass(),knn(i)
输出结果如下:
Iris-versicolor Iris-virginica
Iris-versicolor Iris-virginica
Iris-virginica Iris-versicolor
Iris-virginica Iris-versicolor
Iris-virginica Iris-versicolor
该数据集共有150个实例,从结果看有5个预测结果是错误的。
下面以图形化的方式来比较朴素贝叶斯分类、KNN分类、s。
下图展现了用orange图形界面的方法:
下图给出了这一比较结果:
从上面的结果中可以看出knn和其他几个方法基本相当。
参考资料
数据挖掘导论 http://book.douban.com/subject/5377669/
分享到:
相关推荐
数据挖掘十大算法,之经典算法KNN。包括算法原理,主要参数,优缺点。
简易的使用KNN算法实现CIFAR-10图像分类
Python3数据分析与挖掘建模实战-6-03 分类-KNN.mp4
本资源使用KNN算法对水果特征数据(包括大小、颜色、甜度等等)进行分析,最终实现对水果进行分类的能力。资源包括KNN算法分析源码及水果特征数据(.txt格式),对初学者学习KNN算法具有很强参考和借鉴作用。 KNN(K...
matlab-KNN分类器代码 matlab-KNN分类器代码 matlab-KNN分类器代码
MATLAB实现KNN、SA-KNN(模拟退火优化)、GOA-KNN(蝗虫优化算法)分类预测对比(完整源码和数据) 数据为多特征分类数据,输入多个特征,分三类。 运行环境MATLAB2018b及以上。
高光谱图像分类,使用KNN分类器,进行分类。
针对上述问题进行研究,首先将训练集进行聚类,再为测试集找到一个距离其最近的训练数据簇作为新的训练数据集;然后计算最近邻样本的距离权重,并用该权重描述最近邻和其他近邻对预测结果的影响;最后使用新的目标...
python-KNN-IRIS-分类
2.内容:基于Fisher-kNN模型的数据分类器matlab仿真+代码仿真操作视频 3.用处:用于kNN算法编程学习 4.指向人群:本硕博等教研学习使用 5.运行注意事项: 使用matlab2021a或者更高版本测试,运行里面的Runme_.m...
代码及数据集:KNN分类算法--手写数字识别任务
adaKnn2GIHS.m:实现 Ada-kNN 和 GIHS 算法的函数(用于不平衡分类)。 kNNIMB.m:实现加权 k 近邻算法的函数。 learningModel.m:实现所提出的启发式学习技术的函数(供 adaKnn2 和 adaKnn2GIHS 使用)。 ...
使用KNN模型对鸢尾花数据进行分类,资源包含源码及数据集。源码中包含数据处理、算法建模、预测评估等全流程。方便对KNN算法进行学习。
CIFAR-10数据集,用于机器学习深度学习等算法的图像多分类训练
KNN实现水果分类的数据集KNN实现水果分类的数据集,KNN实现水果分类的数据集,KNN实现水果分类的数据集
华中科技大学,机器学习课程设计大作业,KNN实现红酒分类、感知机癌细胞识别、朴素贝叶斯... | +--- t-2.py # 使用 sklearn 中的kNN算法进行分类 | +--- t-3.py # 使用 sklearn 中的kNN算法进行回归 | +--- t-4.py
KNN算法KNN算法(k-nearest neighbour classification)又叫k最临近方法, 总体来说kNN算法是相对比较容易理解的算法之一,
数据挖掘数据分析-2-机器学习 数据挖掘数据分析-3-数据预处理 数据挖掘数据分析-4-数据仓库 数据挖掘数据分析-5-分类1-kNN 数据挖掘数据分析-5-分类3-决策树ID3 数据挖掘数据分析-5-分类3-C4.5-CART(选) 数据挖掘...
机器学习经典算法--KNN分类的MATLAB代码,附带原始数据集。
智能优化算法优化最邻近分类算法KNN分类预测系列程序定制或科研合作方向: 4.4.1 遗传算法GA/蚁群算法ACO优化KNN 4.4.2 粒子群算法PSO/蛙跳算法SFLA优化KNN 4.4.3 灰狼算法GWO/狼群算法WPA优化KNN 4.4.4 鲸鱼算法WOA...