LOF算法的主要参数和函数分别是什么

LOF算法的思想是什么？
LOF算法的主要参数和函数分别是什么？

回帖（1）

白旭蕊

2021-9-10 16:35:08

　　在中等高维数据集上执行异常值检测的另一种有效方法是使用局部异常因子（Local Outlier Factor ，LOF）算法。
　　1、算法思想
　　LOF通过计算一个数值score来反映一个样本的异常程度。这个数值的大致意思是：一个样本点周围的样本点所处位置的平均密度比上该样本点所在位置的密度。比值越大于1，则该点所在位置的密度越小于其周围样本所在位置的密度，这个点就越有可能是异常点。关于密度等理论概念，详见下面第二部分。
　　2、LOF的具体理论
　　3、LocalOutlierFactor主要参数和函数介绍
　　class sklearn.neighbors.LocalOutlierFactor（n_neighbors=20， algorithm=’auto’， leaf_size=30， metric=’minkowski’， p=2， metric_params=None， contamination=0.1， n_jobs=1）
　　1）主要参数
　　n_neighbors ：
　　设置k，default=20
　　contamination ：
　　设置样本中异常点的比例，default=0.1
　　2）主要属性：
　　negative_outlier_factor_ ： numpy array， shape （n_samples，）
　　和LOF相反的值，值越小，越有可能是异常点。（注：上面提到LOF的值越接近1，越可能是正常样本，LOF的值越大于1，则越可能是异常样本）。这里就正好反一下。
　　3）主要函数：
　　fit_predict（X）
　　X ： array-like， shape （n_samples， n_features
　　返回一个数组，-1表示异常点，1表示正常点。
　　4、LOF实例（sklearn）
　　# ！/usr/bin/python
　　# -*- coding:utf-8 -*-
　　import numpy as np
　　import matplotlib.pyplot as plt
　　from sklearn.neighbors import LocalOutlierFactor
　　from scipy import stats
　　# 构造训练样本
　　n_samples = 200 #样本总数
　　outliers_fraction = 0.25 #异常样本比例
　　n_inliers = int（（1. - outliers_fraction） * n_samples）
　　n_outliers = int（outliers_fraction * n_samples）
　　rng = np.random.RandomState（42）
　　X = 0.3 * rng.randn（n_inliers // 2， 2）
　　X_train = np.r_［X + 2， X - 2］ #正常样本
　　X_train = np.r_［X_train， np.random.uniform（low=-6， high=6， size=（n_outliers， 2））］ #正常样本加上异常样本
　　# fit the model
　　clf = LocalOutlierFactor（n_neighbors=35， contamination=outliers_fraction）
　　y_pred = clf.fit_predict（X_train）
　　scores_pred = clf.negative_outlier_factor_
　　threshold = stats.scoreatpercentile（scores_pred， 100 * outliers_fraction） # 根据异常样本比例，得到阈值，用于绘图
　　# plot the level sets of the decision function
　　xx， yy = np.meshgrid（np.linspace（-7， 7， 50）， np.linspace（-7， 7， 50））
　　Z = clf._decision_function（np.c_［xx.ravel（）， yy.ravel（）］） # 类似scores_pred的值，值越小越有可能是异常点
　　Z = Z.reshape（xx.shape）
　　plt.title（“Local Outlier Factor （LOF）”）
　　# plt.contourf（xx， yy， Z， cmap=plt.cm.Blues_r）
　　plt.contourf（xx， yy， Z， levels=np.linspace（Z.min（）， threshold， 7）， cmap=plt.cm.Blues_r） # 绘制异常点区域，值从最小的到阈值的那部分
　　a = plt.contour（xx， yy， Z， levels=［threshold］， linewidths=2， colors=‘red’） # 绘制异常点区域和正常点区域的边界
　　plt.contourf（xx， yy， Z， levels=［threshold， Z.max（）］， colors=‘palevioletred’） # 绘制正常点区域，值从阈值到最大的那部分
　　b = plt.scatter（X_train［：-n_outliers， 0］， X_train［：-n_outliers， 1］， c=‘white’，
　　s=20， edgecolor=‘k’）
　　c = plt.scatter（X_train［-n_outliers：， 0］， X_train［-n_outliers：， 1］， c=‘black’，
　　s=20， edgecolor=‘k’）
　　plt.axis（‘tight’）
　　plt.xlim（（-7， 7））
　　plt.ylim（（-7， 7））
　　plt.legend（［a.collections［0］， b， c］，
　　［‘learned decision function’， ‘true inliers’， ‘true outliers’］，
　　loc=“upper left”）
　　plt.show（）

更多回帖

切克切克闹

LOF算法的主要参数和函数分别是什么

回帖（1）

白旭蕊

相关问答

5节点系统中电容参数分别是多少

MOSFET的主要参数是什么？如何选型？

红外热像仪的原理与主要参数是什么？

请问MAX9713/MAX9714主要应用于哪些领域？

电感的主要参数

集成运算放大器的主要参数有什么？

请问为ADUC834提供的C library是否有文档说明？

OTL、OCL和BTL电路的主要区别是什么？

请问实际滤波器具有哪些主要参数？

卫星高频头的主要参数有哪几种？

20万+工程师都在用，免费PCB检查工具