标签 - 数据挖掘

数据挖掘    2020-07-21 17:15:24    68    0    0

 一、原理

聚类是一种无监督学习的方法,其实质是依据某种距离度量,使得同一聚簇之间的相似性最大化,不同聚簇之间的相似性最小化,即把相似的对象放入同一聚簇中,把不相似的对象放到不同的聚簇中。


 二、K-Means 算法步骤

(1)根据设定的聚类数 ,随机地选择k个聚类中心(Cluster Centroid)

(2)评估各个样本到聚类中心的距离,如果样本距离第 i个聚类中心更近,则认为其属于第i簇

(3)计算每个簇中样本的平均(Mean)位置,将聚类中心移动至该位置

重复以上步骤直至各个聚类中心的位置不再发生改变。


三、如何确定聚类数

实际上,一开始是很难确定聚类数的,但是,也存在一种称之为肘部法则(Elbow Method)的方法来选定适当的K值:

数据挖掘    2020-07-17 18:10:14    60    0    0

引入iris数据集

from sklearn.linear_model import LogisticRegression as LR
from sklearn.datasets import load_iris
import numpy as np
import matplotlib.pyplot as plt
from sklearn.model_selection import train_test_split
from sklearn.metrics import accuracy_score

data = load_iris()
x = data.data
y = data.target
x[0:4] # [萼片长度,萼片宽度,花瓣长度,花瓣宽度]

数据挖掘    2020-04-18 22:43:14    27    0    0
 

import numpy as np
import pandas as pd from pandas import Series, DataFrame # data = pd.read_csv('C:\\Users\\xiaoxiao\\Desktop\\rvc\\match.csv') data = pd.read_csv('C:\\Users\\xiaoxiao\\Desktop\\match.csv') print(data.head()) # 特征X 与标签y提取 exam_X = data.loc[:, 'co'] exam_y = data.loc[:, 'retain'] # 建立训练、测试数据集;一般把原始数据8/2 开 from sklearn.model_selection import train_test_split
数据挖掘    2020-03-08 16:07:01    29    0    0

import math
import pandas as pd import sqlalchemy as sql import numpy as np from sklearn.cluster import DBSCAN def distance(one, two): lon1, lat1 = one lon2, lat2 = two
数据挖掘    2019-01-20 18:12:39    38    0    0
import numpy as np
import matplotlib.pyplot as plt
from sklearn.naive_bayes import GaussianNB
from sklearn.datasets import load_digits
from sklearn.model_selection import train_test_split

digits = load_digits()
x, y = digits.data, digits.target

Xtrain, Xtest, Ytrain, Ytest = train_test_split(x, y, test_size=0.3, random_state=420)

gnb = GaussianNB().fit(Xtrain, Ytrain)
数据挖掘    2019-01-07 21:35:29    55    0    0

以wine数据集为草料,从多个维度值决定红酒的类型。在wine数据集中,其中一列是红酒类型。现在根据'酒精','苹果酸','灰','灰的碱性'等13维度的值来训练模型,预测红酒类型。

from sklearn import tree
from sklearn.model_selection import train_test_split
import pandas as pd


# 导入数据文件
columns=['红酒类型','酒精','苹果酸','灰','灰的碱性','镁','总酚','类黄酮','非黄烷类酚类',
                '花青素','颜色强度','色调','od280/od315稀释葡萄酒','脯氨酸']
data_pre = pd.read_csv('C:\\Users\\qinxiao\\Desktop\\testdata\\wine.data',header=None,names=columns)
data_pre.head()