欧美一级特黄大片做受成人-亚洲成人一区二区电影-激情熟女一区二区三区-日韩专区欧美专区国产专区

使用Python實現(xiàn)KMeans聚類算法的案例-創(chuàng)新互聯(lián)

這篇文章主要介紹使用Python實現(xiàn)KMeans聚類算法的案例,文中介紹的非常詳細,具有一定的參考價值,感興趣的小伙伴們一定要看完!

創(chuàng)新互聯(lián)建站主要從事網(wǎng)站建設(shè)、成都網(wǎng)站制作、網(wǎng)頁設(shè)計、企業(yè)做網(wǎng)站、公司建網(wǎng)站等業(yè)務(wù)。立足成都服務(wù)九原,十余年網(wǎng)站建設(shè)經(jīng)驗,價格優(yōu)惠、服務(wù)專業(yè),歡迎來電咨詢建站服務(wù):028-86922220

一 、關(guān)于初始聚類中心的選取

初始聚類中心的選擇一般有:

(1)隨機選取

(2)隨機選取樣本中一個點作為中心點,在通過這個點選取距離其較大的點作為第二個中心點,以此類推。

(3)使用層次聚類等算法更新出初始聚類中心

我一開始是使用numpy隨機產(chǎn)生k個聚類中心

Center = np.random.randn(k,n)

但是發(fā)現(xiàn)聚類的時候迭代幾次以后聚類中心會出現(xiàn)nan,有點搞不清楚怎么回事

所以我分別嘗試了:

(1)選擇數(shù)據(jù)集的前K個樣本做初始中心點

(2)選擇隨機K個樣本點作為初始聚類中心

發(fā)現(xiàn)兩者都可以完成聚類,我是用的是iris.csv數(shù)據(jù)集,在選擇前K個樣本點做數(shù)據(jù)集時,迭代次數(shù)是固定的,選擇隨機K個點時,迭代次數(shù)和隨機種子的選取有關(guān),而且聚類效果也不同,有的隨機種子聚類快且好,有的慢且差。

def InitCenter(k,m,x_train):
  #Center = np.random.randn(k,n)
  #Center = np.array(x_train.iloc[0:k,:]) #取數(shù)據(jù)集中前k個點作為初始中心
  Center = np.zeros([k,n])         #從樣本中隨機取k個點做初始聚類中心
  np.random.seed(5)            #設(shè)置隨機數(shù)種子
  for i in range(k):
    x = np.random.randint(m)
    Center[i] = np.array(x_train.iloc[x])
  return Center

二 、關(guān)于類間距離的選取

為了簡單,我直接采用了歐氏距離,目前還沒有嘗試其他的距離算法。

def GetDistense(x_train, k, m, Center):
  Distence=[]
  for j in range(k):
    for i in range(m):
      x = np.array(x_train.iloc[i, :])
      a = x.T - Center[j]
      Dist = np.sqrt(np.sum(np.square(a))) # dist = np.linalg.norm(x.T - Center)
      Distence.append(Dist)
  Dis_array = np.array(Distence).reshape(k,m)
  return Dis_array

三 、關(guān)于終止聚類條件的選取

關(guān)于聚類的終止條件有很多選擇方法:

(1)迭代一定次數(shù)

(2)聚類中心的更新小于某個給定的閾值

(3)類中的樣本不再變化

我用的是前兩種方法,第一種很簡單,但是聚類效果不好控制,針對不同數(shù)據(jù)集,穩(wěn)健性也不夠。第二種比較合適,穩(wěn)健性也強。第三種方法我還沒有嘗試,以后可以試著用一下,可能聚類精度會更高一點。

def KMcluster(x_train,k,n,m,threshold):
  global axis_x, axis_y
  center = InitCenter(k,m,x_train)
  initcenter = center
  centerChanged = True
  t=0
  while centerChanged:
    Dis_array = GetDistense(x_train, k, m, center)
    center ,axis_x,axis_y,axis_z= GetNewCenter(x_train,k,n,Dis_array)
    err = np.linalg.norm(initcenter[-k:] - center)
    print(err)
    t+=1
    plt.figure(1)
    p=plt.subplot(3, 3, t)
    p1,p2,p3 = plt.scatter(axis_x[0], axis_y[0], c='r'),plt.scatter(axis_x[1], axis_y[1], c='g'),plt.scatter(axis_x[2], axis_y[2], c='b')
    plt.legend(handles=[p1, p2, p3], labels=['0', '1', '2'], loc='best')
    p.set_title('Iteration'+ str(t))
    if err < threshold:
      centerChanged = False
    else:
      initcenter = np.concatenate((initcenter, center), axis=0)
  plt.show()
  return center, axis_x, axis_y,axis_z, initcenter

err是本次聚類中心點和上次聚類中心點之間的歐氏距離。

threshold是人為設(shè)定的終止聚類的閾值,我個人一般設(shè)置為0.1或者0.01。

為了將每次迭代產(chǎn)生的類別顯示出來我修改了上述代碼,使用matplotlib展示每次迭代的散點圖。

下面附上我測試數(shù)據(jù)時的圖,子圖設(shè)置的個數(shù)要根據(jù)迭代次數(shù)來定。

使用Python實現(xiàn)KMeans聚類算法的案例

我測試了幾個數(shù)據(jù)集,聚類的精度還是可以的。

使用iris數(shù)據(jù)集分析的結(jié)果為:

err of Iteration 1 is 3.11443180281
err of Iteration 2 is 1.27568813621
err of Iteration 3 is 0.198909381512
err of Iteration 4 is 0.0
Final cluster center is  [[ 6.85        3.07368421  5.74210526  2.07105263]
 [ 5.9016129   2.7483871   4.39354839  1.43387097]
 [ 5.006       3.428       1.462       0.246     ]]

最后附上全部代碼,錯誤之處還請多多批評,謝謝。

#encoding:utf-8
"""
  Author:   njulpy
  Version:   1.0
  Data:   2018/04/11
  Project: Using Python to Implement KMeans Clustering Algorithm
"""
import numpy as np
import pandas as pd
import matplotlib.pyplot as plt
from mpl_toolkits.mplot3d import Axes3D
from sklearn.cluster import KMeans
def InitCenter(k,m,x_train):
  #Center = np.random.randn(k,n)
  #Center = np.array(x_train.iloc[0:k,:]) #取數(shù)據(jù)集中前k個點作為初始中心
  Center = np.zeros([k,n])         #從樣本中隨機取k個點做初始聚類中心
  np.random.seed(15)            #設(shè)置隨機數(shù)種子
  for i in range(k):
    x = np.random.randint(m)
    Center[i] = np.array(x_train.iloc[x])
  return Center
def GetDistense(x_train, k, m, Center):
  Distence=[]
  for j in range(k):
    for i in range(m):
      x = np.array(x_train.iloc[i, :])
      a = x.T - Center[j]
      Dist = np.sqrt(np.sum(np.square(a))) # dist = np.linalg.norm(x.T - Center)
      Distence.append(Dist)
  Dis_array = np.array(Distence).reshape(k,m)
  return Dis_array
def GetNewCenter(x_train,k,n, Dis_array):
  cen = []
  axisx ,axisy,axisz= [],[],[]
  cls = np.argmin(Dis_array, axis=0)
  for i in range(k):
    train_i=x_train.loc[cls == i]
    xx,yy,zz = list(train_i.iloc[:,1]),list(train_i.iloc[:,2]),list(train_i.iloc[:,3])
    axisx.append(xx)
    axisy.append(yy)
    axisz.append(zz)
    meanC = np.mean(train_i,axis=0)
    cen.append(meanC)
  newcent = np.array(cen).reshape(k,n)
  NewCent=np.nan_to_num(newcent)
  return NewCent,axisx,axisy,axisz
def KMcluster(x_train,k,n,m,threshold):
  global axis_x, axis_y
  center = InitCenter(k,m,x_train)
  initcenter = center
  centerChanged = True
  t=0
  while centerChanged:
    Dis_array = GetDistense(x_train, k, m, center)
    center ,axis_x,axis_y,axis_z= GetNewCenter(x_train,k,n,Dis_array)
    err = np.linalg.norm(initcenter[-k:] - center)
    t+=1
    print('err of Iteration '+str(t),'is',err)
    plt.figure(1)
    p=plt.subplot(2, 3, t)
    p1,p2,p3 = plt.scatter(axis_x[0], axis_y[0], c='r'),plt.scatter(axis_x[1], axis_y[1], c='g'),plt.scatter(axis_x[2], axis_y[2], c='b')
    plt.legend(handles=[p1, p2, p3], labels=['0', '1', '2'], loc='best')
    p.set_title('Iteration'+ str(t))
    if err < threshold:
      centerChanged = False
    else:
      initcenter = np.concatenate((initcenter, center), axis=0)
  plt.show()
  return center, axis_x, axis_y,axis_z, initcenter
if __name__=="__main__":
  #x=pd.read_csv("8.Advertising.csv")  # 兩組測試數(shù)據(jù)
  #x=pd.read_table("14.bipartition.txt")
  x=pd.read_csv("iris.csv")
  x_train=x.iloc[:,1:5]
  m,n = np.shape(x_train)
  k = 3
  threshold = 0.1
  km,ax,ay,az,ddd = KMcluster(x_train, k, n, m, threshold)
  print('Final cluster center is ', km)
  #2-Dplot
  plt.figure(2)
  plt.scatter(km[0,1],km[0,2],c = 'r',s = 550,marker='x')
  plt.scatter(km[1,1],km[1,2],c = 'g',s = 550,marker='x')
  plt.scatter(km[2,1],km[2,2],c = 'b',s = 550,marker='x')
  p1, p2, p3 = plt.scatter(axis_x[0], axis_y[0], c='r'), plt.scatter(axis_x[1], axis_y[1], c='g'), plt.scatter(axis_x[2], axis_y[2], c='b')
  plt.legend(handles=[p1, p2, p3], labels=['0', '1', '2'], loc='best')
  plt.title('2-D scatter')
  plt.show()
  #3-Dplot
  plt.figure(3)
  TreeD = plt.subplot(111, projection='3d')
  TreeD.scatter(ax[0],ay[0],az[0],c='r')
  TreeD.scatter(ax[1],ay[1],az[1],c='g')
  TreeD.scatter(ax[2],ay[2],az[2],c='b')
  TreeD.set_zlabel('Z') # 坐標(biāo)軸
  TreeD.set_ylabel('Y')
  TreeD.set_xlabel('X')
  TreeD.set_title('3-D scatter')
  plt.show()

使用Python實現(xiàn)KMeans聚類算法的案例

使用Python實現(xiàn)KMeans聚類算法的案例

以上是“使用Python實現(xiàn)KMeans聚類算法的案例”這篇文章的所有內(nèi)容,感謝各位的閱讀!希望分享的內(nèi)容對大家有幫助,更多相關(guān)知識,歡迎關(guān)注創(chuàng)新互聯(lián)行業(yè)資訊頻道!

名稱欄目:使用Python實現(xiàn)KMeans聚類算法的案例-創(chuàng)新互聯(lián)
鏈接分享:http://aaarwkj.com/article12/codidc.html

成都網(wǎng)站建設(shè)公司_創(chuàng)新互聯(lián),為您提供企業(yè)建站全網(wǎng)營銷推廣、用戶體驗、域名注冊、服務(wù)器托管、響應(yīng)式網(wǎng)站

廣告

聲明:本網(wǎng)站發(fā)布的內(nèi)容(圖片、視頻和文字)以用戶投稿、用戶轉(zhuǎn)載內(nèi)容為主,如果涉及侵權(quán)請盡快告知,我們將會在第一時間刪除。文章觀點不代表本網(wǎng)站立場,如需處理請聯(lián)系客服。電話:028-86922220;郵箱:631063699@qq.com。內(nèi)容未經(jīng)允許不得轉(zhuǎn)載,或轉(zhuǎn)載時需注明來源: 創(chuàng)新互聯(lián)

成都網(wǎng)頁設(shè)計公司
91亚洲熟妇国产熟妇肥婆| 亚洲精品日本一区二区| 日本东京热二三四区不卡免费的| 亚洲国产精品一区二区| 中文字幕av久久激情| 亚洲精品一品区二品区三区| 麻豆影片在线免费观看| 欧美午夜福利一级高清| 美女被强到爽高潮不断在线| 麻豆一区二区人妻网站| 久久99国产精品成人免费| 一本在线不卡中文字幕| 97成人在线视频免费| 日韩国产传媒在线精品| 亚洲av在线观看午夜| 黄色录像黄色片黄色片| 久久婷婷国产综合精品青草| 久久国产欧美日韩精品免费| 特黄特色的日本大片| 亚洲av一本岛在线播放| 亚洲精品91在线中文字幕| 国产男女在线视频观看| 日韩在线一区二区视频| 欧美一级午夜欧美午夜视频| 婷婷六月开心激情五月| 欧美在线免费黄片视频| 日韩一区二区偷拍视频| 久久亚洲欧美国产精品观看| 日韩最新人妻在线不卡| 白小白的视频在线观看| 97视频精品在线播放| 九九九热这里只有精品| 精品一区二区视频在线观看网站| 欧美精品一区二区久久| 亚洲欧美日韩综合一区| 色婷婷一区二区三区网站| 亚洲综合五月天色婷婷| 成人黄网站色大片免费| 亚洲六月丁香六月婷婷| 国产精品欧美一区二区视频| 日韩不卡在线免费观看视频|