2019-02-11 11:42:36    11    0    0

归一化方法

(1)线性归一化,也称min-max标准化、离差标准化;是对原始数据的线性变换,使得结果值映射到[0,1]之间。转换函数如下:

 

这种归一化比较适用在数值较集中的情况。这种方法有一个缺陷,就是如果max和min不稳定的时候,很容易使得归一化的结果不稳定,影响后续使用效果。其实在实际应用中,我们一般用经验常量来替代max和min。

(2)标准差归一化,也叫Z-score标准

Linux    2019-02-01 17:03:13    20    0    0
数据挖掘    2019-01-20 18:12:39    38    0    0
import numpy as np
import matplotlib.pyplot as plt
from sklearn.naive_bayes import GaussianNB
from sklearn.datasets import load_digits
from sklearn.model_selection import train_test_split

digits = load_digits()
x, y = digits.data, digits.target

Xtrain, Xtest, Ytrain, Ytest = train_test_split(x, y, test_size=0.3, random_state=420)

gnb = GaussianNB().fit(Xtrain, Ytrain)
数据挖掘    2019-01-07 21:35:29    56    0    0

以wine数据集为草料,从多个维度值决定红酒的类型。在wine数据集中,其中一列是红酒类型。现在根据'酒精','苹果酸','灰','灰的碱性'等13维度的值来训练模型,预测红酒类型。

from sklearn import tree
from sklearn.model_selection import train_test_split
import pandas as pd


# 导入数据文件
columns=['红酒类型','酒精','苹果酸','灰','灰的碱性','镁','总酚','类黄酮','非黄烷类酚类',
                '花青素','颜色强度','色调','od280/od315稀释葡萄酒','脯氨酸']
data_pre = pd.read_csv('C:\\Users\\qinxiao\\Desktop\\testdata\\wine.data',header=None,names=columns)
data_pre.head()
 
算法    2019-01-05 14:01:34    60    0    0
python    2018-01-06 17:31:13    26    0    0

Pandas操作数据库

import pandas as pd
import sqlalchemy

# 连接 Mysql 数据库
engine = sqlalchemy.create_engine('mysql+pymysql://root:root@localhost:3306/test')

sql_string = """
select *
from student_tbl
"""

# 将SQL查询或数据库表读取到DataFrame中:
# da= pd.read_sql('student_tbl',engine)
# print(da)
data = pd.read_sql(sql_string, engine)
print(data)
python    2017-12-10 19:34:18    55    0    0

读写文件 

读取文件

>>> import pandas as pd

>>> data = pd.read_csv('C:\\Users\\xiaoxiao\\Desktop\\test.csv')
>>> print(data)

    longitude   latitude  age     uid
0    -0.697511  37.998928   18  100001
1   -92.407906  34.622064   18  100002
2  -124.126868  40.790182   18  100003
3   -76.552708  37.178889   21  100004
4   -87.675790  41.437726   18  100005
5   -83.881972  33.996578   18  100006
python    2017-12-02 21:45:13    24    0    0
import pandas as pd
import numpy as np

#######################
基本功能

s = pd.Series([1, 44, 1])
print(s)
print(s.values)
print(s.index)
a = pd.Series([1, 44, 1], index=['a', 'b', 'c'])
print(a)
print(a.index)
print(a['a'])
print(a[['a', 'c']])
print(a[a > 1])
print(a * 2)
python    2017-11-18 20:43:19    20    0    0
import numpy as np

创建ndarray
np.array

data1 = [6, 0, 3]
arr1 = np.array(data1)
print(arr1)

data1 = [[6, 0, 3], [2, 4, 5]]
arr1 = np.array(data1, dtype=np.int32)
print(arr1)
print(arr1.ndim)
print(arr1.shape)
print(arr1.dtype)
python    2017-08-26 22:47:09    20    0    0

实例(对象)方法

实例方法,该实例属于对象,该方法的第一个参数是当前实例,拥有当前类以及实例的所有特性。需要实例化,用对象调用

@classmethod 类方法

类方法,不需要实例化,也不需要self参数,需要一个cls参数,可以用类名调用,也可以用对象来调用。

原则上,类方法是将类本身作为对象进行操作的方法。假设有个方法,且这个方法在逻辑上采用类本身作为对象来调用更合理,那么这个方法就可以定义为类方法

@staticmethod 静态方法

静态方法,不需要实例化,不需要self和cls等参数,就跟使用普通的函数一样,只是封装在类中