Category: 机器学习

「机器学习」 August 20, 2018

5-4 使用PCA进行降噪

Words count 3.1k Reading time 3 mins.

import numpy as np
import matplotlib.pyplot as plt

X = np.empty((100,2))

X[:,0] = np.random.uniform(0.,100.,size=100)

X[:,1] = 0.75 * X[:,0] + 3. + np.random.normal(0,5,size=100)

plt.scatter(X[:,0],X[:,1])
plt.show()

from sklearn.decomposition ...

Read article

「机器学习」 August 20, 2018

5-1 多元线性回归

Words count 11k Reading time 10 mins.

import numpy as np
from sklearn.metrics import r2_score


class LinearRegression:
    def __init__(self):
        """初始化Linear Regression模型"""
        self.coef_ = None  # 系数
        self.intercept_ = None  # 截距
        self._theta = None

    def fit_normal(self...

Read article

「机器学习」 August 20, 2018

4-2 梯度下降法的总结以及相关讨论

Words count 3.2k Reading time 3 mins.

import numpy as np
import matplotlib.pyplot as plt

np.random.seed(666)
X = np.random.random(size=(1000,10))

true_theta = np.arange(1,12,dtype=float)

X_b = np.hstack([np.ones((len(X),1)),X])
y = X_b.dot(true_theta) + np.random.normal(size=1000)

X....

Read article

「机器学习」 August 20, 2018

3-2 实现 Simple Linear Regression

Words count 3.8k Reading time 3 mins.

import numpy as np
import matplotlib.pyplot as plt

x = np.array([1.,2.,3.,4.,5.])
y = np.array([1.,3.,2.,3.,5.])

plt.scatter(x,y)
plt.axis([0,6,0,6])
plt.show()

# x的均值
x_mean = np.mean(x)
# y的均值
y_mean = np.mean(y)

# 定义分子
num = 0.0
# 定义分母
d = 0....

Read article

「机器学习」 August 20, 2018

3-1 线性回归算法

Words count 386 Reading time 1 mins.

解决回归问题
思想简单，实现容易
许多强大的非线性模型的基础
结果具有很好的可解释行
蕴含机器学习汇总的很多重要思想

Read article

「机器学习」 August 20, 2018

2-Jupyter Notebook

Words count 1.3k Reading time 1 mins.

a 单元格之前创建新的单元格

b单元格之后创建新的单元格

dd 删除当前单元格

ctrl+enter 运行单元格

%run

运行.py的文件

比如我要执行当前notebook所在的目录下的myscript目录里有一个hello.py文件

%run myscript/hello.py

引入包

在notebook里引入一个包，直接用import即可

%timeit

显示项目运行的时间

%lsmagic

查询所有魔法命令

%run ？

查看run命令的用法

创建numpy.array

nparr2 = np...

Read article

「机器学习」 August 20, 2018

2-5 数据归一化

Words count 16k Reading time 15 mins.

解决方案：将所有的数据映射到同一尺度

把所有数据映射到0-1之间

把所有数据归一到均值为0方差为1的分布中

适用于：数据分布没有明显的边界；有可能存在极端数据值

import numpy as np
import matplotlib.pyplot as plt

x = np.random.randint(0,100,size=100)
x

array([88, 64, 34, 56, 68, 54, 19, 45, 53, 34, 18, 34, 21, 35,  2, 94, 61,
       31...

Read article

「机器学习」 August 20, 2018

2-3 测试算法准确性

Words count 2.8k Reading time 3 mins.

import numpy as np
import matplotlib
import matplotlib.pyplot as plt
from sklearn import datasets

digits = datasets.load_digits()

digits.keys()

dict_keys(['data', 'target', 'target_names', 'images', 'DESCR']...

Read article

「机器学习」 August 20, 2018

2-4 KNN-超参数

Words count 33k Reading time 30 mins.

import numpy as np
from sklearn import datasets

digits = datasets.load_digits()

X = digits.data

y = digits.target

from sklearn.model_selection import train_test_split

X_train,X_test,y_train,y_test = train_test_split(X,y,test_size=0.2,random_state...

Read article

「机器学习」 August 20, 2018

2-1 kNN-k近邻算法

Words count 3.9k Reading time 4 mins.

思想季度简单
应用数学只是少
效果好
可以解释机器学习算法使用过程中的很多细节问题
更完整的刻画机器学习应用的流程

假如k=3，就是寻找与该样本最近的3个样本来投票，票数多的样本就认为该待测样本与多数多的样本相似

import numpy as np
import matplotlib.pyplot as plt

raw_data_X = [[3.393533211,2.331273381],
             [3.110073483,1.781539368],
             [1.343808831,3.368360954...

Read article