Skip to content
New issue

Have a question about this project? Sign up for a free GitHub account to open an issue and contact its maintainers and the community.

By clicking “Sign up for GitHub”, you agree to our terms of service and privacy statement. We’ll occasionally send you account related emails.

Already on GitHub? Sign in to your account

更改序号和readme界面所描述一致 #2

Open
wants to merge 7 commits into
base: master
Choose a base branch
from
Open
Show file tree
Hide file tree
Changes from all commits
Commits
File filter

Filter by extension

Filter by extension

Conversations
Failed to load comments.
Loading
Jump to
Jump to file
Failed to load files.
Loading
Diff view
Diff view
Original file line number Diff line number Diff line change
@@ -1,6 +1,6 @@
[TOC]

# Task0-机器学习综述
# Task1-机器学习综述

2016年3月,阿尔法围棋与围棋世界冠军、职业九段棋手李世石进行围棋人机大战,以4比1的总比分获胜. 深度学习开始进行大众的视野中. 深度学习其实是机器学习的一个分支,我们今天来看看机器学习是什么. 机器学习是一门多领域交叉学科,涉及概率论、统计学、逼近论、凸分析、算法复杂度理论等多门学科。专门研究计算机怎样模拟或实现人类的学习行为,以获取新的知识或技能,重新组织已有的知识结构使之不断改善自身的性能。它是人工智能的核心,是使计算机具有智能的根本途径.

Expand Down
File renamed without changes.
214 changes: 107 additions & 107 deletions 初级算法梳理/学习任务.md
Original file line number Diff line number Diff line change
@@ -1,46 +1,46 @@
## ѧϰ����
## 学习任务

### Task01������ѧϰ������1�죩
### Task01:机器学习概述(1天)

https://github.com/datawhalechina/team-learning/blob/master/�����㷨����/Task0_ml_overvirew.md
https://github.com/datawhalechina/team-learning/blob/master/初级算法梳理/Task1_ml_overvirew.md


<b>���۲���</b>
<b>理论部分</b>

- ����ѧϰ���ܣ�����ѧϰ��ʲô����ô���ģ����ۻ�����ʲô��Ϊ�˽��ʲô���⡣
- ����ѧϰ���ࣺ
- ��ѧϰ��ʽ�֣��мල���޼ල����ල
- ���������ͷ֣��ع顢���ࡢ���ࡢ��ά ����ģ�����б�ģ��
- ����ѧϰ������Ҫ�أ�
- **ģ��**
- **����**����ʧ����
- **�㷨**���ݶ��½�����ţ�ٷ�����ţ�ٷ�
- ģ������ָ�꣺R2��RMSE��accuracy��precision��recall��F1��ROC��AUC��Confusion Matrix
- ���Ӷȶ�����ƫ���뷽��������Ƿ��ϡ��ṹ�����뾭����ա���������������
- ģ��ѡ�����򻯡�������֤
- ����������������
- ������������һ������׼������ɢ����one-hot����
- ģ�͵��ţ���������Ѱ�š��������Ѱ��
- 机器学习介绍:机器学习是什么,怎么来的,理论基础是什么,为了解决什么问题。
- 机器学习分类:
- 按学习方式分:有监督、无监督、半监督
- 按任务类型分:回归、分类、聚类、降维 生成模型与判别模型
- 机器学习方法三要素:
- **模型**
- **策略**:损失函数
- **算法**:梯度下降法、牛顿法、拟牛顿法
- 模型评估指标:R2、RMSEaccuracyprecisionrecall、F1、ROCAUCConfusion Matrix
- 复杂度度量:偏差与方差、过拟合与欠拟合、结构风险与经验风险、泛化能力、正则化
- 模型选择:正则化、交叉验证
- 采样:样本不均衡
- 特征处理:归一化、标准化、离散化、one-hot编码
- 模型调优:网格搜索寻优、随机搜索寻优


---
### Task02�����Իع飨2�죩
### Task02:线性回归(2天)

<b>���۲���</b>
<b>理论部分</b>

- ģ�ͽ��������Իع�ԭ�������Իع�ģ��
- ѧϰ���ԣ����Իع���ʧ���������ۺ�����Ŀ�꺯��
- �㷨��⣺�ݶ��½�����ţ�ٷ�����ţ�ٷ���
- ���Իع������ָ��
- sklearn�������
- 模型建立:线性回归原理、线性回归模型
- 学习策略:线性回归损失函数、代价函数、目标函数
- 算法求解:梯度下降法、牛顿法、拟牛顿法等
- 线性回归的评估指标
- sklearn参数详解


<b>��ϰ����</b>
<b>练习部分</b>

https://github.com/datawhalechina/team-learning/blob/master/�����㷨����/Task1_Linear_regression.ipynb
https://github.com/datawhalechina/team-learning/blob/master/初级算法梳理/Task2_Linear_regression.ipynb

- �������Իع�ķ���Ԥ������
- ����`sklearn`����ع�����
- 基于线性回归的房价预测问题
- 利用`sklearn`解决回归问题
- `sklearn.linear_model.LinearRegression`


Expand All @@ -50,106 +50,106 @@ https://github.com/datawhalechina/team-learning/blob/master/
---


### Task03���߼��ع飨2�죩
### Task03:逻辑回归(2天)

<b>���۲���</b>
<b>理论部分</b>

- �߼��ع������Իع����ϵ������
- ģ�ͽ������߼��ع�ԭ�����߼��ع�ģ��
- ѧϰ���ԣ��߼��ع���ʧ�������Ƶ����Ż�
- �㷨��⣺�����ݶ��½�
- ������ģ������ָ��
- �߼��ع����ȱ��
- ��������������
- sklearn�������
- 逻辑回归与线性回归的联系与区别
- 模型建立:逻辑回归原理、逻辑回归模型
- 学习策略:逻辑回归损失函数、推导及优化
- 算法求解:批量梯度下降
- 正则化与模型评估指标
- 逻辑回归的优缺点
- 样本不均衡问题
- sklearn参数详解


<b>��ϰ����</b>
<b>练习部分</b>

https://github.com/datawhalechina/team-learning/blob/master/�����㷨����/Task2_logistic_regression.ipynb
https://github.com/datawhalechina/team-learning/blob/master/初级算法梳理/Task3_logistic_regression.ipynb

- ����`sklearn`�����������
- 利用`sklearn`解决分类问题
- `sklearn.linear_model.LogisticRegression`
- �����ݶ��½�������ͬ�����ݷ��࣬��ͼ��sklearn�Ľ����Ƚ�
- ����ţ�ٷ�ʵ�ֽ������ͼ��sklearn�Ľ����Ƚϣ����Ƚ�ţ�ٷ����ݶ��½������������Ĵ���
- 利用梯度下降法将相同的数据分类,画图和sklearn的结果相比较
- 利用牛顿法实现结果,画图和sklearn的结果相比较,并比较牛顿法和梯度下降法迭代收敛的次数

---

### Task04����������2�죩
### Task04:决策树(2天)

<b>���۲���</b>
<b>理论部分</b>

- ����ѡ����Ϣ���棨�ء������ء������أ�����Ϣ����ȡ�����ϵ��
- ���������ɣ�ID3��������C4.5��������CART��������CART��������CART�ع�����
- ��������֦
- sklearn�������
- 特征选择:信息增益(熵、联合熵、条件熵)、信息增益比、基尼系数
- 决策树生成:ID3决策树、C4.5决策树、CART决策树(CART分类树、CART回归树)
- 决策树剪枝
- sklearn参数详解

<b>��ϰ����</b>
<b>练习部分</b>

https://github.com/datawhalechina/team-learning/blob/master/�����㷨����/Task3_decision_tree.ipynb
https://github.com/datawhalechina/team-learning/blob/master/初级算法梳理/Task4_decision_tree.ipynb

- ����`sklearn`�����������ͻع�Ԥ�⡣
- 利用`sklearn`解决分类问题和回归预测。
- `sklearn.tree.DecisionTreeClassifier`
- `sklearn.tree.DecisionTreeRegressor`

---

### Task05�����ࣨ2�죩
<b>���۲���</b>

- ��ظ���
- �޼ලѧϰ
- ����Ķ���
- ���þ��빫ʽ
- �����پ���
- ŷʽ����
- �ɿɷ�˹������
- �б�ѩ�����
- �����
- ��������
- �ܿ�������ϵ��
- �ܿ��¾���
- K-Means���ࣺ������̺�ԭ�����㷨���̡��㷨�Ż���k-means++��Mini Batch K-Means��
- ��ξ��ࣺAgglomerative Clustering���̺�ԭ��
- �ܶȾ��ࣺDBSCAN���̺�ԭ��
- �׾��ࣺ�׾���ԭ�����ڽӾ��󡢶Ⱦ���������˹����RatioCut��Ncut���͹���
- ��˹��Ͼ��ࣺGMM���̺�ԭ����EM�㷨ԭ��������EM�㷨���Ƹ�˹��Ͼ������
- sklearn�������

<b>��ϰ����</b>

https://github.com/datawhalechina/team-learning/blob/master/�����㷨����/Task4_cluster_plus.ipynb

- ����`sklearn`����������⡣
### Task05:聚类(2天)
<b>理论部分</b>

- 相关概念
- 无监督学习
- 聚类的定义
- 常用距离公式
- 曼哈顿距离
- 欧式距离
- 闵可夫斯基距离
- 切比雪夫距离
- 夹角余弦
- 汉明距离
- 杰卡德相似系数
- 杰卡德距离
- K-Means聚类:聚类过程和原理、算法流程、算法优化(k-means++Mini Batch K-Means
- 层次聚类:Agglomerative Clustering过程和原理
- 密度聚类:DBSCAN过程和原理
- 谱聚类:谱聚类原理(邻接矩阵、度矩阵、拉普拉斯矩阵、RatioCutNcut)和过程
- 高斯混合聚类:GMM过程和原理、EM算法原理、利用EM算法估计高斯混合聚类参数
- sklearn参数详解

<b>练习部分</b>

https://github.com/datawhalechina/team-learning/blob/master/初级算法梳理/Task5_cluster_plus.ipynb

- 利用`sklearn`解决聚类问题。
- `sklearn.cluster.KMeans`


---
### Task06�����ر�Ҷ˹��2�죩
<b>���۲���</b>
- ��ظ���
- ����ģ��
- �б�ģ��
- ���ر�Ҷ˹����ԭ��
- �������ʹ�ʽ
- �˷���ʽ
- ȫ���ʹ�ʽ
- ��Ҷ˹����
- ����������������
- ����������
- ������˹ƽ��
- ���ر�Ҷ˹��������ʽ
- ��˹��
- ����ʽ��
- ��Ŭ����
- ��ֵ��������µ�ÿ����ķ������
- �����������
- ������������
- sklearn�������

<b>��ϰ����</b>

https://github.com/datawhalechina/team-learning/blob/master/�����㷨����/Task5_bayes_plus.ipynb

- ����`sklearn`����������⡣
### Task06:朴素贝叶斯(2天)
<b>理论部分</b>
- 相关概念
- 生成模型
- 判别模型
- 朴素贝叶斯基本原理
- 条件概率公式
- 乘法公式
- 全概率公式
- 贝叶斯定理
- 特征条件独立假设
- 后验概率最大化
- 拉普拉斯平滑
- 朴素贝叶斯的三种形式
- 高斯型
- 多项式型
- 伯努利型
- 极值问题情况下的每个类的分类概率
- 下溢问题如何解决
- 零概率问题如何解决
- sklearn参数详解

<b>练习部分</b>

https://github.com/datawhalechina/team-learning/blob/master/初级算法梳理/Task6_bayes_plus.ipynb

- 利用`sklearn`解决聚类问题。
- `sklearn.naive_bayes.GaussianNB`