百哥么么哒|个人网站

ID3决策树算法

分类： ML

TTyb 2017-01-13 2822

ID3决策树算法思想

决策树 (Decision Tree）是在已知各种情况发生概率的基础上，通过构成 决策树 来求取净现值的期望值大于等于零的概率，评价项目风险，判断其可行性的决策分析方法，是直观运用概率分析的一种图解法。由于这种决策分支画成图形很像一棵树的枝干，故称 决策树 。在机器学习中，决策树 是一个预测模型，他代表的是对象属性与对象值之间的一种映射关系。Entropy = 系统的凌乱程度，使用算法ID3, C4.5和C5.0生成树算法使用熵。这一度量是基于信息学理论中熵的概念，本文着重讲ID3算法。

ID3 决策树是一种二分类至多分类问题

主要是把所有情况列举出来，只是划分各种情况判断的先后顺序而已

信息熵

定义 $0log_2(0)$ 为 0

\[entropy(p_1,p_2,...,p_n) =-p_1\log_2(p_1)-p_2\log_2(p_2)-...-p_n\log_2(p_n)\]

信息增益

记S为结果情况的集合，E事件集合。不同的事件组合在一起就会造成不同结果，即：

\[S(s_1,s_2,...,s_n)\leftarrow (E(e_1,e_2,...,e_m) ,E(e_1,e_2,...,e_m),...,E(e_1,e_2,...,e_m))\]

则事件 $e_1$ 的信息增益为：

\[Gain(S,E) = Entropy(S) - \sum_{e=1}^m(p_{e_m}*Entropy(e_m))\]

多个E造成事件S。信息增益最大的事件E作为根节点，然后一次计算其他节点，最终形成树。

假设事件结果为s1和s2，s1发生给概率是p1，s2发生的概率是p2，那么事件结果s的信息熵为：

\[entropy(s)=entropy(p_1,p_2) =-p_1\log_2(p_1)-p_2\log_2(p_2)\]

同理计算事件的信息熵$entropy(E_1)$，$entropy(E_2)$ … ，所以事件$E_1$发结果s1的信息增益引为：

\[Gain(s_1,E_1) = Entropy(s_1) - (p_{e_1}*Entropy(e_1) + p_{e_2}*Entropy(e_2))\]

案例示例

假设存在如下一组信息：

天气	气温	湿度	风	外出
晴朗	高温	高	无风	no
晴朗	高温	高	有风	no
多云	高温	高	无风	yes
下雨	温暖	高	无风	yes
下雨	寒冷	正常	无风	yes
下雨	寒冷	正常	有风	no
多云	寒冷	正常	有风	yes
晴朗	温暖	高	无风	no
晴朗	寒冷	正常	无风	yes
下雨	温暖	正常	无风	yes
晴朗	温暖	正常	有风	yes
多云	温暖	高	有风	yes
多云	高温	正常	无风	yes
下雨	温暖	高	有风	no

假如时间发生发概率为(p1,p2,…,pn)，那么可以定义信息熵为：

例如外出的概率是9/14，不外出的概率是5/14，那么外出的信息熵entropy 为：

将上面的表格整理一下如下：

天气	yes	no	气温	yes	no	湿度	yes	no	风	yes	no	外出	yes	no
晴朗	2	3	高温	2	2	高	3	4	无风	6	2	外出	9	5
多云	4	0	温暖	4	2	正常	6	1	有风	3	3
下雨	3	2	寒冷	3	1

各个天气情况 的信息熵计算为：

天气为晴朗时，2/5的概率外出，3/5的概率不外出，信息熵为0.971
天气为多云时，信息熵为0
天气为下雨时，3/5的概率外出，2/5的概率不外出，信息熵为0.971

而天气是 晴朗 的概率为5/14，天气是 多云 的概率为4/14，天气是 下雨 的概率为5/14，所以 天气 的信息熵为：

5/14 × 0.971 + 4/14 × 0 + 5/14 × 0.971 = 0.693

天气的 信息增益gain 为：

0.940-0.693=0.247

同理 温度gain 为0.029， 湿度gain 为0.152，风gain 为0.048

天气的信息熵下降得最快，所以决策树的根节点为天气，子节点为晴朗、多云、下雨：

根据第一个表格得知，天气晴朗的日子有5天，这5天对应各种不一样的气温、湿度、风、外出，如下：

晴朗 {'湿度': ['高', '高', '高', '正常', '正常'], '风': ['无风', '有风', '无风', '无风', '有风'], '气温': ['高温', '高温', '温暖', '寒冷', '温暖']}
下雨 {'湿度': ['高', '正常', '正常', '正常', '高'], '风': ['无风', '无风', '有风', '无风', '有风'], '气温': ['温暖', '寒冷', '寒冷', '温暖', '温暖']}
多云 {'湿度': ['高', '正常', '高', '正常'], '风': ['无风', '有风', '有风', '无风'], '气温': ['高温', '寒冷', '温暖', '高温']}

多云 ['yes', 'yes', 'yes', 'yes']
晴朗 ['no', 'no', 'no', 'yes', 'yes']
下雨 ['yes', 'yes', 'no', 'yes', 'no']

在前面计算，由于 多云 的信息熵为0，所以多云的时候是一定会外出的，即 多云=yes ：

晴朗 {'湿度': ['高', '高', '高', '正常', '正常'], '风': ['无风', '有风', '无风', '无风', '有风'], '气温': ['高温', '高温', '温暖', '寒冷', '温暖']}
下雨 {'湿度': ['高', '正常', '正常', '正常', '高'], '风': ['无风', '无风', '有风', '无风', '有风'], '气温': ['温暖', '寒冷', '寒冷', '温暖', '温暖']}
多云 'yes'

多云 'yes'
晴朗 ['no', 'no', 'no', 'yes', 'yes']
下雨 ['yes', 'yes', 'no', 'yes', 'no']

此时需要再次计算：

晴朗条件下，湿度、风、气温那个的信息增益下降最快，选取下降最快的为晴朗的下一个节点

下雨条件下，湿度、风、气温那个的信息增益下降最快，选取下降最快的为下雨的下一个节点

再次判断哪一个信息熵变成了0，变成了0则可以终止这一条树

经过代码计算， 晴朗 的下一个节点为 湿度 ， 下雨 的下一个节点为 风 ，以此继续递归下去.

python代码为

整理的原始数据为：

condition = {'风': ['无风', '有风', '无风', '无风', '无风', '有风', '有风', '无风', '无风', '无风', '有风', '有风', '无风', '有风'],
                 '湿度': ['高', '高', '高', '高', '正常', '正常', '正常', '高', '正常', '正常', '正常', '高', '正常', '高'],
                 '天气': ['晴朗', '晴朗', '多云', '下雨', '下雨', '下雨', '多云', '晴朗', '晴朗', '下雨', '晴朗', '多云', '多云', '下雨'],
                 '气温': ['高温', '高温', '高温', '温暖', '寒冷', '寒冷', '寒冷', '温暖', '寒冷', '温暖', '温暖', '温暖', '高温', '温暖']}
result = {'外出': ['no', 'no', 'yes', 'yes', 'yes', 'no', 'yes', 'no', 'yes', 'yes', 'yes', 'yes', 'yes', 'no']}

计算各种情况出现的概率：

# 计算出现的概率
def CalcProbability(array):
    dict = {}
    count = Counter(array)
    for item in count:
        dict[item] = count[item] / len(array)
    return dict

计算信息熵：

# 计算信息熵
def CalcEntropy(array):
    entropy = 0
    for i in range(0, len(array)):
        entropy = entropy + (-array[i] * math.log2(array[i]))
    return entropy

将原数据变为这样的样式：

天气	yes	no	气温	yes	no	湿度	yes	no	风	yes	no	外出	yes	no
晴朗	2	3	高温	2	2	高	3	4	无风	6	2	外出	9	5
多云	4	0	温暖	4	2	正常	6	1	有风	3	3
下雨	3	2	寒冷	3	1

# 重新整理数据
def Statistics(condition, result):
    # 获得各种结果出现的概率
    for k in result:
        resultProbability = CalcProbability(result[k])
    # {'no': 0.35714285714285715, 'yes': 0.6428571428571429}
    # 获得结果的信息熵
    resultarr = []
    for key in resultProbability:
        resultarr.append(resultProbability[key])
    resultEntropy = CalcEntropy(resultarr)
    # print(resultEntropy)
    # 0.9402859586706311


    # 统计各个条件下的外出结果
    dict = {}
    for key in condition.keys():
        tempdict = {}
        for i in range(0, len(condition[key])):
            if condition[key][i] in tempdict:
                for k in result:
                    tempdict[condition[key][i]].append(result[k][i])
            else:
                arr = []
                for k in result:
                    arr.append(result[k][i])
                tempdict[condition[key][i]] = arr
        dict[key] = tempdict
        # print(dict)
        # {'风': {'有风': ['no', 'no', 'yes', 'yes', 'yes', 'no'], '无风': ['no', 'yes', 'yes', 'yes', 'no', 'yes', 'yes', 'yes']}, '湿度': {'正常': ['yes', 'no', 'yes', 'yes', 'yes', 'yes', 'yes'], '高': ['no', 'no', 'yes', 'yes', 'no', 'yes', 'no']}, '天气': {'晴朗': ['no', 'no', 'no', 'yes', 'yes'], '下雨': ['yes', 'yes', 'no', 'yes', 'no'], '多云': ['yes', 'yes', 'yes', 'yes']}, '气温': {'温暖': ['yes', 'no', 'yes', 'yes', 'yes', 'no'], '寒冷': ['yes', 'no', 'yes', 'yes'], '高温': ['no', 'no', 'yes', 'yes']}}
    # 计算不同外出情况下的信息熵
    newdict = {}
    for keys in dict:
        tempdict = {}
        for key in dict[keys]:
            temp = CalcProbability(dict[keys][key])
            temparr = []
            for value in temp:
                temparr.append(temp[value])
                tempdict[key] = CalcEntropy(temparr)
            newdict[keys] = tempdict
    # print(newdict)
    # {'风': {'无风': 0.8112781244591328, '有风': 1.0}, '天气': {'多云': 0.0, '晴朗': 0.9709505944546686, '下雨': 0.9709505944546686}, '湿度': {'高': 0.9852281360342516, '正常': 0.5916727785823275}, '气温': {'温暖': 0.9182958340544896, '寒冷': 0.8112781244591328, '高温': 1.0}}


    # 不同条件出现的概率
    conditiondict = {}
    for item in condition:
        conditiondict[item] = CalcProbability(condition[item])
    # print(conditiondict)
    # {'气温': {'高温': 0.2857142857142857, '温暖': 0.42857142857142855, '寒冷': 0.2857142857142857}, '风': {'有风': 0.42857142857142855, '无风': 0.5714285714285714}, '湿度': {'高': 0.5, '正常': 0.5}, '天气': {'晴朗': 0.35714285714285715, '下雨': 0.35714285714285715, '多云': 0.2857142857142857}}

    return resultEntropy, newdict, conditiondict

计算信息增益：

# 计算信息增益
def CalcGain(resultEntropy, conditionEntropy, conditionProbability):
    conditionGain = {}
    for keys in conditionEntropy:
        number = 0
        for key in conditionEntropy[keys]:
            number = number + conditionEntropy[keys][key] * conditionProbability[keys][key]
        conditionGain[keys] = resultEntropy - number
    # reverse=True值按照从大到小排序
    conditionGain = sorted(conditionGain.items(), key=lambda d: d[1], reverse=True)

    return conditionGain

最终递归：

# 递归计算咯
def recursion(condition, result):
    resultEntropy, conditionEntropy, conditionProbability = Statistics(condition, result)
    # print(resultEntropy)
    # print(conditionEntropy)
    # print(conditionProbability)
    conditionGain = CalcGain(resultEntropy, conditionEntropy, conditionProbability)
    # print(conditionGain)

    # 哦按段是否为零
    key = conditionGain[0][0]
    value = ""
    for values in conditionEntropy[key]:
        if conditionEntropy[key][values] == 0:
            value = values

    kinds = []
    for item in condition[key]:
        if item in kinds:
            pass
        else:
            kinds.append(item)
    # ['晴朗', '多云', '下雨']

    # 删除天气这个key
    arrcondition = condition[key]
    condition.pop(key)
    # print("sssssssss",key)
    newcondition = {}
    newresult = {}
    for item in kinds:
        dict = {}
        resultarr = []
        for i in range(0, len(arrcondition)):
            if arrcondition[i] == item:
                for keys in condition:
                    if keys in dict:
                        dict[keys].append(condition[keys][i])
                    else:
                        temparr = []
                        temparr.append(condition[keys][i])
                        dict[keys] = temparr
                for key in result:
                    resultarr.append(result[key][i])
                    newresult[item] = resultarr
            newcondition[item] = dict

    # print(newcondition)
    # {'多云': {'气温': ['高温', '寒冷', '温暖', '高温'], '风': ['无风', '有风', '有风', '无风'], '湿度': ['高', '正常', '高', '正常']}, '晴朗': {'气温': ['高温', '高温', '温暖', '寒冷', '温暖'], '风': ['无风', '有风', '无风', '无风', '有风'], '湿度': ['高', '高', '高', '正常', '正常']}, '下雨': {'气温': ['温暖', '寒冷', '寒冷', '温暖', '温暖'], '风': ['无风', '无风', '有风', '无风', '有风'], '湿度': ['高', '正常', '正常', '正常', '高']}}
    # print(newresult)
    # {'多云': ['yes', 'yes', 'yes', 'yes'], '晴朗': ['no', 'no', 'no', 'yes', 'yes'], '下雨': ['yes', 'yes', 'no', 'yes', 'no']}

    if value in newcondition:
        newcondition[value] = "yes"
    # 得到的新condition为dict：
    # '多云': 'yes'
    # 下雨 {'风': ['无风', '无风', '有风', '无风', '有风'], '湿度': ['高', '正常', '正常', '正常', '高'], '气温': ['温暖', '寒冷', '寒冷', '温暖', '温暖']}
    # 晴朗 {'风': ['无风', '有风', '无风', '无风', '有风'], '湿度': ['高', '高', '高', '正常', '正常'], '气温': ['高温', '高温', '温暖', '寒冷', '温暖']}

    # 得到的新result为newresult：
    # 多云 ['yes', 'yes', 'yes', 'yes']
    # 晴朗 ['no', 'no', 'no', 'yes', 'yes']
    # 下雨 ['yes', 'yes', 'no', 'yes', 'no']

    print(newcondition)
    tempresult = {}
    for key in newcondition:
        if key == value:
            pass
        else:
            tempresult[key] = newresult[key]
            recursion(newcondition[key], tempresult)

源码下载：

ID3.py

本文地址：http://www.tybai.com/ml/ID3%E5%86%B3%E7%AD%96%E6%A0%91%E7%AE%97%E6%B3%95.html，来源于[TTyb]，欢迎转载，转载请注明出处。

如果你觉得本站内容有帮助

我要请作者喝杯咖啡

博客作者

在巴甫洛夫条件反射试验中：给定一条狗，每次摇铃后喂食，足够次数后，狗则听到铃声将会习惯性的分泌唾液，由此引发对铃声的依恋。延伸到实际，给定一个喜欢的妹子，每次见面赠与巴甫洛夫式的礼品或者零食，由此引发妹子的依恋。引入薛定谔的猫理论，在未表白前，妹子与自己一直处于一种“概率云”的状态，一旦表白则“概率云”将..更多

微信公众号

爬虫代码不知道怎么写
关注公众号让作者帮你解决！

博客标签

MachineLearningfirst(3) markdown(1) dataanalysis(2) html(8) mysql(1) matlab(1) git(6) java(1) python(44) selenium(9) IDE(2) golang(1) javascript(2) ML(11) wechat(1) Linux(12) hadoop(3) pythontools(7) scala(33) elasticsearch(2) hive(2)

博客热点

在使用 `import org.apache.spark.ml.feature.VectorAssembler` 转换特征后，想要放入 `import org.apache.spark.mllib.classification.SVMWithSGD` 去训练的时候出现错误阅读全文 »

Python3 打包exe方式阅读全文 »

《漫威》系列电影中，距离《复仇者联盟4》上映一周，豆瓣分都是8.1分的钢铁侠》和《复仇者联盟3》，《钢铁侠》有353695人评价打分，《复仇者联盟3》有557491人评价打分，这两部电影是否一样好看？阅读全文 »

昨天收到公众号粉丝的爬虫需求:抓取平台：天猫或者淘宝;爬取对象：某个商品的各分类的价格和库存数阅读全文 »

在flask页面下载excel 阅读全文 »

java.lang.NoSuchMethodError: org.apache.spark.sql.DataFrameNaFunctions.fill(JLscala/collection/Seq;)Lorg/apache/spark/sql/Dataset 阅读全文 »

import org.apache.spark.ml.feature.{HashingTF, IDF}库中，TFIDF结果的字段含义阅读全文 »

spark读CSV为Dataframe和spark将Dataframe写入CSV 阅读全文 »

将dataframe利用pyspark列合并为一行，类似于sql的GROUP_CONCAT函数。spark和pyspark的方式不能共用阅读全文 »

想看下最近房价是否能入手，抓取链家二手房、新房的信息，发现广州有些精装修88平米的3房2厅首付只要 29 万，平均 1.1万/平，果然钱不够信息来凑，总能发现便宜的房子！阅读全文 »

hive新建分区表阅读全文 »

hive删除表和表中的数据，以及按分区删除数据阅读全文 »

csdn目前设置每日使用5次后必须登录才能看到阅读更多的内容，异常恶心。因此搜罗了方法去解决这个问题阅读全文 »

pandas和spark的dataframe互转阅读全文 »

需要将代码转换为html使其显示好看一些，可以在这里进行装换阅读全文 »

需要调用命令行来执行某些命令，主要是用subprocess实时获取结果和捕获错误，发现subprocess的很多坑阅读全文 »

ubuntu的vim取消缩进阅读全文 »

需要实现两台机器的信息交互，使用 `socket` 进行调度阅读全文 »

centos7开放端口和防火墙设置阅读全文 »
python获取set-cookies 阅读全文 »
记录在TensorFlow中使用GPU的一些操作阅读全文 »
pandas的apply操作类似于Scala的udf一样方便阅读全文 »

将dataframe利用pandas列合并为一行，类似于sql的GROUP_CONCAT函数阅读全文 »

python读取了一个list是字符串形式的[11.23,23.34]，想转换成list类型阅读全文 »

python中使用了pandas的一些操作，特此记录下来。阅读全文 »

python中使用了numpy的一些操作，特此记录下来。阅读全文 »

Python3+Flask+uwsgi部署web服务，实现在新的IP下打开网址阅读全文 »

在python中，需要将整数均分成N等分。python divide integers N equal parts sum 阅读全文 »

在Windows7下需要安装pyspark，写下教程步骤阅读全文 »

对于python数组的操作有点混乱，所以特此记录下来阅读全文 »

马尔科夫链转移矩阵计算方式阅读全文 »
需要将dataframe中的某一行变换为列阅读全文 »
scala获取某个时间间隔的时间阅读全文 »
Linux查看文件夹大小阅读全文 »

需要对dataframe按照某几列为key，对另外几列进行计算，考虑到scala的reduceByKey比groupByKey快速很多，所以使用了这个操作阅读全文 »

需要将Spark Dataframe转换为Scala Map集合阅读全文 »

Caused by: org.elasticsearch.hadoop.EsHadoopException: Could not write all entries [1/1] (Maybe ES was overloaded?). Error sample... 阅读全文 »

spark调用distinct只能删除完全相同的行，而需要一种方法按照某几列作为唯一ID来删除重复，利用dropDuplicates可以完美解决这个问题阅读全文 »

spark调用elsticsearch的API对elasticsearch进行增删查改阅读全文 »

在 hadoop中，基于Linux命令可以给hdfs创建文件和文件夹，或者删除文件和文件夹阅读全文 »

spark调用hdfsAPI查询文件名字、删除文件阅读全文 »

hadoop使用出现安全模式错误Name node is in safe mode，退出安全模式阅读全文 »

在提取dataframe里面的列时，需要传入不定参数，即dataframe.select(args) 阅读全文 »

github pages一直想添加代码高亮highlighter，基于jekyll 3.0的rouge终于搞定了阅读全文 »

System memory * must be at least *.Please increase heap size using the --driver--memory option or spark.driver.memory 阅读全文 »

python万能库阅读全文 »
spark计算两个DataFrame的差集、交集、合集阅读全文 »

记录Linux查看的系统的命令，Linux查看系统、核数、CPU、位数阅读全文 »

任何一个电子商务公司想要存活下去，必须要时时掌控市场的动态，淘宝天猫上面的商品数据刚好能满足这样子的需求，所以写下这篇抓取教程阅读全文 »

特定环境下需要安装Linux suse 11 sp1，走过太多的坑，所以记录下安装的过程方便以后再使用阅读全文 »

在抓取网页的时候只想抓取主要的文本框，所以用了一个比较暴力的方法去识别阅读全文 »

python之BeautifulSoup使用阅读全文 »
selenium操控浏览器下拉到页面最底端阅读全文 »

一种去除dataframe中null、NaN和空字符串的方法，基于scala下阅读全文 »

chardet库是python的字符编码检测器，能够检测出各种编码的类型阅读全文 »

记录python读写2003和2007版本的excel的一些方式阅读全文 »

scala时间和时间戳互转阅读全文 »

在给代码带包成jar后，放到环境中运行出现No FileSystem for scheme file错误，找到解决办法阅读全文 »

在spark中给dataframe增加一列的方法一般使用withColumn，但是个人感觉少了很多功能，不如使用udf 阅读全文 »

Scala查询dataFrame结构阅读全文 »

在使用数据库的时候，需要将查询出来的一列按照逗号合并成一行阅读全文 »

日志文件太多，需要清空阅读全文 »

安装了 `ubuntu-14` ，为了连接 `xshell` ，做出的一些配置阅读全文 »

在scala里面存在调用Linux命令行的函数，得到返回的结果阅读全文 »

在scala中远程连接Linux，并发送相关命令到Linux上，得到返回的结果阅读全文 »

`spark` 中的 `reduce` 非常的好用，`reduce` 可以对 `dataframe` 中的元素进行计算、拼接等等阅读全文 »

很多人的个人博客用的是多说评论，但是最近多说突然说要关闭了... 阅读全文 »

网上很多人问绑定域名要不要备案，很多人的回答是... 阅读全文 »

从数据库提取出来的时间为 `String` 格式，现在需要转换为 `date` 并提取出里面的 *小时* 时间段阅读全文 »

为了加密 `.py` 文件，以前一般使用打包成exe ，但是最近发现可以将其编译成二进制文件pyc，虽然反编译难度不大，但是也需要一些水平阅读全文 »

python批量启动多线程阅读全文 »
Linux发现ctrl+c无法中断程序阅读全文 »
scala中spark运行内存不足阅读全文 »
scala打包jar并在Linux下运行阅读全文 »
scala的input 阅读全文 »
scala的break和continue 阅读全文 »
scala合并Array 阅读全文 »
scala读取配置文件阅读全文 »
scala读取解析json文件阅读全文 »
scala判断数据类型阅读全文 »
IntelliJ的Scala配置阅读全文 »
scala的map操作阅读全文 »
python获取当前路径阅读全文 »
python的StringIO 阅读全文 »

此方法相当于 `Linux` 系统下的`diff`，或者是 `git` 下的 `checkout` 阅读全文 »

Linux查找文件内容阅读全文 »
python日志syslog运用阅读全文 »
python连接Linux命令行阅读全文 »

由于 `python` 频繁打印会导致IDE或者系统奔溃，因此将其打印信息写入日志文件中阅读全文 »

scala安装教程图文解说阅读全文 »
python获取当前运行程序的名字阅读全文 »
python获取文件夹名字阅读全文 »
python时间和时间戳互转阅读全文 »
python判断文件是否存在阅读全文 »
python创建递归文件夹阅读全文 »
sklearn的kmeans测试代码阅读全文 »

当使用库的时候，需要传递不确定个数的参数，那么写法是怎样的？阅读全文 »

python安装万能仓库的whl文件出错，原来是文件名弄错了阅读全文 »

安装sklearn库需要很多前提条件，而且不能pip3 install sklearn，因此写下教程阅读全文 »

Oracle查询得到的时间都是1970...，在python下将其转为时间戳阅读全文 »

过年很多人会发微信的红包，但是为毛很多人说自己得不到最佳，因此作者写了一个微信红包发送的算法阅读全文 »

在Linux下安装python3且不影响系统的python2 阅读全文 »
hadoop完全分布式搭建阅读全文 »

最为广泛的两种分类模型是决策树模型(Decision Tree Model)和朴素贝叶斯模型（Naive Bayesian Model，NBM），本文讲解朴素贝叶斯阅读全文 »

数据挖掘中的ID3决策树算法，再次进行一个初步的学习阅读全文 »

虚拟机VMwareWorkstation下安装Linux系统centOS 阅读全文 »

微信小程序在2017-01-09正式上线，本着跟上时代潮流的精神，写一份教程来看看阅读全文 »

埃拉托斯特尼筛法，简称埃氏筛或爱氏筛，是一种由希腊数学家埃拉托斯特尼所提出的一种简单检定素数的算法。要得到自然数n以内的全部素数，必须把不大于根号n的所有素数的倍数剔除，剩下的就是素数阅读全文 »

层次聚类是另一种主要的聚类方法，它具有一些十分必要的特性使得它成为广泛应用的聚类方法阅读全文 »

K近邻(KNN，k-NearestNeighbor)分类算法是数据挖掘分类技术中最简单的方法之一阅读全文 »

以前使用聚类是用spss，现在用python自己写了一次阅读全文 »

大数据时代开始流行推荐算法，所以作者写了一篇教程来介绍FP-tree推荐算法阅读全文 »

学习了一些chrome插件的基本用法阅读全文 »

大数据时代开始流行推荐算法，所以作者写了一篇教程来介绍apriori推荐算法阅读全文 »

海龟画图很好看，试着玩了一下阅读全文 »
做github静态博客，学习安装jekyll 阅读全文 »

在破解Amazon的验证码的时候，利用机器学习得到验证码破解精度超过70%，主要是训练样本不够，如果在足够的样本下达到90%是非常有可能的。阅读全文 »

妹子要去招聘会工作，奈何网上仅仅提供招聘会的公司名字，没有提供招聘的职位，SO我写了个小代码给妹子在智联上面搜索职位，由于时间紧迫，前程的就不写了阅读全文 »

selenium设置浏览器属性阅读全文 »
javascript获取浏览器属性阅读全文 »
javascript操控浏览器阅读全文 »

为了获取网站js渲染后的html，需要利用selenium加载网站，但是会出现加载时间过长的现象，因此可以限制其加载时间以及强制关掉加载阅读全文 »

win10安装配置golang 阅读全文 »
pycharm基本设置，省得每次都要去网上找阅读全文 »
百度指数抓取，再用图像识别得到指数阅读全文 »
selenium之xpath定位和input文本阅读全文 »
selenium在同一浏览器下多个窗口切换阅读全文 »
selenium识别下拉框阅读全文 »

假如外出工作，需要在另一台电脑上面pull自己的某个git远程项目到本地阅读全文 »

妹纸推荐书籍《御伽草纸》，网上找了很久都找不到下载，估计是被Amazon版权了，但是在网易云阅读看到有书，所以就写个代码下载下来。阅读全文 »

标签云是现在大数据里面最喜欢使用的一种展现方式，其中在python3下也能实现标签云的效果阅读全文 »

RGB颜色对照图阅读全文 »

python3的多线程很多人无法理解是怎么运行的，因此本文从程序猿的日常生活出发，写了一个由浅入深的多线程教程，这样子大家就不会觉得陌生了，多线程真的很简单很简单！阅读全文 »

selenium是处理异步加载的一种方法阅读全文 »
python数据库操作pymysql 阅读全文 »
详解如何搞定瀑布流阅读全文 »
详解如何搞定瀑布流阅读全文 »
java从零到变身爬虫大神阅读全文 »
github上传本地项目阅读全文 »
没事玩了一下matlab 阅读全文 »

mysql在大学学了，现在忘记得差不多了，复习复习一下阅读全文 »

css初学阅读全文 »
学习了一些html的基本用法阅读全文 »
学习了一些html的基本用法阅读全文 »
学习了一些html的基本用法阅读全文 »

EDM营销：全称Email Direct Marketing，即电子邮件营销阅读全文 »

老板要画雷达图，但是数据好多组怎么办？不能一个一个点excel去画吧，那么可以利用python进行批量制作阅读全文 »

markdown初学阅读全文 »

在上一篇算法中，逻辑回归作为一种二分类的分类器，一般的回归模型也是是判别模型，也就根据特征值来求结果概率。形式化表示为 p(y|x;θ)，在参数 θ 确定的情况下，求解条件概率 p(y|x) 。阅读全文 »

在上一篇算法中，线性回归实际上是连续型的结果，即 y∈R ，而逻辑回归的 y 是离散型，只能取两个值 y∈{0,1}，这可以用来处理一些分类的问题。阅读全文 »

今天我们这里要讲第一个有监督学习算法，他可以用于一个回归任务，这个算法叫做线性回归阅读全文 »

博客归档

1 July 2019
1 May 2019
2 April 2019
2 March 2019
2 January 2019
5 December 2018
3 November 2018
4 October 2018
6 September 2018
3 August 2018
2 July 2018
2 June 2018
1 April 2018
3 March 2018
3 February 2018
3 January 2018
4 December 2017
3 November 2017
5 October 2017
4 August 2017
2 July 2017
3 June 2017
5 May 2017
13 April 2017
15 March 2017
4 February 2017
13 January 2017
8 December 2016
8 November 2016
1 October 2016
4 September 2016
11 August 2016
3 July 2016
1 July 2009
2 June 2009
1 February 2009
4 January 2009
3 July 2007
4 June 2007
9 May 2007

博主梦想

博客日历

网站已运行

公元年月农历年年

感谢您的支持，我会继续努力的!

扫码打赏一下，你说多少就多少

打开微信扫一扫，即可进行扫码打赏哦

ID3决策树算法

TTyb 2017-01-13 2822

ID3决策树算法思想

信息熵

信息增益

案例示例

假如时间发生发概率为(p1,p2,…,pn)，那么可以定义信息熵为：

例如外出的概率是9/14，不外出的概率是5/14，那么外出的信息熵entropy 为：

将上面的表格整理一下如下：

天气的信息熵下降得最快，所以决策树的根节点为天气，子节点为晴朗、多云、下雨：

python代码为

如果你觉得本站内容有帮助

博客作者

微信公众号

博客标签

博客热点

博客归档

博主梦想

博客日历

Fork me on Github

无聊就想打码打码使我快乐

网站导航

ID3决策树算法

TTyb 2017-01-13 2822

ID3决策树算法思想

信息熵

信息增益

案例示例

假如时间发生发概率为(p1,p2,…,pn)，那么可以定义信息熵为：

例如外出的概率是9/14，不外出的概率是5/14，那么 外出的信息熵entropy 为：

将上面的表格整理一下如下：

天气的信息熵下降得最快，所以决策树的根节点为 天气 ，子节点为 晴朗 、多云 、下雨 ：

python代码为

如果你觉得本站内容有帮助

博客作者

微信公众号

博客标签

博客热点

博客归档

博主梦想

博客日历

Fork me on Github

无聊就想打码 打码使我快乐

网站导航

例如外出的概率是9/14，不外出的概率是5/14，那么外出的信息熵entropy 为：

天气的信息熵下降得最快，所以决策树的根节点为天气，子节点为晴朗、多云、下雨：

无聊就想打码打码使我快乐