机器学习

Python中机器学习的特征选择工具

摘要: 还在为特征选择抓狂?这个工具了解一下!

特征选择,即在数据集中查找和选择最有用的特征的过程,是机器学习的关键步骤。不必要的特征会降低训练速度、模型的可解释性,最重要的是会降低测试集的泛化性能。

我对临时的特征选择方法感到很失望,但是在解决机器学习问题时又反复用到了这些方法,所以就创建了一个关于特征选择的Python类,该类可以在GitHub上找到。FeatureSelector类包括一些最常见的特征选择方法:
1.高百分比的缺失值特征选择法

2.共线(高度相关)特征选择法

3.树型结构模型中的零重要性特征选择法

4.低重要性特征选择法

5.唯一值特征选择法

在本文中,我将对机器学习数据集的示例使用FeatureSelector类。也会介绍该类是如何让我们快速地实现特征选择方法。

7步让你从零开始掌握Python机器学习

这篇文章旨在通过7个步骤,将最少的机器学习知识转化为知识型实践者,所有这一切都在使用免费的材料和资源。这个大纲的主要目标是帮助你通过许多可用的免费选项; 有很多,可以肯定的,但哪些是最好的?哪个互补?使用所选资源的最佳顺序是什么?

首先,我假设你并不是以下方面的专家:

  • 机器学习
  • Python
  • 任何 Python 的机器学习、科学计算或数据分析库
  • 如果你对前两个主题有一定程度的基本了解就更好了,不了解也没有关系,提前花一点点时间了解一下就行了。

    第一步:基本 Python 技能

    如果你打算利用 Python 来执行机器学习,那么对 Python 有一些基本的了解就是至关重要的。幸运的是,Python 是一种得到了广泛使用的通用编程语言,加上其在科学计算和机器学习领域的应用,所以找到一个初学者教程并不十分困难。你在 Python 和编程上的经验水平对于起步而言是至关重要的。

    人工智能、机器学习和认知计算入门指南

    几千年来,人们就已经有了思考如何构建智能机器的想法。从那时开始,人工智能 (AI) 经历了起起落落,这证明了它的成功以及还未实现的潜能。如今,随时都能听到应用机器学习算法来解决新问题的新闻。从癌症检测和预测到图像理解和总结以及自然语言处理,AI 正在增强人们的能力和改变我们的世界。

    现代 AI 的历史包含一部伟大的戏剧应具有的所有要素。上世纪 50 年代,随着对思维机器及阿兰·图灵和约翰·冯·诺依曼等著名人物的关注,AI 开始崭露头角。尽管随后经历了数十年的繁荣与萧条,并被寄予了难以实现的厚望,但 AI 和它的先驱们仍然一直在努力前行。如今,AI 展现出了它的真正潜力,专注于应用并提供深度学习和认知计算等技术。

    本文将探索 AI 的一些重要方面和它的子领域。我们首先会分析 AI 的时间线,然后深入介绍每种要素。

    现代 AI 的时间线

    机器学习和深度学习概念入门(上)

    1、人工智能、机器学习、深度学习三者关系

    对于很多初入学习人工智能的学习者来说,对人工智能、机器学习、深度学习的概念和区别还不是很了解,有可能你每天都能听到这个概念,也经常提这个概念,但是你真的懂它们之间的关系吗?那么接下来就给大家从概念和特点上进行阐述。先看下三者的关系。

    人工智能包括了机器学习,机器学习包括了深度学习,他们是子类和父类的关系。

    下面这张图则更加细分。

    2、什么是人工智能

    机器学习:朴素贝叶斯--python

    今天介绍机器学习中一种基于概率的常见的分类方法,朴素贝叶斯,之前介绍的KNN, decision tree 等方法是一种 hard decision,因为这些分类器的输出只有0 或者 1,朴素贝叶斯方法输出的是某一类的概率,其取值范围在 0-1 之间,朴素贝叶斯在做文本分类,或者说垃圾邮件识别的时候非常有效。

    朴素贝叶斯就是基于我们常用的贝叶斯定理:

    假设我们要处理一个二分类问题: c1,c2,给定一个样本,比如说是一封邮件,可以用向量 x 来表示,邮件就是一个文本,而文本是由单词构成的,所以 x 其实包含了这封邮件里出现的单词的信息,我们要求的就是,给定样本 x ,我们需要判断这个样本是属于 c1 还是属于 c2,当然,我们可以用概率表示为:

    作者: CSC57

    自从阿里巴巴董事会主席马云在开发者大会上展示刷脸支付功能惊艳世界之后,脸部识别技术吸引了众多程序开发者的目光。这项技术的背后就是总部位于北京的旷视科技,一个由几位极客创立的,开发了众多图像以及人工智能技术的公司。尤其在人脸识别方向旷视科技成果卓著,拥有大量的专利以及国际获奖。根据公司的CEO 印奇介绍,公司正在开发视觉计算的 “大脑”-将旷视科技的面部识别算法结合到云以及MegEye-C3S智能人像抓拍机一样边缘设备中,这种视觉计算引擎可以以30fps的速度以1080P分辨率在每视频帧中捕获100个面部图片,且能够逐帧对每张人脸进行多维度的质量判断推送出最清新、角度最正以及质量最高的脸像,同时识别人员的属性标注,输出年龄、性别、国籍以及抓拍时间等信息,为视频安全监控领域带来革命性变化。

    旷视科技的基于face++算法的MegEye-C3S智能人像抓拍机

    对于机器学习,到底该选择哪种编程语言

    开发者到底应该学习哪种编程语言才能获得机器学习或数据科学这类工作呢?这是一个非常重要的问题。我们在许多论坛上都有讨论过。现在,我可以提供我自己的答案并解释原因,但我们先看一些数据。毕竟,这是机器学习者和数据科学家应该做的事情:看数据,而不是看观点。

    让我们看一些数据。我将在Indeed.com上使用趋势搜索。它可以根据时间搜寻实际工作机会中特定的条款。这表明了雇主们正在寻找拥有该技能的人才。然而,请注意,这并不是一项有效使用技能的民意调查。这种指标更能体现技能的受欢迎程度。

    初学者必看!深度学习入门指南

    前言

    机器学习技术为现代社会的许多领域提供了强大的技术支持:从网络搜索到社交网络的内容过滤,再到电子商务网站的产品推荐。机器学习技术正越来越多的出现在消费级产品上,比如照相机和智能手机。 机器学习系统可用于识别图像中的对象,将语音转换成文本,选择搜索结果的相关项,以及匹配新闻、帖子或用户感兴趣的其他东西。 类似的应用越来越多,它们都使用了一种叫做深度学习的技术。

    深度学习(也称为深层结构学习、层次学习或深度机器学习)是基于对数据中的高级抽象进行建模的算法,它属于机器学习的分支。最简单的例子,你可以有两组神经元:接收输入信号的神经元和发送输出信号的神经元。当输入层接收到输入时,它将输入的修改版本传递给下一层。在深层网络中,输入和输出层之间有很多层(层并不是由神经元构成,这里只是为了帮助你思考),这些层允许算法使用多个处理层,这些层包含了多个线性和非线性变换。

    大规模机器学习框架的四重境界

    作者:carbon zhang

    1.背景

    自从google发表著名的GFS、MapReduce、BigTable三篇paper以后,互联网正式迎来了大数据时代。大数据的显著特点是大,哪里都大的大。本篇主要针对volume大的数据时,使用机器学习来进行数据处理过程中遇到的架构方面的问题做一个系统的梳理。

    有了GFS我们有能力积累海量的数据样本,比如在线广告的曝光和点击数据,天然具有正负样本的特性,累积一两个月往往就能轻松获得百亿、千亿级的训练样本。这样海量的样本如何存储?用什么样的模型可以学习海量样本中有用的pattern?这些问题不止是工程问题,也值得每个做算法的同学去深入思考。

    1.1简单模型or复杂模型

    在深度学习概念提出之前,算法工程师手头能用的工具其实并不多,就LR、SVM、感知机等寥寥可数、相对固定的若干个模型和算法;那时候要解决一个实际的问题,算法工程师更多的工作主要是在特征工程方面。而特征工程本身并没有很系统化的指导理论(至少目前没有看到系统介绍特征工程的书籍),所以很多时候特征的构造技法显得光怪陆离,是否有用也取决于问题本身、数据样本、模型以及运气。

    机器学习:决策树--python

    今天,我们介绍机器学习里比较常用的一种分类算法,决策树。决策树是对人类认知识别的一种模拟,给你一堆看似杂乱无章的数据,如何用尽可能少的特征,对这些数据进行有效的分类。

    决策树借助了一种层级分类的概念,每一次都选择一个区分性最好的特征进行分类,对于可以直接给出标签 label 的数据,可能最初选择的几个特征就能很好地进行区分,有些数据可能需要更多的特征,所以决策树的深度也就表示了你需要选择的几种特征。

    在进行特征选择的时候,常常需要借助信息论的概念,利用最大熵原则。

    决策树一般是用来对离散数据进行分类的,对于连续数据,可以事先对其离散化。

    在介绍决策树之前,我们先简单的介绍一下信息熵,我们知道,熵的定义为:

    我们先构造一些简单的数据:
    from sklearn import datasets
    import numpy as np
    import matplotlib.pyplot as plt
    import math
    import operator

    def Create_data():

    同步内容