概述
从广义上来说,机器学习是一种能够赋予机器学习的能力以此让它完成直接编程无法完成的功能的方法。但从实践的意义上来说,机器学习是一种通过利用数据,训练出模型,然后使用模型预测的一种方法
机器学习跟模式识别,统计学习,数据挖掘,计算机视觉,语音识别,自然语言处理等领域有着很深的联系。
从范围上来说,机器学习跟模式识别,统计学习,数据挖掘是类似的,同时,机器学习与其他领域的处理技术的结合,形成了计算机视觉、语音识别、自然语言处理等交叉学科。因此,一般说数据挖掘时,可以等同于说机器学习。同时,我们平常所说的机器学习应用,应该是通用的,不仅仅局限在结构化数据,还有图像,音频等应用。
- 模式识别: 即机器学习,两者的主要区别在于:前者是从工业界发展起来的概念.后者则主要源自计算机学科
- 数据挖掘: 即机器学习+数据库. 数据挖掘仅仅是一种思考方式,告诉我们应该尝试从数据中挖掘出知识, 但不是每个数据都能挖掘出金子的,所以不要神话它。一个系统绝对不会因为上了一个数据挖掘模块就变得无所不能,恰恰相反,一个拥有数据挖掘思维的人员才是关键,而且他还必须对数据有深刻的认识,这样才可能从数据中导出模式指引业务的改善。大部分数据挖掘中的算法是机器学习的算法在数据库中的优化
- 计算机视觉: 图像处理+机器学习. 图像处理技术用于将图像处理为适合进入机器学习模型中的输入,机器学习则负责从图像中识别出相关的模式。计算机视觉相关的应用非常的多,例如百度识图、手写字符识别、车牌识别等等应用。这个领域是应用前景非常火热的,同时也是研究的热门方向。随着机器学习的新领域深度学习的发展,大大促进了计算机图像识别的效果,因此未来计算机视觉界的发展前景不可估量
- 自然语言处理: 文本处理+机器学习. 自然语言处理技术主要是让机器理解人类的语言的一门领域:在自然语言处理技术中,大量使用了编译原理相关的技术,例如词法分析,语法分析等等. 在理解这个层面,则使用了语义理解,机器学习等技术. 作为唯一由人类自身创造的符号,自然语言处理一直是机器学习界不断研究的方向。按照百度机器学习专家余凯的说法“听与看,说白了就是阿猫和阿狗都会的,而只有语言才是人类独有的”。如何利用机器学习技术进行自然语言的的深度理解,一直是工业和学术界关注的焦点
基本流程
机器学习工作流(WorkFlow)包含数据预处理(Processing)、模型学习(Learning)、模型评估(Evaluation)、新样本预 测(Prediction)几个步骤。
- 数据预处理:输入(未处理的数据 + 标签)→处理过程(特征处理+幅度缩放、特征选择、维度约减、采样)→输出(测试集 + 训练集)。
- 模型学习:模型选择、交叉验证、结果评估、超参选择。
- 模型评估:了解模型对于数据集测试的得分。
- 新样本预测:预测测试集。
关键组件
首先介绍一些核心组件。无论什么类型的机器学习问题,都会遇到这些组件:
- 可以用来学习的数据(data);
- 如何转换数据的模型(model);
- 一个目标函数(objective function),用来量化模型的有效性;
- 调整模型参数以优化目标函数的算法(algorithm)。
核心技术
- 分类:应用以分类数据进行模型训练,根据模型对新样本进行精准分类与预测。
- 聚类:从海量数据中识别数据的相似性与差异性,并按照最大共同点聚合为多个类别。
- 异常检测:对数据点的分布规律进行分析,识别与正常数据及差异较大的离群点。
- 回归:根据对已知属性值数据的训练,为模型寻找最佳拟合参数,基于模型预测新样本的输出值。