设为首页收藏本站
搜索
热搜: 兼职
查看: 565|回复: 0

如何进行定量分析

[复制链接]
发表于 2019-9-11 17:17:39 | 显示全部楼层 |阅读模式

一、什么是定量分析


与定性分析相同的是,定量分析一词同样出自化学领域,在xx百科中是这样定义的:


“本指分析化学中的一个分支,用以测定物质中各种成分的含量。引申指在社会科学领域中从量的方面分析事物,运用数学方法研究、考察事物之间的相互联系和作用的分析方法。”


从中可以发现,定量分析最大的特点就是从量的角度出发分析问题,也就是上文所提到的先对问题进行量化以降低问题的不确定性,然后再对所得的数据使用数学、统计学的方法进行研究,目标是去寻找事物间的相互联系,例如:因果关系、相关性等。


二、定量分析与定性分析的异同点


1.目标不同:


虽然分析的最终目的都是解决问题,但定性分析和定量分析的目标却是不同的。定量分析的目标是去寻找事物之间的相互联系,而定性分析的目标是去揭示事物的行为、态度、动机。


2.方式/方法不同:


定性分析可以选择的方式非常灵活,有许多可以使用的方法,例如上文提到过的:直接观察法、访谈法、文件分析法等。而定量分析的方式则比较单一,主要就是依托于数学和统计学的方法。


3.难点不同;


相比定性分析,定量分析工作量大,人力、物力和时间成本都会比较高。在数据收集阶段,将问题量化就是一个系统且复杂的思考过程,其中往往还需要各种人力、物力的支持。到了分析阶段,又要面对数据量大,存储成本高,运算效率等一系列的问题(这些问题我们会在下文中详细讨论),而定性分析,执行的难点则在于执行过程中的非系统误差比较大,会出现各种各样的意外情况,且主观成分过多,也会带来系统性的偏差。


4.核心不同


定性分析依赖于个人(或群体)的经验、能力和水平,其标准常常因人而异,会带有主观任意性。而定量则依赖于量化系统,分析阶段所得出的所有结论、规律都是基于量化系统所提供的数据,数据的质量、纬度很大程度上决定了此次定量分析的结果是否有效。

1-1.jpg


三、定量分析步骤


定量分析主要分为两大阶段:量化阶段和分析阶段,量化阶段的内容上文已经讨论过在这里就不再赘述,我们直接来研究分析阶段。


当通过量化阶段完成了预期的数据收集后,就必须面对这些数据如何预处理的问题,这个过程需要耗费大量的时间,当然这也是大数据时代所面临的主要课题。在技术短时间内无法突破的情况下,可以通过一个系统的步骤来提高效率。


制定一个分析计划


在我个人的工作习惯中,我一直倾向于在分析开始之前先做一个时间计划,预估接下来会在什么时间点进行哪些步骤,每个步骤预计花费多少时间。


在实际的项目中,我们往往不是像kaggle竞赛那样直接拿到一个完整的数据集或者等所有的数据收集结束之后才开始分析工作,更多情况需要我们在数据收集过程中就逐步开始分析,在这样的情况下管控好各类数据到位的时间节点和分析工作的时间节点,是避免重复劳动的有效手段(当然也并非必须)。


制定一个分析框架


分析框架有很多,时下比较普遍的框架是这样的:

1-2.jpg


值得一提的是,第2、3、4步将会是一个循环往复的过程,模型所得的结果达不到预期时,就必须回到第3步去调整或者更换模型,预先处理好的数据此时可能就需要重新准备。实际项目中,这几个步骤重复多次是非常常见的事情。


了解数据


了解数据又称为数据探索,这个过程在分析中非常重要,了解数据集,对于接下来构造什么样的特征、选取什么样的模型都起到至关重要的作用。当然这个探索过程也不仅仅只是简单的弄清楚数据集里每一个字段所代表的意思,还需要考察数据的分布、缺失值等各项指标,才算是对数据集有了一个初步的认识。


我们举一个Kaggle竞赛中的一个例子,这是一个信用违约数据集

1-3.jpg


查看各个字段的数量、均值、最值等指标

1-4.jpg


用直方图来查看年龄字段的分布情况(当然能做的探索还有很多,在这里只是进行举例)


选择技术


在这里技术选择指的就是选择什么样的模型和算法。可选的模型和算法不胜枚举,在这里就不做赘述,但也需要注意一些问题:


1.明确目标


例如:我们需要进行预测时,可以选择回归;需要分类时,可以选择朴素贝叶斯、决策树;


2.贴合数据的特点


根据特征工程的所构建出的字段的类型和特点来选择比较贴合的算法,也可以减小很多不必要的麻烦。


3.根据经验


如果个人(或团队)有一定的类似项目经验,根据此前的项目经验来进行选择也可以有效的避开很多坑。


验证和分享结果


验证的方式同样有很多,时下比较流行的是对原有数据集进行切分,将数据集分为训练集和测试集,拆分的方法有简单的三七开,也有比较复杂的交叉验证法等。使用训练集的数据完成建模后,再用测试集的数据来对模型进行验证。经过一系列的验证之后,准确率达到预期就可以将结果发布出去,发布的方式可以是模型的源码,也可以是所得结果的报告,形式根据具体需求而定。


回复

使用道具 举报

您需要登录后才可以回帖 登录 | 立即注册

本版积分规则

返回顶部