(1)数据样本问题
在进行数据分析之前可能存在需要抽样的问题,并且在数据量越大的情况下出现抽样的概率越大。合理的抽样有助于提高数据分析和挖掘的效率,能在保证数据质量的前提下减少人力和时间成本,因此抽样是大数据分析和挖掘的必要步骤。数据抽样的方法因人而异,只要能代表全部样本特征的抽样方法都可用,因此不存在最好的抽样方法,只有最适合的抽样方法。如果抽样过程中出现问题,会直接影响后期所有的数据工作,恶意的抽样方法甚至会直接导致数据结论的错误。常见的数据抽样问题是抽样主体不同和抽样样本量不同。
(2)数据处理问题
数据处理指的是在开始分析数据之前的清洗工作,通常需要对样本进行整体数据观察,以确认样本数量、均值、极值、方差、标准差及数据范围等。数据在应对异常情况的处理时也会存在故意“说谎”的问题,最常见的异常情况包括极大值和极小值、缺失值、错误值等。每种异常值的处理方法都不同会对数据处理结果产生直接影响,并且异常值的样本数量越多,对数据处理结果的影响就越大。
(3)数据分析问题
在数据分析和挖掘的过程中,同一种目标下都存在多种可供选择的分析方法与挖掘模型。不同的方法和模型产生的结果未必相同,尤其是具有定性分析的对比类分析,所对照的样本不同,结果就不一样。