撰写SCI论文时,8种数据抽样设计你都会

来源:募格课堂作者:晨星,男,湖北武汉人,副高职称,理学博士,高级程序员

宋代的袁州宜春(今属江西)人释印肃在《颂证道歌·证道歌》里说:“即是如来真实相,闹市卓牌标榜样。”在设计/选择SCI论文中的数据抽样方法时,也是这样。

数据抽样是在科研过程中常常使用的统计方法。因为在大多数情况下,从目标总体中的每一个个体那里收集数据要么太困难要么太成本高。相反,从样本中收集数据常常是科研方法中首选的方法。

一般我们把研究对象的全体成员称为总体(Population,也称母体),而把每一个研究对象称为个体。例如,在研究某灯泡厂生产的灯泡质量时,该厂生产的灯泡全体构成的一个总体,其中每只灯泡都是个体;研究某班高等数学的成绩时,该班每个同学都是个体,全体同学构成一个总体。

与此相关,样本(Sample)是指从总体中随机抽取的部分观察单位,抽样(Sampling)是指从总体抽取部分个体的过程;而样本含量(SampleSize)是指样本所包含观察单位的数目。

我们知道,研究总体离不开研究它的体。但在许多实际问题中,不可能对所有个体逐一进行研究,而只能从总体中抽取一部分个体进行观察(或试验),根据对这部分个体的观察结果来推断总体的分布情况。只要使用适当的抽样方法,就可以进行正确的统计分析,核心是能够选取一个代表总体的样本。

为了从数据统计分析的结果中得出有效的结论,研究者必须仔细决定如何选择一个代表整个总体的样本。通常,有两种取样方法:

概率抽样法(ProbabilitySampling):概率抽样法是调查者用客观、随机的方法抽取样本。研究者可以通过选中的样本对整个总体做出强有力的统计推断。

非概率抽样法(Non-probabilitySampling):非概率抽样法是指调查者根据自己的方便或主观判断抽取样本的方法。它不是严格按随机抽样原则来抽取样本,所以失去了大数定律的存在基础,也就无法确定抽样误差,无法正确地说明样本的统计值在多大程度上适合于总体。虽然根据样本调查的结果也可在一定程度上说明总体的性质,特征,但不能从数量上推断总体。

为了使科技论文作者发现的结果和结论更有信服力,一般应该使用概率抽样方法。随机选择减少了采样偏差,并确保来自样本的数据实际上是典型的总体数据。参数估计可以在利用概率抽样收集数据时进行强统计推断。

但在实践中,很少有可能收集到理想的样本。虽然非概率样本更容易产生偏差,但它们更容易从总体中收集数据。非参数估计更适合于非概率样本,但这种方法会导致了对于总体的弱推断。非概率抽样涉及基于便利性或其他标准的非随机选择,优点是显而易见的,相比概率抽样法,可以允许研究者更轻松地收集样本数据。

所以,在SCI论文写作中,作者应该在论文或论文的方法论部分清楚地解释ta是如何选择研究的样本的。

如果要对总体进行非概率样本抽样,并使用参数估计,则必须保证:

——样本代表的研究发现能够概括到总体

——样本没有系统性的偏差

并且作者在SCI论文中,应该在Discussion部分中详细说明,将参数估计方法应用于非概率样本中的数据,将会使研究结果有多大程度的限制和缺陷。如果不能保证抽样过程样本的概括性和无偏差性,及不在论文中说明抽样方法的缺陷,都会涉及科研的伦理道德问题,说严重点就是伪造数据。

在设计样本抽样方法时,第一步是研究者需要了解一个总体和一个样本之间的差异,并确定研究的目标总体。

比如,你要进行某慢性病的研究。那么,总体是你想得出结论的整个人群,样本是你将从中收集数据的特定个人组群。总体可以根据地理位置、年龄、收入和许多其他特征来定义。总体与样本可以非常广泛,也可以非常狭窄:也许对一个国家的整个成年人总体进行推断;也许研究重点是某家公司的客户、有特定健康状况的患者或某所学校的学生。

根据研究项目的目的和实用性,仔细定义目标总体是很重要的。对于上面那个某慢性病的研究例子,如果总体人群非常庞大,人群结构混杂,地理位置分散,就可能很难获得有代表性的样本。

一般来说,在取样前,需要确定抽样框架(SamplingFrame,也称为抽样范围)。抽样范围是指可以选择作为样本的总体单位列出的名册或排序编号,以确定总体的抽样范围和结构。抽样框架是将从总体中抽取样本的个人列表。在理想情况下,它应该包括整个目标总体(以及不属于该总体的任何个体)。

举了栗子:

需要研究X公司的工作条件,那么研究的总体是该公司所有名员工。而研究的抽样框架是X公司的人力资源数据库,其中列出了每个员工的姓名和联系方式等信息。

接着,研究者应该明确样本含量(SampleSize)即样本大小。研究样本中应该包含的个体数量取决于各种因素,包括总体的大小和变异性以及研究项目的总体设计。在统计学上,有各种不同的样本大小的计算公式,这取决于研究项目进行什么样的统计分析,需要验证什么样的统计假设。

下面详细介绍一下两种取样方法。

1.概率抽样法(ProbabilitySampling)

概率抽样法意味着总体中的每一个个体成员都有被选中的机会。它主要用于定量研究。如果想得到代表整个总体的研究结果,概率抽样方法是最有效的选择。

概率抽样法方法主要有四种类型:

a)简单随机抽样(Simplerandomsampling)

在一个简单的随机抽样中,每个个体都有平等的机会被选中。研究的抽样框架应该包括整个总体。

要进行这种类型的采样,可以使用随机数生成器之类的工具或完全基于偶然性的其他技术。

举了栗子:

研究项目需要研究X公司的工作条件,确定选择了概率抽样法进行抽样,抽样框架包含X公司所有的名员工。具体方法是在公司数据库中的每个员工指定一个从1到的数字,然后使用随机数生成器个数字来选择相应编号的员工生成样本。

b)系统抽样法(Systematicsampling,又称为等距抽样法)

系统抽样类似于简单的随机抽样,但通常比较容易进行。总体中的每一个成员都编有一个数字,但不用随机生成数字,而是按固定的间隔选择个体,也就是说系统抽样是依据一定的抽样距离,从总体中抽取样本。

举了栗子:

还是上面那个工作条件的研究项目。X公司所有员工按字母顺序进行编号,从前10个数字中,随机选择一个起点:编号6。从第6位开始,每间隔10人被选中(6,16,26,36等等),最后从总体中会得到人的样本。

如果使用此方法,必须确保员工列表的排列中没有可能的扭曲样本随机性的隐藏模式。例如,如果按资历顺序排列人力资源数据库中的数据,则有可能会跳过初级职位人员,从而导致样本的个体偏向于高级员工。

c)分层抽样(Stratifiedsampling)

分层抽样是将总体中所有的个体分成两个或两个以上的相互独立的完全的组(如男性和女性),从两个或两个以上的组中进行简单随机抽样,样本相互独立。若要使用此抽样方法,请根据相关特征(例如性别、年龄范围、收入等级、工作角色)将总体划分为子组(也称为阶层)。

根据总体数量比例,可以计算应从每个子组中抽取多少个体,然后使用随机或系统抽样从每个子组中选择一个个体放入样本。

举了栗子:

X公司有名女性员工和名男性员工。研究项目希望确保样本反映公司的性别平衡,因此根据性别将公司员工分为两个组别,然后对每组进行随机抽样,选择80名女性和20名男性,这就得到了人的代表性样本。

d)整群抽样(Clustersampling)

整群抽样是将包括将总体划分为若干子集,但每个子集应具有与整个样本相似的特征。然后随机选择整个子集,而不是从每个子集中抽样。

如果实际可行的话,可以包含每个采样子集中的每个个体。如果子集本身很大,还可以使用上述a、b、c的技术之一从每个子集中对个体进行采样。

这种方法适用于处理大而分散的总体,但抽取的样本可能存在更大的错误风险,因为聚类之间可能存在实质性差异,很难保证被抽样的子集能够真正代表整个总体。

举了栗子:

X公司在全国10个城市设有办事处(所有办事处的员工人数大致相同,职位相似)。如果项目经费有限,没有能力去每个城市的办公室收集研究项目所需的数据,所以使用随机抽样来选择3个办公室的员工-这些被选中的办公室就是总体子集的集群。

2.非概率抽样方法(Non-probabilitysamplingmethods)

在非概率抽样方法中,个体是根据非随机标准选择的,并不是每个个体都有被选择的机会。

非概率抽样方法更容易获得样本,成本也低,但有更高的抽样偏差风险。这种方法意味着研究工作对总体的推断比概率抽样方法天然地要弱一点,研究的结论可能更有限。如果决定在研究工作使用的是非概率抽样方法选取样本,那么研究者所要做的是尽可能地使非概率样本代表总体。

非概率抽样技术通常用于探索性和定性研究。在这些类型的研究中,目的不是检验关于广泛的总体上的假设,而是对一小部分或研究不足的总体有一个初步的了解。

概率抽样法方法主要有四种类型:

a)方便抽样(Conveniencesampling)

一个方便抽样方法获取的样本仅仅包括研究人员最容易接触到的个体。这是一种简单而廉价的方法来收集初始数据,但无法判断样本是否代表了总体,因此无法得出有概括性的结果。“街头拦人法”就是一种典型的方便抽样法。

举了栗子:

某个项目正在研究关于某大学的学生对于手机是否影响学习的观点,所以每次上课完毕后,研究者拦住走出教室的同学完成一个关于这个话题的调查。这是一种收集数据的便捷方法,但由于研究者只调查了和在同一教室参加同一课程的学生,因此样本并不代表该大学的所有学生的观点。

b)自愿回应抽样(voluntaryresponsesampling)

与方便抽样类似,自愿回应抽样主要基于获取样本的便利性。研究人员并没有通过直接联系的方式与参与者联系,从而选择参与者,而是让总体中的个体自己主动选择成为了样本。例如互联网上进行的一些投票,往往只有

转载请注明地址:http://www.1xbbk.net/jwbzn/1141.html


  • 上一篇文章:
  • 下一篇文章:
  • 网站简介 广告合作 发布优势 服务条款 隐私保护 网站地图 版权声明
    冀ICP备19027023号-7