56星座屋
当前位置: 首页 星座百科

机器学习和深度学习常用算法(一文解读合成数据在机器学习技术下的表现)

时间:2023-06-14 作者: 小编 阅读量: 2 栏目名: 星座百科

鉴于与其特征相关信息的可获得性,和基于这些特征来区分物种的容易程度,这可能足以培养良好的模型。这些数据集将包含两个不同的分类类别,每个类别的样本数相同。“有机”数据每个类别将遵循其中每个特征的某种正态分布。此分布仅允许合成特征采用少数具有每个值的特定概率的离散值。使用平台中心的正态分布概率推导出平稳点的概率。当在现实世界中使用时,这可能导致模型有效性的过高估计。

作者:Eric Le Fort

翻译:蒋雨畅

校对:卢苗苗

本文约3200字,建议阅读12分钟。

本文将通过介绍两个分布模型,并运用它们到合成数据过程中,来分析合成数据在不同机器学习技术下的表现。

想法

相比于数量有限的“有机”数据,我将分析、测评合成数据是否能实现改进。

动机

我对合成数据的有效性持怀疑态度——预测模型只能与用于训练数据的数据集一样好。这种怀疑论点燃了我内心的想法,即通过客观调查来研究这些直觉。

需具备的知识

本文的读者应该处于对机器学习相关理论理解的中间水平,并且应该已经熟悉以下主题以便充分理解本文:

  • 基本统计知识,例如“标准差”一词的含义
  • 熟悉神经网络,SVM和决策树(如果您只熟悉其中的一个或两个,那可能就行了)
  • 了解基本的机器学习术语,例如“训练/测试/验证集”的含义

合成数据的背景

生成合成数据的两种常用方法是:

  • 根据某些分布或分布集合绘制值
  • 个体为本模型的建模

在这项研究中,我们将检查第一类。为了巩固这个想法,让我们从一个例子开始吧!

想象一下,在只考虑大小和体重的情况下,你试图确定一只动物是老鼠,青蛙还是鸽子。但你只有一个数据集,每种动物只有两个数据。因此不幸的是,我们无法用如此小的数据集训练出好的模型!

这个问题的答案是通过估计这些特征的分布来合成更多数据。让我们从青蛙的例子开始

参考这篇维基百科的文章:

https://en.wikipedia.org/wiki/Common_frog ,只考虑成年青蛙。

第一个特征,即它们的平均长度(7.5cm±1.5cm),可以通过从正态分布中绘制平均值为7.5且标准偏差为1.5的值来生成。类似的技术可用于预测它们的重量。然而,我们所掌握的信息并不包括其体重的典型范围,只知道平均值为22.7克。一个想法是使用10%(2.27g)的任意标准偏差。不幸的是,这只是纯粹猜测的结果,因此很可能不准确。

鉴于与其特征相关信息的可获得性,和基于这些特征来区分物种的容易程度,这可能足以培养良好的模型。但是,当您迁移到具有更多特征和区别更细微的陌生系统时,合成有用的数据变得更加困难。

数据

该分析使用与上面讨论的类比相同的想法。我们将创建一些具有10个特征的数据集。这些数据集将包含两个不同的分类类别,每个类别的样本数相同。

“有机”数据

每个类别将遵循其中每个特征的某种正态分布。例如,对于第一种特征:第一个类别样本的平均值为1500,标准差为360;第二个类别样本的平均值为1300,标准差为290。其余特征的分布如下:

该表非常密集,但可以总结为:

  • 有四个特征在两类之间几乎无法区分,
  • 有四个特征具有明显的重叠,但在某些情况下应该可以区分,并且
  • 有两个特征只有一些重叠,通常是可区分的。

创建两个这样的数据集,一个1000样本的数据集将保留为验证集,另一个1000样本的数据集可用于训练/测试。

这会创建一个数据集,使分类变得足够强大。

合成数据

现在事情开始变得有趣了!合成数据将遵循两个自定义分布中的其中一个。第一个我称之为“ Spikes Distribution”。此分布仅允许合成特征采用少数具有每个值的特定概率的离散值。例如,如果原始分布的平均值为3且标准差为1,则尖峰(spike)可能出现在2(27%),3(46%)和4(27%)。

第二个自定义分布我称之为“ Plateaus Distribution”。这种分布只是分段均匀分布。使用平台中心的正态分布概率推导出平稳点的概率。您可以使用任意数量的尖峰或平台,当添加更多时,分布将更接近正态分布。

为了清楚说明这两个分布,可以参考下图:

(注:尖峰分布图不是概率密度函数)

在这个问题中,合成数据的过程将成为一个非常重要的假设,它有利于使合成数据更接近于“有机”数据。该假设是每个特征/类别对的真实平均值和标准差是已知的。实际上,如果合成数据与这些值相差太远,则会严重影响训练模型的准确性。

好的,但为什么要使用这些分布?他们如何反映现实?

我很高兴你问这个问题!在有限的数据集中,您可能会注意到,对于某个类别,某个特征只会占用少量值。想象一下这些值是:

(50,75,54,49,24,58,49,64,43,36)

或者如果我们可以对这列进行排序:

(24,36,43,49,49,50,54,58,64,75)

为了生成此特征的数据,您可以将其拆分为三个部分,其中第一部分将是最小的20%,中间的60%将是第二部分,第三部分将是最大的20%。然后使用这三个部分,您可以计算它们的平均值和标准差:分别为(30,6.0),(50.5,4.6)和(69.5,5.5)。如果标准差相当低,比如大约为相应均值的10%或更小,则可以将该均值视为该部分的尖峰值。否则,您可以将该部分视为一个平台,其宽度是该部分标准差的两倍,并以该部分的平均值作为中心。

或者,换句话说,他们在模拟不完美的数据合成方面做得不错。

我将使用这些分布创建两个800样本数据集 - 一个使用尖峰,另一个使用平台。四个不同的数据集将用于训练模型,以便比较每个数据集的有用性:

  • 完整 (Full) - 完整的1000个样本有机数据集(用于了解上限)
  • 真实 (Real) - 只有20%的样本有机数据集(模拟情况而不添加合成数据)
  • 尖峰(Spike) - “真实”数据集与尖峰数据集相结合(1000个样本)
  • 平台(Plateaus) - “真实”数据集与平台数据集相结合(1000个样本)

现在开始令人兴奋的部分!

训练

为了测试每个数据集的强度,我将采用三种不同的机器学习技术:多层感知器(MLP),支持向量机(SVM)和决策树(Decision Trees)。为了帮助训练,由于某些特征的幅度比其他特征大得多,因此利用特征缩放来规范化数据。使用网格搜索调整各种模型的超参数,以最大化到达最好的超参数集的概率。

总之,我在8个不同的数据集上训练了24种不同的模型,以便了解合成数据对学习效果的影响。

相关代码在这里:https://github.com/EricLeFort/DataGen

结果

经过几个小时调整超参数并记录下精度测量结果后,出现了一些反直觉的结果!完整的结果集可以在下表中找到:

多层感知器(MLP)

支持向量机(SVM)

决策树(Decision Trees)

在这些表中,“Spike 9”或“Plateau 9”是指分布和使用的尖峰/平台的数量。单元格中的值是使用相应的训练/测试数据对模型进行训练/测试,并用验证集验证后的的最终精度。还要记住,“完整”(Full)类别应该是准确性的理论上限,“真实”(Rea;)类别是我们在没有合成数据的情况下可以实现的基线。

一个重要的注意事项是,(几乎)每次试验的训练/测试准确度都明显高于验证准确度。例如,尽管MLP在Spike-5上得分为97.7%,但在同一试验的训练/测试数据上分别得分为100%和99%。当在现实世界中使用时,这可能导致模型有效性的过高估计。

完整的这些测量可以在GitHub找到:

https://github.com/EricLeFort/DataGen

让我们仔细看看这些结果。

首先,让我们看一下模型间的趋势(即在所有机器学习技术类型中的合成数据集类型的影响)。似乎增加更多尖峰/平台并不一定有助于学习。你可以看到在3对 5时尖峰/平台之间的一般改善,但是当看到5对9时,则要么变平或稍微倾斜。

对我来说,这似乎是违反直觉的。随着更多尖峰/平台的增加,我预计会看到几乎持续的改善,因为这会导致分布更类似于用于合成数据的正态分布。

现在,让我们看一下模型内的趋势(即各种合成数据集对特定机器学习技术的影响)。对于MLP来说,尖峰或平台是否会带来更好的性能似乎缺少规律。对于SVM,尖峰和平台似乎表现得同样好。然而,对于决策树而言,平台是一个明显的赢家。

总的来说,在使用合成数据集时,始终能观察到明显的改进!

以后的工作

需要注意的一个重要因素是,本文的结果虽然在某些方面有用,但仍然具有相当的推测性。因此,仍需要多角度的分析以便安全地做出任何明确的结论。

这里所做的一个假设是每个类别只有一个“类型”,但在现实世界中并不总是如此。例如,杜宾犬和吉娃娃都是狗,但它们的重量分布看起来非常不同。

此外,这基本上只是一种类型的数据集。应该考虑的另一个方面是尝试类似的实验,除了具有不同维度的特征空间的数据集。这可能意味着有15个特征而不是10个或模拟图像的数据集。

我计划继续研究以扩大本研究的范围,敬请期待!

关于作者

Eric拥有软件工程学士学位和机器学习硕士学位。他目前在加拿大多伦多担任机器学习工程师。他曾使用LSTM,CNN,决策树集合,SVM等工作解决与NLP,计算机视觉和商业智能系统相关的问题!

如果您想了解更多关于他的信息,请浏览他的网站(http://ericlefort.ca/ )

原文标题:

My Thoughts on Synthetic Data

原文链接:

https://www.codementor.io/ericlefort/my-thoughts-on-synthetic-data-kq719a5ss

译者简介

蒋雨畅,香港理工大学大三在读,主修地理信息,辅修计算机科学,目前在研究学习通过数据科学等方法探索城市与人类活动的关系。希望能认识更多对数据科学感兴趣的朋友,了解更多前沿知识,开拓自己的眼界。

转载请注明THU数据派

运营人员:冉小山

    推荐阅读
  • 形成酸雨的主要气体是什么(形成酸雨的主要气体)

    以下内容大家不妨参考一二希望能帮到您!形成酸雨的主要气体是什么酸雨是指PH小于5.6的雨雪或其他形式的降水,形成的主要气体有二氧化硫、三氧化硫、硫化氢、二氧化氮。酸雨主要是人为的向大气中排放大量酸性物质所造成的。酸雨又分硝酸型酸雨和硫酸型酸雨。

  • 木棉花的花语是什么(木棉花的意义)

    接下来我们就一起去了解一下吧!珍惜眼前的幸福,珍惜身边的人给他们快乐与幸福。它的花期通常在3月或者4月份,在这一段时间盛开,而传说中四月的第十一天,是木棉花盛开的日子,所以4月11被定为木棉花的日子。

  • 炒凉皮不碎技巧(炒凉皮不碎有什么技巧)

    以下内容大家不妨参考一二希望能帮到您!炒凉皮不碎技巧炒凉皮不碎技巧:就是在做凉皮时不能炒太久,变软会失去筋度。胡萝卜切丝,蒜薹切段,葱切花,猪肉切丝,大蒜拍扁。成品凉皮一张张卷起切粗条,抖散备用。生抽,白糖,盐,鸡精,醋,胡椒粉调成汁备用。热锅倒适量食用油烧热加入大蒜,肉丝翻炒至金黄,加入胡萝卜丝和蒜薹炒熟,凉皮翻炒均匀后随即淋入调好的汁儿翻炒均匀。

  • 近几年灭绝的鱼(瞭望在长江源寻鱼)

    长江被誉为我国淡水渔业的摇篮、鱼类基因的宝库。据青海省渔业部门统计,长江流域青海段分布有土著鱼类21种。因此,严格意义上长江源的关键鱼类指的是裂腹鱼中的小头裸裂尻鱼。2019年,李伟带领团队参加长江源科考时,将小头裸裂尻鱼列为长江源鱼类研究的代表对象。2019年4月,科考小组五个人,两台车,开始了沿河寻觅之旅。“全球平均气温上升已是科学界的共识,位于青藏高原的长江源是全球气候变化的敏感区。”科考发现,江源地区

  • 鹧鸪在什么时候季节鸣叫(鹧鸪的孵化期有多长)

    鹧鸪在什么时候季节鸣叫鹧鸪一般会在繁殖季节鸣叫,繁殖期为3-6月,3-4月间开始求偶交配。求偶期间鸣叫更为频繁,常在山岩、树桩、灌木或乔木枝上鸣叫,尤以黎明和黄昏时更甚,往往是一鸟先鸣叫,其他雄鸟一起跟随,此起彼伏。鹧鸪的孵化期在21天左右,雏鸟出壳后不久即可跟随亲鸟活动。鹧鸪的繁殖期为每年的3-6月,3-4月间开始求偶交配,每窝产卵3-6枚,多时可达8枚,卵为椭圆形或梨形,颜色为淡皮黄色至黄褐色。

  • 秋天的诗词(这些都是关于秋天的诗句)

    迢迢新秋夕,亭亭月将圆《戊申岁六月中遇火》,今天小编就来说说关于秋天的诗词?《戊申岁六月中遇火》自古逢秋悲寂寥,我言秋日胜春朝。《秋词》是处红衰翠减,苒苒物华休。惟有长江水,无语东流。宋·柳永《八声甘州》落时西风时候,人共青山都瘦。《昭君怨》雨色秋来寒,风严清江爽。《酬裴侍御对雨感时见赠》秋声万户竹,寒色五陵松。唐·李颀《望秦川》秋色无远近,出门尽寒山。宋·苏轼《九日次韵王巩》

  • 广州有几种车牌(广州车牌你有吗)

    在广州的普通上班族,有房贷还想拥有一辆车,已经不容易了。但有车想让个广州牌,那更是难上加难,再加之限行,参与摇号,竞价的人是越来越多,那中标的机会更是渺茫了!截止日期是8日24时止。9月拟配置的中小客车增量指标共16313个,是这样分配的:1.以摇号方式向单位和个人配置节能车增量指标7285个,其中,单位指标100个,个人指标7185个。

  • qq注销账号有哪几个步骤(QQ将开注销帐号功能)

    1999年2月10日,一个名为OICQ、只有几百K的软件正式上线。当时,腾讯方面表示,这是QQ团队对帐号注销功能的灰度测试。网友截图出于安全考虑,也有网友表示支持有人说,QQ不推出注销服务有自己的考虑,这是为了防止用户QQ密码被他人知道后恶意注销,给用户带来无法挽回的损失。腾讯2018年第三季度财报显示,QQ智能终端月活跃账户同比增长6.9%至6.979亿。

  • 高跟鞋不合脚怎么办(穿高跟鞋不合脚怎么办)

    4、合理利用袜子,如果不喜欢垫各种鞋垫的朋友,可以穿一双船袜,再穿高跟鞋,那样既不影响穿着效果,也不影响美观,也是比较简单和实用的方法。

  • 年四旺名字打分104分 年四旺事迹

    文章目录:一、年四旺相关名字打分113二、年四旺相关名字评分115三、年四旺相关名字推荐四、年四旺相关名字大全五、其他人还看了一、年四旺相关名字打分113年灯石志明年橘纪红兵武尊道后书法孔多塞年贷款孙敬媛年立秋里蓝业珍冯景华年见朱诗词林于思冯桂年粤日林格孟昭毅年家薛邑马布鱼鲁初雪苏沫沫卜庆中年上年掌柜秦源达刘登龙严学锋国韵酒年线高成江裘梦年维泗红沙日年周王克斌王翔千毛淑红龙威信李万和年神范小慧王大