首页
主要的机器学习数据集有成千上万的错误
返回

主要的机器学习数据集有成千上万的错误

2022-12-19 科技信息 By:佚名
最佳答案众所周知,机器学习数据集有很多错误,包括标签错误的图像。但是,目前还没有太多研究可以系统地量化错误的严重程度。此外,先前的工作集中在ML数据集的训练数据中的错误。但是测试集是我们用来测试机器学习状态的基准,并且没有研究关注过ML测试集的系统错误-我们依赖这些测试集来了解ML模型的工作...

众所周知,机器学习数据集有很多错误,包括标签错误的图像。但是,目前还没有太多研究可以系统地量化错误的严重程度。此外,先前的工作集中在ML数据集的训练数据中的错误。但是测试集是我们用来测试机器学习状态的基准,并且没有研究关注过ML测试集的系统错误-我们依赖这些测试集来了解ML模型的工作情况。

在一项新论文中,由麻省理工学院计算机科学和人工智能实验室(CSAIL)的研究人员领导的团队研究了被引用超过100,000次的10个主要数据集,其中包括ImageNet和Amazon的评论数据集。

研究人员发现,所有数据集的平均错误率为3.4%,其中ImageNet的错误率为6%,ImageNet可以说是Google和Facebook之类开发的流行图像识别系统中使用最广泛的数据集。

即使是开创性的MNIST数字数据集,在过去20年中一直是光学数字识别的基础,并且已经在成千上万的同行评审ML出版物中进行了基准测试,在测试集中也包含15个(人类验证的)标签错误。 。

团队还创建了 一个演示,使用户可以细读不同的数据集以对发生的不同类型的错误进行采样,包括:

贴错标签的图片,例如一种狗被另一只狗弄糊涂或婴儿被乳头弄糊涂了。

带有错误标签的文本情感,例如亚马逊产品评论实际上是正面的时,被描述为负面。

YouTube视频的音频标签错误,例如Ariana Grande高音被归类为哨子。

合著者Curtis Northcutt说,他们的发现令人惊讶的是,取决于不相关数据(“噪声”)的普遍程度,较弱的模型(例如ResNet-18)通常比较复杂的模型(例如ResNet-50)具有更低的错误率。如果他们的真实数据集的标签错误率为10%,Northcutt建议ML从业人员考虑使用简单模型。

该团队的结果建立在麻省理工学院为创建“自信学习”而进行的大量工作的基础上,“自信学习”是机器学习的一个子领域,该领域研究数据集以发现和量化标签噪声。通过该项目,可以使用可靠的学习算法来在人工验证之前从算法上识别所有标签错误。

该团队还使其他研究人员可以使用cleanlab(开源python包)轻松复制其结果并在自己的数据集中查找标签错误。

猜你喜欢
dnf卡片怎么合成在哪里(dnf卡片合成在哪)

dnf卡片怎么合成在哪里(dnf卡片合成在哪)

12-18 0 阅读
大青沟属于哪里(大青沟)

大青沟属于哪里(大青沟)

12-18 0 阅读
帕金森有什么症状(什么是帕金森病)

帕金森有什么症状(什么是帕金森病)

12-18 0 阅读
兰州石油化工学校(关于兰州石油化工学校的介绍)

兰州石油化工学校(关于兰州石油化工学校的介绍)

12-19 0 阅读
谷歌Nest音频评测

谷歌Nest音频评测

12-18 0 阅读
我们来了2(关于我们来了2的介绍)

我们来了2(关于我们来了2的介绍)

12-19 0 阅读
热门推荐
dnf卡片怎么合成在哪里(dnf卡片合成在哪)

dnf卡片怎么合成在哪里(dnf卡片合成在哪)

12-18 0 阅读
大青沟属于哪里(大青沟)

大青沟属于哪里(大青沟)

12-18 0 阅读
帕金森有什么症状(什么是帕金森病)

帕金森有什么症状(什么是帕金森病)

12-18 0 阅读
兰州石油化工学校(关于兰州石油化工学校的介绍)

兰州石油化工学校(关于兰州石油化工学校的介绍)

12-19 0 阅读
谷歌Nest音频评测

谷歌Nest音频评测

12-18 0 阅读
我们来了2(关于我们来了2的介绍)

我们来了2(关于我们来了2的介绍)

12-19 0 阅读
tuiii什么意思(tui什么意思网络语言)

tuiii什么意思(tui什么意思网络语言)

12-18 0 阅读
考军校身高180体重多少标准(身高180体重多少标准)

考军校身高180体重多少标准(身高180体重多少标准)

12-18 0 阅读
了凡四训 净空法师(关于了凡四训 净空法师的介绍)

了凡四训 净空法师(关于了凡四训 净空法师的介绍)

12-18 0 阅读
电视是等离子好还是液晶的好啊(等离子电视和液晶电视哪个好)

电视是等离子好还是液晶的好啊(等离子电视和液晶电视哪个好)

12-18 0 阅读