糖尿病康复 > 数据质量多高才合适

数据质量多高才合适

时间：2022-12-04 12:56:08

相关推荐

数据质量多高才合适

点击▲关注 “IT168企业级”给公众号置顶更多精彩第一时间直达如果你问“多少数据质量足够好？” ，一定会看到一些非常困惑和震惊的表情。数据质量包括了使数据适合使用的所有行动，其在可信度、安全性、隐私和竞争力方面起着根本性的作用。在推动业务发展上，良好的数据质量至关重要。

尽管保持所有数据百分百的数据质量很不错，但是这个目标现在还是遥不可及的。首先，公司没有无限的资金、人员和时间。此外，Phil Teplitzky在第四届MIT信息质量行业研讨会上的一次演讲中，还列举了一些深层次的原因。

但是，在财务上，出现问题之前忽略数据质量是不行的。需要提前考虑、行动和衡量。了解数据质量风险如何影响业务流程，以及如何在给定这些风险信息的情况下开展业务，将能很好地提高数据质量，进而使企业受益且不会浪费时间或金钱。

Webster 将风险定义为损伤、损失、危险的机会或危害。某些风险显然是可以避免的。以一家电子商务商店为例，该商店以电子收据或打印的收据显示整个信用卡号。这损害了客户的安全，并违反了《公平和准确的交易法》，每起事件可能导致2500美元的损失。

风险可能不太清晰，并且取决于具体情况。例如，电子商务公司Earnest Expresso and Trustworthy Tea（EETT）出售咖啡全豆或茶叶组合。EETT要怎么评估如何准确定义不同咖啡豆和茶叶组合口味的风险？该信息将取决于业务目标以及客户的口味和个人喜好。尽管考虑使用这种数据质量的风险似乎较小，但如果风味信息是核心信息并且令人困惑，它仍可能使业务陷入困境。不同风险的重要性是不一样的。

风险的范围很广，从“可接受”到“破坏业务”。将风险等级评分与观察并测量的结果进行比较，可以评估数据质量是否达到预期。

为了有效地做到这一点，企业需要确定需求（通过数据治理来确定），以定义适当的数据质量。

企业还需要知道哪些数据质量结果可以测量，如何测量，以及这些结果的再现率。此外，还需要考虑为数据输入提供足够的风险覆盖。这些原则构成了科学调查的基础，也是决定数据质量是否达到预期的因素。

良好的数据质量有助于理解业务需求

企业需要构建良好的业务需求，以便技术、运营和其他部门知道怎么解释和使用数据来完成工作。许多公司都有隐式的数据质量业务要求，例如客户付款数据需要正确匹配所购买商品的所有单价和总价。这是常识，但是，那些隐含的业务需求更容易使人难于理解什么样的数据才足够好。

需要通过数据治理（一组商定的实践和策略）来规范标准。数据治理客观地规定了应接受哪些数据质量风险以及如何对其进行度量。这些业务标准也是数据，必须由数据质量管理部门进行审查。回到EETT公司的示例：该业务要求标记不健康的咖啡消费，并建议使用非咖啡因的茶产品。专家对成人健康的建议是每天喝一到四杯8盎司的速溶饮料。如果EETT营销人员选择将每天一杯作为健康的门槛，但运营部门将最大量限制为四杯，那谁是正确的呢？多少的风险是OK的？无论哪种情况，都可以主观地、准确地提出，但需要选择其中一个值。多个值会损害数据质量并引起混乱。数据治理在这里会要求定一个各方都认为客观的咖啡消耗最大值。EETT内部和消费者在客观的度量上达成一致，这才是数据质量良好的表现。为了提高数据质量，还需要数据治理重新审查数据要求的完整性。假设EETT决定将其市场从美国扩展到整个北美。EETT的规范指出，该产品是按重量正确计量的。这就够了吗？美国、加拿大和墨西哥的重量单位都不同（盎司与克）。如果EETT在其网站上详细介绍了咖啡豆和茶叶产品，那么开发人员怎么知道如何转换这个数值，才能使纽约和多伦多的客户都能看到正确的数字。输出的数据需要转换，需求不完整。这大大增加了数据质量无法接受的风险。为确保数据质量达到预期，业务标准必须完整。

良好的数据质量意味着可重复的可控风险

良好的需求需要可重复的数据质量来支撑，以确保结果在受控风险内。正如哥伦比亚大学统计系的Victoria Stodden所说，在相同的计算机代码和数据集参数内重新生成这些结果，可以获得良好的数据质量。假设EETT需要每月的销售报告。可重复的数据质量意味着，无论11月的月度报告是在哪一天运行的，或运行该报告的人数是多少，只要使用相同的计算机代码和数据集，就会出现相同的结果。这是业务所需要的良好数据质量，风险被认为是可以接受的。

给定这种可重复性的定义，解释很复杂，因为并不总是使用相同的数据集，而且每个人可能都不知道这一点。例如，EETT销售人员生成3月的月度报表。同一个人分别在3月10日，3月17日和3月27日生成报表，但是销售和利润数量有所不同。这是否意味着数据质量不够好？如果报告的跨度为“月至今”，则不会。不可能在3月10日知道3月27日的销售和利润（除非出现未来的预言），相同的报告已使用不同的数据集运行。

此外，使用不同的计算机代码可能会混淆风险评估和数据质量的好坏。在这种情况下，如果只通过一次性的监测，则可以视作数据质量差。假设EETT没有看到购买的信用卡交易，但是金融机构在第二天记录了费用。那么数据质量是否会成为EETT的问题？没错。银行代码正确地处理了交易，并通过验证。EETT没有相同的代码将购买发送到银行，需要修复这个问题来和银行系统集成。在这种情况下，EETT未能处理这次交易，这意味着它的数据质量需要改进。

良好的数据质量需要足够的数据输入范围

我们要将审查数据质量和确保重复性这两件事，通过良好的数据输入覆盖来结合起来，以产生良好的需求。正如Tejasvi Addagada所指出的，需要确定用作输入的正确数据。这个“正确的数据”随着时间和业务优先级的变化而变化。这点在机器学习中尤其重要，机器学习是一种分析数据并对世界做出判断或预测的算法，它影响数据质量是否足以满足风险要求。

举个例子。Earnest Expresso和Trusty Tea创建了一个机器学习算法，用于学习订单的付款类型（信用卡、借记卡、现金等），以更好地处理多次退款、为产品提供折扣和了解客户偏好。但当客户使用Google Pay或Apple Pay时，许多交易都是标记化的，EETT并不知道支付类型。EETT如何覆盖正确的支付类型输入，以便机器学习算法成功运行？在这里，数据治理需要调查并结合业务和IT知识，找出如何在合理的风险水平上实现足够的支付类型数据输入覆盖。一旦知道了这一点，公司就会发现，开发和使用高质量的机器学习程序更加容易。

数据质量对一个企业来说仍然是至关重要的，但企业需要生存，成本必须要合理。企业通过评估风险并将其与观察结果进行比较来做到这一点。需求、重复性和覆盖率提供了进行这种比较并获得良好数据质量的工具。

IT168企业级

让一部分人先看到企业IT的未来

微信公众号ID ：IT168qiye

如果觉得《数据质量多高才合适》对你有帮助，请点赞、收藏，并留下你的观点哦！

本内容不代表本网观点和政治立场，如有侵犯你的权益请联系我们处理。

网友评论

网友评论仅供其表达个人看法，并不表明网站立场。