这是一份非技术人员也可以读懂的人工智能指南

点击上方关注,All in AI中国
这是一份非技术人员也可以读懂的人工智能指南

据麦肯锡称,从现在到2030年,人工智能将创造约13万亿美元的GDP增长。相比之下,2017年整个美利坚合众国的GDP约为19万亿。领先的人工智能科学家,如吴恩达,将人工智能描述为第四次工业革命或“新电力”。人工智能无疑是数字化转型的核心,它在整个行业中的应用将极大地改变我们的世界以及我们如何开展业务。问题在于很多人都希望参与这场人工智能革命,但他们的技术成熟程度让他们不堪重负。他们不知道AI能做什么,更不用说他们如何将它用于他们的公司。这正是这篇文章旨在解决的问题:让没有技术背景的人更容易理解AI,这样他们就能够自己评估AI的可能用例。这很重要,因为没有人比他们更了解他们的业务的来龙去脉,他们可以提出关于如何在公司内部使用AI的最有价值的想法。

请注意,这篇文章深受吴恩达关于该主题的内容的启发。

那么我们一起来看看流行的背后有什么吧!

目录:

  • 关于人工智能的误解
  • 什么是机器学习?
  • 人工智能术语
  • 什么是数据?
  • 你如何获得数据?
  • 滥用数据
  • 总结

关于人工智能的误解

这是一份非技术人员也可以读懂的人工智能指南

人工智能有很多不必要的炒作,这主要是由于许多人都有一个普遍的误解。人工智能可分为两部分或两部分:

人工窄智能(ANI)

这描述了擅长一项特定任务的AI,它们是经过训练和开发的。例如,这可以是一个基于历史数据预测房价的人工智能系统,也可以是一个向你推荐youtube视频的算法。其他例子是预测性维护、质量控制等。ANI是一个非常强大的工具,它将在未来几年为我们的社会增加许多额外的价值。我们近年来所看到的所有进展,以及我们在新闻中不断听到的,都发生在ANI领域。这些引人注目的新闻文章引导人们错误地认为科学在AGI方面取得了很大进展,但实际上我们只在ANI方面取得了进展。

通用人工智能(AGI)

这是人工智能的最终目标:一个与人类一样聪明甚至更聪明的计算机系统。 AGI可以成功地完成人类可以做的任何智力任务。这也是AI引起人们恐惧的部分。他们想象一个计算机比人类聪明得多的世界,几乎每个工作都是自动化的,甚至是类似终结者的场景。不要进行不必要的炒作。它导致了对人类未来的非理性恐惧,而实际上,我们仍远未达到真正的AGI技术突破。

什么是机器学习?

你可以说机器学习是人工智能的骨干技术。它使用统计技术使计算机程序能够从数据中学习(例如逐步改进其在特定任务上的性能),而无需明确编程。

机器学习是人工智能的工具,它引起了所有的炒作,几乎可以实现通过AI系统创造的所有价值。它也可以分成不同的部分,但只有一个部分负责80%的通过机器学习创造的值。这里所说的是监督学习。

监督学习算法仅仅通过学习大量数据中的关系来学习输入(A)到输出(B)的映射。想要构建可以将电子邮件分类为垃圾邮件和非垃圾邮件的系统的映像,需要积累很多“标记”的电子邮件示例。这意味着每个电子邮件都有一个标签,告知它是否是垃圾邮件。您需要使用标签累积数千封电子邮件,然后您可以将此数据提供给受监督的机器学习算法。在训练过程中,算法会分析您给他的所有电子邮件,并会反复提高对垃圾邮件与非垃圾邮件的区别的属性理解。在此示例中,系统必须将电子邮件(A)映射到标签,该标签告知邮件是否是垃圾邮件(B)。

就像我说的那样,你通过给他数以千计的标记电子邮件来训练算法。在您对该数据进行了算法训练后,您可以向他提供一个全新的电子邮件(该算法以前从未见过)作为输入,它会告诉您它是否认为该电子邮件是垃圾邮件。

另一个例子是在线广告,其中输入是关于用户(A)的信息,并且系统的输出是告知用户是否将点击添加(B)的标签。另一个例子是语音识别,其中输入是作为音频文件(A)的语音,输出是音频文件(B)中所述内容的抄本。另一个例子是当你给算法一个钢板(A)的图像时,它必须判断它是缺陷还是无缺陷(B)。

乍一看,这似乎是一项非常有限的技术,但如果您为它找到合适的应用程序,它就会非常强大。它是通过AI为我们的社会创造额外价值的唯一主要原因。这项技术的不同用例数量似乎无穷无尽,人们每天都会发现新的用例。

人工智能术语

这是一份非技术人员也可以读懂的人工智能指南

人工智能是一个非常复杂的领域,很多术语在开始时可能会让人很困惑。您可能听说过神经网络、深度学习或数据科学。现在,我们将了解人工智能最重要的术语并揭示其含义,以便您能够与其他人讨论人工智能,并思考如何在您的业务中应用人工智能。

我给出了最常用的AI术语定义,但要注意AI是一个非常不透明的领域,许多术语可以互换使用,有时也不一致。

人工智能

人工智能是一个计算机科学领域,它强调智能机器的创造,它像人类一样工作和反应。就像我已经提到的那样,当人们谈论AI时,他们主要是人工智能(AGI)。您应该将AI视为一个整体,将机器学习和深度学习视为用于使计算机智能操作的技术。

机器学习

机器学习是AI的一个子领域。这是一个研究领域,使计算机能够在不明确编程的情况下从数据中学习。因此,通过机器学习,您基本上可以训练程序执行某项任务。因此,机器学习通常会导致运行的AI系统,这基本上是一个软件。

机器学习项目示例:

想象一下,你是一家房地产公司,你有很多关于房屋的数据。您与机器学习公司合作,建立机器学习系统,以预测房屋的未来价格。这样的系统使您能够更好地决定您想要投资的房屋,并找出清算投资的合适时机。

深度学习

深度学习是机器学习的一个子部分,它基本上承包了所有媒体炒作和ANI的大部分突破。

它与机器学习基本相同:你给算法标记数据,它学会预测标签。机器学习的不同之处在于您使用了更现代、更复杂的算法,称为神经网络。相比之下:在机器学习中,您使用更简单的传统算法。

由于它们的复杂性、新的技术发现以及足够的数据和计算能力,深度学习算法能够打破许多任务的先前基准,甚至在其中一些任务上超过人类(例如:组织病理学图像分析,或在Netflix上推荐电影)。

尽管神经网络(例如深度学习算法)几乎总是比传统算法表现更好,但它们也存在某些缺点。

您经常听说神经网络的构建方式与人类大脑相似或受其启发,但实际上,它们几乎与它无关。确实,他们最初受到大脑的启发,但他们工作方式的细节与人类生物大脑的工作方式完全无关。

请注意,许多人将深度学习和神经网络互换使用。

深度学习项目示例:

从高层次的角度来看,深度学习项目与机器学习项目没有太大差别。您只需要更多数据、更多计算能力和高技能工程师。

数据科学

数据科学项目的输出通常是一组可帮助您做出更好的业务决策的洞见,例如决定是否投资某些东西,是否应该购买某些设备,或者是否应重新构建您的网站。您可以说,数据科学是通过统计方法、可视化等分析数据来提取数据知识和洞察力的科学。输出通常是为高管、领导者或产品团队总结结论的演示文稿或幻灯片,以便他们做出某些决策。

数据科学项目示例:

想象一下,你是在线广告业。通过分析贵公司的销售数据,您的数据科学家发现旅游行业不会从您那里购买很多附加产品。因此,您可以将销售团队的重点转移到旅游行业的公司。

另一个例子:

想象一下,您正在经营一家电子商务业务,并且您聘请了一些数据科学家来获得更多有关您业务的见解。该项目的结果可能是一个幻灯片,介绍如何修改定价,以便提高整体销售或如何更有效地营销特定产品。

有人说AI是数据科学的一个子集,有些人说它是数据科学的另一种方式。所以,这取决于你与谁交谈,但我会说数据科学是一个跨学科的领域,它使用了许多来自AI机器学习和深度学习的许多工具,但它也有自己独立的工具。其目标主要是推动业务洞察。

您可能还听说过其他流行语,如强化学习、生成性对抗网络(Gans)等。这些只是使AI系统智能化的其他工具,换句话说,用来运行机器学习,有时也用于数据科学。

您现在应该对于AI、机器学习、数据科学和深度学习(例如神经网络)有了基本的了解。我希望这能让您了解AI中最常用的术语,并且您可以开始考虑这些事情如何应用到您的业务中。

什么是数据?

数据可以有多种形式:电子表格、图像、音频、传感器数据等。这些可分为两大类:结构化和非结构化数据。

结构化数据(“生活在巨型电子表格中的数据”)

结构化数据,就像它的名称已经暗示的那样,是按照预定义模式以结构化格式存储的数据。它指的是驻留在记录或文件中固定字段中的任何数据。它可以是文本的也可以是非文本的。

您可以在下面看到流行的泰坦尼克号数据集中的结构化数据示例。它包含了泰坦尼克号上每位乘客的信息。

这是一份非技术人员也可以读懂的人工智能指南

非结构化数据

非结构化数据本质上是通过预定义模式进行结构化的所有其他内容。它可以是文本的或非文本的,但当人们谈论非结构化数据时,它们主要是指图像、视频、音频文件、文档等。

我已经解释了什么是监督学习。由于监督学习是最常用的机器学习类型,当人们说“数据”时,它们主要是指标记的数据。示例:您有一个数据集,其中包含100,000只狗和猫的照片,其中每张照片都有一个标签,要么是“Cat”要么是“Dog”。

另一个例子是包含房价信息的数据集。在这里,您将获得有关房屋的信息(如平方米、卧室数量、位置等)以及作为标签的价格。

你如何获得数据?

您可以在互联网上找到许多问题及其对应的数据集(一些是免费的,一些是花钱的),但大多数时候您需要创建自己的数据集(如果您还没有它)。

获取数据有三种主要方式:

1.手动标记

想象一下,你想要构建一个分类器,可以检测给定图片上是否有男人或女人。要训练这样的分类器,你需要创造或获得许多男女的图像。然后,您需要为每个图像指定一个标签:men(标签1)或女人(标签2)。您也可以向人们付费让他们为您做标签工作。

2.观察行为

想象一下,您经营一家电子商务公司并希望预测客户何时会进行购买,从而使您能够更好地管理您的股票等。您可以通过观察用户在您网站上的行为以及如何创建数据集来创建数据集。这将生成一个数据集,该数据集描述每个用户的操作(由一些变量描述,例如:一天中的时间、他们单击的位置等),并带有一个标签:purchase(标签1)或no purchase(标签2)。

另一个例子是您观察机器的行为,这可以使您预测何时需要维护等。

3.使用免费数据源、购买数据或从合作伙伴处获取数据

像Kaggle这样的数据集有许多免费资源。您还可以使用Google数据搜索,其功能类似于Google,但仅适用于数据集。如果您没有找到任何内容,您可以在数据市场上查找数据集或从合作伙伴处获取数据集。

滥用数据

这是一份非技术人员也可以读懂的人工智能指南

乍一看,获取数据可能看起来很简单,但可能出现的问题很多。在人工智能和机器学习中,我们说:“垃圾中的垃圾”,这意味着您在训练期间将AI质量从您的AI系统中提取出来。

想象一下,您知道您想创建一个特定的AI应用程序并且开始获取数据(您认为这是有用的)。您的计划是积累两年的数据,然后构建AI系统,这是非常糟糕的做法。在这种情况下,正确的方法是获取您能够获得的数据并尽快将其提供给AI专家。经过一些评估后,他可以告诉你,它的哪些部分是有用的,哪些部分是完全无用的,以及你应该添加哪些数据。通过这样做,您没有在两年内获取数据的风险,然后您意识到这是错误的数据,并且您无法对其进行任何操作。为了节省金钱和时间:与专家一起快速评估数据质量。

另一个大问题是标签不正确。示例:标记为狗的猫图像和被标记为猫的狗等。这可以阻止你的算法学习真正将猫与狗分开的东西并完全混淆它。好的一点是,标签不正确的问题变得越来越不重要了。如果你有一个巨大的数据集,有超过200万个标记的猫和狗图像,一些不正确的标签不会影响其性能。

另一个问题是,有些人认为,因为他们的公司拥有大量数据,这些数据很有用,或者AI团队可以使其有用。那完全错了。虽然更多的数据通常更好,但你可以拥有数十亿的数据条目,值得一提,即使是世界上最好的AI工程师也无法从没有价值的东西中创造价值。因此,请不要向AI团队抛出数据,并假设它在某种程度上是有价值的。您可能认为这是常识,但我在业界看到过很多次,对数据和AI的误解。甚至有创业公司的成立,是因为人们认为他们拥有有用的数据,而事实上他们没有。其他问题包括缺少值、多种类型的数据(可以解决 - 但成本高昂)等等。

总结

我希望这篇文章能够从高层次的角度为您提供人工智能领域的可靠介绍,并且您现在可以更好地理解AI的工作原理以及它的真正功能。总结一下:您了解了关于人工智能的常见误解(例如人们经常将AGI与ANI混淆)以及机器学习和数据究竟是什么。您现在熟悉该领域最常见的术语:数据科学、深度学习、AI和机器学习。此外,您了解了可以获取数据的位置,不应该如何处理数据获取以及拥有大量数据并不一定意味着您可以使用它进行人工智能。

版权声明

本文仅代表作者观点,不代表本站立场。
本文系作者授权发表,未经许可,不得转载。