Python教程 – Python数据科学简介

1.数据科学教程–目标

数据科学历史和数据科学方法论之类的基础知识。在这里,我们将介绍数据科学应用程序,这是商业智能和数据科学之间的区别。与此同时,我们将讨论数据科学和Python库的生命周期。

因此,让我们开始数据科学教程。

2.什么是数据科学?

在开始数据科学教程之前,我们应该了解什么是数据科学。

数据科学是一种尝试发现原始数据中隐藏模式的方法。为了实现此目标,它利用了几种算法,机器学习(ML)原理和科学方法。它从数据中获取的见解在于结构化和非结构化的形式。因此在某种程度上,这就像数据挖掘。数据科学涵盖了所有数据分析,统计和机器学习。随着越来越多的实践被标记到数据科学中,该术语本身被淡化了,不再有用。这导致全球入门数据科学课程的课程变化。

3.数据科学教程–历史

通过数据科学最近的炒作,我们观察到它已经存在了三十多年。我们可以将其用作诸如业务分析,商业智能或预测建模之类的实践的代名词,现在指的是一种处理数据以在其中找到关系的广泛意义。要引用时间线,它会像这样:

a.在90年代

  • 1960年-彼得·瑙尔(Peter Naur)使用该术语代替计算机科学。
  • 1974年-彼得· 纳尔( Peter Naur)出版了《计算机方法简明调查》,在当代数据处理方法的调查中使用了一个术语。
  • 1996年-在神户举行的两年一次的会议;IFCS(国际船级社联合会)的成员在会议名称中包括该术语。
  • 1997年 11月-CF Jeff Wu教授就“统计=数据科学?”主题就职演讲。

b.在2000年代

  • 2001年-William S. Cleveland在“数据科学:扩展统计领域技术领域的行动计划”一文中将数据科学作为一门独立学科进行了介绍。
  • 2002年 4月-ICSU(国际科学理事会):科学和技术数据委员会(CODATA)创办了《数据科学杂志》-此出版物着重于与数据系统有关的问题-描述,出版,应用以及法律问题。
  • 2003年 1月-哥伦比亚大学出版《数据科学杂志》,该平台允许数据工作者交流思想。
  • 2005年-美国国家科学委员会(National Science Board)发布了长期存在的数字数据集:在21世纪实现研究和教育-这为“数据科学家”一词提供了新的定义。
  • 2007年-图灵奖获得者Jim Gray将数据驱动型科学视为第四种科学范式。
  • 2012年-《哈佛商业评论》的文章将这一术语的造词归因于2008年DJ Patil和Jeff Hammerbacher。
  • 2013年 -IEEE成立了数据科学和高级分析工作队;在卢森堡举办的第一届欧洲数据分析会议(ECDA)诞生了,欧洲数据科学协会(EuADS)成立了。
  • 2014年 -IEEE发起了首个国际会议,即数据科学与高级分析国际会议;大会启动学生付费的Bootcamp,数据孵化器免费启动数据科学奖学金。
  • 2015年 -Springer发行了《国际数据科学与分析杂志》。

4.数据科学教程–方法论

在数据科学教程中,我们将介绍以下数据科学方法:

a.用于模式发现的机器学习

有了这个,集群就起作用了。这是用于发现模式的算法。无人监督的模型。当您没有要进行预测的参数时,聚类将使您能够找到数据集中的隐藏模式。

一种这样的用例是在电话公司中使用群集来确定信号发射塔的位置,以获得最佳信号强度。

b.机器学习进行预测

当我们拥有训练机器所需的数据时,我们可以使用监督学习来处理事务性数据。利用机器学习算法,我们可以构建模型并确定未来将观察到的趋势。

C.预测因果分析

因果分析使我们能够基于原因进行预测。这将告诉我们事件将来可能会发生的可能性。一个用例是对银行中客户的付款历史执行此类分析。这告诉我们客户偿还贷款的可能性。

d.规范分析

预测分析将规定您的行动以及与之相关的结果。这种智能使它可以做出决定并使用动态参数进行修改。对于一个用例,让我们推荐Google的自动驾驶汽车。有了适当的算法,它可以决定何时加速或减速,何时转弯以及走哪条路。

5.数据科学应用

让我们在此数据科学教程中查看一些应用程序:

a.图像识别

使用数据科学的面部识别算法,我们可以完成很多工作。Facebook是否曾经建议人们在您的照片中标记?您是否尝试过Google的按图像搜索功能?您还记得使用智能手机扫描条形码以登录WhatsApp Web吗?

b.语音识别

Siri,Alexa,Cortana和Google语音都利用语音识别来理解您的命令。归因于不同的口音和环境噪声等问题,尽管大多数时候可以理解,但这并不总是完全准确。这可以使您享受豪华生活,例如说出要发送的文本内容,使用虚拟助手设置警报,甚至使用它来播放音乐,查询天气或拨打电话。

C.互联网搜索

诸如Google,Duckduckgo,Yahoo和Bing之类的搜索引擎充分利用了数据科学,可以实现快速,实时的搜索。

d.数位广告

数据科学算法使我们能够了解客户的行为。利用这些信息,我们可以为每个用户制作相关的广告。这也适用于网站上的横幅广告和机场的数字广告牌。

e.推荐系统

在浏览产品或视频时,诸如Amazon和Youtube之类的名称会在旁边或下方提供有关类似产品的建议。这丰富了UX(用户体验)并有助于保留客户和用户。这还将考虑用户的搜索历史和愿望清单。

F.价格比较网站

不同平台上相同产品的价格。此功能可确保您获得最优惠的价格。这些网站在技术,服装和政策等领域工作,并使用API​​和RSS提要来获取数据。

G.游戏

随着玩家升级,机器学习算法可以改善或升级自身。对手也有可能分析玩家的动作并为游戏增加难度。索尼和任天堂等公司都利用了这一点。

H.送货物流

UPS,FedEx和DHL等货运巨头利用数据科学的实践来发现最佳路线,交货时间和运输方式等。从物流中获得的好处是从安装的GPS设备获得的数据。

I.欺诈和风险检测

客户分析和过去的支出等做法使我们能够分析是否会失败。这使银行避免了债务和损失。

6.商业智能与数据科学

在此,在《数据科学教程》的这一部分中,我们将讨论数据科学与BI。商业智能和数据科学不是一回事。

  • BI处理结构化数据;数据科学适用于结构化和非结构化数据。
  • BI着眼于过去和现在,而数据科学则考虑了现在和未来。
  • BI的方法是统计和可视化。数据科学领域包括统计学,机器学习,图形分析和NLP。
  • 用于BI的一些工具是Pentaho,Microsoft BI和R;用于数据科学的是RapidMiner,BigML和R。

7.数据科学教程–生命周期

数据科学的旅程分为六个阶段-

a.发现

在进行其他操作之前,您应该了解项目的要求。还应考虑规格,所需预算和优先级。在这个阶段中,您将业务问题框架化并形成初始假设。

b.资料准备

在准备阶段,您将需要在分析沙箱中执行分析。这适用于整个项目。您还将提取,转换,加载数据并将其转换到沙箱中。

C.模型规划

在第三阶段中,选择要使用的方法,以找出变量之间的相互关系。这包括利用统计公式和可视化工具进行探索性数据分析(EDA)。

d.建筑模型

此阶段包括开发用于训练和测试的数据集。这也意味着您将必须分析分类和聚类之类的技术,并确定当前的基础架构是否可以使用。

e.交流结果

这是周期的第二个最后阶段。您必须确定您的目标是否已实现。记录您的发现,与利益相关者沟通,为项目成功或失败做标签。

F.操作化

在最后一个阶段,您必须编写最终报告,技术文档和简报

该数据科学教程专门针对Python。因此,让我们开始使用Python的数据科学。

8.数据科学教程–为什么选择Python?

因此,现在您知道什么是数据科学。但是为什么Python是最佳选择呢?以下是一些原因-

  • 开源和免费。
  • 简单易学; 直观。
  • 更少的代码行。
  • 可移植性。
  • 更高的生产率。
  • 需求和普及。
  • 出色的在线存在/社区。
  • 支持许多可用于分析项目的软件包;也可以使用可以使用其他语言代码的程序包。
  • 它比R和MATLAB等类似工具快。
  • 惊人的内存管理能力。

9. Python 2.x或3.x-您应该选择哪一个?

在许多其他因素中,对Python 2的支持将于2020 年1月1 正式终止,因此,未来将归于Python3。而且,数据科学的95%的库已从Python 2迁移到Python 3。除此之外,Python 3更干净,更快。

好吧,那Python 2呢?它有自己的特权-拥有一个大型的在线社区和大量的第三方库,并且某些功能向后兼容并且可以在这两个版本中使用。

列出每个版本的津贴后,做出选择。

10.数据科学教程– Python库

为了进行数据分析和其他科学计算,您将需要以下任何库:

a.Pandas

Pandas帮助我们处理和准备数据;这对于操作和维护结构化数据非常有用。

b.SciPy

SciPy (Scientific Python)位于NumPy之上。使用该库,我们可以执行线性代数,傅立叶变换,优化等功能。

C.NumPy

NumPy (Numerical Python)是另一个库,可让我们处理线性代数,傅立叶变换和高级随机数功能等功能。NumPy的一项非常重要的功能是n维数组。

d.Matplotlib

Matplotlib将让您绘制各种图形。这些包括饼图,条形图,直方图,甚至热图。

e.Scikit-learn

Scikit-learn非常适合机器学习。它可以让您统计地建模和实施机器学习。这些工具包括聚类,回归,分类和降维。

F.Seaborn

Seaborn擅长统计数据可视化。利用它,我们可以创建有用且有吸引力的图形。

G.Scrapy

Scrapy将让您爬网。它从主页开始,并深入到网站中以获取信息。

11.数据科学教程学习

在开始进行数据科学教程之前,建议您先进行以下准备:

  • Python中的变量
  • Python中的运算符
  • Python中的字典
  • Python中的字符串
  • Python列表
  • Python元组因此,这一切都与数据科学教程有关。希望您喜欢我们的解释。

    12.结论

    该教程中我们学习了:什么是数据科学,数据科学历史和数据科学方法论。此外,我们涵盖了数据科学应用程序,即BI与数据科学。最后,我们讨论了数据科学和Python库的生命周期。这将使您开始使用Python。

    还需要在此数据科学教程中添加其他内容吗?请将其放在下面的评论中。

本文由 学习链 作者:学习链 发表,其版权均为 学习链 所有,文章内容系作者个人观点,不代表 学习链 对观点赞同或支持,未经许可,禁止转载,题图来自Unsplash,基于CC0协议。

发表评论