专栏首页华章科技一位数据科学家的私房工具清单

一位数据科学家的私房工具清单

2860元腾讯云代金券免费领取,付款直接抵现金,立即领取>>>

腾讯云海外服务器1折限时抢购,2核4G云主机768元/1年,立即抢购>>>

腾讯云服务器1折限时抢购,2核4G云主机899元/3年,立即抢购>>>

作为一位万人敬仰的数据科学家,不但需要培育一棵参天技能树,私人武器库里没有一票玩得转的大火力工具也是没法在江湖中呼风唤雨的。

近日北卡来罗纳大学CTO,一位数据科学家Jefferson Heard分享了多年来收集沉淀的数据分析工具集:

1处理较大、较复杂的类excel数据

  • Pandas -处理tabular(类似Excel)数据的通用工具套件
  • SQLite – Tabular数据库格式,能够处理大规模数据集,同时也能在桌面环境运行。
  • PostgreSQL – 企业级数据库系统

2处理空间、地理数据

PostGIS – Postgres的地理空间数据类型扩展

Carto – 地理空间数据的商业数据挖掘工具

Mapbox – 商业地图绘制工具,同时也是一个web地图系统。

Leaflet – 基于网络资源和本地数据开发活动web地图的代码库

qGIS – 适用于几乎所有地理空间和地图绘制的图形化GIS工具

3处理非常规数据

  • RethinkDB – 处理实时数据流非常棒的数据库,正在从商业转开源,小心使用。
  • MongoDB – 处理大规模非结构化和半结构化数据的流行数据库,应用于生产环境需要加小心。
  • CouchDB – 与MongoDB有些类似但不尽相同。
  • Cassandra – 图谱和关系数据库

4

为大规模数据集创建性能代码

  • Pandas – Python下一个开源数据分析的库,它提供的数据结构DataFrame极大的简化了数据分析过程中一些繁琐操作。
  • Apache Spark – 一个通用的高性能数据处理系统
  • SciPy and Numpy -可编写脚本的基于C的数值算法,能在紧凑的,底层机器数据架构上运行。
  • Cython – 使用用C编译器的Python编译器,用来提升Python性能。
  • PyOpenCL – 在图形显卡上进行数值计算和统计处理。

5

数据清洗工具

  • ODO – 在不同数据格式间进行转换的Python库。
  • OpenRefine – 拥有图形用户界面的数据发现和清洗工具
  • Pandas – 数据科学任务中用来处理tabular数据的通用Python工具集
  • Scrapy – Python开发的一个快速,高层次的屏幕抓取和web抓取框架,用于抓取web站点并从页面中提取结构化的数据。
  • BeautifulSoup – 与Scrapy类似但不尽相同
  • Scrubadub – 去除个人身份信息
  • Arrow – 帮你轻松驾驭日期和时间戳的Python库
  • DataCleaner – 剔除脏数据的Python库
  • Dora – 与DataCleaner功能类似的Python库。

6

数据可视化工具

  • Processing – 交互式开发交互式可视化内容. 推荐读本:Visualizing Data
  • D3 – 在web上开发可视化交互
  • C3 – 来自D3的图表.
  • Bokeh – 与D3类似, 但基于Python.
  • matplotlib – 最早的Python数据可视化工具集。
  • Leaflet – 一个为开发移动设备友好的互动地图的开源 JavaScript 库。
  • MapBox -详见地图工具集。
  • qGIS – 详见地图工具集。
  • VTK – 在医疗、 和物理研究领域常用的重型可视化工具包。

7

数据挖掘和机器学习工具

  • Weka – 一个机器学习和数据挖掘工具包,这里有一本免费可读的参考书
  • SciKitLearn – 基于Python的机器学习和数据挖掘工具套件。
  • Orange – 另一个基于Python的数据挖掘工具套件,同样拥有图形用户界面。
  • TensorFlow – Google开源的多维度图谱数学建模工具。

8

分享、协作以及知识管理工具

  • Django -基于Python的web框架
  • Django REST Framework – 为Django网站创建 REST APIs
  • IRODS – 企业级数据存储和管理,包括元数据管理和基于规则的数据处理。
  • Cassandra (useful for metadata and relationship storage) – 一个存储和查询元数据经常用到的开源分布式数据管理系统
  • GitLab -GitHub的开源替代品,可搭建私人服务器。
  • ReciPy –
  • Prov – Python implementation of the W3C provenance model
  • Kanren (部署基于元数据和数据源信息的业务逻辑非常有用) – 一个描述性Python逻辑编程系统,非常适合科学元数据的查询和基于规则的处理。

END

版权声明:

转载文章均来自公开网络,仅供学习使用,不会用于任何商业用途,如果出处有误或侵犯到原作者权益,请与我们联系删除或授权事宜,联系邮箱:[email protected]。转载大数据公众号文章请注明原文链接和作者,否则产生的任何版权纠纷与大数据无关。

本文分享自微信公众号 - 大数据(hzdashuju)

原文出处及转载信息见文内详细说明,如有侵权,请联系 [email protected] 删除。

原始发表时间:2017-06-05

本文参与腾讯云自媒体分享计划,欢迎正在阅读的你也加入,一起分享。

我来说两句

0 条评论
登录 后参与评论

相关文章

  • 一文告诉你,该学R还是Python!

    在这篇文章中,我们将重点介绍R和Python以及它们在数据科学和统计上地位之间的差异。

    华章科技
  • 和 Python 2.x 说再见!

    在技术的长河中,软件、工具、系统等版本的迭代本是常事,但由于使用习惯、版本的兼容性、易用性等因素,很多用户及开发者在使用或做开发的过程中,并不愿意及时同步更新,...

    华章科技
  • 最全Python数据工具箱:标准库、第三方库和外部工具都在这里了

    导读:Python数据工具箱涵盖从数据源到数据可视化的完整流程中涉及到的常用库、函数和外部工具。其中既有Python内置函数和标准库,又有第三方库和工具。这些库...

    华章科技
  • 数据科学家必备的工具与语言包

    作为一位万人敬仰的数据科学家,不但需要培育一棵参天技能树,私人武器库里没有一票玩得转的大火力工具也是没法在江湖中呼风唤雨的。 近日北卡来罗纳大学CTO,一位数据...

    IT派
  • Python【0】:windows环境下

    首先 ·····Python是一门解释性语言,这是他的特点,这让Python似乎与“高效”无缘。然而你知道吗,著名的Instagram服务器就是是用Python...

    用户2398817
  • 数据分析师门槛太高?分享成功转行的三点经验!

    准确来说,我是一名非本专业的转行数据分析师,不但成功转了行,还创立了城市数据团,开设了多门数据分析网红课,学员人数已超过十万人。以上三个问题是我在从事数据分析工...

    1480
  • 1000道Python题库系列分享二(48道)

    本系列题目共约1000道,下一期题库分享时发布本期题目参考答案,可以在微信公众号菜单查看系列题目。 上一期题目链接1000道Python题库系列分享一(17道)...

    Python小屋屋主
  • 除了AI,你不该忽视Python这4大领域的应用!

    借着人工智能的东风,Python在这两年逐渐火了起来,Python在编程语言排行中的不断攀升,不得不说有着人工智能的很大功劳。凭借Python简洁易于上手的语法...

    一墨编程学习
  • 快速入门 Python 数据分析实用指

    Python 现如今已成为数据分析和数据科学使用上的标准语言和标准平台之一。那么作为一个新手小白,该如何快速入门 Python 数据分析呢?

    用户2398817
  • 号外!号外!Python纳入高考内容了!人工智能时代就要来临了!

    就在前几天,和一位高校的信息技术老师聊天,我得到了一个震惊的消息:明年,浙江省信息技术教材将不会在使用晦涩难懂的VB语言,而是改学更简单易懂的Python语言。...

    企鹅号小编

扫码关注云+社区

领取腾讯云代金券

玩转腾讯云 有奖征文活动
http://www.vxiaotou.com