data cleaning

谷歌的开源数据清洗工具:openrefine

OpenRefine(以前称为Google Refine)是处理凌乱数据的强大工具:清理它; 将它从一种格式转换为另一种格式; 并使用Web服务和外部数据扩展它。

OpenRefine简介

 

0. 特征

  • 开源(GitHub上的代码)。
  • 一个庞大的社区,从新手到专家,随时准备提供帮助。请参阅下面的获得帮助部分
  • 适用于大型数据集(100,000行)。可以调整内存分配以适应更大的数据集
  • 注意:这是一个在您的计算机上运行的Java程序(不在云中)。它在您的浏览器中运行,但不需要Web连接。
  •  

    按照安装说明安装OpenRefine

  •  

    如果在安装并运行OpenRefine后,它不会自动为您打开,请将浏览器指向http://127.0.0.1:3333/或http:// localhost:3333以启动该程序。

 

1.探索数据

OpenRefine可以帮助您轻松探索大型数据集。您可以通过观看下面的视频了解有关此功能的更多信息。

 

2.清理和转换数据

 

3.协调和匹配数据

OpenRefine可用于链接和扩展您的数据集与各种Web服务。某些服务还允许OpenRefine将清理后的数据上传到中央数据库,例如Wikidata。维基上提供了越来越多的扩展和插件列表 。

 

来自OpneRefine

Write a Comment