openrefine

openrefine课程

本课程涵盖了OpenRefine及其脚本语言GREL的基础。你将学到如何:

  • 使用facet / filter;
  • 利用OpenRefine点击转换和模糊匹配功能,实现快速而强大的数据清理;
  • 用GREL,OpenRefine脚本语言编写复杂的转换;
  • 调用API并在OpenRefine中解析结果。

我们基于OpenRefine 2.6-beta,在2015年开发了该课程。我们尽最大努力保持最新版OpenRefine的内容。课程中引用的某些第三方服务可能不再可用或已更改其接口。如果有过时信息,请告知我们。

本课程由RefinePro与BigData University和Cognitive Class合作开发。  自2011年以来,RefinePro开发了OpenRefine培训课程,包括免费在线课程,面对面或远程课程,以及个人辅导课程。

 

第1课OpenRefine简介

学习目标


  • 理解数据准备的原则
  • 熟悉OpenRefine社区和软件界面
  • 安装OpenRefine

说明


  • 查看提供的所有视频
  • 完成实验

 

视频

  1简介数据质量和集成(9:56)

  2朝向敏捷数据处理移动(9.08)
  3Openrefine历史和社区(8:59)
  4OpenRefine接口漫游(5:56)
  5安装OpenRefine和入门(8:47)

第2课数据挖掘和发现

学习目标


  • 了解不同的facet类型
  • 学习组合facet以创建复杂的过滤
  • 了解如何在OpenRefine中对数据进行排序

说明


  • 查看提供的所有视频
  • 完成实验

视频


  8数据挖掘和基于facet的文本发现(9:34)
  9数据挖掘和基于facet发现日期和数字(6:19)
  10数据挖掘和基于facet的文本发现(6:17)
  11数据挖掘和发现排序数据(7:26)

 

 

第3课数据准备和规范化

学习目标


  • 学习点和单击数据规范化(聚类,删除重复,拆分单元格)
  • 了解历史记录和撤消/重做的工作原理
  • 开始使用GREL连接两个字段

说明


  • 查看提供的所有视频
  • 完成实验室映射Toronto Toronto Condo Boom第1部分:数据准备
  • Twitter Stream Analysis实验室是可选的,仅用于实践目的。

视频


映射多伦多公寓热潮第1部分:数据准备

  14数据准备和规范化聚类(19:58)
  15数据准备和规范化删除重复(4:23)页面
  16数据准备和规范化拆分多量值元胞(6:57)
  17数据准备和规范化:连接(6:42)
  18数据准备和标准化使用OpenRefine的  DO /UnDo(8:28)

 

第4课一般优化表达语言

学习目标


  • 理解并掌握GREL语法
  • 学习基本的GREL表达式来替换,拆分和比较字符串

说明


  • 查看提供的所有视频
  • 完成实验室Wiki页面数据提取
  • 将GREL组合在一起的实验室是可选的。

视频


  25General Refine Expression Language(GREL)简介(7:19)
  27General Refine Expression Language(GREL)替换函数(7:36)
  28General Refine Expression Language(GREL)拆分和使用Array(7:25)工作页面
  29General Refine Expression Language(GREL)字符串比较和假设条件(7:59)
  30General Refine Expression Language(GREL)计算(4:33)

 

 

  33General Refine Expression Language(GREL)计算实验室4.1校正(10:20)
  37General Refine Expression Language(GREL)实验室4.2校正(2:30)

第5课数据丰富

学习目标


  • 一起加入OpenRefine项目
  • 调用API以丰富您的项目
  • 从API解析JSON答案

说明


  • 查看提供的所有视频
  • 完成实验室映射Toronto Toronto Condo Boom Part2:数据丰富和映射
  • 实验室翻译和情感分析是可选的

视频


  38数据富集(2:57)
  39数据丰富连接两个OpenRefine项目(4:44)
  40数据富集API简介(4:32)工作页面
  41数据丰富调用与瑞风(6:14)的API页面
  42数据解析富集API结果(4:00)

 

Write a Comment