作为数据工程师,平时在工作中一定少不了到处搜找测试数据,常用的网站包括:Kaggle、Freebase、Data.gov 等等,有时候要挨个网站搜索关键字和主题,然后下载了又发现数据集可能并不适用,非常浪费时间。
好消息是,上个月 Google 推出了正式版的数据搜索工具 —— Dataset Search:
覆盖了 2500w 个公开数据集,而且用户可以使用过滤器进行搜索条件限定,筛选是否为免费数据集、数据格式、数据更新时间等。
按照你所输入的关键字和限定条件,Dataset Search 会为你进行全网搜索,搜索结果包括每个数据集的描述,如:数据更新时间、数据来源、数据集组成、数据集内容等等。比如我们搜索关键词「climate」,可以直接在右侧看到符合条件的数据集的基本情况:
真的是非常方便!
Google 的这个数据搜索工具不同于其他的数据网站,Google 并不是直接提供这 2500w 数据集的下载,只是帮助你更快进行全网搜索。
如果你知道有某些公开的数据集,而 Dataset Search 搜不到,那你可以联系数据持有者为其添加 schema.org 标记,这样其他人就可以通过 Dataset Search 访问到这些数据集了。