Superset——数据集

作为一款BI工具,其核心功能就是对数据的统计分析,而这一切都是建立在“数据”的基础之上。所以在介绍数据的统计和分析功能之前,我们先来了解下Superset如何对“数据”进行管理。

Superset中的数据管理由2个部分组成:数据库、数据集。

数据库:存放数据集的参考,类似Mysql
数据集:存放数据的地方,类似Tables

数据库

顾名思义,“数据库”就是用来存放批量数据的地方,Supertset的数据库几乎支持现在市面上流行的大多数数据库(例如:Mysql、SQLite)。

关于数据库如何添加和连接,可以参看我上一篇文章《Superset——数据库连接》

数据集

介绍完数据库的操作后,我们再来聊聊数据集。

在Superset中,数据集是一切的核心,我们需要分析的数据就是来源于数据集。

我们以Mysql中的数据表为例,来慢慢介绍数据集的使用。

为了方便后面的介绍,我在MySql中新建了一个测试用的数据库实例testdb,并且新建了class、student两个表,且导入了一些测试数据。

测试数据如下:

CREATE TABLE `class` (
  `id` int NOT NULL AUTO_INCREMENT,
  `name` varchar(255) COLLATE utf8mb4_bin NOT NULL COMMENT '班级名称',
  `grade` varchar(255) COLLATE utf8mb4_bin NOT NULL COMMENT '年级',
  PRIMARY KEY (`id`)
) ENGINE=InnoDB DEFAULT CHARSET=utf8mb4 COLLATE=utf8mb4_bin COMMENT='年级表';

CREATE TABLE `student` (
  `id` int NOT NULL AUTO_INCREMENT,
  `name` varchar(255) COLLATE utf8mb4_bin NOT NULL COMMENT '学生姓名',
  `sex` tinyint NOT NULL COMMENT '性别  0 女  1 男',
  `birthday` date DEFAULT NULL COMMENT '出生年月日',
  `class_id` int NOT NULL COMMENT '班级id',
  PRIMARY KEY (`id`)
) ENGINE=InnoDB AUTO_INCREMENT=21 DEFAULT CHARSET=utf8mb4 COLLATE=utf8mb4_bin COMMENT='学生表';

insert into class(`name`, `grade`) values('一年一班', '1');
insert into class(`name`, `grade`) values('一年二班', '1');
insert into class(`name`, `grade`) values('一年三班', '1');
insert into class(`name`, `grade`) values('二年一班', '2');
insert into class(`name`, `grade`) values('二年二班', '2');
insert into class(`name`, `grade`) values('三年一班', '3');

INSERT INTO `student` VALUES (1,'杨畅',1,'2006-03-28',3),(2,'李莉',0,'2017-03-24',4),(3,'董艳',1,'1993-06-28',6),(4,'王彬',0,'2006-05-06',5),(5,'张海燕',0,'2008-01-04',5),(6,'任秀芳',0,'2022-04-20',3),(7,'刘燕',0,'1997-03-31',5),(8,'阎欢',1,'2010-01-09',6),(9,'张婷婷',1,'2003-08-05',1),(10,'黄辉',0,'1994-11-25',3);

那么我们如果在数据集中呈现我们的数据呢?在“数据”tab下,选择“数据集”,点击右侧的“+数据集“按钮,就会弹出数据集的添加界面。

我们在数据集的添加界面中,选择我们在“数据库”中新建的数据库连接“testdb_mysql“(不知道如何添加数据库的,可以参看上一篇文章《Superset——数据库连接》),“模式”选择我们的数据库实例 testdb,“选择表“我们可以选择一个表来看看效果,这里我先选择了student表。

点击确定后,就看到我们增加了一条“数据集”的记录。点击记录后面的“编辑”按钮,可以针对该数据表的属性、字段进行一些自定义的操作,例如给字段备注中文描述,增加一些自定义的组合字段等等,具体的一些操作,我会在介绍“图表”的时候,一起介绍。

到这里,一个为报表作准备的“数据集”就算准备好了,接着,我们会先进入“图表”的介绍,至于“数据集”更多高级操作,我们会随着“图表”的介绍来一步一步的向大家说明。

附录:

关于如何将文件中的数据导入到Superset中进行BI处理,可以参看另外一篇文章

《Superset——数据集:文件数据》

Last Updated:
Contributors: 小5