推广 热搜: 行业  设备    参数  系统  经纪    教师  机械  中国 

大数据如何完整的进行数据探察

   日期:2024-11-11     作者:caijiyuan    caijiyuan   评论:0    移动:http://mip.riyuangf.com/news/844.html
核心提示:对于数仓操作,数据探察是很重要的一步,为了获得数据库的数据情况,了解数据分别和数据数值以及数据库运行情

大数据如何完整的进行数据探察

对于数仓操作,数据探察是很重要的一步,为了获得数据库的数据情况,了解数据分别和数据数值以及数据库运行情况

充分了解库表情况,从数据入手,知道数据的前世今生,对于进行接下来的工作尤为重要。

数据探察最直接的方式就是使用SQL查询表数据,得到数据的类型、数据分布、空值情况、数值占比等等

一、数据探察内容

数据探察的内容大概可以总结为以下几种

1. 模型信息

可以从数据表名、数据来源、数据生命周期、粒度这些入手

2. 字段分类

字段术语维度属性、文本、主键、关联键、时间等等

3. 字段名

表中原始的字段名

4. 字段类型

表中原始的字段类型

5. 字段含义

字段代表的含义,比如:job_id,就是任务标识号

6. 字段数值

每个字段的数值,如果有一些字段是字符代表的,数值代表含义比如1和0等,配合下一项使用

7. 取值说明

数值的取值,数值所占的比例,给出可测的数值的比例,就是有很多代表的,比如只有1和0这种,如果三千条数据,有三千个值,就不需要

8. 数据量

每个字段有多少行数据,注意:空值和null是不一样的

9. 去重后的数据量

对于重复数据的统计

10. 无数据统计

字段中无数据占有的行数

11. 非空值占比

字段数值的占比情况,了解该字段的数值分布

12. sample1、sample2:

给出两个样本数据

13. 待确定问题

如果对于某个字段不明确,需要和建表人确定

二、数据探察过程操作

知道了数据探察的内容,就需要考虑数据探察的过程怎么进行

首先1、2、3、4、5点是毋庸置疑的,数据表的基础信息
第6点一般在建表中的表描述都有说明,若没有说明,可以在字段数据量的统计中自行思考
第7点

取值说明就需要对数据进行计算,比如某个字段,有8个数值,我们就需要得出这8个的具体数值是什么,并且求出其所占比例

 
 
第8点:数据量问题
 

注意:这里可能会有疑问,这样求得的字段总数应该都是一样的。这个想法当然没问题,如果存在null,则不会纪录在count中,但是空值的话就会记录在count中,所以空值和null是不同的

第9点:去重后的数据量

了解字段数据的重复情况,可能存在大量的重复数据,去重操作

 
第10点:空值统计,这种情况可以使用if和sum的组合
 

第11点:非空值占比

在上一步已经求出了空值个数,那么求得非空值占比也是一样的道理

第12点:两个样本数据

这个就直接查询出两个数据就可以了

 
第12点:如果对于探察的过程中,有某些字段存在疑问,可以在后面注明

最后,给出一行探察示例

在这里插入图片描述

本文地址:http://fmiwue.riyuangf.com/news/844.html    迅易网 http://fmiwue.riyuangf.com/ , 查看更多
 
标签: 数据 进行 行数
 
更多>同类行业资讯
0相关评论

新闻列表
企业新闻
推荐企业新闻
推荐图文
推荐行业资讯
点击排行
网站首页  |  关于我们  |  联系方式  |  使用协议  |  版权隐私  |  网站地图  |  排名推广  |  广告服务  |  积分换礼  |  网站留言  |  RSS订阅  |  违规举报  |  鄂ICP备2020018471号