不需要编写一行代码,小编带你处理略微复杂的高级筛选功能!
以下正好有日常work的数据,就拿来做个案例, 有两份数据,1、已发数据,2、已填数据。
例如
已发数据
15811006610
15811006612
15811006613
已填数据
6612
6613
我们想要得到的结果是:15811006610 (已发数据减去已填数据得到)
备注因为他们不是相同类型长度的字段,所以不好通过简单筛选不同来得出!这个也可以用Excel高级筛选功能轻易得出,但是数据量超过百兆,Excle就不适合了!所以我们就得用高大上工具快速求出结果!
操作步骤如下
1、登陆短信平台,下载已发的号码文件。
已发数据的号码:
2、登陆问卷平台,导出用户填写的数据结果文件。。
已填数据*(电话号码后四位):
3、小编想要得到在给500多个手机号雇主发短信中算出哪些人没有填问卷的手机全号。已发数据-已填数据=未填数据中记录的电话号码(要这种格式的17301190014)
问题来了,因为已发数据和已填 数据格式并不一样,长度不一样,excle用的不6的很难速筛并且还得自动生成结果文件!如果数据太大,这一项work,够你筛选一天的!
4、小编为了节省时间直接用Tableau 来做数据高级筛选,操作历程如下:
如果是比较规则的行数据,直接用Tableau处理和计算即可,内置的函数和可视化链接过程更,非常人性化!
如果是比较不规则的,甚至是非人类能完成的,可能利用到Tableau中内置的挖掘技术!因里面内置跟R和python相结合的模块,直接调用写R或者Python的代码即可!
或者利用强大的ETL工具,这里我比较推荐成本最低的Kettle,来处理不规则的数据,使其规则,然后导入到统计分析工具中(Tableau,BI可视化的王者)!
1、导入数据(为了方便不出错,暂时先把已填写数据转换成txt文件,和已发文件一个文件类型。)
2、增加计算公式(RIGHT(字符串,要从右侧截取的长度))截取已发数据电话号码中的后四位并与已填数据进行左链接进行对比、已填数据为空的就是未填数据,
已发数据-已填数据=未填数据中记录的电话号码
3、筛选数据,使其对比更加明显。
3、进行字段拖拽式选择,然后预览并导出。(大家是不是很好奇这个页面从哪里来的,通过点击图中最下方工作表2,切换过来的!)