如何从文本中截取自己想有得数据并去重,统计,排序

本文详细介绍如何使用Linux命令如awk、sort、uniq和wc进行数据处理与统计,包括分割截取、排序、去重及统计操作。通过具体示例展示如何组合使用这些命令解决复杂的数据处理需求。

关键的指令为:
awk为分割截取,sort为排序,uniq为去重,wc为统计,你需要单独去理解这些指令,然后通过管道进行数据传送

特别注意:
用uniq命令可以删除相邻的重复行:
uniq [file]
但如果一文本中有重复却不相邻的行则无法删除,需要结合sort命令:
sort [file]|uniq
等效的sort命令是:
sort -u [file]
去重复后统计:

sort needsort.txt |uniq |wc

语句为:
语句一:
先排序再去重

grep -rn '"字符串"' query_data.csv |awk -F" " '{ print $4 }'|awk -F "|" '{ print $4 }' | sort|uniq -c|sort



语句二:
去重并统计

grep -rn '"evo"' query_data.csv |awk -F "|" '{ print $4 }' | sort|uniq -c|sort -r|wc -l



语句三:
将文件夹下的所有文件写入同一个文件中:

for i in `ls`;do cat $i >>17-18.csv;done



语句四:
查找某文件夹下所有类型的文件重写至一个文件中

for i in `find /work/logger/prod/2018-12-09 -type f -name "*.blob"`;do cat $i >>20181208.log;done



语句五:
查询多个文本

grep  'str' /Documents/work/logger/vin分析后的数据/data.log|grep  "LANGUAGE" |awk -F "," '{ print $32,$33 }' |awk -F '"' '{ print $4,$8 }'

 

评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包

打赏作者

beyondwild

你的鼓励将是我创作的最大动力

¥1 ¥2 ¥4 ¥6 ¥10 ¥20
扫码支付:¥1
获取中
扫码支付

您的余额不足,请更换扫码支付或充值

打赏作者

实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值