如何从文本中截取自己想有得数据并去重，统计，排序

最新推荐文章于 2025-02-19 22:12:41 发布

原创最新推荐文章于 2025-02-19 22:12:41 发布 · 401 阅读

0 ·

本内容遵循CC 4.0 BY-SA版权协议

标签

#awk #sort #uniq #wc

收录于

本文详细介绍如何使用Linux命令如awk、sort、uniq和wc进行数据处理与统计，包括分割截取、排序、去重及统计操作。通过具体示例展示如何组合使用这些命令解决复杂的数据处理需求。

关键的指令为：
awk为分割截取，sort为排序，uniq为去重，wc为统计，你需要单独去理解这些指令，然后通过管道进行数据传送

特别注意：
用uniq命令可以删除相邻的重复行：
uniq [file]
但如果一文本中有重复却不相邻的行则无法删除，需要结合sort命令：
sort [file]|uniq
等效的sort命令是：
sort -u [file]
去重复后统计：

sort needsort.txt |uniq |wc

语句为：
语句一：
先排序再去重

grep -rn '"字符串"' query_data.csv |awk -F" " '{ print $4 }'|awk -F "|" '{ print $4 }' | sort|uniq -c|sort

语句二：
去重并统计

grep -rn '"evo"' query_data.csv |awk -F "|" '{ print $4 }' | sort|uniq -c|sort -r|wc -l

语句三：
将文件夹下的所有文件写入同一个文件中：

for i in `ls`;do cat $i >>17-18.csv;done

语句四：
查找某文件夹下所有类型的文件重写至一个文件中

for i in `find /work/logger/prod/2018-12-09 -type f -name "*.blob"`;do cat $i >>20181208.log;done

语句五：
查询多个文本

grep  'str' /Documents/work/logger/vin分析后的数据/data.log|grep  "LANGUAGE" |awk -F "," '{ print $32,$33 }' |awk -F '"' '{ print $4,$8 }'

确定要放弃本次机会？

福利倒计时

: :

立减 ¥

普通VIP年卡可用

立即使用

beyondwild

关注关注

0
点赞
踩
0

收藏

觉得还不错? 一键收藏
0
评论
分享

复制链接

分享到 QQ

分享到新浪微博

扫一扫
打赏
打赏
打赏举报

举报

javascript实现文本过滤找出一段文本中的所有数字/数值并在去重后排序

wuyujin1997的博客

06-13

1333

一个小需求，我有一个文本文件/一段文本，其中混杂有多组不尽相同的正整数(暂时不考虑负数/小数/科学计数法表示的数值)。我需要：在一段文本中随意插入一些数值，作为demoStringValue。第一行定义字符串变量的代码量会比较多。所以我一般把它单独拆开放一行。如果代码有修改，这一行不用动。先用反引号包围我们的字符串，定义一个字符串变量a。(使用反引号不用考虑原本字符串内容中的单引号/双引号转义)。用于：在字符串对象中，按照给定的正则表达式模式，依次查找匹配成功的子字符串。注意正则表达式的flag

参与评论您还未登录，请先登录后发表或查看评论

Linux-对文本某列去重-并统计个数-awk

To_Get_Life

03-14

5313

awk '{print $2}' test.txt |sort |uniq |wc -l 待处理文本如下： $ cat test.txt 10003141 98 优秀 10003446 80 良好 10003460 85 优秀 10003967 50 不及格 10004205 70 及格 10004526 88 优秀 10005500 98 优秀 10005583 65 及格 1000567...

使用simhash进行海量文章数据相似度去重

06-24

3581

1.原理理解：这篇文章相当好： https://www.cnblogs.com/maybe2030/p/5203186.html https://www.cnblogs.com/qcloud1001/p/10059709.html 理解了整体思路，中间有个地方不好理解： 1.如何分桶，分桶的目的，只是缩小比较次数，尽快找到待比较的文本，进行海明计算：现在一个text文本...

统计文本去重行数

bitcarmanlee的博客

01-02

582

常见的一个需求为：统计某个文本去重以后的行数可以使用如下命令： sort xxxfile | uniq | wc -l 也可以使用如下命令 sort -u xxxfile | wc -l 简单解释一下其中sort -u的选项，解释如下 -u, --unique Unique keys. Suppress all lines that have a key that is equal to an already processed one. This optio

【可实战】Linux 常用统计命令：排序sort、去重uniq、统计wc

热门推荐

09-01

21万+

1、单列去重统计公式为:=sumproduct(1/countif(选定列范围，选定列范围）），其原理是在某一列的范围中，每个数据出现的次数有多少，然后用1去除。简单点说，假设A列数组中出了3次A，每出现一次A，它的比例是1/3，1/3+1/3+1/3=1，求和之后的1，这样A出现了多少次，我们就只统计一次而已。如：A列数据为下所示，现在要统计这个项目去重后的数据的个数，即A/S/b/c/d,共5

在线文本去重统计工具

Linux,Java,SpringBoot,Python,Lua略知一点

05-14

567

在线文本去重统计工具在线文本去重统计工具本工具可以统计文本列表的重复项以及统计每个重复项出现的次数。本工具可以统计文本列表的重复项以及统计每个重复项出现的次数。本工具可以统计文本列表的重复项以及统计每个重复项出现的次数。 https://tooltt.com/unique/ ...

shell三剑客之awk 数据截取工具详解

Mr_Bei的博客

10-17

1万+

目录 awk 数据截取工具 ①awk简介 ②awk语法结构 OPTIONS PROGRAM pattern action ③变量 ④流程控制 ⑤数组 ⑥内建函数 ①awk简介 >>>awk是一种编程语言（解释性语言，不需要编译），用于数据截取和报告的工具 >>>awk自动搜索输入的文件，并把每个输入行切分成多个字段（字段：...

多个文件中的Grep关键字，并按文件修改日期或结果进行排序

土豆

05-10

3207

只需使用ls进行排序，然后将结果传递到grep或ag中，例如按日期排序： grep "keyword" $(ls -1rt)

使用python对text文件提取信息，并排序

内容主要在公众号OneChan上更新

12-28

5155

使用python对text文件提取信息，并排序如图所示，想要提取该文件每行第2到第6个数据，并且按照第二个数据排序算法思想： for循环，将每行的第2到第6个数据提取出来 1.1 将数据存放在一个列表里面 1.2 将列表的存在字典的值里面，行数做键按照值排序 # 这样数据会按照从小到大的顺序排序将排序好的字典里的值重新提取到列表里面，完成排序 # 打开一个文件 f = open("E:\AI\jupyter/EVS3.txt", "r") AllDict={} UpdataD

grep -rn 查找及批量替换

coolsen133的专栏

10-11

1万+

grep -rn可以关键词查找符合条件的文件的行；去重文件名，然后xargs替换模式 grep -rn "xxx" . |cut -d ':' -f 1 |sort |uniq |xargs sed -i 's/xxx /yyy/g'

linux grep 排序命令,Linux学习（五）-----选取命令(cut grep)和排序命令(sort wc uniq)

weixin_33582311的博客

05-08

3118

这里只是一个简单的整理。。。1、 cut用法：cut -d '分隔符' -f fieldscut -c 字符范围参数：-d 后面接分隔符，将一行以分隔符为界分为数段。与-f一起使用。-f 取出第fields段。-c 以字符为单位取出字符范围内的字符。举例：[root@Ca03 ~]# echo $PATH/usr/kerberos/sbin:/usr/kerberos/bin:/u...

linux: sort排序数据 grep搜索数据

weixin_34320724的博客

11-30

1653

sort 1.sort filename 输出排序后的结果，默认按字符大小排序 2.-n 按数字排序（如果内容是数字的话） 3.-M 按月份排序（如果是三字符简写月份的话）下面这个例子非常实用： grep 1.grepstrstrfilename 搜索文件里的特征串str，把命中的那行内容打印 2.-v 打印没有命中的 3.-n 打印的内...

javaweb（实用）-IDEA下resources目录下txt文件读取写入引发的项目后台路径问题总结

searlas的博客

03-31

2万+

首先idea下真实路径与项目原本路径对比：（文件操作之后idea内打开项目内的文件并没有任何变化，项目真实路径或者说编译后情况下的文件发生了变化）项目中resources文件file.txt原本路径： D:\java\IDEAProjects\springDemo\firstWeb\resources\prop\file.txt（windows资源管理器的直接复制过来的目录）项目中...

[Algorithm] 使用SimHash进行海量文本去重

weixin_33829657的博客

02-20

647

　　在之前的两篇博文分别介绍了常用的hash方法（[Data Structure & Algorithm] Hash那点事儿）以及局部敏感hash算法（[Algorithm] 局部敏感哈希算法(Locality Sensitive Hashing)），本文介绍的SimHash是一种局部敏感hash，它也是Google公司进行海量网页去重使用的主要算法。 1. SimHash与传统hash...

短文本合并重复（去重）的简单有效做法

weixin_33815613的博客

06-12

342

短文本合并重复（去重）的简单有效做法 2012/6/12 不大合适的SimHash 前些日子看了Charikar SimHash的介绍《Simhash算法原理和网页查重应用》，核心思想是用一个f位的hash值来表示文件的特征值，然后使用hash值之间的Hamming距离来衡量相似性。输入的是一个文档的特征集合，输出的是f位的二进制数S。于是用来测试短文本（长度在8个中文字符～45个中文字...