Linux统计某个字符串出现次数并排序的实现步骤

2024-08-10 13:29 运维作者： smileNicky

业务场景

最近遇到一个流量异常调用的接口，所以需要通过后台日志查看接口调用情况，先统计今天内接口的调用次数，再具体到对应的设备号，就知道哪台设备有问题了，初步想到wc和awk命令来筛选统计，但是真正去写的时候，发现很多写法都不太记得了，所以花了点时间去查手册，找资料，现在整理成博客，方便以后需要就马上统计出来，也分享出来，希望可以帮助需要的人

项目环境

JDK1.8.0_111-b14
linux3.10.0-1062.el7.x86_64
Apache Tomcat/8.5.85

实验步骤

统计某个接口调用次数，可以通过grep筛选出对应得到接口，然后加上wc统计出调用次数

cat catalina.out.2024-03-26| grep "/api/get"| wc -l

如果要统计这个接口具体是哪个设备php调用的，每个设备具体的调用次数，就稍微有点麻烦，因为接口请求后，会有一个请求参数，一般是json传参的，所以思路是先用grep定位到具体的接口，然后解析传参jshttp://www.devze.comon字符串，获取设备号code，对应的值value，然后使用uniq加上sort统计出这个设备调用的次数，具体的linux命令是：

cat catalina.out.2024-03-26| grep "/api/get"| awk -F "[,:}]" '{for(i=编程1;i<=NF;i++){if($i~"code"){print $(i+1)} }}' | tr -d '"'| sort | uniq -c | sort -nr

不熟悉的读者看起来有点懵，所以，一点点分析一下，为什么这样写？

查看日志
因为是tomcat部署的后端服务，所以要查看tomcat的catalina.out日志文件，使用cat命令

cat catalina.out.2024-03-26

筛选出具体的api接口

cat catalina.out.2024-03-26| grep "/api/get"

筛选请求json字符串对应设备号的value值
首选，我们请求参数是一串json字符串，假如是这样的：

{ "code", "0B403940FF289695FC093BF2556FFD75", "type":1}

所以需要获取json对应key，也就是我们的设备号code，对应的值0B403940FF289695FC093BF2556FFDandroid75

cat catalina.out.2024-03-26| grep "/api/get" | awk -F "[,:}]" '{for(i=1;i<=NF;i++){if($i~"code"){print $(i+1)} }}'

解释一下awk对应参数

awk -F "[,:}]" ：按照中括号中的内容,}:依次分割字符串
{for(i=1;i<=NF;i++){if($i~"code"){print $(i+1)} }}：遍历筛选出来的数据，匹配到code打印出对应的value

通过上面的linux命令，打印出来的是

"0B403940FF289695FC093BF2556FFD75"
"0B403940FF289695FC093BF2556FFD76"
....

如果觉得比较别扭，可以去掉"字符，使用命令

tr -d '"'

打印：

0B403940FF289695FC093BF2556FFD75
0B403940FF289695FC093BF2556FFD76
....

统计字符串出现的次数
统计字符串重复次数，可以使用uniq -c，然后为什么还要在前面加上sort命令？因为uniq这个命令只能统计连续的的重复行。所以需要结合sort命令使用，先sort排序，然后uniq统计重复的行

sort | uniq -c

打印，可以看出可以统计数量了，但是，没排序

1000 0B403940FF289695FC093BF2556FFD75
1001 0B403940FF289695FC093BF2556FFD76
999 0B403940FF289695FC093BF2556FFD77
....

按照调用次数进行倒序
sort命令的-n表示按照数值排序，-r表示按照数值降序排序，所以需要加上排序命令

sort -nr

999 0B403940FF289695FC093BF2556FFD77
1000 0B403940FF289695FC093BF2556FFD75
1001 0B403940FF289php695FC093BF2556FFD76

....

总结归纳

如果遇到param=0b33131等等这样传参的可以使用如下命令进行筛选，意思是使用param=作为分隔符

 awk -F '(param=)' '{print $2}'

如果遇到和本文类似的场景，直接使用命令进行统计即可：

cat catalina.out.2024-03-26| grep "/api/get"| awk -F "[,:}]" '{for(i=1;i<=NF;i++){if($i~"code"){print $(i+1)} }}' | tr -d '"'| sort | uniq -c | sort -nr

到此这篇关于Linux统计某个字符串出现次数并排序的实现步骤的文章就介绍到这了,更多相关Linux统计字符串出现次数并排序内容请搜索编程客栈(www.devze.com)以前的文章或继续浏览下面的相关文章希望大家以后多多支持编程客栈(www.devze.com)！

继续阅读：Linux字符串排序 Linux统计 Linux统计字符串出现次数并排序 Linux统计字符串次数

Linux统计某个字符串出现次数并排序的实现步骤

目录

业务场景

项目环境

实验步骤

总结归纳

更多精彩内容

精彩评论

最新运维

Win11紧急带外更新KB5070773发布:修复十月更新致WinRE环境USB键鼠失灵问题

Win10终止服务支持! 一文读懂3大风险+3套应对方案附升级指南

微软详解Win11 25H2 全新体验: 包括全新的 Copilot 和 AI 智能体

60 秒内出片: 微软Win11画图应用将支持AI生成动画与图像编辑

安装Win11九月十月更新KB5065789/KB5066835致127.0.0.1访问故障

运维排行榜

6款自己搭建开源VPN的工具

UiPath Orchestrator 平台搭建全过程（Windows环境）

常见以太网端口协商不成功或不匹配问题总结

df空间占用已满，但du查看home目录空间占用却很少

Windows Server 2016 Standard Key激活密钥序列号

目录

业务场景

项目环境

实验步骤

总结归纳

更多精彩内容

精彩评论

最新运维

Win11紧急带外更新KB5070773发布:修复十月更新致WinRE环境USB键鼠失灵问题

Win10终止服务支持! 一文读懂3大风险+3套应对方案 附升级指南

微软详解Win11 25H2 全新体验: 包括全新的 Copilot 和 AI 智能体

60 秒内出片: 微软Win11画图应用将支持AI生成动画与图像编辑

安装Win11九月十月更新KB5065789/KB5066835致127.0.0.1访问故障

运维排行榜

6款自己搭建开源VPN的工具

UiPath Orchestrator 平台搭建全过程（Windows环境）

常见以太网端口协商不成功或不匹配问题总结

df空间占用已满，但du查看home目录空间占用却很少

Windows Server 2016 Standard Key激活密钥序列号

Win10终止服务支持! 一文读懂3大风险+3套应对方案附升级指南