0
点赞
收藏
分享

微信扫一扫

网站知识汇总

SDKB英文 2023-05-08 阅读 83

# Web相关知识
pv(页面访问量)=访问人数*每人的平均访问页数
流量=pv*访问页面大小+下载次数*下载页面大小
UV(独立访问用户数)访问网站的一台电脑客户端为一个访客
 
# 网站日志分析
# 获得访问前20位的ip地址
cat access.log|awk'{print $1}'|sort|uniq -c|sort -nr|head -10
cat access.log|awk'{counts[$(11)]+=1}; END {for(url in counts) print counts[url], url}'
 
# 访问次数最多的文件或页面,取前20
cat access.log|awk'{print $11}'|sort |uniq -c|sort -nr|head -n20
 
# 列出穿最大的几个exe文件,分析下载站的时候常用
cat access.log |awk'($7~/\.exe/){print $10 " " $1 " " $4 " "$7}'|sort -nr|head -20
 
# 列出传输大于200000byte(约200kb)的exe文件以及对应文件发生次数
cat access.log |awk'($10 > 200000 && $7~/\.exe/){print $7}'|sort -n|uniq -c|sort-nr|head -100
 
# 如果日志最后一列记录的是页面文件传输时间,则有列出到客户端最耗时的页面
cat access.log |awk'($7~/\.php/){print $NF " " $1 " " $4 " "$7}'|sort -nr|head -100
 
# 列出最最耗时的页面(超过60秒的)的以及对应页面发生次数
cat access.log |awk'($NF > 60 && $7~/\.php/){print $7}'|sort -n|uniq -c|sort -nr|head-n100
 
# 列出传输时间超过30秒的文件
cat access.log |awk'($NF > 30){print $7}'|sort -n|uniq -c|sort -nr|head -20
 
# 统计网站流量(G)
cat access.log |awk'{sum+=$10} END {print sum/1024/1024/1024}'
 
# 统计404的连接
awk '($9 ~/404/)'access.log | awk '{print $9,$7}' | sort
 
# 按域统计流量
zcatsquid_access.log.tar.gz| awk '{print $10,$7}' |awk 'BEGIN{FS="[/]"}{trfc[$4]+=$1}END{for(domain in trfc){printf"%s\t%d\n",domain,trfc[domain]}}'
 
# 统计httpstatus
cat access.log|awk'{counts[$(9)]+=1}; END {for(code in counts) print code,counts[code]}'
cat access.log |awk'{print $9}'|sort|uniq -c|sort -rn
 
# 如何统计apache的每秒访问数?
tail access_log | awk'{print $1,$4}'
grep -c `date -d '3second ago' +%T` access_log
 
# 用netstat显示所有tcp4监听端口:
netstat -lnt4 | awk'{print $4}' | cut -f2 -d: | grep -o '[0-9]*'
 
# 系统连接状态
# 查看TCP连接状态
netstat -nat |awk'{print $6}'|sort|uniq -c|sort -rn
netstat -n | awk'/^tcp/ {++S[$NF]};END {for(a in S) print a, S[a]}'
netstat -n | awk'/^tcp/ {++state[$NF]}; END {for(key in state) printkey,"\t",state[key]}'
netstat -n | awk'/^tcp/ {++arr[$NF]};END {for(k in arr) print k,"\t",arr[k]}'
netstat -n |awk'/^tcp/ {print $NF}'|sort|uniq -c|sort -rn
netstat -ant | awk'{print $NF}' | grep -v '[a-z]' | sort | uniq -c
ss -s
 
# 查找请求书超20个IP,常用于查找攻击来源
netstat -anlp|grep80|grep tcp|awk '{print $5}'|awk -F: '{print $1}'|sort|uniq -c|sort -nr|head-n20
netstat -ant |awk'/:80/ {split($5,ip,":");++A[ip[1]]}END{for(i in A) print A[i],i}'|sort -rn|head -n20
 
# 用tcpdump嗅探80端口的访问看看谁最高
tcpdump -i eth0 -tnndst port 80 -c 1000 | awk -F"." '{print$1"."$2"."$3"."$4}' | sort |uniq -c | sort -nr|head -20
 
# 查找较多time_wait连接
netstat -n|grepTIME_WAIT|awk '{print $5}'|sort |uniq -c|sort -rn|head -n20
 
# 查找较多的SYN连接
netstat -an | grepSYN | awk '{print $5}' |awk -F: '{print $1}' | sort | uniq -c | sort -nr|more
 
# 根据端口列进程
netstat -ntlp | grep80 | awk '{print $7}' |cut -d/ -f1
 
# 统计连接数
# 统计连接数(80端口)
netstat -ant |grep -i"80"|wc -l
netstat -ant |grep192.168.100.5:80 | wc -l
 
# 查看当前并发访问数(统计已连接上的),状态为“ESTABLISHED”
netstat -na |grepESTABLISHED|wc -l
netstat -ant | grep192.168.100.5:80 | grep EST | wc -l
 
# 查看IP访问次数
netstat -nat|grep":80"|awk '{print $5}' |awk -F: '{print $1}' | sort| uniq -c|sort -n
 
# 查看ip连接数(成功连接上的)
netstat -nat |grepESTABLISHED | awk '{print $5}'|awk -F: '{print $1}'|sort|uniq -c|sort -nr|head-20
netstat -n | awk'/^tcp/ {print $5}'| awk -F: '{print $1}' | sort | uniq -c | sort –rn
 
# 查看并发请求数(服务器连接数)及其TCP连接状态:
netstat -n | awk'/^tcp/ {++S[$NF]} END {for(a in S) print a, S[a]}'
备注:
SYN_RECV      表示正在等待处理的请求数;
ESTABLISHED   表示正常数据传输状态;
TIME_WAIT     表示处理完毕,等待超时结束的请求数;
FIN_WAIT1     表示server端主动要求关闭tcp连接;
FIN_WAIT2     表示客户端中断连接;
LAST_ACK      表示关闭一个TCP连接需要从两个方向上分别进行关闭,双方都是通过发送FIN来表示单方向数据的关闭,当通信双方发送了最后一个FIN的时候,发送方此时处于LAST_ACK状态,当发送方收到对方的确认(Fin的Ack确认)后才真正关闭整个TCP连接;
CLOSING       表示两边同时尝试关闭
 
# 实时统计并发连接数和TCP连接数
watch "netstat-n | awk '/^tcp/ {++S[\$NF]} END {for(a in S) print a, S[a]}'"
 
# 查找较多time_wait连接,降序排列
netstat -n|grepTIME_WAIT|awk '{print $5}'|sort|uniq -c|sort -rn|head -n20
 
# 限定apache每秒钟连接数为1,峰值为3
iptables -A INPUT -d10.0.0.1 -p tcp --dport 80 -m limit --limit 1/second --limit-burst 3 -j ACCEPT
 
# 如发现系统存在大量TIME_WAIT状态的连接,该怎么办?
根据TCP协议定义的3次握手断开连接规定,发起socket主动关闭的一方socket将进入TIME_WAIT状态,TIME_WAIT状态下的socket不能被回收使用。具体现象是对于一个处理大量短连接的服务器,如果是由服务器主动关闭客户端的连接,将导致服务器端存在大量的处于TIME_WAIT状态的socket, 甚至比处于Established状态下的socket多的多,严重影响服务器的处理能力,甚至耗尽可用的socket,停止服务. TIME_WAIT是TCP协议用以保证被重新分配的socket不会受到之前残留的延迟重发报文影响的机制,是必要的逻辑保证.
解决办法:
通过调整内核参数解决,编辑/etc/sysctl.conf文件,添加下面四行内容:
tee /etc/sysctl.conf<<EOF
.....
net.ipv4.tcp_syncookies= 1
net.ipv4.tcp_tw_reuse= 1
net.ipv4.tcp_tw_recycle= 1
net.ipv4.tcp_fin_timeout= 30
EOF
sysctl -p
备注:
net.ipv4.tcp_syncookies= 1     表示开启SYN cookies。当出现SYN等待队列溢出时,启用cookies来处理,可防范少量SYN攻击,默认为0,表示关闭;
net.ipv4.tcp_tw_reuse= 1       表示开启重用。允许将TIME-WAITsockets重新用于新的TCP连接,默认为0,表示关闭;
net.ipv4.tcp_tw_recycle= 1     表示开启TCP连接中TIME-WAITsockets的快速回收,默认为0,表示关闭。
net.ipv4.tcp_fin_timeout        修改系統默认的TIMEOUT时间
 
 
# 带宽大小选择
制定每天要承受千万pv的访问量
估算带宽方式:峰值流量与页面大小
峰值流量是平均流量的3倍
每次访问平均的页面大小未100kB左右
如果1000万pv的访问量在一天哪平均分布,每秒大约120次访问,如果按平均每次访问页面的大小是100kB字节计算,120次访问总计大约就是12000kB。字节的单位是Byte,而带宽单位是bit,所以12000k Byte大致就相当于96000k bit,也就是90Mbps。实际上,我们的网站必须能在峰值流量时保持正常运行状态,所以按照假设的峰值流量计算,真实带宽需求应该在270Mbps左右
 
# 网站逻辑分层
表现层 -> 应用层 -> 持久层
表现层:HTML静态化、读写分离、动静分离

举报

相关推荐

0 条评论