? ? ? 由于各種的I/O負載情形各異,Linux系統中文件系統的缺省配置一般來說都比較中庸,強調普遍適用性。然而在特定應用下,這種配置往往在I/O性能方面不能達到最優。因此,如果應用對I/O性能要求較高,除了采用性能更高的硬件(如磁盤、HBA卡、CPU、MEM等)外,我們還可以通過對文件系統進行性能調優,來獲得更高的I/O性能提升。總的來說,主要可以從三個方面來做工作:
1、Disk相關參數調優
2、文件系統本身參數調優
3、文件系統掛載(mount)參數調優
當然,負載情況不同,需要結合理論分析與充分的測試和實驗來得到合理的參數。下面以SAS(Serial attached SCSI)磁盤上的EXT3文件系統為例,給出Linux文件系統性能優化的一般方法。請根據自身情況作適合調整,不要生搬硬套。
1、Disk相關參數
1.1 Cache mode:啟用WCE=1(Write Cache Enable), RCD=0(Read Cache Disable)模式
sdparm -s WCE=1, RCD=0 -S /dev/sdb
1.2 Linux I/O scheduler算法
經過實驗,在重負載情形下,deadline調度方式對squidI/O負載具有更好的性能表現。其他三種為noop(fifo), as, cfq,noop多用于SAN/RAID存儲系統,as多用于大文件順序讀寫,
cfq適于桌面應用。
echo deadline > /sys/block/sdb/queue/scheduler
1.3 deadline調度參數
對于redhat linux建議 read_expire = 1/2 write_expire,對于大量頻繁的小文件I/O負載,應當這兩者取較小值。更合適的值,需要通過實驗測試得到。
echo 500 > /sys/block/sdb/queue/iosched/read_expire
echo 1000 > /sys/block/sdb/queue/iosched/write_expire
1.4 readahead 預讀扇區數
預讀是提高磁盤性能的有效手段,目前對順序讀比較有效,主要利用數據的局部性特點。比如在我的系統上,通過實驗設置通讀256塊扇區性能較優。
blockdev --setra 256 /dev/sdb
2、EXT3文件系統參數
2.1 block size = 4096 (4KB)
mkfs.ext3 -b指定,大的數據塊會浪費一定空間,但會提升I/O性能。EXT3文件系統塊大小可以為1KB、2KB、4KB。
2.2 inode size
這是一個邏輯概念,即一個inode所對應的文件相應占用多大物理空間。mkfs.ext3 -i指定,可用文件系統文件大小平均值來設定,可減少磁盤尋址和元數據操作時間。
2.3 reserved block
mkfs.ext3 -m指定,缺省為5%,可調小該值以增大部分可用存儲空間。
2.4 disable journal
對數據安全要求不高的應用(如web cache),可以關閉日志功能,以提高I/O性能。
tune2fs -O^has_journal /dev/sdb
3、mount參數
3.1 noatime, nodirtime
訪問文件目錄,不修改訪問文件元信息,對于頻繁的小文件負載,可以有效提高性能。
3.2 async
異步I/O方式,提高寫性能。
3.3 data=writeback (if journal)
日志模式下,啟用寫回機制,可提高寫性能。數據寫入順序不再保護,可能會造成文件系統數據不一致性,重要數據應用慎用。
3.4 barrier=0 (if journal)
barrier=1,可以保證文件系統在日志數據寫入磁盤之后才寫commit記錄,但影響性能。重要數據應用慎用,有可能造成數據損壞。
4、小結
以/dev/sdb為例,優化操作方法如下,參數請自行調整。
sdparm -s WCE=1, RCD=0 -S /dev/sdb
echo deadline > /sys/block/sdb/queue/scheduler
echo 500 > /sys/block/sdb/queue/iosched/read_expire
echo 1000 > /sys/block/sdb/queue/iosched/write_expire
blockdev --setra 256 /dev/sdb
mkfs.ext3 -b 4096 -i 16384 -m 2 /dev/sdb1
tune2fs -O^has_journal /dev/sdb1
mount /dev/sdb1 /cache1 -o defaults,noatime,nodirtime,async,data=writeback,barrier=0 (if with journal)
mount /dev/sdb1 /cache1 -o defaults,noatime,nodirtime,async (if without journal)
請大家注意不要模仿,每臺服務器的業務不一樣,情況不一樣,不要在線上的服務器試驗。
性能分析工具
CPU性能分析工具:
vmstat
ps
sar
time
strace
pstree
top
Memory性能分析工具:
vmstat
strace
top
ipcs
ipcrm
cat /proc/meminfo
cat /proc/slabinfo
cat /proc//maps
I/O性能分析工具:
vmstat
iostat
repquota
quotacheck
Network性能分析工具:
ifconfig
ethereal
tethereal
iptraf
iwconfig
nfsstat
mrtg
ntop
netstat
cat /proc/sys/net
Linux?性能調優工具
當通過上述工具及命令,我們發現了應用的性能瓶頸以后,我們可以通過以下工具或者命令來進行性能的調整。
CPU性能調優工具:
nice / renic
sysctl
Memory性能調優工具:
swapon
ulimit
sysctl
I/O性能調優工具:
edquota
quoton
sysctl
boot line:
elevator=
Network性能調優工具:
ifconfig
iwconfig
sysctl
CPU性能調整
當一個系統的CPU空閑時間或者等待時間小于5%時,我們就可以認為系統的CPU資源耗盡,我們應該對CPU進行性能調整。
CPU性能調整方法:
編輯/proc/sys/kernel/中的文件,修改內核參數。
#cd /proc/sys/kernel/
# ls /proc/sys/kernel/
acct hotplug panic real-root-dev
cad_pid modprobe panic_on_oops sem
cap-bound msgmax pid_max shmall
core_pattern msgmnb powersave-nap shmmax
core_uses_pid msgmni print-fatal-signals shmmni
ctrl-alt-del ngroups_max printk suid_dumpable
domainname osrelease printk_ratelimit sysrq
exec-shield ostype printk_ratelimit_burst tainted
exec-shield-randomize overflowgid pty threads-max
hostname overflowuid random version
一般可能需要編輯的是pid_max和threads-max,如下:
# sysctl kernel.threads-max
kernel.threads-max = 8192
# sysctl kernel.threads-max=10000
kernel.threads-max = 10000
Memory性能調整
當一個應用系統的內存資源出現下面的情況時,我們認為需要進行Memory性能調整:
頁面頻繁換進換出;
缺少非活動頁。
例如在使用vmstat命令時發現,memory的cache使用率非常低,而swap的si或者so則有比較高的數據值時,應該警惕內存的性能問題。
Memory性能調整方法:
1。關閉非核心的服務進程。
相關的方法請見CPU性能調整部分。
2。修改/proc/sys/vm/下的系統參數。
# ls /proc/sys/vm/
block_dump laptop_mode nr_pdflush_threads
dirty_background_ratio legacy_va_layout overcommit_memory
dirty_expire_centisecs lower_zone_protection overcommit_ratio
dirty_ratio max_map_count page-cluster
dirty_writeback_centisecs min_free_kbytes swappiness
hugetlb_shm_group nr_hugepages vfs_cache_pressure
# sysctl vm.min_free_kbytes
vm.min_free_kbytes = 1024
# sysctl -w vm.min_free_kbytes=2508
vm.min_free_kbytes = 2508
# cat /etc/sysctl.conf
…
vm.min_free_kbytes=2058
…
3。配置系統的swap交換分區等于或者2倍于物理內存。
# free
total used free shared buffers cached
Mem: 987656 970240 17416 0 63324 742400
-/+ buffers/cache: 164516 823140
Swap: 1998840 150272 1848568
I/O性能調整
系統出現以下情況時,我們認為該系統存在I/O性能問題:
系統等待I/O的時間超過50%;
一個設備的平均隊列長度大于5。
我們可以通過諸如vmstat等命令,查看CPU的wa等待時間,以得到系統是否存在I/O性能問題的準確信息。
I/O性能調整方法:
1。修改I/O調度算法。
Linux已知的I/O調試算法有4種:
deadline - Deadline I/O scheduler
as - Anticipatory I/O scheduler
cfq - Complete Fair Queuing scheduler
noop - Noop I/O scheduler
可以編輯/etc/yaboot.conf文件修改參數elevator得到。
# vi /etc/yaboot.conf
image=/vmlinuz-2.6.9-11.EL
label=linux
read-only
initrd=/initrd-2.6.9-11.EL.img
root=/dev/VolGroup00/LogVol00
append="elevator=cfq rhgb quiet"
2。文件系統調整。
對于文件系統的調整,有幾個公認的準則:
將I/O負載相對平均的分配到所有可用的磁盤上;
選擇合適的文件系統,Linux內核支持reiserfs、ext2、ext3、jfs、xfs等文件系統;
# mkfs -t reiserfs -j /dev/sdc1
文件系統即使在建立后,本身也可以通過命令調優;
tune2fs (ext2/ext3)
reiserfstune (reiserfs)
jfs_tune (jfs)
3。文件系統Mount時可加入選項noatime、nodiratime。
# vi /etc/fstab
…
/dev/sdb1 /backup reiserfs acl, user_xattr, noatime, nodiratime 1 1
4。調整塊設備的READAHEAD,調大RA值。
[root@overflowuid ~]# blockdev --report
RO RA SSZ BSZ StartSec Size Device
…
rw 256 512 4096 0 71096640 /dev/sdb
rw 256 512 4096 32 71094240 /dev/sdb1
[root@overflowuid ~]# blockdev --setra 2048 /dev/sdb1
[root@overflowuid ~]# blockdev --report
RO RA SSZ BSZ StartSec Size Device
…
rw 2048 512 4096 0 71096640 /dev/sdb
rw 2048 512 4096 32 71094240 /dev/sdb1
Network性能調整
一個應用系統出現如下情況時,我們認為該系統存在網絡性能問題:
網絡接口的吞吐量小于期望值;
出現大量的丟包現象;
出現大量的沖突現象。
Network性能調整方法:
1。調整網卡的參數。
# ethtool eth0
Settings for eth0:
Supported ports: [ TP ]
Supported link modes: 10baseT/Half 10baseT/Full
100baseT/Half 100baseT/Full
1000baseT/Full
Supports auto-negotiation: Yes
Advertised link modes: 10baseT/Half 10baseT/Full
100baseT/Half 100baseT/Full
1000baseT/Full
Advertised auto-negotiation: Yes
Speed: 100Mb/s
Duplex: Half
Port: Twisted Pair
PHYAD: 0
Transceiver: internal
Auto-negotiation: on
Supports Wake-on: d
Wake-on: d
Current message level: 0x00000007 (7)
Link detected: yes
#ethtool -s eth0 duplex full
#ifconfig eth0 mtu 9000 up
2。增加網絡緩沖區和包的隊列。
# cat /proc/sys/net/ipv4/tcp_mem
196608 262144 393216
# cat /proc/sys/net/core/rmem_default
135168
# cat /proc/sys/net/core/rmem_max
131071
# cat /proc/sys/net/core/wmem_default
135168
# cat /proc/sys/net/core/wmem_max
131071
# cat /proc/sys/net/core/optmem_max
20480
# cat /proc/sys/net/core/netdev_max_backlog
300
# sysctl net.core.rmem_max
net.core.rmem_max = 131071
# sysctl -w net.core.rmem_max=135168
net.core.rmem_max = 135168
3。調整Webserving。
# sysctl net.ipv4.tcp_tw_reuse
net.ipv4.tcp_tw_reuse = 0
# sysctl -w net.ipv4.tcp_tw_reuse=1
net.ipv4.tcp_tw_reuse = 1
# sysctl net.ipv4.tcp_tw_recycle
net.ipv4.tcp_tw_recycle = 0
# sysctl -w net.ipv4.tcp_tw_recycle=1
net.ipv4.tcp_tw_recycle = 1
一:IO優化
(1)網絡IO優化,主要通過調整TCP參數調節
kern.maxproc
#系統可用的最大進程數
kern.ipc.maxsockbuf
##最大套接字緩沖區
kern.maxfiles=65536
##系統中允許的最多文件數量,缺省的是幾千個但如果你在運行數據庫或大的很吃描述符的進程可以
net.inet.tcp.sendspace=65535
##最大的待發送TCP 數據緩沖區空間,應用程序將數據放到這里就認為發送成功了,系統TCP堆棧保證數據的正常發送
net.inet.tcp.recvspace=65535
##最大的接受TCP緩沖區空間,系統從這里將數據分發給不同的套接字,增大該空間可提高系統瞬間接受數據的能力以提高性能
kern.ipc.somaxconn=8192
##最大的等待連接完成的套接字隊列大小,高負載服務器和受到分布式服務阻塞攻擊的系統也許會因為這個隊列被塞滿而不能提供正常服務。默認僅為128,根據機器和實際情況需要改動,太大就浪費了內存?
net.inet.udp.recvspace=65535
##最大的接受UDP緩沖區大小
net.inet.udp.maxdgram=57344
##最大的發送UDP數據緩沖區大小
net.local.stream.recvspace=32768
##本地套接字連接的數據接收空間
net.local.stream.sendspace=65535
##本地套接字連接的數據發送空間
net.inet.icmp.drop_redirect=1
net inet.icmp.log_redirect=1‘
net.inet.ip.redirect=0
net.inet6.ip6.redirect=0
##屏蔽ICMP重定向功能
net.inet.icmp.bmcastecho=0
net.inet.icmp.maskrepl=0
##防止廣播風暴
net.inet.icmp.icmplim=100
##限制系統發送ICMP速率
net.inet.tcp.always_keepalive=0
##設置為1會幫助系統清除沒有正常斷開的TCP連接,這增加了一些網絡帶寬的使用,但是一些死掉的
連接最終能被識別并清除。死的TCP連接是被撥號用戶存取的系統的一個特別的問題,因為用戶經常
斷開modem而不正確的關閉活動的連接。?
(2)磁盤IO優化
修改fstab,在加載參數上加入noatime ,禁止加入訪問文件時間
控制swappness 參數,盡量減少應用的內存被交換到交換分區中,默認是60
塊大小的優化 ,節點塊的優化
block size = 4096(4K)
大的數據塊會浪費一定的空間,比如此設置會使一個空的文件夾占用4K的空間,不過會提高I/O性能
inode size?
這是一個邏輯概念,即一個inode所對應的文件相應占用多大物理空間,mkfs.ext3 -i指定,可用文件系統文件大小平均值來設定,可減少磁盤尋址和元數據操作時間
linux I/O調度方式啟用異步方式,提高讀寫性能
有關IO的幾個內核參數:
/proc/sys/vm/dirty_ratio
這個參數控制文件系統的文件系統寫緩沖區的大小,單位是百分比,表示系統內存的百分比,表示當寫緩沖使用到系統內存多少的時候,開始向磁盤寫出數 據。增大之會使用更多系統內存用于磁盤寫緩沖,也可以極大提高系統的寫性能。但是,當你需要持續、恒定的寫入場合時,應該降低其數值,一般啟動上缺省是 10
/proc/sys/vm/dirty_expire_centisecs
這個參數聲明Linux內核寫緩沖區里面的數據多“舊”了之后,pdflush進程就開始考慮寫到磁盤中去。單位是 1/100秒。缺省是 30000,也就是 30 秒的數據就算舊了,將會刷新磁盤。對于特別重載的寫操作來說,這個值適當縮小也是好的,但也不能縮小太多,因為縮小太多也會導致IO提高太快。建議設置為 1500,也就是15秒算舊。
/proc/sys/vm/dirty_background_ratio
這個參數控制文件系統的pdflush進程,在何時刷新磁盤。單位是百分比,表示系統內存的百分比,意思是當寫緩沖使用到系統內存多少的時候, pdflush開始向磁盤寫出數據。增大之會使用更多系統內存用于磁盤寫緩沖,也可以極大提高系統的寫性能。但是,當你需要持續、恒定的寫入場合時,應該 降低其數值,一般啟動上缺省是 5
/proc/sys/vm/dirty_writeback_centisecs
這個參數控制內核的臟數據刷新進程pdflush的運行間隔。單位是 1/100 秒。缺省數值是500,也就是 5 秒。如果你的系統是持續地寫入動作,那么實際上還是降低這個數值比較好,這樣可以把尖峰的寫操作削平成多次寫操作
當然最主要的還是升級硬件或通過做RAID實現
用過的文件系統比較:
?
1、Reiserfs
?
大量小文件訪問,衡量指標是IOPS,文件系統性能瓶頸在于 文件元數據操作、目錄操作、數據尋址。reiserfs對小文件作了優化,并使用B+ tree組織數據,加速了數據尋址,大大降低了open/create/delete/close等系統調用開銷。mount時指定noatime, nodiratime, notail,減少不必要的inode操作,notail關閉tail package功能,以空間換取更高性能。因此,對于隨機的小I/O讀寫,reiserfs是很好的選擇。
2、Ext4
?
大文件順序訪問,衡量指標是IO吞吐量,文件系統性能瓶頸在 于數據塊布局(layout)、數據尋址。Ext4對ext3主要作了兩方面的優化:
一是inode預分配。這使得inode具有很好的局部性特 征,同一目錄文件inode盡量放在一起,加速了目錄尋址與操作性能。因此在小文件應用方面也具有很好的性能表現。
二是extent/delay/multi的數據塊分配策 略。這些策略使得大文件的數據塊保持連續存儲在磁盤上,數據尋址次數大大減少,顯著提高I/O吞吐量。
因此,對于順序大I/O讀寫,EXT4是很好的選擇。另外,XFS性能在大文件方面也相當不錯。
用到的命令:
檢測硬盤的讀效率:hdparm -tT /dev/hda。
檢測硬盤的寫效率:time dd if=/dev/zero of=/media/hda5/tmp/my-file bs=4k count=65536
寫入字符到/media/hda5/tmp/my-file文件,bs為塊大小,count為快數
系統IO情況:vmstat,如果wa大說明瓶頸在io上。iostat用于監視io情況
二:CPU 編譯參數優化
CHOST參數: 對應CPU類型
CFLAGS參數:
-O3:相對于-O、-O1、-O2,-O3開啟了所有GCC支持的優化特性;?
-msse2:開啟CPU所支持的sse2指令集;?
-mmmx:參考-msse2?
-mfpmath=sse:為指定指令集生成浮點運算特性(優化浮點運算功能);?
-mcpu:指定CPU型號;?
-march:指定CPU型號,基本同-mcpu,GCC根據-march設定的CPU型號決定在生成代碼時可以使用哪些種類的指令。(注 意!-march參數在某些CPU型號中不可用!)?
-pipe:使用管道(pipe)方法替代臨時文件方法在編譯的不同階段之間進行通訊。
三:系統優化
(1) 關閉不用的服務
(2) 程序執行效率優化
(3) 充分利用多核的優勢
今天跟同事學了一招,可以通過修改swappiness內核參數,降低系統對swap的使用,從而提高系統的性能。
遇到的問題是這樣的,新版本產品發布后,每小時對內存的使用會有一個尖峰。雖然這個峰值還遠沒有到達服務器的物理內存,但確發現內存使用達到峰值時系統開始使用swap。在swap的過程中系統性能會有所下降,表現為較大的服務延遲。對這種情況,可以通過調節swappiness內核參數降低系統對swap的使用,從而避免不必要的swap對性能造成的影響。
?
評論
查看更多