上一小節介紹了CPU的調頻,那么其他設備例如DDR、USB、SPI,還有很多子系統有自己的R核或者M核例如NPU、ISP等都需要調頻,那必須OPP給安排上,然后調頻就需要我們這里說的DevFreq框架。
1. 整體介紹
1.1 Devfreq基礎概念
OPP:
復雜SoC由多個子模塊協同工作組成,在運行中并非SoC中的所有模塊都需要始終保持最高性能。為方便起見,將SoC中的子模塊分組為域,從而允許某些域以較低的電壓和頻率運行,而其他域以較高的電壓/頻率對運行。對于這些設備支持的頻率和電壓對,我們稱之為OPP(Operating Performance Point)。對于具有OPP功能的非CPU設備,本文稱之為OPP device,需要通過devfreq進行動態的調頻調壓。
Devfreq:
devfreq:Generic Dynamic Voltage and Frequency Scaling (DVFS) Framework for Non-CPU Devices。是由三星電子MyungJoo Ham myungjoo.ham@samsung.com,提交到社區。原理和/deivers/cpufreq 非常近似。但是cpufreq驅動并不允許多個設備來注冊,而且也不適合不同的設備具有不同的governor。devfreq則支持多個設備,并且允許每個設備有自己對應的governor。
如下圖,devfreq framework是功耗子系統的一部分,與cpufreq,cpuidle,powermanager相互配合協作,達到節省系統功耗的目的。
1.2 devfreq框圖
整個devfreq framework中的三大部分組成:
- Devfreq core:devfreq framework的核心,一方面提供需要調頻調壓設備及governor的注冊方法,通過devfreq_list及governor_list分別管理所有的調頻調壓設備及注冊進系統的governor。另一方面,提供具體調頻調壓的處理邏輯,通過從governor獲取目標頻率,提供update_devfreq方法供governor調用,從而實現調頻調壓。
- Governor:具體的調頻策略,需要devfreq framework提供的接口進行注冊。內核中已經支持如下策略:
- simple_ondemand:按需調整模式;根據系統負載,動態地調整頻率、電壓,平衡性能和功耗。
- Performance:性能優先模式,將頻率及電壓調整到最大。
- Powersave:功耗優先模式,將頻率及電壓調整到最小。
- Userspace:用戶指定模式,用戶通過提供的文件節點,根據需要設置的頻率及電壓。
- Passive:被動模式,使用設備指定方法做頻率、電壓調整,或跟隨父devfreq設備的governor進行調整。
- Devfreq device driver:需要調頻調壓的設備驅動,需要通過devfreq framework提供的接口進行注冊。會通過opp庫提供的dts解析函數解析opp頻率、電壓對。在調頻的時候,根據opp庫提供頻率、電壓調整接口借助clk、regulator框架進行調頻調壓。在查詢當前頻率時,通過get_cur_freq查詢當前的頻率。
可以看到這里DevFreq和CPUFreq的套路基本一樣。
1.3 sysfs用戶接口
這里以DDR為例:/sys/devices/platform/dmc0/devfreq/devfreq0目錄下面
- available_frequencies: 可用的頻率列表
- available_governors:可用的governor
- cur_freq:當前頻率
- governor: 當前governor
- max_freq:最大頻率
- min_freq :最小頻率
- polling_interval:governor調度的時間間隔,單位是ms
- target_freq:目標頻率
- trans_stat:狀態調整表
代碼實現在kernel/drivers/devfreq/devfreq.c中
static struct attribute *devfreq_attrs[] = {
&dev_attr_governor.attr,
&dev_attr_available_governors.attr,
&dev_attr_cur_freq.attr,
&dev_attr_available_frequencies.attr,
&dev_attr_target_freq.attr,
&dev_attr_polling_interval.attr,
&dev_attr_min_freq.attr,
&dev_attr_max_freq.attr,
&dev_attr_trans_stat.attr,
NULL,
};
ATTRIBUTE_GROUPS(devfreq);
2. Linux 關鍵數據結構和API實現
2.1 主要數據結構
devfreq數據結構和模塊關系圖
2.1.1 devfreq_dev_profile
devfreq profile結構體,是OPP device注冊到devfreq framework的數據結構,主要包含OPP設備的頻率相關信息和相關的回調函數,是devfreq framework和OPP device driver的交互接口。
struct devfreq_dev_profile {
/*devfreq初始化頻率*/
unsigned long initial_freq;
/*governor輪詢的時間間隔,單位ms,0禁止*/
unsigned int polling_ms;
/*devfreq framework設置OPP device頻率的回掉函數*/int (*target)(struct device *dev, unsigned long *freq, u32 flags);
/*devfreq framework獲取OPP device負載狀態的回掉函數*/int (*get_dev_status)(struct device *dev, struct devfreq_dev_status *stat);
/*devfreq framework獲取OPP device當前頻率的回掉函數*/int (*get_cur_freq)(struct device *dev, unsigned long *freq);
/*devfreq framework退出時對OPP device的回掉函數*/void (*exit)(struct device *dev);
/*OPP device支持的頻率表*/
unsigned long *freq_table;
/*freq_table表的大小*/
unsigned int max_state;
};
初始化使用:
static struct devfreq_dev_profile xxx_devfreq_dmc_profile = {
.polling_ms = 300,
.target = xxx_dmcfreq_target,
.get_dev_status = xxx_dmcfreq_get_dev_status,
.get_cur_freq = xxx_dmcfreq_get_cur_freq,
};
2.1.2 devfreq_governor
devfreq governor結構體,是governor注冊到devfreq framework的數據結構,主要包含governor的相關屬性和具體的函數實現。是devfreq framework和governor交互接口。
struct devfreq_governor {
struct list_head node;
/*該governor的名稱*/const char name[DEVFREQ_NAME_LEN];
/*governor是否可以切換的標志,若為1表示不可切換*/const unsigned int immutable;
/*governor注冊到devfreq framework的算法實現函數,返回調整后的頻率*/int (*get_target_freq)(struct devfreq *this, unsigned long *freq);
/*governor注冊到devfreq framework的event處理函數,處理start,stop,suspend,resume等event*/int (*event_handler)(struct devfreq *devfreq, unsigned int event, void *data);
};
例如使用simple_ondemand
static struct devfreq_governor devfreq_simple_ondemand = {
.name = "simple_ondemand",
.get_target_freq = devfreq_simple_ondemand_func,
.event_handler = devfreq_simple_ondemand_handler,
};
2.1.3 devfreq
devfreq設備結構體,這個是devfreq設備的核心數據結構。將上述的OPP device driver的devfreq_dev_profile和governor的devfreq_governor連接到一起,并通過設備驅動模型中device類,為user 空間提供接口。
struct devfreq {
struct list_head node;
struct mutex lock;
struct mutex event_lock;
/*其class屬于devfreq_class,父節點指向使用devfreq的device*/struct device dev;
/*OPP device注冊到devfreq framework的配置信息*/struct devfreq_dev_profile *profile;
/*governor注冊到devfreq framework的配置信息*/const struct devfreq_governor *governor;
/*devfreq的governor的名字*/char governor_name[DEVFREQ_NAME_LEN];
struct notifier_block nb;
/*負載監控使用的delayed_work*/struct delayed_work work;
unsigned long previous_freq;
struct devfreq_dev_status last_status;
/*OPP device傳遞給governor的私有數據*/void *data; /* private data for governors */
......
};
這個數據結構是生成的,沒有初始化值。
2.2 devfreq初始化
三個模塊:framework、governor、device相關的初始化,其中device靠后。
2.2.1 Devfreq framework初始化
在drivers/devfreq/devfreq.c中,devfreq_init()函數
static int __init devfreq_init(void)
{
devfreq_class = class_create(THIS_MODULE, "devfreq"); //創建devfreq設備類
if (IS_ERR(devfreq_class)) {
pr_err("%s: couldn't create class
", __FILE__);
return PTR_ERR(devfreq_class);
}
//創建工作隊列,用于負載監控work調用運行
devfreq_wq = create_freezable_workqueue("devfreq_wq");
if (!devfreq_wq) {
class_destroy(devfreq_class);
pr_err("%s: couldn't create workqueue
", __FILE__);
return -ENOMEM;
}
//加入到subsys_initcall,系統啟動時初始化
devfreq_class->dev_groups = devfreq_groups;
return 0;
}
subsys_initcall(devfreq_init);
devfreq_groups就是上面說的sysfs用戶接口
ATTRIBUTE_GROUPS(devfreq);
#define ATTRIBUTE_GROUPS(_name)
static const struct attribute_group _name##_group = {
.attrs = _name##_attrs,
};
2.2.2 governors 初始化
系統中可支持多個governors,在系統啟動時進行初始化,并注冊到devfreq framework中, 后續OPP device創建devfreq設備,會根據governor名字從已經初始化好的governor 列表中,查找對應的governor實例。
下面以simple_ondemand為例子,看下初始化過程:在drivers/devfreq/governor_simpleondemand.c中
//填充governor的結構體,不同的governor,會有不同的實現。
static struct devfreq_governor devfreq_simple_ondemand = {
.name = "simple_ondemand",
.get_target_freq = devfreq_simple_ondemand_func,
.event_handler = devfreq_simple_ondemand_handler,
};
static int __init devfreq_simple_ondemand_init(void)
{
return devfreq_add_governor(&devfreq_simple_ondemand);
}
//加入到subsys_initcall,系統啟動時初始化。
subsys_initcall(devfreq_simple_ondemand_init);
初始化將governor加入到devfreq framework的governor列表中。
devfreq_add_governor->list_add(&governor->node, &devfreq_governor_list);
2.2.3 OPP device初始化
這里我們就以DDR為例子 drivers/devfreq/dmc.c中,系統根據DTS描述添加對應驅動程序
static const struct of_device_id xxxdmc_devfreq_of_match[] = {
{ .compatible = "xxx-dmc" },
{ },
};
MODULE_DEVICE_TABLE(of, xxxdmc_devfreq_of_match);
static struct platform_driver xxx_dmcfreq_driver = {
.probe = xxx_dmcfreq_probe,
.driver = {
.name = "xxx-dmc-freq",
.pm = &xxx_dmcfreq_pm,
.of_match_table = xxxdmc_devfreq_of_match,
},
};
module_platform_driver(xxx_dmcfreq_driver);
xxx_dmcfreq_probe
匹配"xxx-dmc"會執行掃描函數xxx_dmcfreq_probe()
static int xxx_dmcfreq_probe(struct platform_device *pdev)
{
//ctx是自定義的一個數據結構,用于存放各種DDR dvfs相關信息
ctx = devm_kzalloc(dev, sizeof(struct xxx_dmcfreq), GFP_KERNEL);
//找到clk信息
struct device *dev = &pdev->dev;
ctx->dmc_clk = devm_clk_get(dev, "dmc_clk");
//負載計數啟動
ctx->edev = devfreq_event_get_edev_by_phandle(dev, 0);
if (IS_ERR(ctx->edev))
return -EPROBE_DEFER;
ret = devfreq_event_enable_edev(ctx->edev);
//給dev添加opp信息
if (dev_pm_opp_of_add_table(dev)) {
dev_err(dev, "Invalid operating-points in device tree.
");
return -EINVAL;
}
ctx->rate = clk_get_rate(ctx->dmc_clk);
opp = devfreq_recommended_opp(dev, &ctx->rate, 0);
ctx->rate = dev_pm_opp_get_freq(opp);
dev_pm_opp_put(opp);
xxx_devfreq_dmc_profile.initial_freq = ctx->rate;
ctx->devfreq = devm_devfreq_add_device(dev,
&xxx_devfreq_dmc_profile,
"simple_ondemand",
&ctx->ondemand_data);
//計算出最大最小值
ctx->devfreq->min_freq = ULONG_MAX;
ctx->devfreq->max_freq = 0;
max_opps = dev_pm_opp_get_opp_count(dev);
for (i = 0, rate = 0; i < max_opps; i++, rate++) {
opp = dev_pm_opp_find_freq_ceil(dev, &rate);
if (ctx->devfreq->min_freq > rate)
ctx->devfreq->min_freq = rate;
if (ctx->devfreq->max_freq < rate)
ctx->devfreq->max_freq = rate;
}
devm_devfreq_register_opp_notifier(dev, ctx->devfreq);
ctx->dev = dev;
platform_set_drvdata(pdev, ctx);
return 0;
}
pdev的名字是dmc0,對應dts中
dmc_0: dmc0 {
compatible = "xxx-dmc";
devfreq-events = <&ddr_monitor0>;
operating-points-v2 = <&dmc_opp_table>;
clocks = <&dmc0_clk>;
clock-names = "dmc_clk";
};
其他信息都是在這里定義的。
struct xxx_dmcfreq {
struct device *dev;
struct devfreq *devfreq;
struct devfreq_simple_ondemand_data ondemand_data;
struct clk *dmc_clk;
struct devfreq_event_dev *edev;
struct mutex lock;
unsigned long rate, target_rate;
};
devm_devfreq_add_device()函數會調用devfreq_add_device()進行注冊devfreq
devfreq_add_device devfreq_add_device 創建devfreq設備的主要流程如下:
//devfreq device申請內存空間 初始化devfreq device結構體后,注冊設備。
device_register(&devfreq->dev);
//根據傳入的governor名字,從governor列表中,獲取對應的governor實例。
governor = find_devfreq_governor(devfreq->governor_name);
//發送DEVFREQ_GOV_START到governor,開始管理OPP device的頻率。
err = devfreq->governor->event_handler(devfreq, DEVFREQ_GOV_START, NULL);
##2.3 simple_ondemand調頻
- devfreq framework是大管家負責監控程序的運行,
- governor提供管理算法,
- OPP device提供自身的負載狀態和頻率設置的方法實現。
exynos芯片,simple_ondemend策略調頻調壓流程圖
2.3.1 governor啟動監控
初始化的時候在上面2.2.3過程中,會調用devfreq_add_device()會給governor發DEVFREQ_GOV_START消息,simple_ondemand governor收到處理函數為:
static int devfreq_simple_ondemand_handler(struct devfreq *devfreq,
unsigned int event, void *data)
{
switch (event) {
case DEVFREQ_GOV_START:
devfreq_monitor_start(devfreq);
break;
devfreq_monitor_start()開始啟動調度程序devfreq_monitor
void devfreq_monitor_start(struct devfreq *devfreq)
{
INIT_DEFERRABLE_WORK(&devfreq->work, devfreq_monitor);
if (devfreq->profile->polling_ms)
queue_delayed_work(devfreq_wq, &devfreq->work,
msecs_to_jiffies(devfreq->profile->polling_ms));
}
EXPORT_SYMBOL(devfreq_monitor_start);
2.3.2 monitor輪詢監控
devfreq_monitor每隔devfreq->profile->polling_ms時間,會調度監控程序工作。工作函數為update_devfreq()
int update_devfreq(struct devfreq *devfreq)
{
//獲取頻率
devfreq->governor->get_target_freq(devfreq, &freq);
devfreq->profile->get_cur_freq(devfreq->dev.parent, &cur_freq);
freqs.old = cur_freq;
freqs.new = freq;
devfreq_notify_transition(devfreq, &freqs, DEVFREQ_PRECHANGE);
//設置頻率
devfreq->profile->target(devfreq->dev.parent, &freq, flags);
freqs.new = freq;
devfreq_notify_transition(devfreq, &freqs, DEVFREQ_POSTCHANGE);
}
這里獲取頻率和設置頻率每次都執行,不比較頻率是否相同,在設置處理的時候才比較。
2.3.3 governor計算頻率
devfreq->governor->get_target_freq對應函數為:devfreq_simple_ondemand_func()
static int devfreq_simple_ondemand_func(struct devfreq *df,
unsigned long *freq)
{
//通過device回調函數,獲取當前狀態,然后計算新的頻率
err = devfreq_update_stats(df);
//新頻率的算法,根據閾值和當前負載計算
a = stat->busy_time;
a *= stat->current_frequency;
b = div_u64(a, stat->total_time);
b *= 100;
b = div_u64(b, (dfso_upthreshold - dfso_downdifferential / 2));
*freq = (unsigned long) b;
if (df->min_freq && *freq < df->min_freq)
*freq = df->min_freq;
if (df->max_freq && *freq > df->max_freq)
*freq = df->max_freq;
}
devfreq_update_stats會執行:df->profile->get_dev_status(df->dev.parent, &df->last_status); 見2.3.4分析
2.3.4 device獲取和設置頻率
static struct devfreq_dev_profile xxx_devfreq_dmc_profile = {
.polling_ms = 200,
.target = xxx_dmcfreq_target,
.get_dev_status = xxx_dmcfreq_get_dev_status,
.get_cur_freq = xxx_dmcfreq_get_cur_freq,
};
xxx_dmcfreq_get_dev_status()獲取當前device負載信息,根據算法,返回調整頻率。
ret = devfreq_event_get_event(dmcfreq->edev, &edata);
if (ret < 0)
return ret;
stat->current_frequency = dmcfreq->rate;
stat->busy_time = edata.load_count;
stat->total_time = edata.total_count;
獲取運行狀態信息,供monitor中devfreq_update_stats()函數使用
update_devfreq中最后會設置頻率xxx_dmcfreq_target() xxx_dmcfreq_target()->clk_set_rate()->dmc_set_rate()->SMC指令 xxx_ddr在dtsi中定義
xxx_ddr: xxx_ddr {
compatible = "xxx-ddr";
method = "smc";
fid = <0x82000008>;
test_cmd = <0x00000000>;
get_channels_cmd = <0x00000001>;
set_cmd = <0x00000010>;
get_cmd = <0x00000011>;
};
執行這個smc指令后返回值為2,是channel的最大值,用于校驗。
注冊完了之后,clk會獲取rate調用dmc_recalc_rate()函數,發送smc命令0x82000008 0x00000011 0 獲取了rate值為4266000 這里利用ATF把這個寄存器設置給封裝了。
3. ATF相關軟件標準流程
為什么操作的動作要放在ATF里面?
- 為了安全,進入安全世界才能操作,普通應用app進不去
- 為了進入AON(Always ON)一直運行的非DDR區域運行,例如SRAM
0x82000008 SMC可以查詢ARM的SMC手冊
可以參考atf中rk的實現,ddr_get_rate()函數 在plat/rockchip/common/rockchip_sip_svc.c中
/* Define a runtime service descriptor for fast SMC calls */
DECLARE_RT_SVC(
rockchip_sip_svc,
OEN_SIP_START,
OEN_SIP_END,
SMC_TYPE_FAST,
NULL,
sip_smc_handler
);
sip_smc_handler--》rockchip_plat_sip_handler--》ddr_smc_handler
uint32_t ddr_smc_handler(uint64_t arg0, uint64_t arg1,
uint64_t id, uint64_t arg2)
{
switch (id) {
case DRAM_SET_RATE:
return ddr_set_rate((uint32_t)arg0);
case DRAM_ROUND_RATE:
return ddr_round_rate((uint32_t)arg0);
case DRAM_GET_RATE:
return ddr_get_rate();
case DRAM_SET_ODT_PD:
dram_set_odt_pd(arg0, arg1, arg2);
break;
default:
break;
}
return 0;
}
這里對于DDR的調頻代碼需要放到AON區域,系統中除了DDR還有SRAM,DDR調頻的代碼不能放到DDR里面,或者使用硬件DMC實現。
DMC調頻 是用軟件來升頻或者降頻,軟件是運行在SOC的system controller上的,常常是Cortex-M CPU,調頻的時候DMC不會阻止CPU transfers,DMC自己有buffer,可以繼續接收,只是不會發給DDR,這些對CPU是透明的,但如果buffer滿了的話,CPU自然就發不了了,調頻之后可能需要ddr calibration,我們也都是通過DMC驅動程序來完成的,只是在做這些操作的時候并不會讓系統停下來。
后記
學習ARMV8,RK也就是rockchip是不錯的板子選擇,還記得以前買過螢火蟲的rk板卡,所有軟硬件資料都很全,還挺不錯的。這里的電源管理也算是驅動,學習驅動還是能有個板子調下,主要區分是32位還是64位,目前的大型SoC基本都是ARMv8的64位,甚至ARMv9了。
-
電源管理
+關注
關注
115文章
6185瀏覽量
144635 -
sram
+關注
關注
6文章
768瀏覽量
114732 -
DDR
+關注
關注
11文章
712瀏覽量
65403
原文標題:電源管理入門-7 DevFreq
文章出處:【微信號:OS與AUTOSAR研究,微信公眾號:OS與AUTOSAR研究】歡迎添加關注!文章轉載請注明出處。
發布評論請先 登錄
相關推薦
評論