multi_factor

介绍

提供多因子处理和组合功能

orthogonalize

jaqs_fxdayu.research.signaldigger.multi_factor.orthogonalize(factors_dict=None,standardize_type="z_score",winsorization=False,index_member=None)

简要描述：

因子间存在较强同质性时，使用施密特正交化方法对因子做正交化处理，用得到的正交化残差作为因子

参数:

字段	必选	类型	说明
factors_dict	是	dict of pandas.DataFrame	若干因子组成的字典(dict),形式为:{"factor_name_1":factor_1,"factor_name_2":factor_2}。每个因子值格式为一个pd.DataFrame，索引(index)为date,column为asset
standardize_type	否	string	标准化方法，有"rank"（排序标准化）,"z_score"(z-score标准化)两种（"rank"/"z_score"），默认为"z_score"
winsorization	否	bool	是否对因子执行去极值操作。默认不执行（False）
index_member	否	pandas.DataFrame of bool	是否是指数成分股。日期为索引,证券品种为columns的二维bool值表格,True代表该品种在该日期下属于指数成分股。传入该参数,则在对因子进行标准化/去极值操作时所纳入的样本只有每期横截面上属于对应指数成分股的股票，默认为空

返回:

正交化处理后所得的一系列新因子。dict of pandas.DataFrame

示例：

import warnings
warnings.filterwarnings('ignore')

from jaqs_fxdayu.data import DataView
from jaqs_fxdayu.research.signaldigger.multi_factor import orthogonalize

# 加载dataview数据集
dv = DataView()
dataview_folder = './data'
dv.load_dataview(dataview_folder)

# 正交化
factors_dict = {signal:dv.get_ts(signal) for signal in ["pb","pe"]}
new_factors = orthogonalize(factors_dict=factors_dict,
                            standardize_type="z_score",
                            winsorization=False,
                            index_member=None)

Dataview loaded successfully.

print(new_factors.keys())
new_factors["pe"].head()

dict_keys(['pb', 'pe'])

symbol	000001.SZ	000002.SZ	000008.SZ	000009.SZ	000027.SZ	000039.SZ	000060.SZ	000061.SZ	000063.SZ	000069.SZ	...	601988.SH	601989.SH	601992.SH	601997.SH	601998.SH	603000.SH	603160.SH	603858.SH	603885.SH	603993.SH
trade_date
20170502	-0.661167	-0.321008	0.137600	0.117712	-0.570730	-0.776328	-0.262312	-0.630645	-0.220092	-0.444949	...	-0.673545	-0.996365	-0.388348	-0.395778	-0.658705	0.429739	3.959548	0.406094	0.197670	0.081429
20170503	-0.657938	-0.326229	0.134788	0.112238	-0.571492	-0.777890	-0.267336	-0.639522	-0.206775	-0.447106	...	-0.671494	-1.002554	-0.425115	-0.389544	-0.657170	0.444861	3.968815	0.413581	0.206661	0.160738
20170504	-0.662247	-0.319974	0.132233	0.112591	-0.570338	-0.779594	-0.277660	-0.641221	-0.204759	-0.444954	...	-0.671135	-1.001230	-0.404384	-0.391661	-0.658434	0.410504	3.948198	0.402080	0.204508	0.137293
20170505	-0.664870	-0.319372	0.097919	0.090680	-0.571798	-0.782509	-0.275168	-0.636404	-0.208189	-0.448794	...	-0.670085	-0.997497	-0.409683	-0.401536	-0.659185	0.395936	3.909582	0.397496	0.228932	0.127569
20170508	-0.665537	-0.328892	0.075998	0.078145	-0.576013	-0.777366	-0.263822	-0.619676	-0.227388	-0.448982	...	-0.667077	-0.982399	-0.452894	-0.410854	-0.656776	0.412096	4.041803	0.375715	0.217575	0.144361

5 rows × 330 columns

get_factors_ic_df

jaqs_fxdayu.research.signaldigger.multi_factor.get_factors_ic_df(*args, **kwargs)

简要描述：

获取多个因子ic值序列矩阵

参数:

字段	必选	类型	说明
factors_dict	是	dict of pandas.DataFrame	若干因子组成的字典(dict),形式为:{"factor_name_1":factor_1,"factor_name_2":factor_2}。每个因子值格式为一个pd.DataFrame，索引(index)为date,column为asset
price	是，price与daily_ret二选一	pandas.DataFrame	因子涉及到的股票的价格数据，用于作为进出场价用于计算收益,日期为索引，股票品种为columns
daily_ret	是，price与daily_ret二选一	pandas.DataFrame	因子涉及到的股票的每日收益，日期为索引，股票品种为columns
benchmark_price	否，benchmark_price与daily_benchmark_ret二选一	pandas.DataFrame or pandas.Series	基准价格，日期为索引。用于计算因子涉及到的股票的持有期相对收益--相对基准。默认为空，为空时计算的收益为绝对收益。
daily_benchmark_ret	否，benchmark_price与daily_benchmark_ret二选一	pandas.DataFrame or pandas.Series	基准日收益，日期为索引。用于计算因子涉及到的股票的持有期相对收益--相对基准。默认为空，为空时计算的收益为绝对收益。
high	否	pandas.DataFrame	因子涉及到的股票的最高价数据,用于计算持有期潜在最大上涨收益,日期为索引，股票品种为columns,默认为空
low	否	pandas.DataFrame	因子涉及到的股票的最低价数据,用于计算持有期潜在最大下跌收益,日期为索引，股票品种为columns,默认为空
group	否	pandas.DataFrame	因子涉及到的股票的分组(行业分类),日期为索引，股票品种为columns,默认为空
period	否	int	持有周期,默认为5,即持有5天
n_quantiles	否	int	根据每日因子值的大小分成n_quantiles组,默认为5,即将因子每天分成5组
mask	否	pandas.DataFrame	一张由bool值组成的表格,日期为索引，股票品种为columns，表示在做因子分析时是否要对某期的某个品种过滤。对应位置为True则过滤（剔除）——不纳入因子分析考虑。默认为空，不执行过滤操作
can_enter	否	pandas.DataFrame	一张由bool值组成的表格,日期为索引，股票品种为columns，表示某期的某个品种是否可以买入(进场)。对应位置为True则可以买入。默认为空，任何时间任何品种均可买入
can_exit	否	pandas.DataFrame	一张由bool值组成的表格,日期为索引，股票品种为columns，表示某期的某个品种是否可以卖出(出场)。对应位置为True则可以卖出。默认为空，任何时间任何品种均可卖出
forward	否	bool	收益对齐方式,forward=True则在当期因子下对齐下一期实现的收益；forward=False则在当期实现收益下对齐上一期的因子值。默认为True
commission	否	float	手续费比例,每次换仓收取的手续费百分比,默认为万分之八0.0008
ret_type	否	string	计算何种收益的ic。目前支持的收益类型有return, upside_ret, downside_ret,分别代表固定调仓收益,潜在最大上涨收益,潜在最大下跌收益。默认为return--固定调仓收益

返回:

ic_df 多个因子ic值序列矩阵类型pd.Dataframe,索引（index）为datetime,columns为各因子名称，与factors_dict中的对应。如：


         BP 　　　     CFP 　　　EP   　　ILLIQUIDITY   REVS20  　　SRMI  　　　VOL20
date
2016-06-24  0.165260    0.002198    0.085632    -0.078074   0.173832    0.214377    0.068445
2016-06-27  0.165537    0.003583    0.063299    -0.048674   0.180890    0.202724    0.081748
2016-06-28  0.135215    0.010403    0.059038    -0.034879   0.111691    0.122554    0.042489
2016-06-29  0.068774    0.019848    0.058476    -0.049971   0.042805    0.053339    0.079592
2016-06-30  0.039431    0.012271    0.037432    -0.027272   0.010902    0.077293    -0.050667

示例：

from jaqs_fxdayu.research.signaldigger.multi_factor import get_factors_ic_df

factor_ic_df = get_factors_ic_df(factors_dict,
                                 price=dv.get_ts("close_adj"),
                                 high=dv.get_ts("high_adj"), # 可为空
                                 low=dv.get_ts("low_adj"),# 可为空
                                 group=dv.get_ts("sw1"), # 可为空
                                 n_quantiles=5,# quantile分类数
                                 period=5,# 持有期
                                 benchmark_price=dv.data_benchmark, # 基准价格 可不传入，持有期收益（return）计算为绝对收益
                                 commission = 0.0008,
                                 ret_type = 'upside_ret' # 计算最大潜在上涨收益的ic 
                                 )
factor_ic_df.dropna(how="all").head()

Nan Data Count (should be zero) : 0;  Percentage of effective data: 99%
Nan Data Count (should be zero) : 0;  Percentage of effective data: 99%

		pb	pe
trade_date	group
20170503	交通运输	0.308566	0.052632
	休闲服务	0.200000	-0.800000
	传媒	0.237878	-0.112633
	公用事业	0.418182	0.572727
	农林牧渔	0.314286	-0.600000

get_factors_ret_df

jaqs_fxdayu.research.signaldigger.multi_factor.get_factors_ret_df(*args, **kwargs)

简要描述：

获取多个因子收益序列矩阵

参数:

字段	必选	类型	说明
factors_dict	是	dict of pandas.DataFrame	若干因子组成的字典(dict),形式为:{"factor_name_1":factor_1,"factor_name_2":factor_2}。每个因子值格式为一个pd.DataFrame，索引(index)为date,column为asset
price	是，price与daily_ret二选一	pandas.DataFrame	因子涉及到的股票的价格数据，用于作为进出场价用于计算收益,日期为索引，股票品种为columns
daily_ret	是，price与daily_ret二选一	pandas.DataFrame	因子涉及到的股票的每日收益，日期为索引，股票品种为columns
benchmark_price	否，benchmark_price与daily_benchmark_ret二选一	pandas.DataFrame or pandas.Series	基准价格，日期为索引。用于计算因子涉及到的股票的持有期相对收益--相对基准。默认为空，为空时计算的收益为绝对收益。
daily_benchmark_ret	否，benchmark_price与daily_benchmark_ret二选一	pandas.DataFrame or pandas.Series	基准日收益，日期为索引。用于计算因子涉及到的股票的持有期相对收益--相对基准。默认为空，为空时计算的收益为绝对收益。
high	否	pandas.DataFrame	因子涉及到的股票的最高价数据,用于计算持有期潜在最大上涨收益,日期为索引，股票品种为columns,默认为空
low	否	pandas.DataFrame	因子涉及到的股票的最低价数据,用于计算持有期潜在最大下跌收益,日期为索引，股票品种为columns,默认为空
group	否	pandas.DataFrame	因子涉及到的股票的分组(行业分类),日期为索引，股票品种为columns,默认为空
period	否	int	持有周期,默认为5,即持有5天
n_quantiles	否	int	根据每日因子值的大小分成n_quantiles组,默认为5,即将因子每天分成5组
mask	否	pandas.DataFrame	一张由bool值组成的表格,日期为索引，股票品种为columns，表示在做因子分析时是否要对某期的某个品种过滤。对应位置为True则过滤（剔除）——不纳入因子分析考虑。默认为空，不执行过滤操作
can_enter	否	pandas.DataFrame	一张由bool值组成的表格,日期为索引，股票品种为columns，表示某期的某个品种是否可以买入(进场)。对应位置为True则可以买入。默认为空，任何时间任何品种均可买入
can_exit	否	pandas.DataFrame	一张由bool值组成的表格,日期为索引，股票品种为columns，表示某期的某个品种是否可以卖出(出场)。对应位置为True则可以卖出。默认为空，任何时间任何品种均可卖出
forward	否	bool	收益对齐方式,forward=True则在当期因子下对齐下一期实现的收益；forward=False则在当期实现收益下对齐上一期的因子值。默认为True
commission	否	float	手续费比例,每次换仓收取的手续费百分比,默认为万分之八0.0008
ret_type	否	string	计算何种收益的ic。目前支持的收益类型有return, upside_ret, downside_ret,分别代表固定调仓收益,潜在最大上涨收益,潜在最大下跌收益。默认为return--固定调仓收益

返回:

ret_df 多个因子收益序列矩阵类型pd.Dataframe,索引（index）为datetime,columns为各因子名称，与factors_dict中的对应。如：


         BP 　　　     CFP 　　　EP   　　ILLIQUIDITY   REVS20  　　SRMI  　　　VOL20
date
2016-06-24  0.165260    0.002198    0.085632    -0.078074   0.173832    0.214377    0.068445
2016-06-27  0.165537    0.003583    0.063299    -0.048674   0.180890    0.202724    0.081748
2016-06-28  0.135215    0.010403    0.059038    -0.034879   0.111691    0.122554    0.042489
2016-06-29  0.068774    0.019848    0.058476    -0.049971   0.042805    0.053339    0.079592
2016-06-30  0.039431    0.012271    0.037432    -0.027272   0.010902    0.077293    -0.050667

示例：

from jaqs_fxdayu.research.signaldigger.multi_factor import get_factors_ret_df

factor_ret_df = get_factors_ret_df(factors_dict,
                                   price=dv.get_ts("close_adj"),
                                   high=dv.get_ts("high_adj"), # 可为空
                                   low=dv.get_ts("low_adj"),# 可为空
                                   group=dv.get_ts("sw1"), # 可为空
                                   quantiles=5,# quantile分类数
                                   period=5,# 持有期
                                   benchmark_price=dv.data_benchmark, # 基准价格 可不传入，持有期收益（return）计算为绝对收益
                                   commission = 0.0008,
                                   ret_type = 'downside_ret' # 计算最大潜在下跌收益的因子收益 
                                 )
factor_ret_df.dropna(how="all").head()

		pb	pe
trade_date	group
20170503	交通运输	-0.013851	-0.000394
	休闲服务	-0.003584	-0.000479
	传媒	0.009575	-0.003602
	公用事业	-0.012407	-0.000983
	农林牧渔	-0.029078	0.000052

combine_factors

jaqs_fxdayu.research.signaldigger.multi_factor.combine_factors(*args, **kwargs)

简要描述：

多因子组合——最终合成一个组合因子

参数:

字段	必选	类型	说明
factors_dict	是	dict of pandas.DataFrame	若干因子组成的字典(dict),形式为:{"factor_name_1":factor_1,"factor_name_2":factor_2}。每个因子值格式为一个pd.DataFrame，索引(index)为date,column为asset
standardize_type	否	string	标准化方法，有"rank"（排序标准化）,"z_score"(z-score标准化)两种（"rank"/"z_score"），默认为"z_score"
winsorization	否	bool	是否对结果执行去极值操作。默认不执行（False）
index_member	否	pandas.DataFrame of bool	是否是指数成分股。日期为索引,证券品种为columns的二维bool值表格,True代表该品种在该日期下属于指数成分股。传入该参数,则在对结果进行标准化/去极值操作时所纳入的样本只有每期横截面上属于对应指数成分股的股票，默认为空
weighted_method	否	string	组合方式，目前支持'equal_weight'(等权合成),'ic_weight'(以某个时间窗口的滚动平均ic为权重), 'ir_weight'(以某个时间窗口的滚动ic_ir为权重), 'max_IR'(最大化上个持有期的ic_ir为目标处理权重)，'max_IC'(最大化上个持有期的ic为目标处理权重),'factors_ret_weight'(以某个时间窗口的滚动因子收益为权重)。默认采取'equal_weight'(等权合成)方式。若此处参数不为'equal_weight，则还需配置接下来的props参数
props	weighted_method不等于'equal_weight'时必须,否则可以缺省	dict	计算加权合成因子时的必要配置信息。具体配置方式见下

props配置参数

字段	缺省值	类型	说明
price	是，price与daily_ret二选一	pandas.DataFrame	因子涉及到的股票的价格数据，用于作为进出场价用于计算收益,日期为索引，股票品种为columns
daily_ret	是，price与daily_ret二选一	pandas.DataFrame	因子涉及到的股票的每日收益，日期为索引，股票品种为columns
benchmark_price	否，benchmark_price与daily_benchmark_ret二选一	pandas.DataFrame or pandas.Series	基准价格，日期为索引。用于计算因子涉及到的股票的持有期相对收益--相对基准。默认为空，为空时计算的收益为绝对收益。
daily_benchmark_ret	否，benchmark_price与daily_benchmark_ret二选一	pandas.DataFrame or pandas.Series	基准日收益，日期为索引。用于计算因子涉及到的股票的持有期相对收益--相对基准。默认为空，为空时计算的收益为绝对收益。
high	否	pandas.DataFrame	因子涉及到的股票的最高价数据,用于计算持有期潜在最大上涨收益,日期为索引，股票品种为columns,默认为空
low	否	pandas.DataFrame	因子涉及到的股票的最低价数据,用于计算持有期潜在最大下跌收益,日期为索引，股票品种为columns,默认为空
ret_type	否	string	计算何种收益的ic。目前支持的收益类型有return, upside_ret, downside_ret,分别代表固定调仓收益,潜在最大上涨收益,潜在最大下跌收益。默认为return--固定调仓收益
period	否	int	持有周期,默认为5,即持有5天
n_quantiles	否	int	根据每日因子值的大小分成n_quantiles组,默认为5,即将因子每天分成5组
mask	否	pandas.DataFrame	一张由bool值组成的表格,日期为索引，股票品种为columns，表示在做因子分析时是否要对某期的某个品种过滤。对应位置为True则过滤（剔除）——不纳入因子分析考虑。默认为空，不执行过滤操作
can_enter	否	pandas.DataFrame	一张由bool值组成的表格,日期为索引，股票品种为columns，表示某期的某个品种是否可以买入(进场)。对应位置为True则可以买入。默认为空，任何时间任何品种均可买入
can_exit	否	pandas.DataFrame	一张由bool值组成的表格,日期为索引，股票品种为columns，表示某期的某个品种是否可以卖出(出场)。对应位置为True则可以卖出。默认为空，任何时间任何品种均可卖出
forward	否	bool	收益对齐方式,forward=True则在当期因子下对齐下一期实现的收益；forward=False则在当期实现收益下对齐上一期的因子值。默认为True
commission	否	float	手续费比例,每次换仓收取的手续费百分比,默认为万分之八0.0008
covariance_type	否	string	估算协方差矩阵的方法。有'simple'（普通协方差矩阵估算），'shrink'（压缩协方差矩阵估算）两种。默认为'simple'
rollback_period	否	int	滚动窗口天数。默认为120天

返回:

合成后的新因子

示例：

from jaqs_fxdayu.research.signaldigger.multi_factor import combine_factors

props = {
    'price':dv.get_ts("close_adj"),
    'high':dv.get_ts("high_adj"), # 可为空
    'low':dv.get_ts("low_adj"),# 可为空
    'ret_type': 'return',#可选参数还有upside_ret/downside_ret 则组合因子将以优化潜在上行、下行空间为目标
    'daily_benchmark_ret': dv.data_benchmark.pct_change(1),  # 为空计算的是绝对收益　不为空计算相对收益
    'period': 30, # 30天的持有期
    'forward': True,
    'commission': 0.0008,
    "covariance_type": "shrink",  # 协方差矩阵估算方法 还可以为"simple"
    "rollback_period": 30}  # 滚动窗口天数

comb_factor = combine_factors(factors_dict,
                              standardize_type="z_score",
                              winsorization=False,
                              weighted_method="ic_weight",
                              props=props)


comb_factor.dropna(how="all").head()

Nan Data Count (should be zero) : 0;  Percentage of effective data: 99%
Nan Data Count (should be zero) : 0;  Percentage of effective data: 99%

symbol	000001.SZ	000002.SZ	000008.SZ	000009.SZ	000027.SZ	000039.SZ	000060.SZ	000061.SZ	000063.SZ	000069.SZ	...	601988.SH	601989.SH	601992.SH	601997.SH	601998.SH	603000.SH	603160.SH	603858.SH	603885.SH	603993.SH
trade_date
20170726	1.777932	0.919536	-0.807974	-1.249868	1.221546	-0.453661	-1.012164	-1.202203	0.745612	1.294838	...	1.873679	-0.606958	0.822860	1.363824	1.819174	-1.559370	-1.496059	-0.308391	0.110494	-1.406211
20170727	1.789675	0.921333	-0.770788	-1.240962	1.232906	-0.427585	-0.931221	-1.178000	1.022124	1.274817	...	1.873890	-0.579308	0.817697	1.354356	1.825470	-1.581904	-1.512148	-0.348058	0.081561	-1.364542
20170728	1.781449	0.853104	-0.752057	-1.257739	1.260455	-0.383558	-0.931522	-1.159573	0.933568	1.250720	...	1.877950	-0.520732	0.858098	1.352325	1.823944	-1.560053	-1.525730	-0.373445	0.057556	-1.363146
20170731	1.787901	0.855996	-0.738105	-1.280330	1.280363	-0.356675	-0.958028	-1.126765	0.909647	1.247865	...	1.871937	-0.441376	0.885835	1.361503	1.831151	-1.541315	-1.548003	-0.392538	0.040312	-1.348098
20170801	1.773030	0.840944	-0.737895	-1.237729	1.312784	-0.297223	-0.869217	-1.074826	0.883651	1.237696	...	1.875752	-0.397516	0.756331	1.344476	1.829015	-1.527066	-1.554451	-0.398535	0.025989	-1.326178

5 rows × 330 columns