LUCIDA:如何利用多因子策略构建强大的加密资产投资组合(因子合成篇)

Odaily星球日报Опубликовано 2024-02-06Обновлено 2024-02-06

Введение

本篇根据大类对因子的相关性进行检验,依据检验结果对因子做了舍弃或合成处理。

书接上回,关于《用多因子模型构建强大的加密资产投资组合》系列文章中,我们已经发布了三篇:《理论基础篇》《数据预处理篇》《因子有效性检验篇》

前三篇分别解释了多因子策略的理论与单因子测试的步骤。

一、因子相关性检验的原因:多重共线性

我们通过单因子测试部分筛选出一批有效因子,但以上因子不能直接入库。因子本身可以根据具体的经济含义进行大类划分,同类型的因子间存在较强的相关性,若不经相关性筛选直接入库,根据不同因子进行多元线性回归求预期收益率时,会出现多重共线性问题。计量经济学中,多重共线性是指回归模型中的一些或全部解释变量存在“完全”或准确的线性关系(各变量间高度相关)。

因此,有效因子筛选出后,首先需要根据大类对因子的相关性进行 T 检验,对于相关性较高的因子,要么舍弃显著性较低的因子,要么进行因子合成。

多重共线性的数学解释如下:

LUCIDA:如何利用多因子策略构建强大的加密资产投资组合(因子合成篇)

会存在两种情况:

LUCIDA:如何利用多因子策略构建强大的加密资产投资组合(因子合成篇)

多重共线性导致的后果:

1.完全共线性下参数估计量不存在

2.近似共线性下 OLS 估计量非有效

LUCIDA:如何利用多因子策略构建强大的加密资产投资组合(因子合成篇)

LUCIDA:如何利用多因子策略构建强大的加密资产投资组合(因子合成篇)

3.参数估计量经济含义不合理

4.变量的显著性检验(t 检验)失去意义

5.模型的预测功能失效:通过多元线性模型拟合出的预测收益率极其不准确,模型失效。

二、步骤一:同类型因子的相关性检验

检验新求出的因子与已入库因子的相关性。通常来说,有两类数据求相关性:

1.根据所有 token 在回测期间的因子值求相关

2.根据所有 token 在回测期间的因子超额收益值求相关

LUCIDA:如何利用多因子策略构建强大的加密资产投资组合(因子合成篇)

我们所求的每个因子对 token 的收益率都有一定的贡献和解释能力。进行相关性检验**,是为了找到对策略收益有不同解释和贡献的因子,策略的最终目的是收益**。如果两个因子对收益的刻画是相同的,即使两个因子值存在很大差别也无意义。因此,我们并不是想找到因子值本身差异大的因子,而是想找到因子对收益刻画不同的因子,所以最终选择了用因子超额收益值求相关。

我们的策略是日频,所以按回测区间的日期计算因子超额收益之间的相关系数矩阵

LUCIDA:如何利用多因子策略构建强大的加密资产投资组合(因子合成篇)

编程求解与库内相关最高的前 n 个因子:

def get_n_max_corr(self, factors, n= 1):
       factors_excess = self.get_excess_returns(factors)
       save_factor_excess = self.get_excess_return(self.factor_value, self.start_date, self.end_date)
       if len(factors_excess) < 1:
           return factor_excess, 1.0, None
       factors_excess[self.factor_name] = factor_excess['excess_return']
       factors_excess = pd.concat(factors_excess, axis= 1)
       factors_excess.columns = factors_excess.columns.levels[ 0 ]
       # get corr matrix
       factor_corr = factors_excess.corr()
       factor_corr_df = factor_corr.abs().loc[self.factor_name]
       max_corr_score = factor_corr_df.sort_values(ascending=False).iloc[ 1:].head(n)
       
       return save_factor_excess, factor_corr_df, max_corr_score

三、步骤二:因子取舍、因子合成

对于相关性较高的因子集合,可以采取两种方式处理:

(1)因子取舍

根据因子本身的 ICIR 值、收益率、换手率、Sharpe 比率,挑选某维度下最有效的因子进行保留,删除其他因子。

(2)因子合成

对因子集合中的因子进行合成,截面上尽可能多的保留有效信息

LUCIDA:如何利用多因子策略构建强大的加密资产投资组合(因子合成篇)

假设当前有 3 个待处理的因子矩阵:

LUCIDA:如何利用多因子策略构建强大的加密资产投资组合(因子合成篇)

2.1 等权加权

各因子权重相等(w= 1/因子个数),综合因子=各因子值加总求平均。

Eg.动量类因子,一个月收益率、两个月收益率、三个月收益率、六个月收益率、十二个月收益率,这六个因子的因子载荷各占 1/6 的权重,合成新的动量因子载荷,然后再重新进行标准化处理。

synthesis 1 = synthesis.mean(axis= 1) # 按行求均值

2.2 历史 IC 加权、历史 ICIR、历史收益加权

用回测期的 IC 值(ICIR 值、历史收益值)对因子进行加权。过去有很多期,每一期都有一个 IC 值,所以用它们的均值作为因子的权重。通常使用回测期 IC 的均值(算数平均值)作为权重。

LUCIDA:如何利用多因子策略构建强大的加密资产投资组合(因子合成篇)

2.3 历史 IC 半衰加权、历史 ICIR 半衰加权

2.1 与 2.2 都是计算算数平均值,回测期的每一次 IC、ICIR 对于因子的作用被默认为相同。

但现实中,回测期的每一期对于当期的影响程度不完全相同,存在时间上的衰减。越接近当前期的时期,影响越大,越远影响越小。在此原理,求 IC 权重前首先定义一个半衰权重,距离当期越近的权重值越大、越远权重越小。

半衰权重数学推导:

LUCIDA:如何利用多因子策略构建强大的加密资产投资组合(因子合成篇)

LUCIDA:如何利用多因子策略构建强大的加密资产投资组合(因子合成篇)

2.4 最大化 ICIR 加权

通过求解方程,计算最优因子权重 w 使得 ICIR 最大化

LUCIDA:如何利用多因子策略构建强大的加密资产投资组合(因子合成篇)

协方差矩阵的估计问题:协方差矩阵用于衡量不同资产之间的关联性。统计学中常以样本协方差矩阵代替总体协方差矩阵,但在样本量不足时,样本协方差矩阵与总体协方差矩阵的差异会很大。所以有人提出了压缩估计的方法,原理是使估计协方差矩阵与实际协方差矩阵之间的均方误差最小

方式:

1.样本协方差矩阵

LUCIDA:如何利用多因子策略构建强大的加密资产投资组合(因子合成篇)

2.Ledoit-Wolf 收缩:引入一个缩小系数,将原始的协方差矩阵与单位矩阵进行混合,以减少噪音的影响。

LUCIDA:如何利用多因子策略构建强大的加密资产投资组合(因子合成篇)

3.Oracle 近似收缩:对 Ledoit-Wolf 收缩的改进,目标是通过对协方差矩阵进行调整,从而在样本大小较小的情况下更准确地估计真实的协方差矩阵。(编程实现与 Ledoit-Wolf 收缩同理)

2.5 主成分分析 PCA

主成分分析(Principal Component Analysis,PCA)是一种用于降维和提取数据主要特征的统计方法。其目标是通过线性变换,将原始数据映射到一个新的坐标系,使得数据在新坐标系下的方差最大化。

具体而言,PCA 首先找到数据中的主成分,也就是数据中方差最大的方向。然后,它找到与第一个主成分正交(无关)且具有最大方差的第二个主成分。这个过程一直重复,直到找到数据中所有的主成分。

LUCIDA:如何利用多因子策略构建强大的加密资产投资组合(因子合成篇)

Похожее

Обратный отсчет до GPT-5.6: Прощай с иллюзией единого API, итерации вычислительной мощности не сравнятся с одним согласованием

В середине июня 2026 года ряд событий, включая ограничения для модели Fable 5, открытый исходный код GLM-5.2 и утечку информации о GPT-5.6, указывают на переломный момент в индустрии ИИ. Логика развития отрасли претерпевает существенные изменения: во-первых, «пригодность к использованию» становится важнее «передовых технологий», формируется «двухколейная» система сосуществования контролируемых закрытых и локальных открытых моделей; во-вторых, конкуренция смещается от «языкового интеллекта» к «пространственному интеллекту (моделям мира)», требующему огромных вычислительных мощностей; в-третьих, «независимость от модели» становится критически важной для разработчиков приложений для обеспечения непрерывности бизнеса в условиях транснациональных регуляторных рисков. Инцидент с Fable 5 (Anthropic), доступ к которой для неамериканских пользователей был ограничен через 72 часа после запуска, демонстрирует, что технологическое лидерство может быть ограничено нормативными требованиями. В ответ открытое сообщество, как показывает выпуск GLM-5.2 с лицензией MIT, предлагает стабильные, экономичные и локально развертываемые альтернативы, сокращающие затраты и снижающие зависимость. В свою очередь, OpenAI, судя по утечкам, фокусирует GPT-5.6 на развитии «пространственного интеллекта» и «моделей мира», пытаясь создать новое технологическое преимущество в областях, требующих высокой вычислительной мощности, таких как 3D-моделирование и робототехника. Ключевой вывод: в новой эре оценивать инфраструктуру ИИ необходимо не только по техническим показателям, но и по устойчивости к нормативным требованиям. Для разработчиков жизненно важно создавать архитектуры, не зависящие от конкретной модели, чтобы обеспечить быстрый переход между поставщиками и поддержание непрерывности бизнеса.

marsbit1 ч. назад

Обратный отсчет до GPT-5.6: Прощай с иллюзией единого API, итерации вычислительной мощности не сравнятся с одним согласованием

marsbit1 ч. назад

Закончится ли скоро «битва субсидий на токены» между ИИ-гигантами?

Токены ИИ, используемые в подписках, на самом деле сильно субсидируются: в дорогих тарифах стоимость потреблённых токенов может в 70 раз превышать абонентскую плату. Основные игроки, такие как OpenAI и Anthropic, активно привлекают инвестиции и готовятся к IPO, но их бизнес-модель сталкивается с фундаментальной проблемой — отсутствием «эффекта привязки» (lock-in) пользователей. В отличие от интернет-сервисов, таких как такси или доставка еды, токены легко заменяемы, и пользователи могут быстро переключиться на более дешёвый аналог. Билл Марис, основатель Google Ventures, отмечает, что Google, обладая огромной прибылью от рекламы, может снизить цену токенов на 80%, оказывая давление на конкурентов, которые зависят от внешнего финансирования. Это делает ценовую войну не средством достижения монополии, а скорее бесконечной «игрой на выживание», где цель — остаться за игровым столом. Вероятный сценарий — превращение токенов в стандартизированную инфраструктуру, подобную электричеству или интернет-трафику, где цены стремятся к себестоимости, а прибыль становится минимальной. Это означает, что эпоха крупных субсидий может продлиться, и пользователи продолжат получать мощные ИИ-сервисы по относительно низкой цене, но сами компании-разработчики вряд ли достигнут сверхвысокой прибыльности в долгосрочной перспективе.

marsbit1 ч. назад

Закончится ли скоро «битва субсидий на токены» между ИИ-гигантами?

marsbit1 ч. назад

За пределами поля: Игра на прибыль вокруг чемпионата мира

**За пределами поля: Игры на прибыль вокруг Чемпионата мира по футболу 2026** Чемпионат мира — это не только фестиваль для фанатов, но и глобальное окно для спекуляций. Турнир концентрирует внимание, эмоции и капитал, создавая целую экосистему для азартных игр. Основные сферы: 1. **Прогнозные рынки (Polymarket, Kalshi):** Набирают популярность, опережая традиционные букмекеров. Торговля контрактами на исходы событий привлекла миллиарды долларов, порождая истории о крупных выигрышах и потерях. 2. **Традиционные спортивные ставки:** Остаются основой с ожидаемым оборотом свыше $500 млрд. В США ставки на футбол временно становятся ключевым видом спорта для букмекерских платформ. 3. **Акции ("концептуальные акции"):** Котировки компаний, связанных с потреблением (например, корейские сети фастфуда, японские бренды), резко колеблются в зависимости от успехов национальных сборных, отражая настроения фанатов. 4. **Перепродажа билетов:** Рынок билетов превратился в арену для спекуляций. Цены на вторичном рынке сильно зависят от команд, матчей и локаций. Появились даже схемы продажи "права на покупку" билетов (FIFA RTB) и "короткие" продажи без наличия билета. 5. **Коллекционные предметы и мерч:** Ограниченные серии товаров (например, тематические футболки Нью-Йорка) и классические коллекционные предметы (наклейки Panini) становятся объектами перепродажи с высокой наценкой. Распространена и продажа поддельной атрибутики. 6. **Криптовалюты:** Волна мем-токенов на тему ЧМ на блокчейне Solana привлекла спекулянтов, но большинство проектов не имеют реальной ценности и являются схемами "накачки и сброса", ведущими к большим потерям. 7. **Информационные услуги:** Зарабатывают на потребности в данных для спекуляций. Примеры: сайты для отслеживания динамики цен на билеты (SeatSidekick) и платные Telegram-каналы с прогнозами на ставки. Итог: Пока на поле разыгрываются матчи, за его пределами разворачивается масштабная финансовая игра, где истинными победителями часто становятся не те, кто угадал счет, а те, кто вовремя понял, куда направляются внимание и деньги миллионов.

marsbit2 ч. назад

За пределами поля: Игра на прибыль вокруг чемпионата мира

marsbit2 ч. назад

Заявление о фонде Hyperliquid ETF привлекает внимание, поскольку нарратив HYPE набирает обороты на X

Сводка (на русском): Сообщение в X от AlphaOnChain от 20 июня 2026 года привлекло внимание к теме ETF на Hyperliquid (HYPE). В посте утверждается, что три ETF на HYPE, запущенные в мае 2026 года, уже аккумулировали совместные активы на сумму 158 миллионов долларов США. Согласно данным, крупнейшими продуктами являются ETF Bitwise HYPE (88 млн долларов) и 21Shares HYPE ETF (66 млн долларов). Этот слух подчеркивает растущий интерес рынка к альткойн-нарративу HYPE. Hyperliquid известен своей экосистемой, ориентированной на децентрализованную торговлю perpetual-контрактами и инфраструктуру бирж. Возможный приток средств в ETF-продукты может указывать на то, что институциональный и розничный спрос начинает смещаться за пределы биткойна и Ethereum в сторону более рискованных активов. Ключевая оговорка статьи заключается в необходимости проверки данных. Поскольку информация исходит из социальных сетей, а не из официальных заявлений эмитентов или данных фондов, к цифрам следует относиться с осторожностью. Публикация скорее отражает растущее внимание к нарративу Hyperliquid, а не является подтвержденным фактом. Для трейдеров важно это различие: краткосрочные движения могут быть вызваны ажиотажем в соцсетях, но устойчивый рост, как правило, требует подтвержденного спроса, ликвидности и развития экосистемы.

bitcoinist3 ч. назад

Заявление о фонде Hyperliquid ETF привлекает внимание, поскольку нарратив HYPE набирает обороты на X

bitcoinist3 ч. назад

Как Codex использует компьютер? Три подхода и границы доступа

Статья объясняет три способа, которыми Codex взаимодействует с компьютером: Computer Use, расширение для Chrome и встроенный браузер. Каждый предназначен для разных задач и уровней доступа. **Computer Use** — самый широкий по охвату. Он позволяет Codex видеть и управлять графическим интерфейсом macOS/Windows, работать с нативными приложениями, системными настройками и даже iOS-симулятором. Это решение для задач без API, но оно медленнее и требует самого высокого уровня доверия. **Расширение для Chrome** дает доступ к уже авторизованным сессиям, кукам и вкладкам браузера. Идеально для работы с Gmail, LinkedIn, Salesforce, внутренними панелями или исследований, требующих входа в аккаунт. Оно работает в контексте вашего браузера. **Встроенный браузер** изолирован, не использует ваши логины и cookies. Он идеален для разработки и отладки: работы с локальным сервером, проверки верстки, визуальных багов и оставления дизайн-комментариев прямо на странице. **Appshots** — не четвертый способ управления, а инструмент для указания контекста (например, скриншот окна), чтобы Codex понял, о чем речь, без предоставления прав на управление. **Ключевой принцип:** выбирать самый узкий и безопасный способ для задачи. Использовать плагины или MCP, если возможно. Для веб-разработки — встроенный браузер. Для задач, требующих авторизации — Chrome. Computer Use — это "последняя миля" для задач, где недоступны структурированные инструменты.

marsbit3 ч. назад

Как Codex использует компьютер? Три подхода и границы доступа

marsbit3 ч. назад

Торговля

Спот
Фьючерсы
活动图片