Text Mining в управлении инвестициями

Издание Business Insider сообщает о том, что гигантский хедж-фонд, управляющий $35 млрд, превратился в технологическую компанию, использующую передовые методы искусственного интеллекта в своей деятельности. Речь идет о хедж-фонде Two Sigma, внедрившим в свою деятельность автоматизированный способ обработки данных протоколов ФРС.

Исторически считается, что анализ протоколов ФРС — это нетривиальная задача, которой аналитики уделяют значительный объем времени. Цель — найти в протоколах скрытый смысл и попытаться спрогнозировать дальнейшую денежно-кредитную политику ФРС. Однако количественные аналитики Two Sigma научили роботов читать протоколы и переводить их в объективный поток данных. В машинном обучении этот метод получил название текст-майнинга (извлечение новых знаний из текстов).

Статистическая наука перешла к своему четвертому этапу развития — работе с нечисловыми объектами (тексты, изображения, звуки и др.). Три предыдущих этапа — это описательная, параметрическая и непараметрическая статистики. Внедрение новых процедур в работу крупных хедж-фондов позволило повысить их конкурентоспособность в рыночной среде, насыщенной значительным количеством автоматизированных систем. При этом вероятность ошибки в чтении текстовых данных может быть на порядок выше, чем при работе с числами.

Кроме пресс-релизов ФРС, хедж-фонд Two Sigma использует также текст-майнинг для чтения отчетов о финансовых результатах компаний, метеорологические сводки (необходимые для торговли товарными деривативами и акциями сырьевого сектора). Цель состоит в том, чтобы перевести эту информацию в торговые сигналы и отыграть то, что остальная биржевая публика обнаружит позже роботов Two Sigma.

«Большинство инвестиционных менеджеров работают так, как они действовали несколько десятилетий назад», — говорит сооснователь Two Sigma Дэвид Сигел. Алгоритмические системы фонда представляют собой искусственный интеллект, который «представляют собой будущее управления инвестициями».

Two Sigma для того, чтобы мониторить данные 24 часа в сутки, имеет более 100 терафлопс вычислительных мощностей, способных выполнять более 100 трлн операций и 11 петабайт дискового пространства, что в пять раз больше данных, хранящихся во всех библиотеках США.

Источник

Data Scientist # 1

Машинное обучение, большие данные, наука о данных, анализ данных, цифровой маркетинг, искусственный интеллект, нейронные сети, глубокое обучение, data science, data scientist, machine learning, artificial intelligence, big data, deep learning

Данные — новый актив!

Эффективно управлять можно только тем, что можно измерить.
Copyright © 2016-2021 Data Scientist. Все права защищены.