Hawkes过程

发布日期: 2023-08-28

[TOC]

Introduce

Hawkes过程是一种自激励点过程，用于对事件序列建模和分析。它的核心概念包括以下几个要素：

强度函数（Intensity function）：强度函数 λ(t) 是Hawkes过程中的关键和核心概念之一。它描述了事件发生的速率或密度，并根据历史事件的发生情况推断未来事件的发生概率。强度函数可以根据时间的变化进行建模，根据历史事件的发生情况对未来事件的发生进行建模，表达事件之间的相互影响。

强度函数通常表示为 λ(t)，其中 t 表示时间。它是一个关于时间的非负函数，用于衡量在给定时间 t 下事件发生的强度。强度函数的大小表示相应时间点上事件发生的可能性或密度，即在该时刻触发事件的概率。它决定了事件之间的相互激励关系以及事件发生的模式。通过对强度函数的建模，我们可以探索事件序列中的集群现象、自激励特性以及事件间的传播效应。
基线强度（Baseline intensity）：基线强度表示在没有任何事件触发的情况下，事件发生的基础速率。它通常是一个常数或随时间变化的函数，用于描述系统的固有活动水平。
冲击函数（Impulse response function）：当某个事件发生时，它可能对后续事件的发生产生影响。冲击函数衡量了这种事件触发的影响程度。通过对冲击函数的建模，可以揭示事件之间的激励传播、相互作用以及可能出现的集群效应。
存在性函数（Existence function）：存在性函数表示在给定时间段内事件的存在与否。它与强度函数之间存在一种关系，决定了事件在时间轴上的出现时刻。

这些概念共同构成了Hawkes过程的核心，通过对它们的建模和参数估计，可以分析事件序列中的动态特性、相互影响关系以及事件的发生模式。Hawkes过程在金融、社交网络、地震等领域有广泛应用，可以揭示事件之间的相关性和传播机制，具有重要的研究和实际价值。

为了对相关事件序列进行建模，Hawkes (1971) 提出了一个自激点过程，现在被称为霍克斯过程。Hawkes过程假设过去的事件对未来事件的可能性有激励效应，这种激励随时间呈指数衰减。该模型在某些领域很有用，例如建模地震（Ogata，1998）。

然而，它无法捕获一些真实世界的模式，其中不同类型的过去事件可能对未来的事件有抑制作用，即滑板购买可能会抑制自行车购买。为了解决这个限制，神经 Hawkes 过程使用具有连续状态空间的循环神经网络概括了 Hawkes 过程，使得过去的事件可以以复杂和现实的方式激发和抑制未来的事件。

然而，神经霍克斯过程只能用少量事件类型对事件序列进行建模，无法准确捕捉大规模时间关系数据中的相互影响。

Graph Hawkes Network (GHN)

我们连续对 tKG 中的离散事件进行建模，我们连续对 tKG 中的离散事件进行建模，分析了以前的问题评估指标，并提出了一种新的时间知识图链接预测排名度量

Hawkes过程是一个随机过程，用于对连续时间中发生的顺序异步离散事件进行建模，其中异步意味着连续事件之间的时间间隔可能不相同

Hawkes 过程假设过去的事件可以暂时激发未来的事件，其特征在于定义如下的强度函数：

强度函数 λk(t) 表示单位长度区间内类型 k 的预期事件数。

其中μk≥0是事件类型k的时间无关基强度(基线强度（Baseline intensity）

一个是瞬间激发类型强度，也就是冲击函数（当某个事件发生时，它可能对后续事件的发生产生影响。冲击函数衡量了这种事件触发的影响程度。通过对冲击函数的建模，可以揭示事件之间的激励传播、相互作用以及可能出现的集群效应。），一个是激发的衰减率

强度函数积分以及没有事件从tL到ti的概率其中 tL 表示事件的最新发生时间，而不考虑其事件类型。

Model

受到ReNet的启发，我们进行了相似的工作。

首先是我们给定了一个query（s,r,?,t）我们用来预测实体 o ，

我们用 e来代表嵌入的关系，用i来代表哪一个是谁，时间t 不用说那么我们的思路就是找到相关的事件的集合在一起，也就肯定是过去的历史事件，还有和他相关的实体和关系，即我们根据我们要的定义规定了一个集合用来代表此时刻之前的相对应相关的实体关系的集合也就是全相关论文中的解释是：（为了捕捉与查询具有不同主题实体或谓词的其他过去事件的影响，我们对出现在不同查询中的实体使用共享潜在表示。对于训练集中的每个观察到的事件，事件中涉及的两个实体将信息从一个实体的邻域传播到另一个实体。）

我们定义了一个相关的历史事件序列用于在给定实体预测查询的情况下预测缺失的主题实体（?,r,o,t）也就是说这次的概率事件为对于时间预测任务，我们假设三元组 (esi , epi , eoi ) 的下一次出现时间主要取决于过去包含 (esi , epi ) 或 (eoi , epi ) 的事件。这给出了给定查询 (esi , epi , eoi , 的时间戳 t 处的条件概率密度函数。) 和过去的 i-1 个图，具有以下形式：

聚合部分

该模块采用 Otj (esi , epi) 中对象实体的嵌入向量的元素均值：来表示相邻对象的实体。

The Graph Hawkes Process

我们将时间建模为随机变量，并在TKGs上部署 Hawkes 过程以捕获底层动态并将其命名为 Graph Hawkes 过程。与具有参数形式的经典 Hawkes 过程相比，我们使用循环神经网络来估计图 Hawkes 过程的强度函数。传统上，循环神经网络用于将序列与均匀间隔的间隔同步。

我们使用具有显式时间依赖性隐藏状态的连续时间 LSTM，其中隐藏状态在每次事件发生时立即更新，并且还随着两个相邻事件之间的时间间隔而不断演变。

根据我们的意图我们构建相应的强度函数其中 esi , epi , eo ∈ Rr (r 表示嵌入的秩) 是事件 ei 的主体 esi 、谓词 epi 和对象 eoi 的嵌入向量，

h(eo, esi , epi , ti, eh,sp i ) （里面的元素可以为正负）∈ Rd (d 表示隐藏维度的数量) 表示连续时间循环神经网络的隐藏状态，它以 eh,sp i 作为输入并总结相关历史事件序列中的信息，⊕ 表示连接算子。

我们将主题实体嵌入和谓词嵌入与隐藏状态向量连接起来，让模型从主谓对中捕获重要信息，因为它是我们可以从对象预测查询 (esi , epi ,., ti)。

Wλ ∈ R(2r+d)×r 是线性层的权重矩阵，用于将连接的维度从 2r + d 转换为 r，以便我们可以在它与对象候选 eo 的嵌入之间进行点积，以便网络可以捕获主题 esi 和对象候选 eo 的兼容性，考虑它们的先前交互。

这解释了实体倾向于与其他具有相似近期行动和目标的实体形成关系的行为

当事件发生时，强度向量 λ的所有元素都应该在所有时间戳上严格为正。因此我们需要一个激活函数 f (x)，以便强度向量的每个元素可以满足我们的要求。

那么就是softplus 函数然后其输出值严格为正，并将 ReLU 函数作为输入 x 远离零。为了确保接近于零的输出值也类似于 ReLU 函数的输出，Mei 引入了尺度参数来控制函数的曲率并定义了一个softplus函数：相似的我们进行定义

LSTM

在时间戳 tm 中，我们将输入 km 输入到网络中并更新门函数和内存单元。

为了捕获历史事件序列中的累积知识，输入 km 将基于 Otm (esi , epi ) 的邻域聚合与相应的主题实体 esi 和谓词 epi 的嵌入向量连接起来作为连续时间 LSTM 的输入。

对每个状态和门函数进行离散更新

更新不依赖于最后一次更新 h(tm-1) 的隐藏状态，而是依赖于时间戳 tm 处的值 h(tm)。

等式25使得单元函数 c(t) 在 LSTM 的每个更新处瞬间跳转到初始单元状态 cm+1，然后不断向目标单元状态 -cm+1 漂移，这反过来控制隐藏状态向量和强度函数。

因此，在两个更新时间戳(tm, tm+1]之间，c(t)遵循指数曲线来处理目标单元状态。

等式 26 描述了 c(t) 如何在离散时间 LSTM 模型中控制类似于 hm 的隐藏状态向量 h(eo, esi , epi , t, eh,sp)，该模型从过去的事件序列中提取相关信息隐藏状态 h(eo, esi , epi , ti, eh,sp i ) 反映了系统在延时时对特定三元组变化下一次出现的期望，并对给定时间知识图中的结构和时间相干性进行建模。隐藏状态 h(eo, esi , epi , ti, eh,sp i ) 总结了查询中涉及的主题实体 esi 的历史信息及其过去创建的边。此信息用于计算主体实体 i和缺失对象实体候选者的兼容性。同样，这解释了实体倾向于与其他具有相似最近交互的实体形成边的行为。

因此，这种循环架构能够使用历史信息对给定时间知识图的复杂非线性和演化动力学进行建模。

图霍克斯网络架构的可视化。在这里，我们专注于一个特定的训练四元组 (esi , epi , eoi , ti)，其中 esi , epi 和 eoi 的嵌入分别表示为绿色节点、蓝色节点和青色节点。h(t) 代表 cLSTM 中的隐藏向量。f是缩放的软加函数，其中 f (x) = ψ log(1 + exp(x/ψ))。Graph Hawkes Network 使用邻域聚合和图 Hawkes 过程来总结 Ot 中主题实体 esi 和对象实体之间的交互，以及对象实体 eoi 与 St 中不同时间戳的主题实体之间的交互，并推导出四元组的强度函数预测任务。

链接预测

tL是指最近的时间戳在给定的观察窗口中惩罚这些事件的不存在，我们看到所有对象候选共享相同的生存项 λsurv (esi , epi , t) 和 tL 的相同值

因此，我们可以直接比较它们的强度函数 λ(eo|esi , epi , ti, eh,sp i )，以避免计算成本高的积分计算。然后，我们按照这个密度的降序对所有候选者进行排序，以对对象位置的正确实体进行排名。即出现的概率最大化

时间预测

对于时间预测任务，给定一个事件 (esi , epi , eoi )，我们的目标是根据观察到的事件预测其下一个发生时间的期望值。由于我们对涉及的主题实体和对象实体有完整的信息，我们可以利用 eh,sp i 和 eh,op i。因此，未来时间发生事件类型 (esi , epi , eoi ) 的强度定义如下：通常，Hawkes 过程预测下一个事件何时不会发生，而不考虑事件类型。相比之下，我们在这里的任务是预测给定事件类型的下一个发生时间（esi , epi , eoi ）。因此，我们将其视为具有单一事件类型1的Hawkes过程。这给出了相应的条件密度函数: 则下一个事件时间的期望由下式计算前面的方程中的积分可以通过蒙特卡罗抽样来估计

参数学习

由于链接预测可以看作是一个多类分类任务，其中每个类对应一个实体候选，我们使用交叉熵损失来学习链接预测：其中 Lsp 链接是给定查询的对象预测损失 (esi , epi ,., ti) 和 Lop 链接是给定查询 (?, epi , eoi , ti) 的主题预测损失，yc 是类标签是否为二元指标c 是预测 eoi 和 esi 的正确分类。此外，由于时间戳不是离散标签，我们使用均方误差作为时间预测损失：