我们的具体方案描述在论文ONCE: Counting the Frequency of Time-constrained Serial Episodes in a Streaming Sequence 。
Command line
Sender.scala文件产生测试数据,
ONCEStreaming.scala 文件使用ONCE算法对数据进行分析。
首先运行Sender.scala产生测试数据拥塞等待socket的链接,启动spark集群,之后运行ONCEStreaming.scala ,socket链接成功后,开始对Sender产生并发送来的信号序列片段进行计数统计。
Data source
_这里测试数据是我们自己随机生成的,使用0到9表示10个不同信号,信号与其到达的时间组成数据对,将每50个数据对做成一个队列封装到RDD中作为测试数据,例如(2,50)表示的是,信号2的到达时间是50,我们将每50个数字对作为一组,装入RDD通过socket发送给接收端,作为测试数据使用。生成数据的代码如下:
你好,我们对ONCE算法比较感兴趣。能否提供论文《ONCE: Counting the Frequency of Time-constrained Serial Episodes in a Streaming Sequence》的下载链接?或者直接附在该issue中。你们发明这个算法的场景是怎样的?解决了哪些实际的问题?
Enhancement
Description
我们提出了ONCE算法,该算法主要处理序列挖掘的问题,当信号依次到达时,该算法可以有效的从动态到达的数据中,计算出带有时间约束的信号序列片段出现的频率,并将该算法应用到Spark Streaming上。我们希望将该算法结合到华为的streamdm上。
Resources
我们的具体方案描述在论文ONCE: Counting the Frequency of Time-constrained Serial Episodes in a Streaming Sequence 。
Command line Sender.scala文件产生测试数据, ONCEStreaming.scala 文件使用ONCE算法对数据进行分析。 首先运行Sender.scala产生测试数据拥塞等待socket的链接,启动spark集群,之后运行ONCEStreaming.scala ,socket链接成功后,开始对Sender产生并发送来的信号序列片段进行计数统计。 Data source _这里测试数据是我们自己随机生成的,使用0到9表示10个不同信号,信号与其到达的时间组成数据对,将每50个数据对做成一个队列封装到RDD中作为测试数据,例如(2,50)表示的是,信号2的到达时间是50,我们将每50个数字对作为一组,装入RDD通过socket发送给接收端,作为测试数据使用。生成数据的代码如下:
` Infrastructure details