用循环神经网络施行文件无缺压缩:斯坦福大学提出DeepZip

  参与:李泽南、黄小天   机器之心编译   笔者:KedarTatwawadi   选自斯坦福大学      原题目:用循环神经网络施行文件无缺压缩:斯坦福大学提出DeepZip 。新类型的数据,譬如基因组数据[1]、3D-360度VR数据、半自动驾驶点云数据已经出现。在克劳德·香农的一个经典研讨中,这位前驱者指出,熵率是给定数据源可能达到的最佳压缩比,同时也给出了一种实行办法(尽管不甚实际)。      正在施行的大数据变法让我们收集了大量不一样类型的数据,如图像、文本和音频等;新类型的数据如3DVR数据、用于半自动驾驶的点云数据、不一样类型的基因组数据等,占领着巨量的存储空间。最终,该范围被编码,由此形成了压缩数据。如此一来,能否使役基于RNN的框架来用于压缩任务?在斯坦福大学的一份研讨中,研讨成员考求了使役基于RNN的语言板型及算学编码来提高无缺压缩的性能。在给定几率评估的情况下,解码操作则相反。      近50年来,无缺压缩技术已经历了众多关紧的进展。      论文地址:https://web.stanford.edu/class/cs224n/reports/2761006.pdf         论文:DeepZip:LosslessCompressionusingRecurrentNetworks      图8:包含128个单元的DeepZip板型在实际数据集上的表现         图7:包含128个单元的DeepZip板型与GZIP[15]、适应性算学编码-CABAC的表现对比            图6:包含128个单元的DeepZip-ChGRU板型在马克ov-k源上的表现         图5:包含128个单元的DeepZip-ChRNN板型在马克ov-k源上的表现            3合成数据集上的实验         继续研讨成员商议了不一样板型在上述数据集上的一点有趣实验。               压缩器DeepZip包含两个主要板块:基于RNN的几率评估器和算学编码板块。我们由信息论得知,好的压缩器来自好的预测器[2]。大量黾勉用在了剖析以上数据的计数学信息,以设计好的压缩器。故此,人们对于计数板型和得用于各种数据款式的高效压缩办法有着巨大的需要。继续我们深化到合成及真实文本和基因组数据集的实验结果。算学编码操作如图2所示。我们都晓得基于循环神经网络(LSTM/GRU)的板型善于捕捉长期倚赖关系,同时可以较正确地预测下一个字母/单词。此外,研讨成员也考量过基于书契的板型(Attention-RWA板型)。板型有:      图3:编码器板型架构               编码器&解码器操作如次图所示:      2.4编码器&解码器操作      图2:独立同分布(0.6,0.2,0.1,0.1)作为分布源的序列(0,2,3)算学编码            算学编码器保持在区间[0,1]之间。J.Rissanen提出了算学编码,这是一个实行已知分布熵边界的管用办法。研讨成员称,其结果颇具潜力。研讨成员也对伪随机数生成序列(PRNG)施行了测试,尽管其熵率为零(因为它们是确认性的),但使役标准技术极难压缩。这么RNN可被管用用于压缩吗?我们剖析了RNN在数据压缩问题上的应用。对于未知分布的数据源(如文本和DNA),他还设计了算学编码的自适应变体,它可以经过尝试学习条件k-gram板型的分布来施行压缩。每个符号流唯一地确认一个范围,这个范围可按顺序计算,并直接基于下一符号的几率评估。我们晓得基于循环神经网络(LSTM/GRU)的板型拿手捕捉长期倚赖关系[3],并可以美好地预测下一字符/词。首先,我们商议了现存文献和基本的板型架构。         其实,RNN评估器板块可以是任何循环神经网络(LSTM/GRU),其中涵盖终极估算几率的Softmax层。对于板型的运行,有一点关紧的限止:      2.2RNN几率评估器板块         首先是用于实验的压缩器板型,其框架可以被分为两个板块:      2.1概说      压缩器框架      在这一研讨的论文中,研讨成员首先剖析和明白了已知熵情况下,合成数据集上RNN和算学编码办法的表现,其目标是对各种RNN结构的能力和极限施行直观的明白。DeepZip-Feat包含输入作为特征计算因果关系,如以往的20个符号,以及打量到的流内上下文表现记录。在DeepZip-GRU上,在第k步,GRU板块的输入是X_k-1,而state_k-1是输出的面貌,直至k点为止。点击阅读原文,迅即获取报告完整版。  机器之心发布首份《人工智能技术趋势报告》,纵览人工智能的23个分支技术。明晰历史进展途径,解读现存瓶颈及未来进展趋势。这会以致压缩比例的显著亏折,因为板型无法捕捉长期倚赖关系。      神经网络不单可以剖析、识别特征,提出预测,还可以压缩文件。      提要:现今,我们生成的数据量大幅增加。基于对此前在合成数据集上测试的经验,研讨成员使役了文本压缩板型和基因组数据集。斯坦福大学的研讨者近来提交的论文中,循环神经网络捕捉长期倚赖关系的优势被用于无缺压缩任务中,这种被称为DeepZip的技术已在文本和基因组数据文件中达成达实验。尽管这种过程的复杂度会随k的变动而呈指数级增长,通常上下文会被限止在k=20符号。它可视为传送至下一迭代的算学编码器的一个面貌。      2.3算学编码器板块      研讨成员主要考求了两个板型:符号级别的GRU板型(DeepZip-ChGRU)和基于特征的板型(DeepZip-Feat)。算学编码器板块可以是经典的算学编码FSM,或更快的非对称数码系统(AsymmetricNumeralSystems,ANS)板块。最终,我们对发现的结果和未来办公作了商议。