salsa20浅学

前言

打hgame遇到的加密算法,张见识了,xman指出来这个加密,才破关。。。

简介

Salsa20是一种流式对称加密算法,类似于Chacha20,算法性能相比AES能够快3倍以上。 Salsa20算法通过将32 Byte的key和8 Byte的随机数nonce扩展为2^70 Byte的随机字节流,通过随机字节流和异或操作实现加解密,因此Salsa20算法中随机字节流的生成为关键所在。

这个是一种流加密,但是和rc4很相似,同样相似的也有一个叫chacha的加密

随机字节流生成

Salsa20算法生成随机字节流时,一次生成一个64字节的block,每一个block是通过将key、nonce和block number以及部分常量组成64字节的input,通过核函数,输出64字节的output。最终多个block组成长度为2^70的随机字节流,在生成过程中,每个block相互独立。

Input

伪随机数流的产生其实就是将64字节(512比特)的输入送入核心函数,然后得到512比特的输出的过程。 每次输入的字节包含密钥、初始向量和计数器。 这样,要产生长度是N字节的伪随机数流,只需要调用核心函数若干次,直到获取了足够长度(不少于N)的输出即可。

核心函数的输入和输出各是一个16元素的32位无符号整型数组。 根据Salsa20的定义,将字节变换为32位无符号整型时使用的是 小尾序(Little Endian) 的。

例如,我们要表示一个无符号32位整数0xDEADBEEF,则其在一个长度是4个字节的数组A中,应当有:

1
2
3
4
A[0] = 0xEF
A[1] = 0xBE
A[2] = 0xAD
A[3] = 0xDE

反之亦然。

在下文中,我们称这样一个小尾序的无符号32位整数为一个

Salsa20支持两种长度的密钥:128比特(16字节)或者256比特(32字节)。

为了构建送入核心函数的输入,规则如下:

1
2
常量1 || 密钥前半 || 常量2 || 初始向量 || 计数器 || 常量3 || 密钥后半 || 常量4
.0-3......4-19......20-23.....24-31......32-39....40-43.....44-59.....60-63.

其中:

  • 常量1常量2常量3常量4各是1个词;
  • 密钥前半密钥后半分别是4个词;
  • 初始向量计数器分别是2个词。

故一共是16个词,每个词4字节,共64字节=512比特。

在每多进行一次核心函数的计算时,计数器需要增加1位。 即每次在第32位上加1,如果进位则在33、34……39位上增加。

初始向量是对于一个流唯一的一个量。由2个词(8字节)构成。初始向量可以明文传送。

根据密钥长度不同,对密钥和常量的选取有差异,下面分开解释。

使用256比特密钥进行加密/解密

在使用256比特的密钥时,常量1-4是如下一组的4个词:

1
[0x61707865, 0x3320646e, 0x79622d32, 0x6b206574]

密钥前半由密钥的前128比特,即0-15字节构成。密钥后半,则是16-31字节。

这4个常量词的选取是由expand 32-byte k这段话得来。

使用128比特密钥进行加密/解密

在使用128比特的密钥时,常量1-4是如下一组的4个词:

1
[0x61707865, 0x3120646e, 0x79622d36, 0x6b206574]

密钥前半和密钥后半,都用整个密钥填充。

这4个常量词的选取是由expand 16-byte k这段话得来。

核函数

Salsa20算法核函数将64字节的输入以矩阵形式作为参数,输出64字节的运算结果. Salsa20核函数运算主要包括的运算如下,其中a和b皆为32bit(4 Byte)的数据:

  • 32 bit模加:(a + b) mod 2^32
  • 异或:a XOR b
  • 左移:a <<< b,其中b为常量,在Salsa20算法中左移的值为7、9、13、18

针对输入矩阵中的每个word,执行20轮的如下操作: b ⊕= (a ⊞ c) <<< k,其中为异或,模加,<<<为左移。

经过20轮计算后,将输出的矩阵核原始矩阵相加,得到输出。

Salsa20核函数具体实现如下:

 #define R(a,b) (((a) << (b)) | ((a) >> (32 - (b))))
 void salsa20_word_specification(uint32 out[16],uint32 in[16])
 {
   int i;
   uint32 x[16];
   for (i = 0;i < 16;++i) x[i] = in[i];
   for (i = 20;i > 0;i -= 2) { // 20轮计算
     x[ 4] ^= R(x[ 0]+x[12], 7);  x[ 8] ^= R(x[ 4]+x[ 0], 9);
     x[12] ^= R(x[ 8]+x[ 4],13);  x[ 0] ^= R(x[12]+x[ 8],18);
     x[ 9] ^= R(x[ 5]+x[ 1], 7);  x[13] ^= R(x[ 9]+x[ 5], 9);
     x[ 1] ^= R(x[13]+x[ 9],13);  x[ 5] ^= R(x[ 1]+x[13],18);
     x[14] ^= R(x[10]+x[ 6], 7);  x[ 2] ^= R(x[14]+x[10], 9);
     x[ 6] ^= R(x[ 2]+x[14],13);  x[10] ^= R(x[ 6]+x[ 2],18);
     x[ 3] ^= R(x[15]+x[11], 7);  x[ 7] ^= R(x[ 3]+x[15], 9);
     x[11] ^= R(x[ 7]+x[ 3],13);  x[15] ^= R(x[11]+x[ 7],18);
     x[ 1] ^= R(x[ 0]+x[ 3], 7);  x[ 2] ^= R(x[ 1]+x[ 0], 9);
     x[ 3] ^= R(x[ 2]+x[ 1],13);  x[ 0] ^= R(x[ 3]+x[ 2],18);
     x[ 6] ^= R(x[ 5]+x[ 4], 7);  x[ 7] ^= R(x[ 6]+x[ 5], 9);
     x[ 4] ^= R(x[ 7]+x[ 6],13);  x[ 5] ^= R(x[ 4]+x[ 7],18);
     x[11] ^= R(x[10]+x[ 9], 7);  x[ 8] ^= R(x[11]+x[10], 9);
     x[ 9] ^= R(x[ 8]+x[11],13);  x[10] ^= R(x[ 9]+x[ 8],18);
     x[12] ^= R(x[15]+x[14], 7);  x[13] ^= R(x[12]+x[15], 9);
     x[14] ^= R(x[13]+x[12],13);  x[15] ^= R(x[14]+x[13],18);
   }
   for (i = 0;i < 16;++i) out[i] = x[i] + in[i]; // 输入矩阵经过20轮的计算结果和原始矩阵相加得到最终输出
 }

注意核心函数中标出来的迭代次数。 这个for循环的实际运行次数,就是实际应用中写成Salsa20/x中的x。

例如,如上代码迭代 10 次,因此是Salsa20/10

Output

每一次核函数运算,都能够通过key、nonce、block-counter生成64字节的输出block,经过多次输入和核函数运算,将每一次的生成结果拼接最终组成长度为2^70的字节流

加解密操作

得到随机字节流之后,Salsa算法的加解密操作极其简单。

  • 加密操作 当加密长度为b字节的明文数据时,通过将明文数据和随机字节流的前b个字节进行异或运算得到密文。
  • 解密操作 当解密长度为b字节的数据时,通过将密文和b字节的字节流进行异或运算得到明文。