XXHolic / segment

some notes
MIT License
28 stars 4 forks source link

ASCII 和 Base64 #32

Open XXHolic opened 5 years ago

XXHolic commented 5 years ago

引子

在工作中,遇到了图片转换的问题,碰到了几个概念,查了点资料,在此记录一下。

ASCII

ASCII 的全称是 American Standard Code for Information Interchange(美国标准信息交换码),是电子通信的字符编码标准。ASCII 码表示计算机、电信设备和其它设备中的文本。大多数现代字符编码的制订都是基于 ASCII,尽管它们支持很多其它的字符。

ASCII 是从电报码中发展出来的。第一次商业使用是由贝尔数据服务公司推广的 7 位电传打字机码。ASCII 标准的工作始于 1960.10.06,美国标准协会(ASA)(现为美国国家标准协会或简称 ANSI)X3.2 小组委员会召开了第一次会议。在 1963 年,标准的第一版本发布,在 1967 年进行了重大修改,最近的更新是在 1986 年。相对于早期的电报码,推荐的贝尔码和 ASCII 码都是为了更加方便的对列表排序,并为电传打字机以外的设备添加了一些功能。

最初基于英语字母表,ASCII 编码 128 个特定的字符为 7 位整数,如下面的图表所示,具体对应可见这里

30-ascii

95 个编码的字符是可打印,这些字符包括:0-9、a-z、A-Z 和标点符号。此外,最初的 ASCII 规范包括 33 个非打印控制代码,这些代码源自电传打字机。其中大多数都已废弃,尽管有一些仍然在普遍使用,如回车、换行和制表符代码。

举个例子,小写字母 i 在 ASCII 编码中用二进制表示为 11001001,十六进制表示为 69,十进制表示为 105。

Base64

Base64 是一组跟二进制转换为文本类似的编码方案,将 ASCII 中表示二进制的字符串转换为基数为 64 的表示。术语 Base64 源自 MIME 内容转换编码。每个 Base64 数字正好代表 6 位数据。3 个 8 位字节能够用 4 个 6 位 Base64 数字表示。

选择用于表示基数的 64 位值的 64 个字符的特定集合因实现而异。通常的策略是选择 64 个大多数使用且可打印的字符。这种组合方式使得数据在信息系统间传输时,不太可能被修改,例如邮件,传统上不是标准的 8 位编码。举个例子,MIME 的 Base64 实现方案是使用 A-Z、a-z和0-9作为前 62 个值,其它变体同样共享这个特性,但最后的两个值在选择符号上不同,有一个例子就是 UTF-7

最早这种编码的实现是为了相同操作系统间,进行拨号通信创建。因此可以对那些字符可以安全使用进行更多的假设。例如,uuencode 工具使用小写字符、数字和很多标点符号字符,但不使用小写。

下面为 Base64 实现的一种。

Index Char Index Char Index Char Index Char
0 A 16 Q 32 g 48 w
1 B 17 R 33 h 49 x
2 C 18 S 34 i 50 y
3 D 19 T 35 j 51 z
4 E 20 U 36 k 52 0
5 F 21 V 37 l 53 1
6 G 22 W 38 m 54 2
7 H 23 X 39 n 55 3
8 I 24 Y 40 o 56 4
9 J 25 Z 41 p 57 5
10 K 26 a 42 q 58 6
11 L 27 b 43 r 59 7
12 M 28 c 44 s 60 8
13 N 29 d 45 t 61 9
14 O 30 e 46 u 62 +
15 P 31 f 47 v 63 /

示例

Source Text (ASCII) M a n
Octets 77 (0x4d) 97 (0x61) 110 (0x6e)
Bits 0 1 0 0 1 1 0 1 0 1 1 0 0 0 0 1 0 1 1 0 1 1 1 0
Base64
encoded
Sextets 19 22 5 46
Character T W F u
Octets 84 (0x54) 87 (0x57) 70 (0x46) 117 (0x75)

参考资料

:wastebasket: 这部作品让我感觉很神奇。 ![30-poster][url-local-poster]