第一章数据与信息

知识目录

第一章数据与信息
1.1 数据及其特征
- 1.1.1 数据
- 1.1.2 数据的基本特征
1.2 数据编码
1.3 信息及其特征

教学重点：

什么是数据，什么是数字化
数据编码

教学难点：

二进制的加法，二进制数与十进制数的相互转换
图像编码

教学时间：2课时

1.1 数据及其特征

1.1.1 数据

数据是现实世界客观事物的符号记录，是信息的载体，是计算机加工的对象。
人们使用符号来表达客观事物。
做为电子设备的计算机，可以通过电子元件内部电压高（5v）低（0v）状态来表示1或0，因此，计算机可以使用1或0来将现实世界中各种符号，转化为一连串的数字，这就是二进制数。这个转化的过程，也是信息被数字化的过程，转化的结果就是数据。
二进制（binary）在数学和数字电路中指以2为基数的记数系统，有0和1两个符号，加法运算规则是逢二进一。
二进制加法有四种情况： 0+0=0，0+1=1，1+0=1，1+1=10(0 进位为1)
二进制减法有四种情况： 0-0=0，1-0=1，1-1=0，0-1=1
二进制乘法有四种情况： 0×0=0，1×0=0，0×1=0，1×1=1
二进制除法有两种情况(除数只能为1)：0÷1=0，1÷1=1
二进制与十进制转换
二进制转换为十进制方法：“按权展开求和”，具体步骤是先将二进制的数写成加权系数展开式，而后根据十进制的加法规则进行求和。【例】：$$ (1011)_2 = 1 2^3 +02^2 +1 * 2^1 + 1 * 2^0 $$

规律：个位上的数字的次数是0，十位上的数字的次数是1，......，依次递增，而十分位的数字的次数是-1，百分位上数字的次数是-2，......，依次递减。
十进制转换为二进制一个十进制数转换为二进制数要分整数部分和小数部分分别转换，最后再组合到一起。整数部分采用 "除2取余，逆序排列"法。具体做法是：用2整除十进制整数，可以得到一个商和余数；再用2去除商，又会得到一个商和余数，如此进行，直到商为小于1时为止，然后把先得到的余数作为二进制数的低位有效位，后得到的余数作为二进制数的高位有效位，依次排列起来。

例：(125)~10~=(01111101)~2~。

1.1.2 数据的基本特征

二进制。在计算机中，数据以二进制的形式存储，加工。
语义性。语义是指将数据符号解释为客观世界的事物。
分散性。数据是分散记录的，分别记录不同客观事物的运动状态。
多样性。数据记录的形式是多样的，如图形、视频、音频、文本等。
感知性。数据能够被看见，听见，感知到。

1.2 数据编码

1.2.1 模拟信号与数字信号

1. 模拟信号
2. 用连续变化的物理量所表达的信息。
3. 模拟信号的幅度、频率或相位随时间做连续变化。
1. 数字信号
2. 是离散时间信号的数字化表示。
3. 将模拟信号通过采样和量化之后得到的可以用二进制数表示的信号。
4. 数字信号的大小（精度）用一定位数的二进制数表示。采用的数位越大，数字信号的精度越高。
5. 数字信号抵抗电路干扰和环境干扰的能力强，且利于存储、加密与纠错。
1. 相关视频模拟信号与数字信号

1.2.2 编码的基本方式

汉字编码过程及图像视频声音编码

1.文字编码

ASCII码（美国信息交换标准代码）用8位二进制码为所有的英文字母（大小写52个）、阿拉伯数字（10个）和常用的不可见控制符（33个）以及标点符号、运算符号等（33个）建立了转换码。
视频资料 [ASCII码一览表]
国际码汉字编码（一）汉字编码（二）
GB2312（信息交换用汉字编码字符集）1980年 7445个字符
GBK （汉字内码扩展规范）1995年 21886个字符
BIG5 （繁体中文字符集）大五码
GB 18030-2005 包括了中日韩文字，及朝鲜文、蒙古文、藏文、维吾尔文等共70,244个汉字。

2.图像编码

指在满足一定保真度的条件下，对图像数据进行变换、编码和压缩，以较少比特表示图像或图像中所包含的信息的技术。

（1）位图图像编码
位图最小单位为光栅点（像素），因而也叫点阵图（像素图）。
图像的分辨率＝宽度像素*高度像素
位图编码练习（在EXCLE中模拟）
（2）位图文件大小
在二进制数系统中，每个0或1就是一个位（bit 比特），8个位构成一个字节（byte）。

字节是计算机可寻址的最小单位，也是信息存储的基本单位。每个字节有8个二进制位，其中最右边的一位为最低位，最左边的一位为最高位，每个二进制位的值不是0就是1。

图像种类	颜色数	1像素占用二进制位	1像素占用字节
黑白图像	2 ＝2¹	1	1/8
16色图像	16 ＝2⁴	4	4/8
256色图像	256 ＝2⁸	8	8/8=1
24位真彩色图像（R、G、B）	16,777,216＝2²⁴	24	24/8=3

位图文件除了图形数据，还有文件头（14字节），位图信息头（40字节）、颜色信息（每种颜色占4个字节）
位图文件大小计算公式：文件头+信息头+颜色信息+（宽度 * 高度） * 每一个像素点用的字节数
- 示例：求分辨率为1024*800像素的各种图像文件大小
- 黑白图像字节数=14+40+2*4+1024*800/8=102,462 字节
- 256色图像字节数=14+40+256*4+1024*800*1=820,278 字节
- 24位图字节数=14+40+1024*800*3 = 2,457,654字节 ~ 2.3M字节

需要注意的是，Windows有“补零”的习惯！即要求位图的每一行像素所占字节数必须被4整除。若不能倍4整除，则在该位图每一行的十六进制码末尾“补”1至3个字节的“00”。因此我们会发现有时计算的数据比实际图像的数据小。

3.声音编码

（1）采样

就是把输入的模拟信息按适当的时间间隔得到各个时刻的样本值，使其转换为时间上离散、幅度上连续的脉冲信号。

（2）量化

是把样值信号的无限多个可能的取值，近似地用有限个数的数值来表示。首先是将采样信号同谋划分为若干量化等级，然后将采样后的信号同谋与所划分的各个量化等级进行比较，向下取最接近的量化等级的数值。

（3）编码

是将量化后的采样值用二进制数码表示，并转换为由二进制编码0和1组成的数字信号。

编码时采用的二进制位数越多，数据量越大，其存储空间计算公式

声音存储空间=采样频率　× 量化位数　× 声道数　× 时间　÷ 8

1.3 信息及其特征

1.3.1 信息

信息是经过加工处理的、具有意义的数据。信息是对客观世界中各种事物的运动状态和变化的反映，是客观事物之间相互联系和相互作用的表征。

1.3.2 信息的基本特征

普遍性
传递性
共享性
依附性和可处理性
时效性
真伪性
价值相对性

1.4 课堂练习

1、研究位图文件“黑白.bmp”，右击该文件弹出的快捷菜单中，选择“属性”命令，填写下列的空格。
分辨率：
宽度：
高度：
位深度：
颜色数：
2、在桌面上创建文本文件“1.txt”，在其中输入“a”后保存。然后使用在线二进制文件查看器或使用桌面上的hex editor 编辑器，查看探究其文件。尝试将a改成其它英文字符后观察界面中的变化，说明原因。

第一章 数据与信息