第一章 数据与信息

知识目录

教学重点:

  • 什么是数据,什么是数字化
  • 数据编码

教学难点:

  • 二进制的加法,二进制数与十进制数的相互转换
  • 图像编码

教学时间:2课时

1.1 数据及其特征

1.1.1 数据

  • 数据是现实世界客观事物的符号记录,是信息的载体,是计算机加工的对象

  • 人们使用符号来表达客观事物。

  • 做为电子设备的计算机,可以通过电子元件内部电压高(5v)低(0v)状态来表示1或0,因此,计算机可以使用1或0来将现实世界中各种符号,转化为一连串的数字,这就是二进制数。这个转化的过程,也是信息被数字化的过程,转化的结果就是数据

  • 二进制(binary)在数学和数字电路中指以2为基数的记数系统,有0和1两个符号,加法运算规则是逢二进一。

  • 二进制加法有四种情况: 0+0=0,0+1=1,1+0=1,1+1=10(0 进位为1)

  • 二进制减法有四种情况: 0-0=0,1-0=1,1-1=0,0-1=1
  • 二进制乘法有四种情况: 0×0=0,1×0=0,0×1=0,1×1=1
  • 二进制除法有两种情况(除数只能为1):0÷1=0,1÷1=1

  • 二进制与十进制转换

  • 二进制转换为十进制 方法:“按权展开求和”,具体步骤是先将二进制的数写成加权系数展开式,而后根据十进制的加法规则进行求和 。 【例】:$$ (1011)_2 = 1 2^3 +02^2 +1 * 2^1 + 1 * 2^0 $$

    规律:个位上的数字的次数是0,十位上的数字的次数是1,......,依次递增,而十分位的数字的次数是-1,百分位上数字的次数是-2,......,依次递减。

  • 十进制转换为二进制 一个十进制数转换为二进制数要分整数部分和小数部分分别转换,最后再组合到一起 。 整数部分采用 "除2取余,逆序排列"法。具体做法是:用2整除十进制整数,可以得到一个商和余数;再用2去除商,又会得到一个商和余数,如此进行,直到商为小于1时为止,然后把先得到的余数作为二进制数的低位有效位,后得到的余数作为二进制数的高位有效位,依次排列起来 。

    例:(125)~10~=(01111101)~2~。

    cb8065380cd79123bd98907ba2345982b2b78040.png

1.1.2 数据的基本特征

  • 二进制。在计算机中,数据以二进制的形式存储,加工。
  • 语义性。语义是指将数据符号解释为客观世界的事物。
  • 分散性。数据是分散记录的,分别记录不同客观事物的运动状态。
  • 多样性。数据记录的形式是多样的,如图形、视频、音频、文本等。
  • 感知性。数据能够被看见,听见,感知到。

1.2 数据编码

1.2.1 模拟信号与数字信号

    1. 模拟信号

    2. 连续变化的物理量所表达的信息。

    3. 模拟信号的幅度频率相位随时间做连续变化。
    1. 数字信号

    2. 离散时间信号的数字化表示。

    3. 将模拟信号通过采样量化之后得到的可以用二进制数表示的信号。
    4. 数字信号的大小(精度)用一定位数的二进制数表示。采用的数位越大,数字信号的精度越高。
    5. 数字信号抵抗电路干扰和环境干扰的能力强,且利于存储、加密与纠错。
    1. 相关视频 模拟信号与数字信号

1.2.2 编码的基本方式

汉字编码过程及图像视频声音编码

1.文字编码

  • ASCII码(美国信息交换标准代码)用8位二进制码为所有的英文字母(大小写52个)、阿拉伯数字(10个)和常用的不可见控制符(33个)以及标点符号运算符号等(33个)建立了转换码。
  • 视频资料 [ASCII码一览表]
  • 国际码 汉字编码(一) 汉字编码(二)

  • GB2312(信息交换用汉字编码字符集)1980年 7445个字符

  • GBK (汉字内码扩展规范)1995年 21886个字符
  • BIG5 (繁体中文字符集)大五码
  • GB 18030-2005 包括了中日韩文字,及朝鲜文、蒙古文、藏文、维吾尔文等共70,244个汉字。

2.图像编码

指在满足一定保真度的条件下,对图像数据进行变换、编码和压缩,以较少比特表示图像或图像中所包含的信息的技术。

  • (1)位图图像编码
  • 位图最小单位为光栅点(像素),因而也叫点阵图(像素图)。
  • 图像的分辨率=宽度像素*高度像素
  • 位图编码练习(在EXCLE中模拟)
  • (2)位图文件大小
  • 在二进制数系统中,每个0或1就是一个位(bit 比特),8个位构成一个字节(byte)。

  • 字节是计算机可寻址最小单位,也是信息存储的基本单位。每个字节有8个二进制位,其中最右边的一位为最低位,最左边的一位为最高位,每个二进制位的值不是0就是1。

    图像种类 颜色数 1像素占用二进制位 1像素占用字节
    黑白图像 2 =21 1 1/8
    16色图像 16 =24 4 4/8
    256色图像 256 =28 8 8/8=1
    24真彩色图像(R、G、B) 16,777,216=224 24 24/8=3
  • 位图文件除了图形数据,还有文件头(14字节),位图信息头(40字节)、颜色信息(每种颜色占4个字节)

  • 位图文件大小计算公式:文件头+信息头+颜色信息+(宽度 * 高度) * 每一个像素点用的字节数

    • 示例:求分辨率为1024*800像素的各种图像文件大小
    • 黑白图像字节数=14+40+2*4+1024*800/8=102,462 字节
    • 256色图像字节数=14+40+256*4+1024*800*1=820,278 字节
    • 24位图字节数=14+40+1024*800*3 = 2,457,654字节 ~ 2.3M字节

需要注意的是,Windows有“补零”的习惯!即要求位图的每一行像素所占字节数必须被4整除。若不能倍4整除,则在该位图每一行的十六进制码末尾“补”1至3个字节的“00”。因此我们会发现有时计算的数据比实际图像的数据小。

3.声音编码

(1)采样

就是把输入的模拟信息按适当的时间间隔得到各个时刻的样本值,使其转换为时间上离散、幅度上连续的脉冲信号。

(2)量化

是把样值信号的无限多个可能的取值,近似地用有限个数的数值来表示。首先是将采样信号同谋划分为若干量化等级,然后将采样后的信号同谋与所划分的各个量化等级进行比较,向下取最接近的量化等级的数值。

(3)编码

是将量化后的采样值用二进制数码表示,并转换为由二进制编码0和1组成的数字信号。

编码时采用的二进制位数越多,数据量越大,其存储空间计算公式

声音存储空间=采样频率 × 量化位数 × 声道数 × 时间 ÷ 8

1.3 信息及其特征

1.3.1 信息

信息是经过加工处理的、具有意义的数据。信息是对客观世界中各种事物的运动状态和变化的反映,是客观事物之间相互联系和相互作用的表征。

1.3.2 信息的基本特征

  • 普遍性
  • 传递性
  • 共享性
  • 依附性和可处理性
  • 时效性
  • 真伪性
  • 价值相对性

1.4 课堂练习

  • 1、研究位图文件“黑白.bmp”,右击该文件弹出的快捷菜单中,选择“属性”命令,填写下列的空格。

  • 分辨率:

  • 宽度:
  • 高度:
  • 位深度:
  • 颜色数:

  • 2、在桌面上创建文本文件“1.txt”,在其中输入“a”后保存。然后使用在线二进制文件查看器或使用桌面上的hex editor 编辑器,查看探究其文件。尝试将a改成其它英文字符后观察界面中的变化,说明原因。