5.2 数据的采集

5.2.1 数据采集的方法和工具

数据采集的基本方法包括系统日志采集法、网络数据采集法和其他数据采集法。

1. 系统日志采集法

​ 在信息系统中,系统日志是记录系统中硬件、软件和系统问题的信息文件。系统日志包括操作系统日志、应用程序日志和安全日志。

​ 系统日志采集数据的方法通常是在目标主机上安装一个小程序,将目标主机的文本、应用程序、数据库等日志信息有选择地定向推送到日志服务器进行存储、监控和管理。

​ 通过日志服务器可以监视系统中发生的事件,可以检查错误发生的原因,或者寻找受到攻击时攻击者留下的痕迹。例如,安全管理信息系统就是以系统日志服务器采集原始日志数据,以日志记录文本文件实现日志数据的监控和保存,以数据库操作进行日志有效信息的管理工作。

学生实践:查看windows系统日志

1、打开控制面板。(windows7为例)点击电脑左下角的开始按钮,弹出的界面,我们下滑中间的界面,找到windows系统,点击打开它,弹出的界面,我们点击:控制面板。
2、进入控制面板之后,我们点击:管理工具
3、弹出的界面,我们双击:事件查看器
4、弹出的界面,我们点击:Windows日志,我们可以点击系统,我们就可以看到相应的系统的日志了。

syslog

2. 网络数据采集法

网络数据采集是指通过网络爬虫或网站公开API ( Application Programming Interface, 应用程序接口)等方式从网站上获取数据信息。

网络爬虫从一个或若干初始网页的URL(Uniform Resource Locator,统一资源定位符)开始,获得初始网页上的URL,在抓取网页的过程中,不断从当前页面上抽取新的URL放人队列,直到满足系统的一定停止条件。

该方法可以将非结构化数据从网页中抽取出来,将其存储为统一的本地数据文件,并以结构化的方式存储。它支持图片、音频、视频等文件或附件的采集,附件与正文可以自动关联。

5.2.2学生实践

绘制正弦函数的图像 下面是绘图最基本的代码部分

#下面是绘图最基本的代码部分
from turtle import *        #引入海龟绘图库
from math import *          #引入数学函数库
#设置画面大小和颜色
setup(1000,600)             #设置画布为1000*600像素
color("black","white")      #设置画布为白底黑字

#画X轴
up()            #抬笔
goto(-400,0)    #定位画笔到屏幕左侧位置
down()          #落笔
fd(800)         #向右画800像素
# 画Y轴
up()
goto(0,-250)
down()
left(90)
fd(500)
up()
#画刻度
for x in range(-400,400,20):
    goto(x,2)
    dot(3)

for y in range(-250,260,20):
    goto(2,y)
    dot(3)

#画曲线
pencolor("red")
up()
goto(-400,0)
down()
for x in range(-400,400,20):
    y= cos(x) * 100
    goto(x,y)
    dot(5)

done()

比较完善的参考代码如下:

from turtle import *
from math import *

#定义自定义函数,用于显示x,y的值
def showN(x,y):
    color("black")
    write("(%.1f,%.1f)"%(x,y),font=("Aria",9))
    color("red")


###主程序开始

#主要参数设置
xStep=35        #x的采样精度(1-60),值越大,精度越低
showNumber=1    #控制是否显示x,y的值,1显示,0不显示


#设置画布大小
setup(1000,600)
speed(10)
color("black","white")
#显示标题
up()
goto(-60,260)
write("正弦函数图像",font=("黑体",16))
up()
#在坐标轴附近输出“x”和“y”
goto(380,-20)
write("x",font=("Aria",14))
up()
goto(10,230)
write("y",font=("Aria",14))
up()
home()
#画座标系统
#画X轴
goto(-400,0)
down()
fd(800)
up()
#画y轴
goto(0,-250)
down()
left(90)
fd(500)
up()

#标刻度
pencolor("black")
for x in range(400,-420,-20):
    goto(x,2)
    dot(3)

for y in range(250,-260,-20):
    goto(2,y)
    dot(3)


#画曲线
speed(2)
pencolor("red")
goto(-400,0)        #从左端开始
down()
for x in range(-400,410,xStep): #x的值从-400到400递增,步长为30
    y= sin(x)*100           #放大振幅100倍
    goto(x,y)
    dot(5)
    if showNumber==1:       #是否显示x,y的值
        showN(x,y)

done()

sinpic

3. 其他数据采集法

对于企业生产经营或科学研究等保密性要求较高的数据,可通过与企业或研究机构合作,使用特定系统接口等相关方式收集数据。例如,科学研究的数据是通过科学实验的各种传感器采集,并传输到数据库管理系统中的。

5.2.2 数据的存储与保护

1.数据的存储

​ 存储数据主要有两种方式,一种是把数据存在本地内部,另一种是把数据放在第三方公共或私有的“云端”存储。

​ 云存储已经成为存储发展的一种趋势,其技术也日益成熟。

​ 云存储是把各类数据存储 在虚拟的逻辑模型里,其物理空间存储在跨越多个地域放置的众多服务器中,为用户提供统一、灵活、安全的“云存储服务”。

​ 云存储供应商拥有并管理这些服务器,负责管理数据的使用和访问权限,以及云存储环境的日常运营和维护。对于用户而言,无须关注云存储系统的具体运行,仅需获取存储空间,把自己的数据存储进去。

​ 数据的存储采用分布式文件存储或NoSQL数据库存储。分布式文件存储的特点之一是为了解决复杂问题而将大任务分解为多项小任务,通过让多个处理器或多个计算机节点并 行汁算来提高解决问题的效率。分布式文件存储系统能够支持多台主机通过网络同时访问 共享文件和存储目录,大部分采用了关系数据模型并且支持SQL语句查询。

5.2.2.1学生实践

1.任务:体验云存储。(体验二中学生云)
2.操作步骤:申请账号及登录云盘的
  • 申请二中学生云账号。

  • 申请条件:有一个自己的邮箱地址,建议使用QQ邮箱,(格式为:自己的QQ号@qq.com)开通并尝试存储。真实可用的邮箱可以在忘记密码的时候帮助找回。

  • 如果没有邮箱地址,可以虚拟一个,格式为:姓名拼音@szez.cn

  • 在地址栏输入:http://172.18.0.3:92

cloud url

  • 第一次使用时,先单击登录界面右下角的“注册账号”。

    cloud reg

  • 输入电子邮箱地址,再输入密码,确认密码。即可完成注册。

    cloud reg2

  • 回到登录界面,输入邮箱地址和密码后,单击“登录”,进入云盘。在云盘中,可进行文件上传、下载、分享等操作。

    cloud file

  • 如果以后忘记了密码,而你填写的邮箱是真实的邮箱,可通过邮箱找回。

    cloud pass1

3.云盘文件保存与下载的实操演练。
  • 创建新的文件夹
  • 将自己的文件用拖拽的方式存入云盘。
  • 创建文件分享链接(右击文件,从快捷菜单中选择)
cloud share

2.数据的保护

​ 如今,无论是政府部门、企业还是个人,对数据的依赖性已越来越强。然而,数据安全的隐患无处不在,一旦数据泄密或丢失,造成的损失和影响将是巨大的。因此,对数据安全的保护非常重要。研究表明,如果在发生数据灾难后的两个星期内无法恢复公司的业务系统,75%的公司业务将会完全停顿,43%的公司将再也无法开业。在信息化社会,对数据的保护刻不容缓。

(1 )数据安全保护技术。

​ 数据安全保护指数据不被破坏、更改、泄露或丢失。安装杀毒软件和防火墙只能防备数据安全隐患,而采用拷贝、备份、复制、镜像、持续备份等 技术进行数据保护才是更为彻底、有效的方法。

​ 一般的数据安全保护技术的使用特点如表 5-3所示。

table5-3

​ 为了防止他人对机密的数据、数据库进行非法访问、删除、修改、拷贝等操作,可以采用对数据进行加密等方法,保护数据在存储和传递过程中不被修改或泄露。

​ 选择何种加密算法、需要多高的安全级别、各算法之间如何协作等,都是进行数据加密要考虑的因素。

​ 加密技术通常分为对称式加密和非对称式加密两大类。对称式加密指加密和解密用的是同一个密钥。非对称式加密指加密和解密用的是两个不同的密朗,必须配对使用,否则不能打开加密数据。

5.2.2.2学生实践

实践目标:信息加密。(通过对文件的加密压缩,实现信息的加密。)
任务:将桌面上的myfile.txt进行加密压缩。
完成任务的软件条件:winRar软件,默认系统中已经安装此软件
操作步骤:

在桌面上右击myfile.txt,从快捷菜单中选择“添加到压缩文件”

rar menu

然后在窗口下端,单击设置密码。

rar setpsd

输入密码后,单击确定。

rar setpsd2

桌面上就会出现一个被加密压缩的新文件。

rar new

这个文件在被解压缩时,必须输入正确的密码方可被解压缩。从而实现信息加密的效果。

(2)数据的隐私保护。

​ 任何事物都有两面性,数据正在变成生活的第三只眼敏锐地洞察却也正监控着我们的生活。我们上网浏览、出行、购物等数据,统统都被记录了, 人人都成了数据的产生者和贡献者。数据带来的整体性变革,也使得数据的隐私保护的形势显得越发严峻。

​ 隐私泄露的问题不是大数据时代特有的,在没有大数据的时候,我们就已经有很多隐 私泄露的问题。可是到了大数据时代,数据发布多了,信息范围扩大了,信息传播和共享速度加快了,若不加以控制,其所含的商业信息或私密信息就可能泄露。

​ 解决办法有三个:

  • 一是技术手段,常用的隐私保护有: - ①数据收集吋进行数据精度处理;
    • ②数据共享时进行访问控制;
    • ③数据发布时进行人工加扰;
    • ④数据分析时进行数据匿名处理等。
  • 二是提高自身的保护意识。
  • 三是要对数据使用者进行道德和法律上的约束。

数据作为一种资产,用在什么地方、掌握在谁手里都是次要的,关键是看怎样利用这 个工具。在安全的前提下,实现数据共享,才能真正创造数据价值,发挥数据真正的作用。