首页
健康资讯
医生资讯
健康问答
医院查找
疾病百科
天气
健康
网站导航
数据采集技术包括哪几方面
更新时间:2021-05-08 15:03:15

  1、通过各软件厂商开放数据接口,实现不同软件数据的互联互通。这是目前最为常见的一种数据对接方式。

  2、优势:接口对接方式的数据可靠性与价值较高,一般不存在数据重复的情况;数据可通过接口实时传输,满足数据实时应用要求。

  3、缺点:①接口开发费用高;②需协调多个软件厂商,工作量大且容易烂尾;③可扩展性不高,如:由于新业务需要各软件系统开发出新的业务模块,其和大数据平台之间的数据接口也需做相应修改和变动,甚至要推翻以前的所有数据接口编码,工作量大、耗时长。

  4、软件机器人是目前比较前沿的软件数据对接技术,即能采集客户端软件数据,也能采集网站网站中的软件数据。

  5、常见的是博为小帮软件机器人,产品设计原则为“所见即所得”,即不需要软件厂商配合的情况下,采集软件界面上的数据,输出的结果是结构化的数据库或者excel表。

  6、如果只需要界面上的业务数据,或者遇到软件厂商不配合/倒闭、数据库分析困难的情况下, 利用软件机器人采集数据更可取,尤其是详情页数据的采集功能比较有特色。

  7、技术特点如下:①无需原软件厂商配合;②兼容性强,可采集汇聚Windows平台各种软件系统数据;③输出结构化数据;④即配即用,实施周期短、简单高效;⑤配置简单,不用编程,每个人都可以DIY一个软件机器人;⑥价格相对人工和接口,降低不少。

  8、缺点:采集软件数据的实时性有一定限制。

  9、网络爬虫是模拟客户端发生网络请求,接收请求响应,一种按照一定的规则,自动地抓取万维网信息的程序或者脚本。

  10、爬虫采集数据的缺点:①输出数据多为非结构化数据;②只能采集网站数据,容易受网站反爬机制影响;③使用人群狭窄,需要有专业编程知识才能玩转。

  11、数据的采集融合,开放数据库是最直接的一种方式。

  12、优势:开放数据库方式可以直接从目标数据库中获取需要的数据,准确性高,实时性也有保证,是最直接、便捷的一种方式。

  13、缺点:开放数据库方式也需要协调各软件厂商开放数据库,这需要看对方的意愿,一般出于安全考虑,不会开放;一个平台如果同时连接多个软件厂商的数据库,并实时获取数据,这对平台性能也是巨大挑战。

标签: 数据采集 技术 包括 方面
  • 教育
  • 美食
  • 健康
  • 数码
  • 家居
  • 娱乐
  • 生活
  • 时尚
  • 旅游
  • 社会
  • 情感
  • 汽车
  • 健身
  • 育儿
  • 科技
  • 游戏
  • 自然
  • 历史
  • 文化
  • 国际
  • 宠物
  • 财经
  • 星座
  • 体育
  • 风水
  • 佛学
  • 军事
  • 生产
  • 房产
  • 手工
  • 技术
  • 摄影
  • 机械
  • 科学
  • 绘画
  • 音乐
  • 其他
  • 养生
健康导航
疾病
医生
中医
男性
孕育
资讯
美容
减肥
医院
女性
老人
饮食
症状
检查
问答
体检
急救
护理
健康
温馨提示
进入夏季是中暑、热中风、肩周炎、水中毒、肠炎等疾病的高发季节,同时也是腹泻、消化不良的高发季节,广大网民要高度重视做好这些疾病的预防,网民如出现低血压、休克、心律失常、腹痛、腹泻、恶心、呕吐、发热及全身不适等症状应及时就医。
Copyright © 2000-2017 jiankang4.com All Rights Reserved
特别声明:本站信息仅供参考,不能作为诊断及医疗的依据,本站如有转载或引用文章涉及版权问题请速与我们联系。
电话: 邮箱: