数据采集的数据源有哪些?
admin
2024-03-08 03:16:01

从数据采集角度来说,都有哪些数据源呢?
这四类数据源包括了:开放数据源、爬虫抓取、传感器和日志采集
开放数据源一般是针对行业的数据库。国内,贵州做了不少大胆尝试,搭建了云平台,逐年开放了旅游、交通、商务等领域的数据量
爬虫抓取,一般是针对特定的网站或 App。如果我们想要抓取指定的网站数据,比如购物网站上的购物评价等,就需要我们做特定的爬虫抓取。
第三类数据源是传感器,它基本上采集的是物理信息。比如图像、视频、或者某个物体的速度、热度、压强等。
最后是日志采集,这个是统计用户的操作。我们可以在前端进行埋点,在后端进行脚本收集、统计,来分析网站的访问情况,以及使用瓶颈等
如何使用开放数据源
一个是单位的维度,比如政府、企业、高校;一个就是行业维度,比如交通、金融、能源等领域
如何使用爬虫做抓取
在 Python 爬虫中,基本上会经历三个过程。
1、使用 Requests 爬取内容。我们可以使用 Requests 库来抓取网页信息。Requests 库可以说是 Python 爬虫的利器,也就是 Python 的 HTTP 库,通过这个库爬取网页中的数据,非常方便,可以帮我们节约大量的时间。
2、使用 XPath 解析内容。XPath 是 XML Path 的缩写,也就是 XML 路径语言。它是一种用来确定 XML 文档中某部分位置的语言,在开发中经常用来当作小型查询语言。XPath 可以通过元素和属性进行位置索引。
3、使用 Pandas 保存数据。Pandas 是让数据分析工作变得更加简单的高级数据结构,我们可以用 Pandas 保存爬取的数据。最后通过 Pandas 再写入到 XLS 或者 MySQL 等数据库中。

相关内容

热门资讯

落地深圳,广东首个高校微校区如... 1月12日,深圳市罗湖区鸿蒙生态大厦内,第三届广东省教育行业信创生态大会同步举行了广东技术师范大学(...
原创 神... 火影忍者手游1月高招S忍十尾人柱力带土上架之后,接下来一段时间内还会上架多个新忍者,主要就是神驹佑将...
AI给出的搜索结果,可信吗? 出门旅游住哪家酒店,咖啡机买哪个品牌,电动牙刷哪款好用……随着生成式人工智能搜索工具的日趋成熟,人们...
【甘快看·迎两会 | 现场报道...   (新甘肃客户端记者李杨 李静 白羚媛 王登科)
贾国龙、罗永浩微博被禁言 微博... 据北京日报,微博CEO“来去之间”发布微博:以后想论战,应该还是需要通过媒体采访的方式来进行~~“网...