首页 - 范文大全 - 文章正文

毕业论文可以用爬虫数据吗(论文可以写爬虫吗)

时间:2020-06-30 12:39:48 作者:黑曼巴 分类:范文大全 浏览:17

《基于爬虫系统的省级公共图书馆微信平台运用调查》

本文是关于公共图书馆型在职研究生论文模式和爬虫系统以及公共图书馆型在职研究生论文模式的研究。

文章利用Python语言建立了微信公众号爬虫系统。结合实验数据,从宏观和案例两个角度探讨了省级公共图书馆微信公众号的现状和存在的问题。研究表明,省级公共图书馆微信公众平台推送的文章平均数量差异较大,人力资源分布不平衡,微信公众平台的服务水平和质量差异较大。根据调查结果,提出了完善省级公共图书馆微信公共平台的建议。

关键词省级公共图书馆微信公众号爬虫调查系统WCI

谢晖引用了这篇文章的格式。基于爬虫系统的微信平台在省级公共图书馆的应用调查[[J]。图书馆论坛,2018 (3): 117-124。

0前言

近年来,省级公共图书馆(以下简称“省级图书馆”)推出了微信公众号服务平台(以下简称“微信公众号”),学者们也开始研究微信公众号在图书馆的运作。张峥和[等人认为,微信提供了一种拓展图书馆服务范围、模式和内容的新途径。郭等2]调查了31家省级图书馆微信公众号的现状,指出其服务功能设置和服务水平参差不齐。总体而言,对省级图书馆微信公众号的研究主要集中在应用现状和功能等方面。然而,对微信公众号码服务和数据分析的定量研究很少。为此,本研究收集了2016年5月1日至2017年5月1日省级图书馆微信公众号推送的文章、阅读量、发布时间等。作为研究数据,构建了微信传播指数WCI评价指标体系,并根据实验数据从宏观和案例两个角度探讨了省级图书馆微信公众号服务的现状和存在的问题。

1研究过程

1.1数据源选择

本研究的数据来自博客清理指数。博客清理指数是中国最大的第三方新媒体搜索引擎和微信数据库。数据包括标题阅读、出版时间、总阅读量、详细内容、喜欢的总数量、阅读的大多数文章、短信链接、每日阅读量、最近一周阅读量等。依托该平台,本研究统计分析了微信公众号推送文章在省级图书馆的传播、覆盖、成熟度和影响力。

1.2数据收集

1.2.1爬虫系统原理和体系结构

网络爬虫是一种自动提取网络信息的工具。它主要是用C/C、Ja、Python、Perl和其他编程语言编写的。网页被自动提取并存储在数据库中,用于分析或数据挖掘。网络爬虫的基本架构如图1-[3所示:首先,获取器捕获HTML文件,并将HTML文件的内容放入控制器中进行分析。在搜索超链接之后,链接提取程序提取超链接以建立队列模式,该队列模式向网络爬虫的工作负荷添加新的节点,并可被视为数据结构;然后,提取的HTML文件或您想要获得的信息通过摘要程序存储在数据库中,直到网络爬虫的工作负载中没有节点可供访问。一般来说,网络搜索策略有四种:IP地址搜索法、广度优先、深度优先和最佳优先策略。

1.2.2微信爬虫系统设计

为了方便各图书馆收集微信公众号码推送文章及相关数据,构建了基于Python语言的微信公众号码爬虫系统。主要步骤如下:(1)统计各图书馆微信公众号开通情况。通过在线搜索、查询和筛选,获得32家省级图书馆的微信公众号。(2)通过微信公众号爬虫系统搜索2016年5月1日至2017年5月1日32个图书馆的微信公众号推送的文章、阅读量、点击率、链接地址等数据,存储在MongoDB的网址列表集中,通过爬虫系统搜索推送文章的链接地址、文章标题和内容,也存储在网址列表集中。(3)导出文件。从数据库中导出推送文章的链接地址和文本内容数据,以供分析和在网址中使用。CSV和INFO。CSV格式。

1.

使用EXCEL中的COUNTIF函数过滤重复的文章链接地址并将其删除。浙江省博物馆和云南省博物馆都有微信订阅号和服务号,所以它们的链接地址和内容数据合并到同一个* * * * * *。因为网址中有24条记录数据。由于发布者删除或内容被删除而无法查看的CSV文件,请将其删除。剩下的8065个微信公众号推送文章的链接地址记录——信息。CSV文件被相应地删除和修改,并导出8,065个数据链接地址,包括诸如文本内容、标题、摘要、点击次数、推送时间等数据。

1.3.2基于表格的数据分析

Tableau是一款可视化数据分析产品。本研究将过滤后的数据导入Tableau进行分析,并利用WCI对各图书馆微信公众号推送文章的位置、日期、时间、传播指标排名、推送时间、推送内容等指标数据进行统计分析。一些数据如图2所示。

2调查实践及结果分析

2.1宏观分析

2.1.1区域推动次数

为了直观显示每个图书馆的地理位置和推送文章的情况,利用EXCEL工具将每个图书馆的微信公众号推送的文章数量标注在地图的相应位置。从图3可以看出,江苏、湖南、黑龙江等省份微信公众号推送的文章数量最多,分别达到1325篇、1103篇和850篇。从地区来看,微信公众号在东部和南部省份推送的文章数量明显高于西部和北部省份,表明每个图书馆微信平台的运行与当地经济水平有直接关系。

2.1.2推送时间的选择

根据爬虫推送文章的日期和数量,得出每个博物馆微信公众号推送文章的数量随月份的变化。参见图4。2016年12月是文章推送量最大的一年,元旦假期活动可能会增加。第二个是九月和十一月。10月份的低谷可能与国庆假期有关,这影响了微信经理推送文章。与2017年上半年和2016年下半年相比,2016年上半年微信平台的活动低于下半年。

2.1.3计时

通过爬虫搜索,得到每个图书馆推送的文章及其推送时间段,以24小时为横坐标,以每个时间段内所有图书馆推送的平均文章数为纵轴。数据计算结果如图5所示。从图5可以看出,每个图书馆从0点到6点推送的文章最少,这与工作人员的工作和休息是一致的。随着时间的推移,上午和下午工作时段推送的文章数量增加。它分别在12点和17点达到顶峰。在13点和14点,文章数量达到最低点,这与午休时间一致。到了晚上,每个图书馆推送的文章平均数量随着时间的推移而减少,在23点达到最低点,与休息时间一致。

2.2示例分析

2.2.1微信公众平台开放现状

截至2017年5月1日,32家省级图书馆已全部开通微信平台并完成认证,如表1所示。其中首都图书馆、天津图书馆、河北省图书馆、黑龙江省图书馆、山东省图书馆、湖南省图书馆、浙江省图书馆和上海图书馆等八家图书馆开通了两个微信平台。只有一个公共号码山东省图书馆信息平台通过了认证,另一个公共号码山东省图书馆尚未通过认证。

2.2.2推送文章分析

整理分析2016年5月1日至2017年5月1日微信公众号推送文章的数量、平均阅读量和平均好评量(见图6和图7)。考虑到数据的完整性、稳定性和公开号码的查询性,本文最终选取了27个公开号码进行研究。前4名的推送号码是湖南图书馆、黑龙江省图书馆、甘肃省图书馆和浙江省图书馆。每个图书馆微信公众号的平均阅读量是所有文章的总阅读量除以推送的文章数得到的平均值。平均阅读量超过1000次,包括湖南、湖北和山东的3个省级图书馆。湖南图书馆的平均阅读量是5734倍。平均命中次数指的是平均值ob

选取湖南、四川、黑龙江、甘肃、浙江五个省级图书馆的微信平台服务数据进行统计分析,得到图8。纵坐标用于说明每个图书馆推送文章的时间段和平均阅读量的选择,横坐标是一天内的时间段。五个省级图书馆微信公众平台的推送文章均在12点和15点达到高峰,12点的推送量远远高于其他时段,其中浙江图书馆12点推送文章仅次于湖南图书馆,甘肃图书馆17点推送文章。

虽然湖南图书馆以12点为推文的首选时段,但平均阅读量并不在全天的高峰期,全天阅读的高峰期出现在16-20点,这表明用户在下午和晚上更加关注。甘肃图书馆和黑龙江图书馆的平均阅读量均较低,表明微信平台推送的文章数量与阅读量不呈正相关,但与推送时间密切相关。另外,阅读量大的时间段集中在下午和晚上。因此,各图书馆微信管理者应提高文章推送效率,根据读者阅读时间选择的考虑,选择更合适的推送时间。

2.2.4推送内容

湖南、四川、黑龙江、甘肃、浙江五个省级图书馆推送的文章阅读量排名前四位。排名结果如表2所示。

湖南图书馆微信公众号的前五篇文章阅读量远远超过其他图书馆。其中,数字1是《父母尚在苟且,你却炫耀诗和远方》,它的读数超过11万。这篇文章之所以受到如此大的关注,主要是因为它的标题和内容触动了各个年龄段的人们的情感。2 《他是买下十套学区房却一天也没住过的任性买房者,也是一个你完全想象不到的童话大王》与热门话题密切相关。其余的文章也与热门话题相关,阅读量超过50,000篇。

四川省图书馆收录的四篇文章中,有三篇与南海热点军事话题密切相关。甘肃省图书馆列出的四篇文章主要是关于心灵鸡汤的,这让人感到乐观。这与人们的压力过大有关,需要开导。黑龙江省图书馆和浙江省图书馆推出的文章大多是通知和文字,涉及热点话题较少,关注度低,阅读量低。

2.3微信传播指数分析

2.3.1微信传播指数概述

微信传播指数(WCI)由清博新媒体指数团队开发,全面反映了微信公众平台所推文章的覆盖面、传播范围和影响力。它具有权威性和可靠性。WCI常用的指标体系和标准化评分计算公式(见图9)。系统捕获时间通常是系统每天更新* * * * * *前一天发表的文章和阅读的次数。每天上午12: 00左右更新阅读次数,每天上午15点左右更新统计数据,使用文章发表后第二天的数据计算每日列表数据,每天上午14点左右发布每日列表,每周列表数据通常是博客清除索引。将周日至周六设置为一周的统计周期。总标题阅读量是* * * * * *期间阅读的所有标题文章的总和,总阅读量是* * * * * *期间阅读的所有文章的总和。平均阅读量是总阅读量除以* * * * * *期内发表的文章数,总评论数是* * * * * *期内所有赞扬文章的总和,平均评论数是总评论数除以* * * * * *期内发表的文章数。最大阅读次数是* * * * * *期的最高阅读次数,最大评论次数是* * * * * *期的最高评论次数,评论率是总评论次数除以总阅读次数。图9R是评估期间所有文章的阅读总数(N)。z是评估期内所有文章的评论总数(n);d是评估期间包括的天数(通常每周7天,每月30天,每年365天,其他期间以实际天数计算);n为评估期内* * * * * *发布的文章数量;Rt和Zt是读数和tota的总数

参照WCI权重分配标准[8]确定WCI评价指标体系中的权重系数。选择总读数≥1000和小于1000两种情况,确定不同条件下各指标的权重系数(见表3和表4)。

根据实际情况,得出微信传播指数WCI的计算公式。

2.3.3评估结果分析

从表5可以看出,湖南图书馆的微信传播指数远远高于其他图书馆。四川省图书馆和甘肃省图书馆分别排名第二和第三,与其余图书馆的微信传播指数存在较大差异,表明微信平台具有较高的服务水平和质量。黑龙江省图书馆和浙江省图书馆的文章推送量分别排名第二和第四,但微信传播指数排名第八和第十,排名相对较低。

微信平台在3个省级图书馆的应用发展及建议

3.1保持粘性的平衡分配

各图书馆微信平台平均推送的文章数量差异很大,湖南图书馆以1136篇文章高居榜首,黑龙江、甘肃和浙江图书馆各有500多篇文章,远远超过其他图书馆。通过线下研究发现,各图书馆微信平台使用的人力资源分布不均。对各图书馆微信平台推文数量和时间的统计分析显示,各图书馆推文数量最多的是2016年12月,其次是9月和11月。上半年的推进力度明显低于下半年。由于用户对微信平台的关注主要取决于文章更新和文章热点,因此应重视微信平台的人力资源建设,增强用户对微信平台的依赖。

3.2充分利用指标,合理评价

从微信公众号文章数量、阅读次数、评论次数等指标来看,不同图书馆微信平台的服务水平和质量存在差异。这说明不同图书馆微信平台的运行能力不同,不同图书馆面临的问题和需要改进的问题也不同。因此,有必要建立科学的微信平台服务水平评价指标体系,并通过评价结果指导图书馆提高微信平台的服务质量。

3.3独创性是主要的,再版是辅助的

通过对湖南、四川、黑龙江、甘肃、浙江五个省级图书馆的微信传播指数、文章推送时间段和推送内容的分析,发现读者阅读量最大的文章有两个共性:实时性和原创性。湖南图书馆凭借其对热点、有趣新闻等信息的实时掌握,吸引了大量用户,并确立了微信平台的诸多指标稳居首位。四川省图书馆通过深入解读热点新闻增强了影响力。因此,每个图书馆都可以充分发挥自身优势,增强原创性。

3.4增加推送频率,改善平台功能

微信公众号码在各图书馆的推送频率普遍不高。有必要增加推送频率。通过改进功能和开通相应的接待,访客和图书馆管理员可以实现实时交互,及时向用户推送书目等信息,并通过公共号码对应的界面开发特殊程序,包括在线扫描二维码图书,实现图书查询和借阅,替代或完成图书馆APP功能。

3.5传输通道的扩展

对于社交网络软件来说,多渠道扩大影响力是重中之重。图书馆可以在网页最醒目的地方放置公共号码,或者在图书馆大厅和阅览室设置微信号二维码扫描区,或者在微信公共号码上加强与读者的互动,组织有奖征文和竞赛活动,从而增强微信公共号码的影响力。

作者简介:谢辉,廊坊师范大学副教授。

接收日期:2017年6月20日

(责任编辑:刘虹;英文编辑:杨涛)

公共图书馆论文参考:

图书馆杂志

公共关系论文

公共安全文件

掌握

上一篇:雨花集正规吗,西安雨花集

下一篇:描写心情的优美句子,描写好心情的段落

猜你喜欢
发布评论
登录后发表评论
登录后才能评论

AI 新用户?

免费使用内容重写服务

开始新的写作