当前位置:首页 > 科技  > 软件

Python 制作微博抓取 GUI 程序

来源: 责编: 时间:2023-10-30 17:24:44 370观看
导读在前面的分享中,我们制作了一个天眼查 GUI 程序,今天我们在这个的基础上,继续开发新的功能,微博抓取工具,先来看下最终的效果图片整体的界面还是继承自上次的天眼查界面,我们直接来看相关功能微博功能布局我们整体的界面布

在前面的分享中,我们制作了一个天眼查 GUI 程序,今天我们在这个的基础上,继续开发新的功能,微博抓取工具,先来看下最终的效果d7C28资讯网——每日最新资讯28at.com

图片图片d7C28资讯网——每日最新资讯28at.com

整体的界面还是继承自上次的天眼查界面,我们直接来看相关功能d7C28资讯网——每日最新资讯28at.com

微博功能布局

我们整体的界面布局就是左侧可以选择不同功能,然后右侧的界面会对应改变d7C28资讯网——每日最新资讯28at.com

创建微博 Widget

对于右侧界面的切换,我们可以为不同的功能创建不同的 Widget,当点击左侧不同功能按钮后,对应切换 Widget 即可d7C28资讯网——每日最新资讯28at.com

我们新建一个 weibo 相关的函数,主要用来界面布局d7C28资讯网——每日最新资讯28at.com

def weiboWidget(self):    self.left_button_widget_3 = QtWidgets.QWidget()    self.weiboWebEngine = QWebEngineView()    self.weiboWebEngine2 = QWebEngineView()    self.progressWidget = QtWidgets.QWidget()    self.ciyunWidget = QtWidgets.QWidget()

我们还看到整体界面有一个词云,该词云是通过 matplotlib 渲染的,所以还需要创建 matplotlib 布局d7C28资讯网——每日最新资讯28at.com

# matplotlib 绘图区域self.figure = plt.figure(figsize=(7, 2))self.canvas = FigureCanvasQTAgg(self.figure)  # 绘图区域放到图层canvas之中self.gridLayout_weibo.addWidget(self.canvas, 5, 0, 1, 9)  # 图层放到pyqt布局之中

创建微博查询

接下来我们创建一个微博查询函数,同时因为我们这里需要实时更新抓取进度条,所以使用了多线程的方式d7C28资讯网——每日最新资讯28at.com

def doWeiboQuery(self):    weibo_link = self.lineEdit_weibo_link.text()    weibo_name = self.lineEdit_weibo_name.text()    weibo_page = self.weibo_comboBox.currentText()    if not weibo_link or not weibo_name:        QMessageBox.information(self, "Error", "微博链接或者用户名称不能为空",                                QMessageBox.Yes)        return    self.weiboWebEngine.load(QUrl(weibo_link))    self.qth = WeiBoQueryThread()    self.qth.update_data.connect(self.weiboPgbUpdate)    self.qth.draw_ciyun.connect(self.drawCiyun)    self.qth.weibo_page = weibo_page    self.qth.weibo_link = weibo_link    self.qth.weibo_name = weibo_name    self.qth.start()

而主线程与子线程之间的通信,是使用信号槽的形式d7C28资讯网——每日最新资讯28at.com

def weiboPgbUpdate(self, data):    self.pgb.setValue(data)def drawCiyun(self):    self.canvas.draw()    self.toolbar = NavigationToolbar2QT(self.canvas, self)    self.gridLayout_weibo.addWidget(self.toolbar, 8, 0, 1, 9)

接下来就是创建子进程函数,函数主体是爬取微博的代码d7C28资讯网——每日最新资讯28at.com

"""子进程微博查询"""class WeiBoQueryThread(QThread):    # 创建一个信号,触发时传递当前时间给槽函数    update_data = pyqtSignal(int)    draw_ciyun = pyqtSignal()    weibo_name = None    weibo_link = None    weibo_page = None    total_pv = 0    timestamp = str(int(time.time()))    def run(self):        # 微博爬虫        try:            file_name = self.weibo_name + "_" + self.timestamp + 'comment.csv'            my_weibo = weibo_interface.Weibo(self.weibo_name)            uid, blog_info = my_weibo.weibo_info(self.weibo_link)            pv_max = int(self.weibo_page)            pre_pv = 100 // pv_max            for i in range(int(self.weibo_page)):                my_weibo.weibo_comment(uid, blog_info, str(i), file_name)                self.total_pv += pre_pv                self.update_data.emit(self.total_pv)            print("所有微博评论爬取完成!")            print("开始生成词云")            font, img_array, STOPWORDS, words = ciyun(file_name)            wc = WordCloud(width=2000, height=1800, background_color='white', font_path=font, mask=img_array,                           stopwords=STOPWORDS, contour_width=3, contour_color='steelblue').generate(words)            plt.imshow(wc)            plt.axis("off")            self.draw_ciyun.emit()            print("生成词云完成")        except Exception as e:            print(e)

而对于微博的具体爬取方法,这里就不再展开说明了,我是把所有微博爬虫的代码都封装好了,这里直接调用暴露的接口即可d7C28资讯网——每日最新资讯28at.com

词云制作

对于词云的制作,我们还是先通过 jieba 进行分词处理,然后使用 wordcloud 库生成词云即可d7C28资讯网——每日最新资讯28at.com

# 词云相关def ciyun(file, without_english=True):    font = r'C:/Windows/Fonts/FZSTK.TTF'    STOPWORDS = {"回复", "@", "我", "她", "你", "他", "了", "的", "吧", "吗", "在", "啊", "不", "也", "还", "是",                 "说", "都", "就", "没", "做", "人", "赵薇", "被", "不是", "现在", "什么", "这", "呢", "知道", "邓"}    df = pd.read_csv(file, usecols=[0])    df_copy = df.copy()    df_copy['comment'] = df_copy['comment'].apply(lambda x: str(x).split())  # 去掉空格    df_list = df_copy.values.tolist()    comment = jieba.cut(str(df_list), cut_all=False)    words = ' '.join(comment)    if without_english:        words = re.sub('[a-zA-Z]', '', words)    img = Image.open('ciyun.png')    img_array = np.array(img)    return font, img_array, STOPWORDS, words

由于很多评论当中会存在链接信息,导致制作的词云有很多高权重的英文字符,所有这里也通过正则进行了去英文字符处理。d7C28资讯网——每日最新资讯28at.com

至此,我们这个微博查询功能就完成了~d7C28资讯网——每日最新资讯28at.com

本文链接:http://www.28at.com/showinfo-26-15886-0.htmlPython 制作微博抓取 GUI 程序

声明:本网页内容旨在传播知识,若有侵权等问题请及时与本网联系,我们将在第一时间删除处理。邮件:2376512515@qq.com

上一篇: 接口请求重试的八种方法,你用哪种?

下一篇: Nacos注册中心有几种调用方式?

标签:
  • 热门焦点
  • Redmi Pad评测:红米充满野心的一次尝试

    从Note系列到K系列,从蓝牙耳机到笔记本电脑,红米不知不觉之间也已经形成了自己颇有竞争力的产品体系,在中端和次旗舰市场上甚至要比小米新机的表现来得更好,正所谓“大丈夫生居
  • vivo TWS Air开箱体验:真轻 臻好听

    在vivo S15系列新机的发布会上,vivo的最新款真无线蓝牙耳机vivo TWS Air也一同发布,本次就这款耳机新品给大家带来一个简单的分享。外包装盒上,vivo TWS Air保持了vivo自家产
  • 十个可以手动编写的 JavaScript 数组 API

    JavaScript 中有很多API,使用得当,会很方便,省力不少。 你知道它的原理吗? 今天这篇文章,我们将对它们进行一次小总结。现在开始吧。1.forEach()forEach()用于遍历数组接收一参
  • 如何使用JavaScript创建一只图像放大镜?

    译者 | 布加迪审校 | 重楼如果您曾经浏览过购物网站,可能遇到过图像放大功能。它可以让您放大图像的特定区域,以便浏览。结合这个小小的重要功能可以大大改善您网站的用户体验
  • 一文掌握 Golang 模糊测试(Fuzz Testing)

    模糊测试(Fuzz Testing)模糊测试(Fuzz Testing)是通过向目标系统提供非预期的输入并监视异常结果来发现软件漏洞的方法。可以用来发现应用程序、操作系统和网络协议等中的漏洞或
  • 三分钟白话RocketMQ系列—— 如何发送消息

    我们知道RocketMQ主要分为消息 生产、存储(消息堆积)、消费 三大块领域。那接下来,我们白话一下,RocketMQ是如何发送消息的,揭秘消息生产全过程。注意,如果白话中不小心提到相关代
  • 梁柱接棒两年,腾讯音乐闯出新路子

    文丨田静 出品丨牛刀财经(niudaocaijing)7月5日,企鹅FM发布官方公告称由于业务调整,将于9月6日正式停止运营,这意味着腾讯音乐长音频业务走向消亡。腾讯在长音频领域还在摸索。为
  • 新电商三兄弟,“抖快红”成团!

    来源:价值研究所作 者:Hernanderz 随着内容电商的概念兴起,抖音、快手、小红书组成的“新电商三兄弟”成为业内一股不可忽视的势力,给阿里、京东、拼多多带去了巨大压
  • 疑似小米14外观设计图曝光:后置相机模组变化不大

    下半年的大幕已经开启,而谁将成为下半年手机圈的主角就成为了大家关注的焦点,其中被传有望拿下新一代骁龙8 Gen3旗舰芯片的小米14系列更是备受大家瞩
Top