推荐文章:R从网页抓取到文本分析全教程:影评的获取与分析

优采云 发布时间: 2022-09-23 20:16

  推荐文章:R从网页抓取到文本分析全教程:影评的获取与分析

  本期目录

  01

  网页抓取

  02

  中文分词

  03

  文档矩阵

  04

  词频同现

  05

  文本聚类

  06

  主题建模

  07

  情绪分析

  08

  词频统计

  09

  画一个词云

  输入

  随着科技的进步,定量分析的方法不再只通过问卷、二手数据库等方式采集数据,也不再只通过数理统计、回归分析等手段分析数据。针对不同的研究需求,产生了越来越多的新方法和新工具:

  例如以元胞自动机为代表的活体建模技术,以马尔可夫链蒙特卡罗(MCMC)算法为代表的计算机模拟技术等

  本期介绍一个使用爬虫技术爬取网页的实际案例,并对获取的网页文本数据进行后续分析。我将用网友对《流浪地球》豆瓣影评文的获取和分析的*敏*感*词*作为示范案例。

  文本挖掘的本质是通过自然语言处理(NLP)和分析方法将文本转化为数据进行分析。所以阅读这篇文章需要一定的知识基础,包括网页设计、自然语言处理方法等,我会在文章中适当补充。

  ➡ 1.准备工作

  在分析工作之前,需要对软件的工作环境进行配置,包括设置工作目录、调用需要的包等。采集@收到的文本数据、各种字典、输出结果等> 将保存在工作目录中;首次使用前需要安装外部包。

  ### 准备工作# 设置工作目录setwd('D:/The Wandering Earth')# 加载所需程序包library('rvest')library('stringr')library('jiebaRD')library('jiebaR')library('plyr')library('rJava')library('tm')library('tmcn')library('proxy')library('topicmodels')library('sqldf')library('wordcloud2')

  ➡ 2.网页抓取

  我还是按照定量分析的传统套路,将整个分析过程分为数据采集和数据分析两部分。第一步是通过爬虫技术对网页进行爬取。

  网络爬虫,也称为蜘蛛,是一种自动浏览万维网的网络机器人。它的目的通常是编译一个网络索引。爬虫访问网站的过程会消耗目标系统的资源,很多网络系统默认是不允许爬虫工作的。因此,在访问大量页面时,爬虫需要考虑规划、负载和“礼貌”。不愿被爬虫访问且为爬虫所有者所知的公共网站,可以使用robots.txt文件等方式避免访问。

  例如豆瓣电影()的robots.txt如下:

  User-agent: *Disallow: /subject_searchDisallow: /amazon_searchDisallow: /searchDisallow: /group/searchDisallow: /event/searchDisallow: /celebrities/searchDisallow: /location/drama/searchDisallow: /forum/Disallow: /new_subjectDisallow: /service/iframeDisallow: /j/Disallow: /link2/Disallow: /recommend/Disallow: /doubanapp/cardDisallow: /update/topic/Sitemap: https://www.douban.com/sitemap_index.xmlSitemap: https://www.douban.com/sitemap_updated_index.xml# Crawl-delay: 5<br />User-agent: Wandoujia SpiderDisallow: /

  

  在实际应用中,网络爬虫技术并不是特别复杂。在许多情况下,我们倾向于指定网站 并爬取内容,更喜欢网页采集@> 而不是网络爬虫。在此之前,希望读者对网页的源码有所了解,尤其是标记语言(HTML,只有语法,没有变量和逻辑)、Cascading Style Sheets(CSS,用来控制元素的呈现)、脚本语言(JavaScript),网页设计中添加、删除、修改元素的作用)。

  另外,当网页有比较复杂的表现形式,比如URL分页、超链接、异步加载等,读者需要有更多的理论知识。

<p>### 网页采集# 观察网址规律index

0 个评论

要回复文章请先登录注册


官方客服QQ群

微信人工客服

QQ人工客服


线