推荐文章:R从网页抓取到文本分析全教程：影评的获取与分析

优采云发布时间: 2022-09-23 20:16

　　本期目录

　　01

　　网页抓取

　　02

　　中文分词

　　03

　　文档矩阵

　　04

　　词频同现

　　05

　　文本聚类

　　06

　　主题建模

　　07

　　情绪分析

　　08

　　词频统计

　　09

　　画一个词云

　　输入

　　随着科技的进步，定量分析的方法不再只通过问卷、二手数据库等方式采集数据，也不再只通过数理统计、回归分析等手段分析数据。针对不同的研究需求，产生了越来越多的新方法和新工具：

　　例如以元胞自动机为代表的活体建模技术，以马尔可夫链蒙特卡罗（MCMC）算法为代表的计算机模拟技术等

　　本期介绍一个使用爬虫技术爬取网页的实际案例，并对获取的网页文本数据进行后续分析。我将用网友对《流浪地球》豆瓣影评文的获取和分析的全过程作为示范案例。

　　文本挖掘的本质是通过自然语言处理（NLP）和分析方法将文本转化为数据进行分析。所以阅读这篇文章需要一定的知识基础，包括网页设计、自然语言处理方法等，我会在文章中适当补充。

　　➡ 1.准备工作

　　在分析工作之前，需要对软件的工作环境进行配置，包括设置工作目录、调用需要的包等。采集@收到的文本数据、各种字典、输出结果等> 将保存在工作目录中；首次使用前需要安装外部包。

　　### 准备工作# 设置工作目录setwd('D:/The Wandering Earth')# 加载所需程序包library('rvest')library('stringr')library('jiebaRD')library('jiebaR')library('plyr')library('rJava')library('tm')library('tmcn')library('proxy')library('topicmodels')library('sqldf')library('wordcloud2')

　　➡ 2.网页抓取

　　我还是按照定量分析的传统套路，将整个分析过程分为数据采集和数据分析两部分。第一步是通过爬虫技术对网页进行爬取。

　　网络爬虫，也称为蜘蛛，是一种自动浏览万维网的网络机器人。它的目的通常是编译一个网络索引。爬虫访问网站的过程会消耗目标系统的资源，很多网络系统默认是不允许爬虫工作的。因此，在访问大量页面时，爬虫需要考虑规划、负载和“礼貌”。不愿被爬虫访问且为爬虫所有者所知的公共网站，可以使用robots.txt文件等方式避免访问。

　　例如豆瓣电影()的robots.txt如下：

　　User-agent: *Disallow: /subject_searchDisallow: /amazon_searchDisallow: /searchDisallow: /group/searchDisallow: /event/searchDisallow: /celebrities/searchDisallow: /location/drama/searchDisallow: /forum/Disallow: /new_subjectDisallow: /service/iframeDisallow: /j/Disallow: /link2/Disallow: /recommend/Disallow: /doubanapp/cardDisallow: /update/topic/Sitemap: https://www.douban.com/sitemap_index.xmlSitemap: https://www.douban.com/sitemap_updated_index.xml# Crawl-delay: 5<br />User-agent: Wandoujia SpiderDisallow: /

　　在实际应用中，网络爬虫技术并不是特别复杂。在许多情况下，我们倾向于指定网站并爬取内容，更喜欢网页采集@> 而不是网络爬虫。在此之前，希望读者对网页的源码有所了解，尤其是标记语言（HTML，只有语法，没有变量和逻辑）、Cascading Style Sheets（CSS，用来控制元素的呈现）、脚本语言（JavaScript），网页设计中添加、删除、修改元素的作用）。

　　另外，当网页有比较复杂的表现形式，比如URL分页、超链接、异步加载等，读者需要有更多的理论知识。

<p>### 网页采集# 观察网址规律index

0

2022-09-23

c 抓取网页数据

0 个评论

要回复文章请先登录或注册

AI时代内容工厂

推荐文章:R从网页抓取到文本分析全教程：影评的获取与分析

0 个评论

发起人

AI时代内容工厂

推荐文章:R从网页抓取到文本分析全教程：影评的获取与分析

0 个评论

发起人

相关问题