Python实现文章自动生成

优采云 发布时间: 2020-08-11 03:42

  下面的Python程序实现了通过从网页抓取一篇文章,然后按照这篇文章来生成新的文章,这其中的原理就是基于机率统计的文本剖析。

  过程大约就是网页抓取数据->统计剖析->生成新文章。网页抓取数据是通过BeautifulSoup库来抓取网页上的文本内容。统计剖析这个首先须要使用ngram模型来把文章进行动词并统计频度。因为文章生成主要根据马尔可夫模型,所以使用了2-gram,这样可以统计出一个词组出现在另一个词组后的几率。生成新文章是基于剖析大量随机风波的马尔可夫模型。随机风波的特征是在一个离散风波发生以后,另一个离散风波将在前一个风波的条件下以一定的机率发生。

<p>from urllib.request import urlopen

from random import randint

from bs4 import BeautifulSoup

import re

def wordListSum(wordList):

sum = 0

for word, value in wordList.items():

sum = sum + value

return sum

def retrieveRandomWord(wordList):

randomIndex = randint(1, wordListSum(wordList))

for word, value in wordList.items():

randomIndex -= value

if randomIndex

0 个评论

要回复文章请先登录注册


官方客服QQ群

微信人工客服

QQ人工客服


线