自动识别采集内容(在线内容采集系统的技术实现步骤摘要【技术介绍】)
优采云 发布时间: 2021-08-30 14:06自动识别采集内容(在线内容采集系统的技术实现步骤摘要【技术介绍】)
一个在线内容采集系统,包括:一个扫描服务器,用于扫描网站以获得潜在创意的统一资源定位器(URL)。扫描获取包括解析网页为网站,识别出符合预定条件的潜在创意网址,从解析后的网页中获取潜在创意网址,获取符合预定标准的潜在创意网址。数据存储可用于存储创意 URL。在线内容采集服务器对获取的潜在创意网址进行如下分析:将获取的潜在创意网址与数据存储中存储的创意网址进行比较,判断所获取的潜在创意网址之前是否见过,如果获取的潜在创意URL之前已经被看到,则判断获取的潜在创意URL是否指向该创意。
下载所有详细的技术资料
【技术实现步骤总结】
在线内容采集
技术介绍
在线广告通常包括发布在 Internet 上的广告。在线广告可能包括营销信息,用户可能能够点击该广告,这通常会将用户带到另一个网页来营销广告中的产品或服务。例如,在线广告可以表示为创意,包括图像、点击、FLASH 对象等。在线广告可以以横幅广告的形式提供,横幅广告是嵌入在网页中的广告,通常包括文本、图像、视频、声音或这些元素的任意组合。您可以从称为广告提供商的广告服务或广告网络购买特定 网站 上的创意展示位置。例如,搜索引擎通常提供广告服务,广告主通过付费在搜索引擎网站或其他附属网站上发布他们的想法。除了搜索引擎,许多网站 还为公司或其他实体提供类似的发布想法的服务。在很多情况下,想法需要发布一段时间,需要在网站上的某些位置发布,或者可能需要满足某些条件才能发布。许多实体参与复杂的在线广告活动,在那里他们与竞争对手竞争创意空间,并将许多想法放在许多网站 上。很难有效地跟踪网站 以确定网站 是否正在发布其创意,以及该创意是否收录适当的内容、是否在适当的网页中提供并在网页的适当位置提供。附图说明本发明的特征以举例的方式进行说明,并不限于以下附图,其中相同的数字代表相同的元件,其中: 图1为本发明的在线示例内容采集图2示出了根据本公开示例的在线内容采集系统的系统图。图3示出了根据本公开示例的在线内容采集的系统图。系统执行的创意统一资源定位器(URL)及点击处理方法流程图;无花果。图4为本发明实施例下载并存储创意到数据库或在线内容采集服务器的方法流程图。无花果。图5为本发明实施例中点击下载保存到数据库或在线内容采集服务器的方法流程图;和图。图6图示了根据本公开的方法可以在所描述的方法和系统中使用的示例性计算机系统。
详细描述为了简洁和说明的目的,通过主要参考实施例来描述本公开。在以下描述中,陈述了许多具体细节以提供对本公开的透彻理解。然而,很明显,本公开可以在不限于这些具体细节的情况下实施。在其他情况下,未详细描述一些方法和结构以避免不必要地混淆本公开。贯穿本公开,术语“一个”和“一个”旨在表示至少一个特定元素。如本文所用,术语“包括”是指包括但不限于,术语“包括”是指包括但不限于。术语“基于”意味着至少部分基于。根据一个例子,本文公开了一种在线内容采集系统,用于检测、处理和存储创意以及相关的创意网址和点击。创意可以定义为在线内容,可以包括任何类型的图像、点击、FLASH 对象、视频等。例如,创意可以是,例如,包括图像、点击、FLASH 对象等的在线广告。可用于提供有关网站 的信息。例如,电脑在线广告包括电脑图片、点击卖家网站和/或与电脑相关的FLASH对象等,可用于提供关于网站(例如news网站)的一般信息。创意中的信息通常是推广可供销售的产品或服务的营销信息。用于创意的点击网址可以被用户点击,可以将用户带到产品网站或另一个推广产品或服务的网站。
创意网址可以定义为与用于创意的图片、点击、FLASH 对象等相关联的特定网址。潜在创意 URL 可以定义为可能是也可能不是创意 URL 的 URL。想法、URL 和点击可用于后续分析,例如生成报告。根据一个示例,在线内容采集系统可以包括扫描服务器,用于扫描网站以获得潜在的创意统一资源定位符(URL)。扫描获取包括解析网页为网站,识别符合预定标准的潜在创意网址,从解析后的网页中获取潜在创意网址,获取符合预定标准的潜在创意网址。数据存储可用于存储创意 URL。在线内容采集服务器分析获取的潜在创意网址,将获取的潜在创意网址与数据存储中存储的创意网址进行比较,判断所获取的潜在创意网址是否之前看过,如果是之前已经看到过潜在创意网址,则判断获取到的潜在创意网址是否指向该创意。根据一个例子,在线内容采集的方法包括扫描网站获取潜在创意网址,获取与获取潜在创意网址预定条件相匹配的潜在创意网址,并通过将获取的潜在创意网址与之前验证过的创意网址,以确定获取的潜在创意网址之前是否看过,如果之前看过获取的潜在创意网址,则确定获取的潜在创意网址是否指向该创意。
根据示例,收录计算机代码的非暂时性计算机可读介质,当由计算机系统执行时,执行包括以下指令的指令:扫描网站以获得潜在的创意URL,并且它被使用获取与潜在创意网址的预定条件匹配的潜在创意网址。通过将获取的潜在创意网址与之前验证的创意网址进行比较,确定获取的潜在创意网址之前是否已经看过,如果获取的潜在创意网址之前已经看过,则确定获取的潜在创意网址是否已经看过创意网址指向一个想法,如果之前没有看到过获取的潜在创意网址,则下载获取的潜在创意网址所指向的创意。对于上述在线内容采集系统,预定标准包括使用正则表达式来匹配潜在的创意URL。在线内容采集服务器执行的分析还包括在确定获取的潜在创意URL之前是否见过之前移除查询参数。该分析还包括如果之前没有见过获得的潜在创意URL,则下载获得的潜在创意URL所指向的想法。对于上述在线内容采集系统,如果获取的潜在创意URL指向一个创意,则分析还包括判断在线内容采集服务器是否识别出与该创意相关联的点击URL。如果在线内容采集服务器未识别出与创意相关联的点击网址,则分析还包括确定与创意相关联的网络内容是否包括点击网址。如果与广告素材相关联的网页内容收录点击网址,则分析还包括在网络浏览器环境中下载点击网址并确定点击网址是否为重定向网址。
如果点击的网址是重定向网址,分析还包括判断重定向的网址之前是否看过,如果重定向的网址之前看过,则表示点击的网址无效,如果重定向的网址已经看过之前如果没看过,下载后续的重定向网址,判断后续的重定向网址是否是另一个重定向网址。如果被点击的URL不是重定向URL,分析还包括判断被点击的URL是否是HTML重定向,如果被点击的URL不是HTML重定向,则将被点击的URL存储在数据存储中,如果被点击的URL是 HTML 重定向,以确定之前是否见过 HTML 重定向。对于上述的在线内容采集系统,如果获取的潜在创意网址没有指向该创意,则分析还包括判断获取的带有查询参数的潜在创意网址是否已经被看过。对于上述在线内容采集系统,如果之前没有见过获取的潜在创意网址,则分析还包括确定获取的潜在创意网址是否为重定向网址。如果获取的潜在创意 URL 是重定向 URL,则该分析还包括确定之前是否见过重定向 URL,如果之前见过重定向 URL,则表明与获取的潜在创意 URL 关联的创意无效,如果重定向 URL 之前没有见过,下载后续重定向 URL 判断后续重定向 URL 是否是另一个重定向 URL。如果所获取的潜在创意 URL 不是重定向 URL,则该分析还包括确定与所获取的潜在创意 URL 相关联的创意是否是 FLASH 对象或图像,以及确定与所获取的潜在创意 URL 相关联的创意是否是 FLASH 对象或image FLASH对象或图片的宽度和高度是否超过预定阈值,如果获取的潜在创意URL关联的创意不是FLASH对象或图片,则与获取的潜力相关
【技术保护点】
一种在线内容采集系统,包括:扫描服务器,用于扫描网站以获得潜在的创意统一资源定位符(URL),其中扫描和获取包括:解析网站的网页,识别匹配预定标准的潜在创意网址,用于从解析后的网页中获取潜在创意网址,获取符合预定标准的潜在创意网址;存储创意 URL 的数据存储;在线内容采集服务器,用于分析获取的潜在创意网址,其中,分析包括:通过将获取的潜在创意网址与存储在数据存储器中的创意网址进行比较,确定获取的潜在创意网址是否已被之前看过,如果之前看过获取的潜在创意网址,则判断获取的潜在创意网址是否指向一个idea。
[技术特点总结]
2012.08.30 US 13/599,3101. 一种在线内容采集系统,包括:扫描服务器,用于扫描网站以获得潜在的创意统一资源定位器(URL),其中扫描获取包括:解析用于网站的网页,从解析出的网页中识别出符合预定获取潜在创意网址标准的潜在创意网址,获取符合预定标准的潜在创意网址用于存储创意 URL 的数据存储;在线内容采集服务器,用于分析获取的潜在创意网址,其中分析包括:通过以下项目确定获取的潜在创意网址之前是否见过:将获取的潜在创意网址与存储在其中的创意网址进行比较。数据存储,在判断获取的潜在创意URL之前是否见过,去掉查询参数,如果之前没有见过获取的潜在创意URL,则下载获取的潜在创意URL所指向的idea,如果获取的之前看过潜在创意网址,判断获取的创意创意网址是否指向创意,如果获取的创意创意网址不指向创意,则判断获取的创意创意网址是否之前见过,以及如果获取到的潜在idea URL指向一个idea,则判断在线内容采集服务器是否识别与创意相关联的点击网址,如果在线内容采集服务器没有识别与创意相关联的点击网址,则确定与创意相关联的网页内容是否收录点击网址,其中如果网页内容与广告素材相关联的包括点击 URL,然后: 在网络浏览器环境中下载点击 URL;并确定点击 URL 是否为重定向 URL。
2.如权利要求1所述的在线内容采集系统,其特征在于,所述预定标准包括使用正则表达式匹配潜在创意URL。 3.根据权利要求1所述的在线内容采集系统,其特征在于,所述分析还包括:如果之前未见过获取的潜在创意网址,则判断获取的潜在创意网址是否为重定向网址。 4.如权利要求3所述的在线内容采集系统,其特征在于,所述分析还包括:如果获取的潜在创意网址为重定向网址,则判断该重定向网址之前是否见过;如果之前已经看到重定向 URL,则与获取的潜在创意 URL 关联的创意将被指示为无效;如果之前没有看到重定向URL,则下载后续重定向URL,判断后续重定向URL是否为其他重定向URL。 5.根据权利要求3所述的在线内容采集系统,其特征在于,所述分析还包括:如果获取的潜在创意网址不是重定向网址,则判断获取的潜在创意网址关联的创意是否为FLASH对象或图片;如果获取的潜在创意URL关联的创意为FLASH对象或图片,则判断该FLASH对象或图片的宽度和高度是否超过预定阈值;如果与潜在广告素材 URL 关联的广告素材不是 FLASH 对象或图片,则与获取的潜在广告素材 URL 关联的广告素材将被指示为无效。
6.如权利要求5所述的在线内容采集系统,其特征在于,所述预定阈值为5个像素。 7.根据权利要求5所述的在线内容采集系统,其特征在于,所述分析还包括:如果FLASH对象或图片的宽度和高度超过预定阈值,则获取的潜在创意URL关联的创意指示已验证;将获取的潜在创意网址存储在数据存储器中,用于与进一步获取的潜在创意网址进行比对。 8.如权利要求1所述的在线内容采集系统,其特征在于,所述分析还包括: 如果点击网址为重定向网址,则判断该重定向网址之前是否见过;如果之前看过重定向网址,则表示点击网址无效;如果之前没有看到过重定向网址,则下载后续的重定向网址,判断后续的重定向网址是否为另一个重定向网址。 9.如权利要求8所述的在线内容采集系统,其特征在于,所述分析还包括:如果点...
【专利技术属性】
技术研发人员:M·费格、J·霍尔曼、
申请人(专利权):,
类型:发明
国家省市:爱尔兰;浏览器
下载所有详细技术资料我是此专利的所有者