UCI 机器学习数据库的 Python API 介绍

优采云 发布时间: 2022-05-14 06:47

  UCI 机器学习数据库的 Python API 介绍

  8.根据数据集大小下载数据集。

  9.根据与之关联的机器学习任务下载数据集。

  案例(搜索并下载某个数据集)

  例如,如果要下载著名的Iris数据集,只需从菜单中选择选项3,输入存储的本地数据库的名称(以便搜索更迅速)。 就可以下载Iris数据集并将其存储在名为“Iris”的文件夹中!

  

  案例(搜索包含关键词的数据集)

  如果选择选项7,将使用关键字进行搜索,得到名称与搜索字符串匹配的所有数据集(甚至部分)的简短摘要。你还可以获得每个结果的网页链接,以便根据需要进一步探索数据。 下面的屏幕截图是使用关键词Cancer进行搜索的结果。

  

  如果你想另辟蹊径

  如果你想避开这个简单的用户API,而使用基础函数,也是可行的。大致流程如下,首先导入必要的包。

  fromUCI_ML_Functions import*importpandas aspd

  read_dataset_table():从url读取数据集并进一步处理以便后续的数据清洗和分类。

  url:

  clean_dataset_table():清洗原始数据集(数据框对象(DataFrame))并返回数据。处理后的数据删除了包含空缺值的观测。并且删除了“默认任务”列,该列用来显示与数据集关联的主机学习任务。

  build_local_table(filename=None, msg_flag=True):读取UCI ML网站并使用名称,大小,ML任务,数据类型等信息构建本地表。

  build_dataset_list():抓取UCI ML数据集页面的信息,并构建包含所有数据集信息的列表。

  build_dataset_dictionary():抓取UCI ML数据集页面的信息,并构建包含所有数据集名称和描述的字典(dictionary)。此外,还对应数据集生成了唯一标识符,下载器需要这个标识符字符串来下载数据文件。这种情况下,通用名称不起作用。

  build_full_dataframe():构建一个包含所有信息的数据框(DataFrame),包括用于下载数据的URL链接。

  build_local_database(filename=None, msg_flag=True):读取UCI ML网站并使用以下信息构建本地数据库:name,abstract,data page URL。

  return_abstract(name,local_database=None,msg_flag=False):通过搜索给定的名称,返回特定数据集的单行描述(以及更多信息的网页链接)。

  describe_all_dataset(msg_flag=False):调用build_dataset_dictionary函数并显示所有数据集的描述。

  print_all_datasets_names(msg_flag=False):调用build_dataset_dictionary函数并显示所有数据集的名称。

  extract_url_dataset(dataset,msg_flag=False):给定数据集标识符,此函数提取实际原始数据所在页面的URL。

  download_dataset_url(url,directory,msg_flag=False,download_flag=True):从给定url中的链接下载所有文件。

  download_datasets(num=10,local_database=None,msg_flag=True,download_flag=True):下载数据集并将它们放在以数据集命名的本地目录中。默认情况下,仅下载前10个数据集。用户可以选择要下载的数据集数量。

  download_dataset_name(name,local_database=None,msg_flag=True,download_flag=True):根据下载指定名称的数据集。

  download_datasets_size(size='Small',local_database=None,local_table=None,msg_flag=False,download_flag=True):下载满足'size'标准的所有数据集。

  download_datasets_task(task='Classification',local_database=None,local_table=None,msg_flag=False,download_flag=True):下载用户想要的所有符合ML任务标准的数据集。

0 个评论

要回复文章请先登录注册


官方客服QQ群

微信人工客服

QQ人工客服


线