独家 | UCI机器学习数据库的Python API介绍

优采云 发布时间: 2022-05-14 06:53

  独家 | UCI机器学习数据库的Python API介绍

  8. 根据数据集大小下载数据集。

  9. 根据与之关联的机器学习任务下载数据集。

  案例(搜索并下载某个数据集)

  例如,如果要下载著名的Iris数据集,只需从菜单中选择选项3,输入存储的本地数据库的名称(以便搜索更迅速)。 就可以下载Iris数据集并将其存储在名为“Iris”的文件夹中!

  

  案例(搜索包含关键词的数据集)

  如果选择选项7,将使用关键字进行搜索,得到名称与搜索字符串匹配的所有数据集(甚至部分)的简短摘要。你还可以获得每个结果的网页链接,以便根据需要进一步探索数据。 下面的屏幕截图是使用关键词Cancer进行搜索的结果。

  

  如果你想另辟蹊径

  如果你想避开这个简单的用户API,而使用基础函数,也是可行的。大致流程如下,首先导入必要的包。

  fromUCI_ML_Functions import*importpandas aspd

  read_dataset_table():从url读取数据集并进一步处理以便后续的数据清洗和分类。

  url:

  clean_dataset_table():清洗原始数据集(数据框对象(DataFrame))并返回数据。处理后的数据删除了包含空缺值的观测。并且删除了“默认任务”列,该列用来显示与数据集关联的主机学习任务。

  build_local_table(filename=None, msg_flag=True):读取UCI ML网站并使用名称,大小,ML任务,数据类型等信息构建本地表。

  build_dataset_list():抓取UCI ML数据集页面的信息,并构建包含所有数据集信息的列表。

  build_dataset_dictionary():抓取UCI ML数据集页面的信息,并构建包含所有数据集名称和描述的字典(dictionary)。此外,还对应数据集生成了唯一标识符,下载器需要这个标识符字符串来下载数据文件。这种情况下,通用名称不起作用。

  build_full_dataframe():构建一个包含所有信息的数据框(DataFrame),包括用于下载数据的URL链接。

  build_local_database(filename=None, msg_flag=True):读取UCI ML网站并使用以下信息构建本地数据库:name,abstract,data page URL。

  return_abstract(name,local_database=None,msg_flag=False):通过搜索给定的名称,返回特定数据集的单行描述(以及更多信息的网页链接)。

  describe_all_dataset(msg_flag=False):调用build_dataset_dictionary函数并显示所有数据集的描述。

  print_all_datasets_names(msg_flag=False):调用build_dataset_dictionary函数并显示所有数据集的名称。

  extract_url_dataset(dataset,msg_flag=False):给定数据集标识符,此函数提取实际原始数据所在页面的URL。

  download_dataset_url(url,directory,msg_flag=False,download_flag=True):从给定url中的链接下载所有文件。

  download_datasets(num=10,local_database=None,msg_flag=True,download_flag=True):下载数据集并将它们放在以数据集命名的本地目录中。默认情况下,仅下载前10个数据集。用户可以选择要下载的数据集数量。

  download_dataset_name(name,local_database=None,msg_flag=True,download_flag=True):根据下载指定名称的数据集。

  download_datasets_size(size='Small',local_database=None,local_table=None,msg_flag=False,download_flag=True):下载满足'size'标准的所有数据集。

  download_datasets_task(task='Classification',local_database=None,local_table=None,msg_flag=False,download_flag=True):下载用户想要的所有符合ML任务标准的数据集。

  原文标题:

  Introducing a simple and intuitive Python API for UCI machine learning repository

  原文链接:

  译者简介

  

  王雨桐,UIUC统计学在读硕士,本科统计专业,目前专注于Coding技能的提升。理论到应用的转换中,敬畏数据,持续进化。

  翻译组招募信息

  工作内容:需要一颗细致的心,将选取好的外文文章翻译成流畅的中文。如果你是数据科学/统计学/计算机类的*敏*感*词*,或在海外从事相关工作,或对自己外语水平有信心的朋友欢迎加入翻译小组。

  你能得到:定期的翻译培训提高志愿者的翻译水平,提高对于数据科学前沿的认知,海外的朋友可以和国内技术应用发展保持联系,THU数据派产学研的背景为志愿者带来好的发展机遇。

  其他福利:来自于名企的数据科学工作者,北大清华以及海外等名校学生他们都将成为你在翻译小组的伙伴。

0 个评论

要回复文章请先登录注册


官方客服QQ群

微信人工客服

QQ人工客服


线