主动学习笔记
概念Burr Settles的文章《Active Learning Literature Survey》详细地介绍了主动学习:“主动学习是机器学习的一个子领域,在统计学领域也叫查询学习或最优实验设计”。为解决某些任务数据标签较少或打标签“代价”较高的问题而出现。主动学习方法尝试解决样本的标注瓶颈,通过主动优先选择最有价值的未标注样本进行标注,以尽可能少的标注样本达到模型的预期性能。其主要方式是模型通过与用户或专家进行交互,抛出”query”(unlabel data)让专家确定数据的标签,如此反复,以期让模型利用较少的标记数据获得较好“性能”。
主动学习方法是一个迭代式的交互训练过程,主要由五个核心部分组成,包括:未标注样本池(unlabeled pool,记为U)、筛选策略(select queries,记为Q)、标注者(human annotator,记为S),标注数据集(labeled training set,记为L),目标模型(machine learning model,记为G)。
active learning与passive learning最大的不同是passive ...
常用数据集汇总
CIFAR-10CIFAR-10 是由Hinton 的学生Alex Krizhevsky 和Ilya Sutskever 整理的一个用于识别普适物体的小型数据集。包含60000个32x32像素RGB三通道彩色图像,10个类别,每个类别6000个图像。 有50000张训练图像和10000张测试图像。
数据集地址如下:The CIFAR-10 dataset
与MNIST 数据集比, CIFAR-10 有以下不同点:
(1) CIFAR-10 是3 通道的彩色RGB 图像,而MNIST 是灰度图像。
(2) CIFAR-10 的图片尺寸为32 × 32,而MNIST 的图片尺寸为28 × 28,比MNIST 稍大。
(3) 相比于手写字符,CIFAR-10 含有的是现实世界中真实的物体,不仅噪声很大,而且物体的比例、特征都不尽相同,这为识别带来很大困难。MNIST数据集展示的是不同人的手写0~9数字。直接的线性模型如Softmax 在CIFAR-10 上表现得很差。
CIFAR10数据集结构组成可分为这四个部分:
train_x:(50000, 32, 32, 3)——训练样本
tra ...
hexo使用命令
新建博客:
1hexo new post "文章标题"
保存博客内容:
1hexo s
预览:
http://localhost:4000
发布:
1hexo g -d
hexo使用命令
Welcome to Hexo! This is your very first post. Check documentation for more info. If you get any problems when using Hexo, you can find the answer in troubleshooting or you can ask me on GitHub.
Quick StartCreate a new post1$ hexo new "My New Post"
More info: Writing
Run server1$ hexo server
More info: Server
Generate static files1$ hexo generate
More info: Generating
Deploy to remote sites1$ hexo deploy
More info: Deployment