来源:DeepTech深科技
一种新的方法正在让人工智能模型获得人类的 “联想” 能力,甚至能让它识别此前从未见过的事物。
来自加拿大滑铁卢大学的博士生伊利亚(Ilia Sucholutsky)和他的博士导师马赛厄斯・尚劳(Matthias Schonlau)教授,首次提出了 “少于一次” 样本学习的概念和方法,并由此为人工智能技术的演进提供了新的思路。
相关研究论文于 2020 年 9 月发表在预印本网站 arXiv 上,名为 “‘Less Than One’-Shot Learning: Learning N Classes From M < N Samples”。
伊利亚告诉 DeepTech,他们的研究显示,对于机器学习模型来说,理论上通过两个样本(example)即可训练模型学会识别任意数量类别(class)。
没人知道,这种方法一旦实现大规模应用,人工智能会迸发出怎样的火花。
高企的训练成本
机器学习,尤其是深度学习往往需要大量的训练数据。
著名的语言模型 GPT-3 使用了 45TB 的数据进行训练,这个过程耗资达到了惊人的 1200 万美元,即使有微软的鼎力相助,训练结束之后发现了一些小 Bug 也不舍得重新训练。
目前,GPT-3 是炼丹师们 “大力出奇迹” 的集大成者,但可以预见,不远的将来一定会有新的模型超越并取代它的位置。
“更多更大更强” 的思路是没有尽头的。假如我们稍稍停下疲于奔命的脚步,回归到现实中的人类学习过程,就会发现一个触及灵魂的拷问 ——人工智能真的必须依托如此巨量的数据才能够实现吗?
相信很多人的答案并不笃定。
举个例子,假如现在需要让人工智能模型 “认识” 马这种动物。常规的做法是挑选成百上千的马匹图像对其进行训练。
之所以需要如此之多的样本,是因为同样一匹马,仅仅是转换一个拍摄角度,或微调一些肉眼无法观察的像素点,人工智能就会识别失败,所以需要大量的大小、颜色、体态、朝向、品种不一的样本填满人工智能的 “盲区”。
即便如此,人工智能的识别成功概率也不能达到 100%,我们离创造真正可以复现大脑理解能力的人工智能还非常遥远。
但人类的儿童,却只需要一张看图识字的卡片,便能轻易分辨出唐僧所骑乘的是马,而不是其他外型类似的生物。并且,儿童一旦学会识别某种事物,这项技能终其一生都很难忘记,只会越来越熟练。
更有甚者,儿童可以在没有任何真实示例的情况下 “认出” 一个新的物体。例如,展示给他们一匹马和一头犀牛的图片,并告诉他们独角兽结合了两者的特点,他们就可以在第一次看到独角兽时认出这个传说中的生物。
图 | 犀牛 + 马 = 犀牛马?好吧,这张图并不像独角兽,但一定程度上体现了论文作者的意图。
伊利亚和导师认为,人工智能模型也应该具备同样的能力。也就是说,人工智能模型应该可以从 M 个样本中学习到 N 个类别,其中 N 可以远远大于 M。这样,理论上模型就可以识别比训练示例更多的图像,而此前的科研人员可能并未充分挖掘训练数据的全部潜力。
他们将这一过程称为 “少于一个” 样本学习(LO-Shot Learning)。
考虑到居高不下的训练成本和日益庞大到接近极限的训练数据,这种让人工智能学会 “合理联想” 的方法或许会在未来产生颠覆性影响。
如何实现 “少于一个” 样本学习?
在此前的一篇论文中,现为麻省理工学院博士生的 Tongzhou Wang 和同事介绍了一种 “蒸馏” 方法,可以将大数据集 “提纯” 为小数据集。
作为实践,他们将 MNIST(一个包含了 6 万张从 0 到 9 手写数字图片的业内常用测试数据集)提纯压缩成了一个仅由 10 张图像组成的训练数据集。
这些图像不是直接从原始数据集中选取的,而是经由一系列的设计和优化后,赋予了这 10 张图像几乎与整个原始数据集相同的信息。
因此,仅仅用这个超精简数据集对人工智能模型进行训练,就可以达到与用 MNIST 所有图像进行训练的模型几乎一致的识别精度。
图 | MNIST 数据集样例
图 | “蒸馏” 后的 MNIST 精简数据集。以上 10 张图是从 MNIST 所含 6 万张图像中提纯出的,可以用于训练人工智能模型,并且它们在识别手写数字时拥有 94% 的准确性。
伊利亚和导师从中受到启发,并且认为可以在 Tongzhou Wang 的方法上更进一步 —— 既然可以将 6 万张图像压缩到 10 张,那么为什么不能将它们压缩到 5 张或更少呢?一旦实现,就意味着,通过区区几张图象的训练,人工智能模型就能掌握从 0 到 9 这 10 个数字的各种手写数字图片,从而实现前面所说的 N 大于 M。
伊利亚很快发现,想要达到这个效果的诀窍就是创建混合有多个数字特征的图像,然后为它们打上 “软标签(让一个数据点同时成为多个类别成员的矢量表示)”,再来用这些样本训练人工智能模型(类似于前文的马 + 犀牛混合体)。
“你可以想象一下数字 3,它看起来有点像 8,但一点都不像 7。” 伊利亚说。
“软标签的目的在于标注这些共同的特征,进而以这种方式增加信息密度和维度。因此,相比于直接告诉模型这个图像是 3,我们会说,这个图像有 60% 可能是 3,30% 可能是 8,10% 可能是 0。” 使用这种数据训练出的模型,基本可以达到与常规训练方式一样的精度。
“少于一个” 样本学习的局限性
当伊利亚和导师成功地使用软标签在 MNIST 上实现 “少于一个” 样本学习后,他们开始思考这个方法能否用于更广阔的领域。人工智能模型从小样本中可以识别出的类别数量是否存在上限?
答案是否定的。
从理论上来看,使用精心设计的软标签,甚至只用两个示例就可以承载任意数量的类别信息。伊利亚说:“通过两个数据点,你就可以分离出一千个,一万个,甚至是一百万个类别。”
伊利亚和导师通过纯数学方式的推导,在论文中证明了这一点。他们使用一种最简单的机器学习算法 ——K-近邻算法(kNN)来表述这一概念,该算法使用图形方法来为对象分类。值得注意的是,他们在 kNN 算法的基础上进行了开发,并将最终的算法称为 SLaPkNN(soft-label prototype kNearest Neighbors)。
在进一步说明之前,有必要以水果分类任务为例,简单说明 kNN 算法的核心逻辑。
假设我们要训练 kNN 模型识别苹果和橙子,你必须先确定每个水果的特征,这里以颜色(X 轴)、重量(Y 轴)为例。这样你就可以将多个苹果和橙子的信息输入 kNN 模型。
kNN 算法会将所有数据点绘制在一张二维图表上,并在苹果和橙子分布点的中间地带绘制边界线。
图 | kNN 算法原理。由图可见,坐标轴上分布着红苹果、青苹果和橙子的数据点。当模型需要判定黑色点属于哪种水果时,它会依据蓝色框选区域内的色彩分布,将比例最大的橙色判断为 “邻近”,进而将黑色点归类为橙子。
为了将 kNN 算法应用于 “少于一个” 样本学习,伊利亚和导师创建了一系列微型的合成数据集,并精心设计了它们的软标签。
然后,他们让 kNN 算法绘制了它从样本中看到的边界线,发现它成功地将样本分成了比数据点更多的类别。
图 | 上图中,有两个实例可以调节机器学习模型(用黑点表示)。经典的 kNN 算法会在两个点和类别之间分界。但 SLaPkNN 算法在两个类别之间创建了一个新的类别(绿色区域),它代表着一个新标签。这样,研究者用 N-1 个样本实现了 N 类别。
通过对类别边界线的复杂编码和样本软标签的调整,他们让 kNN 算法精确画出不同形状的花朵图案。
图 | 作者在论文中炫技。图表上的每个彩色区域代表一个不同的类别,每个图表侧面的饼图则显示了每个数据点的软标签分布。
当然,凡事总有两面,这个方法也有其局限性。
当伊利亚和导师尝试将 “少于一次” 样本学习的方法应用到其他更复杂的算法(如深度学习等)时,他们发现设计软标签的工作变得异常困难。
kNN 算法具有很好的可解释性和可视性,为人们设计标签提供了良好基础。但神经网络是复杂且不可穿透的,这意味着同样的方法未必可行。并且,设计用于 “凝练” 神经网络训练数据的软标签时也有一个主要难点:设计者需要面对庞大的数据集并凝练出有效的内容。
这一工作目前看来不可能全部通过人工完成。伊利亚说,他现在正在研究其他方法来设计这些凝练后的合成数据集 —— 无论是手动设计还是使用其他算法进行设计。
尽管存在诸多挑战,但不可否认这篇论文为 “少于一次” 样本学习提供了理论基础。“无疑经过凝练的数据集将带来极大的效率提升。” 伊利亚说。
图 | 伊利亚(Ilia Sucholutsky)
需要从图像或视频帧中识别成千上万个类别的计算机视觉系统(如自动驾驶)、执行情感分析的自然语言处理系统等都将从中受益。
Tongzhou Wang 对此补充道,这篇论文同时也提出了一个非常新颖且重要的目标 ——如何从小数据集中训练强大的模型。
从人类的学习经验来看,这是能够实现的,应用领域也异常宽广。从抓捕只有一张照片的犯罪嫌疑人,到识别海上航行的敌方舰艇,都是典型的小样本场景。
对于这项成果,也有业内人士指出 “可能很难实现”。一名杜克大学的计算机科学博士生告诉 DeepTech:“用很少的样本去生成很多的类,是一件非常反直觉的事情。虽然他做到了这一点,但后续依然需要将各种特征组合成现实中的真实事物。”
该博士生分析称,如果把人类的眉、目、鼻、口、耳这五官特征提取出来,然后通过伊利亚的方式整合到一起,可能可以组成世界上所有存在、不存在的人脸,但在训练模型的时候,依旧需要让机器知道真正的人脸是怎样的。
也就是说,模型通过伊利亚的方法训练之后,还需要再增加一个新的步骤来实现闭环,这个新的学习步骤如何实现,以及实现的难易程度,才是关键所在。并且,五官的特征也是需要从大量的、有标签的数据中来的。但他也承认,“从这个角度看,这篇论文的确提出了一个非常新颖的思路。”
最后,伊利亚强调这个研究尚处在早期阶段,但他对此充满信心。
他说,每当他向其他研究人员介绍这篇论文时,他们的第一反应是说这个想法不可能实现,但紧接着他们便意识到事实并非如此,它可能无意间触及了一扇通往全新世界的大门。
- 1 重磅:大佬刘益谦重仓坚守这只股4年
- 2 50场创业板上市会问得最多的是什么?“上...
- 3 阿里健康:上半年营收增长74%至71.6...
- 4 第二波医用耗材集采风暴要来?这些上市公司...
- 5 小米Q3业绩创历史新高 却为何股价大跌?
- 6 国际油价创下近3个月新高 后市能否延续强...
- 7 险资前三季股票投资收益1361亿元 收益...
- 8 侃财:老美真的不识货
- 9 押注理想汽车暴赚90亿 浙江资本大佬王相...
- 10 不缺钱的中公教育 为何仍定增发债60亿?
- 11 每日复盘:北上资金净流出15.69亿元 ...
- 12 酿酒行业领跌 大单抛出超10亿元五粮液
- 13 政策驱动特高压板块或迎跨年度行情 逾1....
- 14 沪指回调失守3400点 机构建议把握结构...
- 15 人工智能背后的“人工”:数据标注时薪缩水...
- 16 摩根大通因财富管理部门不当行为被罚2.5...
- 17 机构调研季最新总结:内资依旧偏爱科技医药...
- 18 美国第三季度GDP环比折合年率修正值为3...
- 19 中数智汇无专利“闯”科创板 旗下公司却连...
- 20 这家卖保温杯的“夫妻店”闯关创业板 主要...
- 21 新氧发布Q3财报:平均月活跃用户870万...
- 22 1200亿汽车巨头3个月股价翻倍 长安汽...
- 23 粤开策略:周期回调 后续关注两方面因素
- 24 “买醉”资金转战小酒企 大股东率先“醒酒...
- 25 芯片股大豪科技买红星二锅头:消息发布前涨...
- 26 北京将出台户外广告、牌匾标识新规:拒绝“...
- 27 趣活将于12月3日美股盘前公布Q3业绩
- 28 年报审计违规突显管理漏洞 积重难返的苏泊...
- 29 年报审计违规突显管理漏洞 积重难返的苏泊...
- 30 天音控股:拟对星盟信息增加投资金额至5亿...
- 31 2020年11月26日涨停板早知道:七大...
- 32 特斯拉申请召回超9000辆Model X...
- 33 暴跌!黄金考验1800美元支撑,四个月下...
- 34 华为罕见发声:不造整车 A股小伙伴嗨了
- 35 大豪科技一杯二锅头 呛得股民眼泪流
- 36 高盛:预计新冠疫苗最快12月获紧急使用授...
- 37 如涵控股收到初步非约束性私有化要约 盘前...
- 38 济南多个楼盘都有人脸识别 看房“避免被拍...
- 39 康跃科技闪崩20%跌停:拟并购切入健康产...
- 40 大连圣亚1.79亿诉讼 牵出原商业管理部...
- 41 红星二锅头借壳上市?提前上涨被指内幕交易...
- 42 A股资金“醒酒”了?14天翻倍妖股青青稞...
- 43 南方轴承高位跌停 百亿私募嘉恳资产为第四...
- 44 红星二锅头拟借壳大豪科技 公布前日放量涨...
- 45 小米高管称“得屌丝者得天下” 小米回应:...
- 46 闻达于资本市场 中国物业企业凭什么?
- 47 沙钢股份跌停 国盛证券今日刚给"...
- 48 证监会:完善证券行业反洗钱监管体制机制
- 49 苏宁30亿回购债券、年内二次涨薪 能否化...
- 50 深圳一天卖地340亿占年度财政收入3.6...
- 51 IPO材料错27处公司的投行东莞证券 年...
- 52 美国服饰零售商Gap跌超10%,当季净利...
- 53 中概股云集涨超30%,宣布与抖音签署合作...
- 54 北京航空航天大学蔡维德:数字货币带来科技...
- 55 格兰仕诉新宝侵犯其微波炉技术商业秘密 非...
- 56 53亿负债竟然变成41亿利润 雅居乐:摩...
- 57 “煤飞色舞”行情小憩 北向资金趁机抢筹这...
- 58 电子行业业绩分化明显 部分公司增长乏力
- 59 翔宇医疗再受质疑 盈利能力偏弱、采购数据...
- 60 华为造车传闻又起:多股股价剧震龙头跌停 ...
- 61 大股东减持套现、关注函连夜下发 青青稞酒...
- 62 马斯克:特斯拉柏林超级工厂将成为全球最大...
- 63 美股散户继续狂欢:两日交易量同比暴增72...
- 64 国信证券总裁2021年投资策略会演讲:科...
- 65 广发宏观策略联合行业:RCEP中的机遇与...
- 66 濠江机电惊魂5分钟:超1500万股卖单 ...
- 67 全球车企最新市值排行:特斯拉疯涨突破52...
- 68 内衣市场融资潮与关店潮齐飞 维密、都市丽...
- 69 蚂蚁旗下小贷公司200亿ABS融资计划获...
- 70 京沪高铁启用动态票价 哪些车次涨价了
- 71 国际航空运输协会:新冠肺炎大流行给航空业...
- 72 奇葩商标容易火?看上市公司怎么玩的
- 73 1年狂赚4.5亿却被疑收智商税 “盲盒王...
- 74 有机硅DMC再暴涨:机构看涨至2021年...
- 75 汇丰控股:董事会批准自12月22日从巴黎...
- 76 稀土价格持续上涨 相关公司或受关注(附股...
- 77 卖火盆年收1.5亿 雅艺科技能否成功冲刺...
- 78 医用耗材板块持续下跌中 专家:未来采集会...
- 79 数字化浪潮来了:头部券商都在提"...
- 80 拟计划自有资金30亿购回债券 苏宁的底气...
- 81 周黑鸭续跌8%创逾三个月新低 暂现三连阴...
- 82 天信投顾:区间压力 短线上再度进入轮回周...
- 83 爱康医疗跌逾13% 人工膝关节集采进度和...
- 84 创业板指下跌2.22% 两市成交额超86...
- 85 半年提价四次、累涨1600元 白卡纸还能...
- 86 "聪明钱"午后转流出...
- 87 新能源车概念大热龙头八天七板 造车新势力...
- 88 沪指收跌1.19% 汽车整车板块涨幅居前
- 89 药明巨诺-B现跌超9% 较招股价仅高不足...
- 90 物业股连续多日暴跌:第一服务跌9% 世茂...
- 91 康芝药业:IPO募投项目几乎全部折戟 画...
- 92 智飞生物:疫苗龙头名不副实 本质上是一家...
- 93 套牢BAT巨头三年的联通混改 问题出在哪...
- 94 李子园:经营业绩依赖单一产品 对恒天然的...
- 95 逾25家个股跌幅超9%:高位股延续退潮 ...
- 96 红星二锅头、北冰洋拟曲线上市 80亿大豪...
- 97 17.93亿元难倒国瑞置业 放弃增资8家...
- 98 体育用品股普跌 李宁跌近6%安踏跌超5%
- 99 高盛:将阿里巴巴列入确信买入名单 目标价...
- 100 119期老铁双色球预测奖号:红球胆码推荐