来源:DeepTech深科技
一种新的方法正在让人工智能模型获得人类的 “联想” 能力,甚至能让它识别此前从未见过的事物。
来自加拿大滑铁卢大学的博士生伊利亚(Ilia Sucholutsky)和他的博士导师马赛厄斯・尚劳(Matthias Schonlau)教授,首次提出了 “少于一次” 样本学习的概念和方法,并由此为人工智能技术的演进提供了新的思路。
相关研究论文于 2020 年 9 月发表在预印本网站 arXiv 上,名为 “‘Less Than One’-Shot Learning: Learning N Classes From M < N Samples”。
伊利亚告诉 DeepTech,他们的研究显示,对于机器学习模型来说,理论上通过两个样本(example)即可训练模型学会识别任意数量类别(class)。
没人知道,这种方法一旦实现大规模应用,人工智能会迸发出怎样的火花。
高企的训练成本
机器学习,尤其是深度学习往往需要大量的训练数据。
著名的语言模型 GPT-3 使用了 45TB 的数据进行训练,这个过程耗资达到了惊人的 1200 万美元,即使有微软的鼎力相助,训练结束之后发现了一些小 Bug 也不舍得重新训练。
目前,GPT-3 是炼丹师们 “大力出奇迹” 的集大成者,但可以预见,不远的将来一定会有新的模型超越并取代它的位置。
“更多更大更强” 的思路是没有尽头的。假如我们稍稍停下疲于奔命的脚步,回归到现实中的人类学习过程,就会发现一个触及灵魂的拷问 ——人工智能真的必须依托如此巨量的数据才能够实现吗?
相信很多人的答案并不笃定。
举个例子,假如现在需要让人工智能模型 “认识” 马这种动物。常规的做法是挑选成百上千的马匹图像对其进行训练。
之所以需要如此之多的样本,是因为同样一匹马,仅仅是转换一个拍摄角度,或微调一些肉眼无法观察的像素点,人工智能就会识别失败,所以需要大量的大小、颜色、体态、朝向、品种不一的样本填满人工智能的 “盲区”。
即便如此,人工智能的识别成功概率也不能达到 100%,我们离创造真正可以复现大脑理解能力的人工智能还非常遥远。
但人类的儿童,却只需要一张看图识字的卡片,便能轻易分辨出唐僧所骑乘的是马,而不是其他外型类似的生物。并且,儿童一旦学会识别某种事物,这项技能终其一生都很难忘记,只会越来越熟练。
更有甚者,儿童可以在没有任何真实示例的情况下 “认出” 一个新的物体。例如,展示给他们一匹马和一头犀牛的图片,并告诉他们独角兽结合了两者的特点,他们就可以在第一次看到独角兽时认出这个传说中的生物。

伊利亚和导师认为,人工智能模型也应该具备同样的能力。也就是说,人工智能模型应该可以从 M 个样本中学习到 N 个类别,其中 N 可以远远大于 M。这样,理论上模型就可以识别比训练示例更多的图像,而此前的科研人员可能并未充分挖掘训练数据的全部潜力。
他们将这一过程称为 “少于一个” 样本学习(LO-Shot Learning)。
考虑到居高不下的训练成本和日益庞大到接近极限的训练数据,这种让人工智能学会 “合理联想” 的方法或许会在未来产生颠覆性影响。
如何实现 “少于一个” 样本学习?
在此前的一篇论文中,现为麻省理工学院博士生的 Tongzhou Wang 和同事介绍了一种 “蒸馏” 方法,可以将大数据集 “提纯” 为小数据集。
作为实践,他们将 MNIST(一个包含了 6 万张从 0 到 9 手写数字图片的业内常用测试数据集)提纯压缩成了一个仅由 10 张图像组成的训练数据集。
这些图像不是直接从原始数据集中选取的,而是经由一系列的设计和优化后,赋予了这 10 张图像几乎与整个原始数据集相同的信息。
因此,仅仅用这个超精简数据集对人工智能模型进行训练,就可以达到与用 MNIST 所有图像进行训练的模型几乎一致的识别精度。


伊利亚和导师从中受到启发,并且认为可以在 Tongzhou Wang 的方法上更进一步 —— 既然可以将 6 万张图像压缩到 10 张,那么为什么不能将它们压缩到 5 张或更少呢?一旦实现,就意味着,通过区区几张图象的训练,人工智能模型就能掌握从 0 到 9 这 10 个数字的各种手写数字图片,从而实现前面所说的 N 大于 M。
伊利亚很快发现,想要达到这个效果的诀窍就是创建混合有多个数字特征的图像,然后为它们打上 “软标签(让一个数据点同时成为多个类别成员的矢量表示)”,再来用这些样本训练人工智能模型(类似于前文的马 + 犀牛混合体)。
“你可以想象一下数字 3,它看起来有点像 8,但一点都不像 7。” 伊利亚说。

“软标签的目的在于标注这些共同的特征,进而以这种方式增加信息密度和维度。因此,相比于直接告诉模型这个图像是 3,我们会说,这个图像有 60% 可能是 3,30% 可能是 8,10% 可能是 0。” 使用这种数据训练出的模型,基本可以达到与常规训练方式一样的精度。
“少于一个” 样本学习的局限性
当伊利亚和导师成功地使用软标签在 MNIST 上实现 “少于一个” 样本学习后,他们开始思考这个方法能否用于更广阔的领域。人工智能模型从小样本中可以识别出的类别数量是否存在上限?
答案是否定的。
从理论上来看,使用精心设计的软标签,甚至只用两个示例就可以承载任意数量的类别信息。伊利亚说:“通过两个数据点,你就可以分离出一千个,一万个,甚至是一百万个类别。”
伊利亚和导师通过纯数学方式的推导,在论文中证明了这一点。他们使用一种最简单的机器学习算法 ——K-近邻算法(kNN)来表述这一概念,该算法使用图形方法来为对象分类。值得注意的是,他们在 kNN 算法的基础上进行了开发,并将最终的算法称为 SLaPkNN(soft-label prototype kNearest Neighbors)。
在进一步说明之前,有必要以水果分类任务为例,简单说明 kNN 算法的核心逻辑。
假设我们要训练 kNN 模型识别苹果和橙子,你必须先确定每个水果的特征,这里以颜色(X 轴)、重量(Y 轴)为例。这样你就可以将多个苹果和橙子的信息输入 kNN 模型。
kNN 算法会将所有数据点绘制在一张二维图表上,并在苹果和橙子分布点的中间地带绘制边界线。

为了将 kNN 算法应用于 “少于一个” 样本学习,伊利亚和导师创建了一系列微型的合成数据集,并精心设计了它们的软标签。
然后,他们让 kNN 算法绘制了它从样本中看到的边界线,发现它成功地将样本分成了比数据点更多的类别。

通过对类别边界线的复杂编码和样本软标签的调整,他们让 kNN 算法精确画出不同形状的花朵图案。

当然,凡事总有两面,这个方法也有其局限性。
当伊利亚和导师尝试将 “少于一次” 样本学习的方法应用到其他更复杂的算法(如深度学习等)时,他们发现设计软标签的工作变得异常困难。
kNN 算法具有很好的可解释性和可视性,为人们设计标签提供了良好基础。但神经网络是复杂且不可穿透的,这意味着同样的方法未必可行。并且,设计用于 “凝练” 神经网络训练数据的软标签时也有一个主要难点:设计者需要面对庞大的数据集并凝练出有效的内容。
这一工作目前看来不可能全部通过人工完成。伊利亚说,他现在正在研究其他方法来设计这些凝练后的合成数据集 —— 无论是手动设计还是使用其他算法进行设计。
尽管存在诸多挑战,但不可否认这篇论文为 “少于一次” 样本学习提供了理论基础。“无疑经过凝练的数据集将带来极大的效率提升。” 伊利亚说。

需要从图像或视频帧中识别成千上万个类别的计算机视觉系统(如自动驾驶)、执行情感分析的自然语言处理系统等都将从中受益。
Tongzhou Wang 对此补充道,这篇论文同时也提出了一个非常新颖且重要的目标 ——如何从小数据集中训练强大的模型。
从人类的学习经验来看,这是能够实现的,应用领域也异常宽广。从抓捕只有一张照片的犯罪嫌疑人,到识别海上航行的敌方舰艇,都是典型的小样本场景。
对于这项成果,也有业内人士指出 “可能很难实现”。一名杜克大学的计算机科学博士生告诉 DeepTech:“用很少的样本去生成很多的类,是一件非常反直觉的事情。虽然他做到了这一点,但后续依然需要将各种特征组合成现实中的真实事物。”
该博士生分析称,如果把人类的眉、目、鼻、口、耳这五官特征提取出来,然后通过伊利亚的方式整合到一起,可能可以组成世界上所有存在、不存在的人脸,但在训练模型的时候,依旧需要让机器知道真正的人脸是怎样的。
也就是说,模型通过伊利亚的方法训练之后,还需要再增加一个新的步骤来实现闭环,这个新的学习步骤如何实现,以及实现的难易程度,才是关键所在。并且,五官的特征也是需要从大量的、有标签的数据中来的。但他也承认,“从这个角度看,这篇论文的确提出了一个非常新颖的思路。”
最后,伊利亚强调这个研究尚处在早期阶段,但他对此充满信心。
他说,每当他向其他研究人员介绍这篇论文时,他们的第一反应是说这个想法不可能实现,但紧接着他们便意识到事实并非如此,它可能无意间触及了一扇通往全新世界的大门。
- 1 重磅:大佬刘益谦重仓坚守这只股4年
- 2 50场创业板上市会问得最多的是什么?“上...
- 3 阿里健康:上半年营收增长74%至71.6...
- 4 第二波医用耗材集采风暴要来?这些上市公司...
- 5 小米Q3业绩创历史新高 却为何股价大跌?
- 6 国际油价创下近3个月新高 后市能否延续强...
- 7 险资前三季股票投资收益1361亿元 收益...
- 8 侃财:老美真的不识货
- 9 押注理想汽车暴赚90亿 浙江资本大佬王相...
- 10 不缺钱的中公教育 为何仍定增发债60亿?
- 11 每日复盘:北上资金净流出15.69亿元 ...
- 12 酿酒行业领跌 大单抛出超10亿元五粮液
- 13 政策驱动特高压板块或迎跨年度行情 逾1....
- 14 沪指回调失守3400点 机构建议把握结构...
- 15 人工智能背后的“人工”:数据标注时薪缩水...
- 16 摩根大通因财富管理部门不当行为被罚2.5...
- 17 机构调研季最新总结:内资依旧偏爱科技医药...
- 18 美国第三季度GDP环比折合年率修正值为3...
- 19 中数智汇无专利“闯”科创板 旗下公司却连...
- 20 这家卖保温杯的“夫妻店”闯关创业板 主要...
- 21 新氧发布Q3财报:平均月活跃用户870万...
- 22 1200亿汽车巨头3个月股价翻倍 长安汽...
- 23 粤开策略:周期回调 后续关注两方面因素
- 24 “买醉”资金转战小酒企 大股东率先“醒酒...
- 25 芯片股大豪科技买红星二锅头:消息发布前涨...
- 26 北京将出台户外广告、牌匾标识新规:拒绝“...
- 27 趣活将于12月3日美股盘前公布Q3业绩
- 28 年报审计违规突显管理漏洞 积重难返的苏泊...
- 29 年报审计违规突显管理漏洞 积重难返的苏泊...
- 30 天音控股:拟对星盟信息增加投资金额至5亿...
- 31 2020年11月26日涨停板早知道:七大...
- 32 特斯拉申请召回超9000辆Model X...
- 33 暴跌!黄金考验1800美元支撑,四个月下...
- 34 华为罕见发声:不造整车 A股小伙伴嗨了
- 35 大豪科技一杯二锅头 呛得股民眼泪流
- 36 高盛:预计新冠疫苗最快12月获紧急使用授...
- 37 如涵控股收到初步非约束性私有化要约 盘前...
- 38 济南多个楼盘都有人脸识别 看房“避免被拍...
- 39 康跃科技闪崩20%跌停:拟并购切入健康产...
- 40 大连圣亚1.79亿诉讼 牵出原商业管理部...
- 41 红星二锅头借壳上市?提前上涨被指内幕交易...
- 42 A股资金“醒酒”了?14天翻倍妖股青青稞...
- 43 南方轴承高位跌停 百亿私募嘉恳资产为第四...
- 44 红星二锅头拟借壳大豪科技 公布前日放量涨...
- 45 小米高管称“得屌丝者得天下” 小米回应:...
- 46 闻达于资本市场 中国物业企业凭什么?
- 47 沙钢股份跌停 国盛证券今日刚给"...
- 48 证监会:完善证券行业反洗钱监管体制机制
- 49 苏宁30亿回购债券、年内二次涨薪 能否化...
- 50 深圳一天卖地340亿占年度财政收入3.6...
- 51 IPO材料错27处公司的投行东莞证券 年...
- 52 美国服饰零售商Gap跌超10%,当季净利...
- 53 中概股云集涨超30%,宣布与抖音签署合作...
- 54 北京航空航天大学蔡维德:数字货币带来科技...
- 55 格兰仕诉新宝侵犯其微波炉技术商业秘密 非...
- 56 53亿负债竟然变成41亿利润 雅居乐:摩...
- 57 “煤飞色舞”行情小憩 北向资金趁机抢筹这...
- 58 电子行业业绩分化明显 部分公司增长乏力
- 59 翔宇医疗再受质疑 盈利能力偏弱、采购数据...
- 60 华为造车传闻又起:多股股价剧震龙头跌停 ...
- 61 大股东减持套现、关注函连夜下发 青青稞酒...
- 62 马斯克:特斯拉柏林超级工厂将成为全球最大...
- 63 美股散户继续狂欢:两日交易量同比暴增72...
- 64 国信证券总裁2021年投资策略会演讲:科...
- 65 广发宏观策略联合行业:RCEP中的机遇与...
- 66 濠江机电惊魂5分钟:超1500万股卖单 ...
- 67 全球车企最新市值排行:特斯拉疯涨突破52...
- 68 内衣市场融资潮与关店潮齐飞 维密、都市丽...
- 69 蚂蚁旗下小贷公司200亿ABS融资计划获...
- 70 京沪高铁启用动态票价 哪些车次涨价了
- 71 国际航空运输协会:新冠肺炎大流行给航空业...
- 72 奇葩商标容易火?看上市公司怎么玩的
- 73 1年狂赚4.5亿却被疑收智商税 “盲盒王...
- 74 有机硅DMC再暴涨:机构看涨至2021年...
- 75 汇丰控股:董事会批准自12月22日从巴黎...
- 76 稀土价格持续上涨 相关公司或受关注(附股...
- 77 卖火盆年收1.5亿 雅艺科技能否成功冲刺...
- 78 医用耗材板块持续下跌中 专家:未来采集会...
- 79 数字化浪潮来了:头部券商都在提"...
- 80 拟计划自有资金30亿购回债券 苏宁的底气...
- 81 周黑鸭续跌8%创逾三个月新低 暂现三连阴...
- 82 天信投顾:区间压力 短线上再度进入轮回周...
- 83 爱康医疗跌逾13% 人工膝关节集采进度和...
- 84 创业板指下跌2.22% 两市成交额超86...
- 85 半年提价四次、累涨1600元 白卡纸还能...
- 86 "聪明钱"午后转流出...
- 87 新能源车概念大热龙头八天七板 造车新势力...
- 88 沪指收跌1.19% 汽车整车板块涨幅居前
- 89 药明巨诺-B现跌超9% 较招股价仅高不足...
- 90 物业股连续多日暴跌:第一服务跌9% 世茂...
- 91 康芝药业:IPO募投项目几乎全部折戟 画...
- 92 智飞生物:疫苗龙头名不副实 本质上是一家...
- 93 套牢BAT巨头三年的联通混改 问题出在哪...
- 94 李子园:经营业绩依赖单一产品 对恒天然的...
- 95 逾25家个股跌幅超9%:高位股延续退潮 ...
- 96 红星二锅头、北冰洋拟曲线上市 80亿大豪...
- 97 17.93亿元难倒国瑞置业 放弃增资8家...
- 98 体育用品股普跌 李宁跌近6%安踏跌超5%
- 99 高盛:将阿里巴巴列入确信买入名单 目标价...
- 100 119期老铁双色球预测奖号:红球胆码推荐