尊敬的会员   
网站首页 >> 科技 >> 文章内容

一肖一码期期准机器学习近年来之怪现状

[日期:2018-07-12]   来源:香港马会资料|铁算盘开奖结果|香港六和合彩开奖结果|六和彩现场直播|2018四肖四码期期准|惠泽社群主论坛|香港马会开奖结果|香港铁算盘xg55777.com|神马马会资料|香港惠泽社群|六和合彩开奖结果|  作者:香港马会资料|铁算盘开奖结果|香港六和合彩开奖结果|六和彩现场直播|2018四肖四码期期准|惠泽社群主论坛|香港马会开奖结果|香港铁算盘xg55777.com|神马马会资料|香港惠泽社群|六和合彩开奖结果|   阅读: 0[字体: ]

机器学习近年来之怪现状

 
 

  欢迎注重“创事记”的微信订阅号:sinachuangshiji

  文/Zachary C. Lipton、Jacob Steinhardt 

  机器之心编译

  译者按:人工智能范畴的开展离不开学者们的奉献,可是跟着研讨的前进,越来越多的论文呈现了“标题党”、“占坑”、“灌水”等现象,暴增的顶会论文接纳数量好像并没有带来更多技能突破。最近,来自卡耐基梅隆大学的助理教授 Zachary C. Lipton 与斯坦福大学博士 Jacob Steinhardt 提交了一篇文章《Troubling Trends in Machine Learning Scholarship》,细数了近年来机器学习研讨的几大“怪现状”。本文将在 7 月 15 日 ICML 2018 大会上的“Machine Learning: The Debates”研讨会上承受谈论。

  1 导言

  全体来说,机器学习(ML)的研讨人员正在致力于数据驱动算法常识的创立与传达。在一篇论文中说到,研讨人员火急地想完结下列方针的任一个:理论性论说可学习内容、深化了解经历慎重的试验或许构建一个有高猜想精度的作业体系。虽然断定哪些常识值得探求是很片面的,但一旦主题断定,当论文为读者效劳时,它对社区最有价值,它能发明根底常识并尽可能清楚地进行论说。

  什么样的论文更适合读者呢?咱们能够列出如下特征:这些论文应该(i)供给直观感触以协助读者了解,但应明晰区别于已证明的强有力定论;(ii)论说考量和排除其他假定的实证查询 [62];(iii)明晰理论剖析与直觉或经历之间的联络 [64];(iv)运用言语协助读者了解,挑选术语以防止误解或未经证明的内容,防止与其他界说抵触,或与其他相关但不同的概念混杂 [56]。

  虽然常常违背这些抱负条件,但机器学习近期依然在继续前进。在本文中,咱们注重以下四种形式,在咱们看来,这些形式是机器学习范畴当下研讨的倾向:

  1. 无法区别客观论说和猜想。

  2. 无法断定到达好作用的来历,例如,当实际上是因为对超参数微调而取得好作用的时分,却着重不必要修改神经网络结构。

  3. 数学性:运用令人混杂的数学术语而不加以澄清,例如混杂技能与非技能概念。

  4. 言语误用,例如,运用带有白话的艺术术语,或许过多的运用既定的技能术语。

  虽然这些形式背面的原因无法断定,但很可能包含社区大幅扩张,导致查看人员数量不足,以及学术和短期成功衡量规范(如文献数量、注重度、创业时机)之间常常呈现的错位鼓舞。虽然每种形式都供给了相应的弥补办法(呼吁“不要这样做”),咱们仍是想谈论一些关于社区怎么应对此类趋势的探究性主张。

  跟着机器学习的影响扩展,研讨此类论文的人员越来越多,包含学生、记者和决议计划者,这些考量也适用于更广泛的读者集体。咱们期望经过更明晰精准的沟通,加速研讨脚步,削减新晋研讨人员的入门时刻,在公共谈论中发挥建设性的作用。

  有缺点的学术研讨可能会误导大众、阻碍未来研讨、危害机器学习常识根底。实际上,在人工智能的前史上,乃至更广泛的科学研讨中,许多问题都是循环往复的。1976 年,Drew McDermott [53] 就批判 AI 社区扔掉了自律,并预言“假如咱们不能批判自己,就会有别人来帮咱们处理问题”。相似的谈论在在 80 年代、90 年代和 00 年代重复呈现 [13,38,2]。在心理学等范畴,糟糕的试验规范削弱了人们对该学科威望的信赖 [14]。当今机器学习的微弱潮流归功于迄今为止许多慎重的研讨,包含理论研讨 [22,7,19] 和实证研讨 [34,25,5]。经过加强更明晰的科学考虑和沟通,咱们才干够保持社区现在所具有的信赖和出资。

  2. 免责声明

  本文旨在激发谈论,呼应 ICML 机器学习争辩研讨会关于论文的召唤。虽然咱们支撑这儿的观念,但咱们并不是要供给一个完好或平衡的观念,也不是要谈论机器学习这一科学范畴的全体质量。在复现性等许多方面,社区的先进规范远远超过了十年前的水平。咱们注意到,这些争辩是咱们自己主张的,进犯的也是咱们本身,要害的自省都是咱们自己人做出的,而不是来自局外人的进犯。咱们发现的这些坏处不是某个人或某个安排独有的。咱们现已身处这种形式之中,将来还会重蹈覆辙。提醒其间一种形式不会让一篇论文变差或斥责论文的作者,可是咱们信任,提醒这种形式之后,一切论文都会因避开这种形式而得到质量的前进。咱们给出的具体比如将触及(i)咱们本身及(ii)那些咱们仰慕的闻名研讨者或安排,不会挑选那些简略遭到本文严峻影响的年青学者或没有时机与咱们对等对话的研讨者。身处这样一个能够自在获取常识、表达观念的社区,咱们感到十分欣喜。

  3 不良趋势

  鄙人面的每个末节中,咱们 (i) 首要描绘一个趋势;(ii) 然后供给几个比如(包含抵抗这一趋势的正面比如);终究解说该趋势带来的作用。指出单个论文的缺点可能是一个灵敏的论题。为了尽量削减这种状况,咱们挑选了简略而具体比如。

  3.1 解说与估测

  对新范畴的研讨往往触及依据直觉的探究,这些直觉尚未融组成明晰的表达形式。于是估测成为作者表达直觉的一种手段,可是这种直觉可能还无法承受科学查看的一切压力。可是,论文常以解说为名行估测之实,然后因为科学论文的假装和作者假定的专业常识,这些估测被解说为威望。

  例如,[33] 环绕一个内部协变量搬运的概念形成了一个直观的理论。关于内部协变量搬运的论说从摘要开端,好像陈说了技能实际。可是,要害术语不行明晰,终究无法得出一个真实值。例如,论文指出,经过削减练习进程中隐激活层散布的改动,批处理规范化能够取得改善。这种改动是用哪种散度衡量的?论文中没有阐明,而且有些研讨标明,这种对批处理规范化的解说可能违背了 [65] 的规范。可是,[33] 中给出的估测性解说现已被重复为一种实际,例如 [60] 中说,“众所周知,因为内部协变量搬运问题,深层神经网络很难优化。”

  咱们也相同对假装成估测的解说感到不安。在 [72] 中,JS 写道,“无关特征的高维性和丰富性……给了进犯者更多的空间来进犯”,而没有进行任何试验来衡量维度对进犯性的影响。在 [71] 中,JS 引进了直观的掩盖概念,但没有对其进行界说,并将其作为一种解说来运用,如:“短少掩盖的一个体现是不断定性估量较差,无法生成高精度的猜想。”回忆过去,咱们期望沟通不行具体化的直觉,这些直觉对论文中的研讨很重要,咱们不肯把观念的中心部分看作推论。

  与上述比如相反,[69] 把估测与实际区别开来。这篇论文介绍了 dropout 正则化,具体估测了 dropout 和有性繁衍之间的联络,但“Motivation”一节明晰地隔开了这一谈论。这种做法防止了混杂读者,一同答应作者表达非正式的主意。

  在另一正面比如中,[3] 提出了练习神经网络的实用攻略。在这篇论文中,作者慎重地表达了不断定性。该论文没有把这些攻略当成威望性的东西,而是这样表达:“虽然这些主张……来自多年的试验和必定程度的数学证明,但它们应该遭到应战。这是一个杰出的起点……但没有得到什么正式验证,留下许多问题,能够经过理论剖析或厚实的比较试验作业来回答”。

  3.2 未能断定经历作用的来历

  机器学习同行评定进程注重技能立异。或许是为了让审稿人满足,许多论文着重了杂乱的模型(这儿说到的)和独特的数学表达式(见 3.3)。虽然杂乱的模型有时是合理的,但经历上的前进往往经过其它办法完结:奇妙的问题公式、科学试验、优化算法、数据预处理技能、广泛的超参数调整,或许将现有办法运用于风趣的新使命。有时,把提出的许多技能相结合能够取得明显的经历作用。在这些状况下,作者有职责向读者阐明完结文中的作用需求哪些技能。

  但许多时分,作者提出了许多缺少恰当改动的操控变量研讨,掩盖了经历作用的来历。实际上,有时改善作用的原因只需一个改动而已。这会给人一种过错的形象,以为作者做了更多的作业(经过提出几项改善),而实际上他们做得并不行(没有进行恰当的变量操控)。此外,这种做法会使读者误以为提出的一切改动都是必要的。

  最近,Melis et al.[54] 阐明,许多已发表的改善技能实际上要归功于超参数的调理,而这本来被以为是在神经网络中进行杂乱立异的劳绩。与此一同,自 1997 年以来几乎没有修改正的经典 LSTM 排名第一。假如早点知道关于超参数调理的本相,而没有遭到其它搅扰,AI 社区可能受益更多。深度强化学习 [ 30 ] 和生成对立网络 [ 51 ] 也遇到了相似的点评问题。更多关于经历慎重性失误及其作用的谈论详见 [ 68 ]。

  比较之下,许多论文对 [ 41,45,77,82 ] 进行了很好的操控变量剖析,乃至追溯性地测验阻隔作用来历也可能导致新的发现 [ 10,65 ]。此外,操控变量关于了解一种办法来说既不是必要的也不是充沛的,乃至在给定核算约束的状况下也是不切实际的。能够经过鲁棒性查看(如 [15],它发现现有的言语模型处理屈折形状的作用很差)以及定性过错剖析 [40] 来了解办法。

  旨在了解的实证研讨乃至在没有新算法的状况下也能起到启示作用。例如,探求神经网络的行为能够识别它们对对立搅扰的易感性 [ 74 ]。详尽的研讨还常常提醒应战数据集的局限性,一同发生更强的基线。[ 11 ] 研讨了一项旨在阅览了解新闻段落的使命,发现 73 % 的问题能够经过看一个句子来回答,而只需 2 % 的问题需求看多个句子(剩下 25 % 的比如要么模棱两可,要么包含共指过错)。此外,更简略的神经网络和线性分类器的功能优于此前在这项使命中点评过的杂乱神经结构。本着相同的精力,[ 80 ] 剖析并构建了视觉基因组场景图数据集的强基线。

  3.3 乱用数学

  在写前期 PhD 论文的时分,经历丰富的博士后会给咱们(ZL)一些反应:论文需求更多的方程式。博士后并没有认可咱们提出的体系,可是传达出一种审议研讨作业的明晰办法。即便作业很难解说,但更多的方程式会令评定者信任论文的技能深度。

  数学是科学沟通的重要东西,正确运用时能够传递精确与明晰的考虑逻辑。可是,并非一切主意与主张都能运用精确的数学进行描绘,因而自然言语也相同是一种不行或缺的东西,尤其是在描绘直觉或经历性声明时。

  当数学声明和自然言语表述混合在一同而没有明晰它们之间的联络时,观念和理论都会遭到影响:理论中的问题用含糊的界说来掩盖,而观念的弱论据能够经过技能深度的呈现而得到支撑。咱们将这种正式和非正式声明之间的纠缠称为“乱用数学(mathiness)”。经济学家 Paul Romer 描绘这种形式为:“就像数学理论相同,乱用数学将符号和言语的混合,但乱用数学不会将两者紧密联络在一同,而是在自然言语表述与形式言语表述间留下了满足的空间 [64]。”

  乱用数学体现在几个方面:首要,一些论文乱用数学来传递技能的深度,他们仅仅将常识堆砌在一同而不是测验澄清观念。假造定理是常见的手法,它们常被刺进到论文中为实证作用供给威望性,即便定理的定论并不支撑论文的首要主张。咱们(JS)就犯过这样的错 [70],其间对“staged strong Doeblin chains”的谈论与提出的学习算法只需很少的相关性,但可能给读者带来理论的深度感。

  在 Adam 优化器的原论文 [35] 中,这个问题无处不在。在引进具有强壮经历性功能的优化器进程中,它还供给了凸优化状况下的收敛性证明,这关于注重非凸优化的的论文来说不是必要的。这一个证明后来还被指出有过错 [63],并给出了新的证明。

  第二个问题是既非明晰的形式化表述,也非明晰的非形式化表述。例如在 [18] 中,作者标明优化神经网络骨干的困难不在极小值点,而在鞍点。这项作业引证了一篇关于高斯随机场的计算物理学论文 [9],该论文标明“高斯随机场中一切局部极小值点的差错与大局最小值点差错十分附近”,相似的阐明在 [12] 中也有说到。这好像是一个正式的声明,可是并没有一个具体的定理,也很难验证声明的作用或断定其确切内容。咱们能够了解为,这个声明标明在问题参数为典型配置时,咱们不知道是经历性地在数值上极值与最值距离十分小,仍是理论性地这个距离在高维空间中会渐渐消失。正式声明将有助于澄清这一点,咱们注意到 [18] 描绘了极小值点比鞍点有更低的丢失、更清楚的证明与经历性的测验。

  终究,一些论文以过于广泛的办法引证理论,或许引证不是那么相关的定理。例如,一般咱们引证“没有免费午饭定理”作为运用启示式办法的理由,而这种启示式办法一般是没有理论确保的。

  虽然弥补乱用数学最好的办法就是防止它,但有一些论文会进一步明晰数学与自然言语之间的联络。最近有一篇论文 [8] 描绘了反实际推理,它以厚实的办法涵盖了许多的数学根底,且与许多已运用的经历性问题有十分多的明晰联络。此篇教程以明晰地办法写给读者,并协助促进新式社区研讨机器学习的反实际推理。

  3.4 乱用言语

  咱们明晰了机器学习中三种乱用言语的办法:暗示性界说、技能术语过载和 suitcase words。

  3.4.1 暗示性界说

  在第一种办法中,新的技能术语发明出来可能就具有暗示性的白话语义,因而潜在的含义无需争辩。这常常体现在使命的拟人化特征(音乐组成 [59] 和阅览了解 [31])、技能的拟人化特征(猎奇 [66] 和惧怕 [48])。许多论文以暗示人类认知的办法命名提出模型的组成部分,例如“思想向量”[36] 和“认识先验”[4] 等。咱们的目的并不是消除一切这类言语的学术文献;假如命名比较合适,那么它能够传递构思的来历。可是,当暗示性术语指定了技能含义时,一切后续论文都别无挑选,只能承受该术语。

  运用“人类水平”的松懈声明描绘经历性作用,相同描绘了对当时才干的过错认识。以 [21] 中的“皮肤病专家水平的皮肤癌分类模型”为例,与皮肤科医生的比照掩盖了分类器和皮肤科医生履行底子不同使命的实际。真实的皮肤科医生会遇到各式各样的状况,而且虽然存在不行猜想的改动,他们都必须完结作业。可是分类器只在独立同散布的测验数据上完结了较低的差错。比较之下,[29] 标明分类器在 ImageNet 图画分类使命上有人类水平的功能更可信,因为它并不是说在方针检测等更广泛的范畴。即便在这种状况下,比较于不那么详尽的 [21, 57, 75],一篇更详尽的论文可能并不足以使大众谈论重回正轨。盛行的文章记叙将现代图画分类器描绘为“逾越人类水平的功能,并有用证明更大的数据集导致更好的决议计划”[23]。虽然有依据标明这些分类器依托虚伪的相关性,行将“穿红衣服的亚洲人”误分类为乒乓球 [73],但人们仍是信任它们有逾越人类的精确度。

  深度学习论文并不是仅有遭受影响的范畴,乱用言语困扰着 ML 十分多的子范畴。[49] 中谈论了机器学习公平性的最近文献,其发现机器学习从杂乱的法律学中借了许多的术语,例如运用“disparate impac”命名计算等价概念的简略方程。这导致了文献中的“fairness”、“opportunity”和“discrimination”标明猜想性模型的简略计算学特征,这样会令疏忽其间差异的研讨者利诱,也会令方针制定者误解将品德归入机器学习的难易程度。

  3.4.2 技能术语过载

  误用言语的第二个办法包含将具有精确技能含义的术语用作不精确或彻底相反的含义。例如解卷积(deconvolution),它描绘了回转卷积的进程,可是现在在深度学习文献中,该词常用于指自编码器和生成对立网络中的转置卷积(transpose convolution,也叫 up-convolution)。在深度学习范畴中,该术语首要呈现于 [79],其间它的确是指解卷积,但后来被过度一般化,指运用 upconvolution 的恣意神经架构 [78, 50]。此类术语过载现象会导致继续的混杂。新机器学习论文中的 deconvolution 可能 (i) 指其原始含义,(ii) 描绘 upconvolution,(iii) 测验处理混杂,如 [28]。

  另一个比如是 generative model(生成模型),它本来指输入散布 p(x) 或联合散布 p(x,y) 的模型。而 discriminative model(判别模型)指标签的条件散布 p(y | x)。可是,近期的论文中“generative model”不精确地意指生成逼真结构化数据的恣意模型。外表看来,这好像与 p(x) 的界说一同,但它混杂了几个缺点:例如,GAN 或 VAE 无法履行条件揣度(如,从 p(x2 | x1) 中采样,x1 和 x2 是两个不同的输入特征)。后来这个术语被进一步混杂,现在一些判别模型(discriminative model)指生成结构化输出的生成模型 [76],咱们在 [47] 中犯了这个过错。为了处理该混杂,并供给前史背景,[58] 对规矩的和隐性的生成模型进行了区别。

  再来看批归一化(batch normalization),[33] 描绘协变量偏移(covariate shift)为模型输入散布的改动。而实际上,协变量偏移指一种特定类型的偏移,虽然输入散布 p(x) 可能的确呈现改动,但标示函数 p(y|x) 没有改动 [27]。此外,因为 [33] 的影响,Google Scholar 将 batch normalization 列为查找“covariate shift”的第一个参阅文献就是 batch normalization(《Batch Normalization: Accelerating Deep Network Training by Reducing Internal Covariate Shift》)。

  言语误用的作用之一是咱们可能经过将之前的未处理使命从头界说来掩盖没有进展的实际。这一般与经过拟人化命名进行的暗示性界说有关。言语了解(language understanding)和阅览了解(reading comprehension)曾经是 AI 的两大应战,而现在指在特定数据集上的精确猜想 [31]。

  终究,咱们谈论机器学习论文中“suitcase words”的过度运用。这个词由 Minsky 在 2007 年的书《The Emotion Machine》中发明,suitcase words 将多种含义的词“打包”起来。Minsky 描绘了心理进程例如认识、思想、注意力、心情和感觉,并以为这些进程可能没有“一同的起因或来历”。许多机器学习中的术语都有这样的现象。例如,[46] 注意到可解说性并没有遍及认同的含义,一般对应不相交的办法。作用,即便在论文的相互沟通中,人们也可能了解的是不同的概念。

  另一个比如,generalization 有特定的技能含义:“泛化”(从练习泛化到测验),和愈加白话化的含义:愈加接近于搬迁的概念(从一个全体扩展到另一个全体),或外部效度(从试验扩展到实际国际)。兼并这些概念将导致高估当时体系的才干。

  暗示性的界说和超载的术语也可能发明出新的 suitcase words。在研讨公平性的文献中,法律、哲学和计算学言语一般都过载,像 bias 这样的变成 suitcase words 的术语在之后必需求别离。

  在通用语和鼓舞人心的术语中,suitcase words 能够很有用。或许 suitcase words 反映了一个至关重要的联合不同含义的概念。例如,人工智能一词或许能打包成一个鼓舞人心的名词来安排一个学术部门。另一方面,在技能观念中运用 suitcase words 可能导致困惑。例如,[6] 写了一个触及智能和优化才干的等式(Box 4),隐含地假定这些 suitcase words 能够用一个 1 维标量量化。

  4 对趋势背面原因的考虑

  以上形式预示着某种趋势吗?假如答案是必定的,其背面的原因又是什么?咱们估测,这些形式将愈演愈烈,其背面的原因可能有以下几点:面临前进的骄傲;社区的急剧扩张;相关审议团队的匮乏;歪曲的鼓舞机制与点评作用的短期规范。

  4.1 面临前进的骄傲

  机器学习的快速开展有时会导致这样一种情绪:只需作用满足有力,观念站不住脚也没有联络。取得有力作用的作者可能感觉自己有权刺进能够导出作用的恣意未经证明的东西(见 3.1),省掉掉可能澄清楚这些要素的试验(见 3.2),选用夸张的术语(见 3.4),或乱用数学(见 3.3)。

  一同,点评进程的单轮特点可能让评阅人感觉自己不得不承受具有有力作用的定量研谈论文。实际上,即便论文被拒,其间的缺点可能也不会鄙人一轮中得到修补,乃至底子不会被注意到,因而评阅人终究可能会以为:承受一篇有瑕疵的论文是最好的挑选。

  4.2 生长的苦楚

  大约在 2012 年左右,因为深度学习办法的成功,机器学习社区急剧扩张。虽然咱们将社区的扩张视为一种活跃的开展,但这一扩张也有其坏处。

  为了保护年青的研讨者们,咱们优先选用自己和那些闻名学者的论文。可是,新参加的研讨者可能更简略遭到这些形式的不良影响。例如,不了解既有术语的作者更简略用错或乱用论文言语(见 3.4)。另一方面,资深研讨者可能也会堕入这些形式。

  社区的急剧扩张还会从两个方面稀释谈论:一是前进提交论文与评阅人的份额,二是降低资深评阅人的份额。经历不足的评阅人可能对架构别致性的要求更高,也更简略被假造的定理所利诱,并疏忽严峻而奇妙的问题,如误用言语,然后加速上述几种趋势的开展。一同,资深但负担过重的评阅人可能堕入“清单核对”的心理定势,愈加喜爱公式化的论文,疏忽更赋有构思或思路更宽但不契合既有模板的论文。此外,作业量超负荷的评阅人可能没有满足的时刻来修补或注意到论文中的一切问题。

  4.3 歪曲的鼓舞机制

  给作者以不良鼓舞的不止是评阅人。跟着机器学习研讨越来越受媒体注重,机器学习创业公司也越来越遍及,在某种程度上,这一范畴所取得的鼓舞能够说是媒体(“他们会写什么?”)或出资人(“他们的钱会投到哪里?”)给的。媒体煽动了上述趋势的几种。对机器学习算法拟人化的表述为新闻报道供给了素材。以 [55] 为例,该文将自动编码称之为“仿照大脑”。暗示机器体现到达人类水平的新闻会在报纸头条上引起轰动,如 [52],该文在描绘一种深度学习图画字幕体系时称其“仿照人类的了解水平”。出资人对 AI 研讨也颇有爱好,有时他们仅依据一篇论文就会为创业公司出资。依据咱们(ZL)与出资人触摸的经历,他们有时更喜爱那些研讨作用现已被媒体报道的创业公司,这种本钱鼓舞终究又归功于媒体。咱们注意到,最近出资人对智能会话机器人创业公司的爱好伴跟着报纸及其他媒体对对话体系及强化学习者的拟人化描绘一同呈现,虽然很难断定出资者的爱好和歪曲的鼓舞机制是否构成因果联络。

  5 主张

  假定咱们要对立这些趋势,该怎么做呢?除了仅主张每个作者扔掉这类形式,咱们从社区能够做些什么来前进试验实践、论说和理论水平呢?咱们怎么才干更简略的提炼社区内的常识并消除研讨人员和普罗大众的误解呢?下面依据咱们的个人经历和形象提出一些初步的主张。

  5.1 对作者的主张

  咱们鼓舞作者多问“是什么起了作用?”和“为什么?”,而不是“有多好?”除了在特别状况下的 [39],原始的标题数字关于科学前进的价值是有限的,它并没有表述出驱动数据的原因。观察并不意味着理论。在最有力的实证研谈论文中有三种实践办法:过错剖析、操控变量研讨和鲁棒性查验(例如挑选超参数以及抱负数据集)。这些做法每个人都能够运用,咱们发起咱们广泛运用。关于一些实例论文,咱们主张读者参阅 §3.2 的内容。[43] 还供给了更具体的最佳经历实践调研。

  合理的实证研讨不该该只局限于追寻特定算法的经历作用;即便没有提出新的算法,它也能够发生新的见地。这儿的比如能够证明:经过随机梯度下降练习的神经网络能够适用于随机分配的标签 [81]。这篇论文对模型杂乱性的学习理论才干提出质疑,企图让其解说为什么神经网络能够泛化到未见过的数据。在另一个比如中,[26] 探究了深层网络的丢失外表,提醒了初始化和学习化参数间的参数空间直线途径一般具有单调递减的丢失。

  在编撰此论文时,咱们期望能呈现以下问题:我是要依托这种解说做出猜想仍是让体系正常作业?这能够很好地查验是否包含这能取悦审核人员或许传递明晰信息的定理。它还有助于查看概念和阐明是否与咱们自己的心里主意相匹配。在数学写作方面,咱们将主张读者阅览 Knuth,Larrabee 和 Roberts 的优异教程 [37]。

  终究,澄清哪些问题是开放性的,哪些问题是能够被处理的。这不仅能够让读者愈加清楚,还能鼓舞后续的作业,防止研讨人员疏忽那些假定(过错)要被处理的问题。

  5.2 对出版商和评定人的主张

  评定人能够经过问这样的问题来明晰自己的动机:“假如作者的作业做的不行好,我是否会承受这篇论文?”例如,一篇论文描绘了一个简略的主意,虽然连带了两个负面的作用,却能使功能得到改善。这样的文章应该好于将三个主意结合在一同(没有操控变量研讨)发生相同改善的文章。

  现在的文献以接纳有缺点的会议出版物为价值而迅速开展。弥补的办法之一就是着重威望性的回忆查询,除掉夸张的声明和无关的资料,改动拟人化称号以使记号、术语规范化等。虽然机器学习中的 Foundation 和 Trend 等现已对此类研讨进行追寻,但咱们以为这方面依然缺少满足强壮的论文。

  此外,咱们以为批判性写作应该在机器学习会议上有所发声。典型的 ML 会议论文挑选一个已有问题(或提出一个新问题),展现一个算法和/或剖析,然后陈述试验作用。虽然许多问题能够经过这种办法处理,可是关于问题或查询办法的正当性,算法和试验都不满足(和恰当)。咱们在拥抱更具批判性的论说方面并不孑立:在 NLP 范畴,本年的 COLING 大会召唤论文“应战传统思想”[1]。

  关于同行评定有许多值得谈论的当地。咱们描绘的问题经过开放性评定能够得到缓解仍是加重?评定人体系与咱们发起的价值观有多大的一同性?这些论题现已在其他当地被具体谈论 [42, 44, 24]。

  6 谈论

  常理来说,咱们不该该在技能升温时进行干涉:你不能质疑成功!在此,咱们用以下一些理由进行辩驳:首要,当时文明的许多方面是机器学习成功的作用,而不是其原因。实际上,导致现在深度学习成功的许多论文都是细心的实证研讨,其描绘了深度网络练习的基本原则。这包含随机接连超参数查找的优势、不同激活函数的行为,以及对无监督预练习的了解。

  其次,有缺点的学术空气现已对研讨界,以及更为广泛的大众集体发生了负面影响。在第三章中,咱们现已看到了不受支撑的观念已被人们引证了上千次,被称为改善的谱系被简略的基线所推翻,数据集旨在测验高档语义推理,但实际上测验的是低级语法流畅性,术语紊乱使得学术对话变得举步维艰。

  其间终究一个问题也影响着大众的判别。欧洲议会曾经过一份陈述,谈论怎么应对“机器人发生自我认识”的问题。虽然机器学习的研讨者们并不向一切这些作业发生的误解担任,但威望同行评定论文中的拟人化言语好像至少负有必定的职责。

  咱们信任,解说阐明以及科学和理论的慎重性关于科学前进,和树立更广泛的大众有用对话至关重要。此外,因为机器学习技能将被运用于医疗健康、法律自动驾驶等重要范畴,关于机器学习体系才干约束的知晓将让咱们能够愈加安全地部署 AI 技能。咱们将经过谈论一些关于上述观念的辩驳,及前史背景来完毕本文。

  6.1 与之相对的考虑要素

  针对上述主张也有许多需求考虑的要素。本文草稿的一些读者曾指出:随机梯度下降往往比梯度下降的收敛速度更快——换句话说,或许更快节奏的、更喧哗的进程让咱们扔掉了编撰“更干净”论文的初衷,也加速了研讨速度。例如,关于 ImageNet 数据集图画分类的突破性论文 [39] 提出了多种没有操控变量研讨的技能,其间一些随后被断定是不必要的。可是,在研讨提出时,其作用十分重要且试验核算成本高昂,等候操控变量完结可能不值得整个社区为之付出价值。

  这让咱们担心,高规范可能会阻碍创见的发布,因为这些创见往往非同寻常,而且可能是估测性的。在其他范畴,如经济学,高规范导致学者可能需求数年才干完结一篇论文,冗长的修订周期必然会耗费可用于新研讨的资源。

  终究,或许专业化有其价值:发明新概念或树立新体系的研讨者不必定会是那些细心收拾和提炼常识的人。

  咱们认识到这些考虑的有用性,而且也认识到这些规范有时过于严厉。可是,在许多状况下,它们很简略完结,只需求几天的试验和更细心的写作。此外,咱们将这些内容作为强烈的启示,而不是不行逾越的规矩来呈现——假如不违背这些规范就无法共享新的主意,那么咱们更情愿共享这个主意,而将规范放在一边。此外,咱们总会发现恪守这些规范的测验是值得的。总归,咱们不信任研讨界在前沿的推动上完结了帕累托最优状况。

  6.2 前史经历

  实际上,在这儿谈论的问题既不是机器学习所特有的,也不是现在这个年代所特有的:它们反映了整个学术界重复呈现的问题。早在 1964 年,物理学家 John R. Platt 在其关于强推理的论文 [62] 中就关于相关问题进行了谈论,他在文中指出了对特定先验规范的恪守,这也为随后分子生物学和高能物理,乃至其他范畴的快速开展供给了能量。

  在 AI 范畴里,工作也是相似的,正如第一章所述,Drew McDermott [53] 在 1976 年就一系列问题批判了一个(首要是机器学习年代曾经的)人工智能社区,批判内容包含暗示界说,以及未能将猜想与技能主张分开。1988 年,Paul Cohen 和 Adele Howe [13] 也责备一个人工智能社区“很少发布他们提出的算法的功能点评”,而仅仅描绘了体系。他们主张为量化技能开展树立合理的指标,并剖析“它为什么有用?”、“在什么状况下它不起作用?”以及“怎么让规划决议计划合理化?”……这些问题在今天依然能引起咱们的共识。

  终究,在 2009 年,Armstrong 等人 [2] 谈论了信息检索研讨的实证慎重性,并注意到许多论文都有与相同弱基线进行比较的趋势,这些改善并没有堆集到有含义的经历。

  在其他范畴,学术水平不受约束的下降导致了危机。2015 年的一项具有里程碑含义的研讨标明,心理学文献中很大一部分研讨作用可能无法再现 [14]。在一些前史事例中,跟风与缺少规制的学术情绪导致整个研讨社区走进了死胡同。例如,在 X 射线被发现之后,有人又提出了 N 射线(之后本相被戳穿)。

  6.3 完毕语

  终究,读者们可能以为这些问题是能够自我纠正的。咱们赞同这样的观念,可是,机器学习社区需求重复谈论怎么构建合理的学术规范以完结这种自我批改。咱们期望本文能够为这样的谈论供给建设性奉献。

相关评论
赞助商链接
赞助商链接