原创望图发言最强“王者”?微柔发布最新机器学习模型,助视障人士“冲浪”网络

原标题:望图发言最强“王者”?微柔发布最新机器学习模型,助视障人士“冲浪”网络

智东西(公多号:zhidxcom)

编 | 子佩

智东西10月20日新闻,轻轻滑脱手指,吾们能轻盈地涉猎文字、图片、涉猎视频,获取各栽各样的新闻,这总计都倚赖于吾们的视觉感官。但对于视力有窒碍的人而言,却异国那么浅易。

早在2017年,微柔就发布了移动行使程序Seeing AI,试图分析周围环境并议决语音为视力弱点者带来协助。基于神经网络,这款行使不光能够翻译文本,而且能够识别人物和货币、扫描产品条形码,对整个场景或者导入的图像进走浅易的描述。

而9月28日,微柔在arXiv平台上发外了相关自动生成图像描述机器学习模型的论文《基于视觉词汇预训练超越人类外现的稀奇的对象描述(VIVO: Surpassing Human Performance in Novel Object Captioning with Visual Vocabulary Pre-Training)》,性能超2017版Seeing AI模型两倍,并将行使在Seeing AI以及旗下多多柔件中。

论文链接:https://arxiv.org/abs/2009.13682

一、基于弱监督学习,跨越文本图像两大维度

基于图像生成文字描述,对于人类这是个很浅易的题目,但对于机器却专门有挑衅性。由于它既必要理解图像的内容生成标签,又必要将这栽单个标签串在一首,转化为人类能够理解的自然语言,结相符了计算机视觉和自然语言处理两大人造智能周围的炎点题目。

微柔的钻研人员挑出了视觉词汇预训练(visual vocabulary pre-training,简称VIVO)的技术,即议决弱监督学习手段对图像描述模型进走预训练,其中包括两个阶段:预训练和微调揣度。

基于大型Transformer神经网络,VIVO能够在异国文本标签的数据上对文本和图像的多模态进走预训练,令模型学会识别图像中的常见物体和生物并标记它们,并竖立首将文本和图片相关首来的视觉词外。

视觉图外就是一个图像和文本的说相符特征空间,语义相近的词会聚类在一首,例如金毛和牧羊犬、手风琴和笑器等。

Azure AI认知服务首席技术官黄学东注释说,视觉词外的预训练就像孩子们涉猎图画书,图画书中每个单词都会与图像相关首来,比如一个苹果的图片下面有个单词apple,一只猫的图片下面有个单词cat。

视觉词外的预训练内心上就是训练体系完善这栽行为记忆。

建益词外后,进入第二阶段微调揣度,即议决已标记益的图像进走检测,让模型融相符预先训练益的视觉词汇新闻,再自动生成通用的模板语句。如生成模版语句是[A]持有[B],并用获取的对象标签填充模版,以得到标题,如“人持有狗”。

推理阶段则议决挑取区域特征检测标签完善自回归模型。云云,即使展现词库中异国的词,也能生成精确的描述。

二、性能超原版两倍,新模型将投入行使

新模型不光在测试图像描述性能的nocaps基准测试中排走第一,性能也是先前图像描述模型的两倍。

这栽很益的泛化造就很大水平上归功于模型预训练中学习的视觉词汇,它将语义意义相通的视觉对象或区域映射到离散语义空间中彼此挨近的特征向量中,而不是倚赖于已经标记益的图像。以是该团队外示后期的主要义务会落在采用其他大量的视觉数据,挑高视觉词汇的质量上。

现在,该模型已经能够在Azure认知服务的“计算机视觉”柔件包中获取,并将于今年晚些时候安置到Windows、Mac以及网页上的Word、PowerPoint和Outlook中。

其致力于挑高视障人士交流、涉猎新闻的行使程序Seeing AI,也将议决该新模型从涉猎文档、识别场景、人物行为等方面周详挑高其识别的精确率和用户体验。

结语:不让任何人被科技“镌汰”

微柔AI平台幼组的柔件工程经理Saqib Shaikh上周注释说:“被描述为‘能够替代文本’、自动生成描述的新模型将填补视力弱点人士无法参与视觉世界的缺憾。理想情况下,外交媒体中所有图像,甚至每个现实生活中的人都该有替代文本,方便盲人涉猎新闻并参与对话。但是怅然的是,现在吾们还无法实现。”

微柔发言人也增添说:“图像描述的这一突破挑高了Microsoft 365中图片描述的弱点,并使视障人士更容易访问视觉世界。”

如同几个月前,老人由于不会行使健康码无法出走的题目相通。在人造智能飞速进展的当下,也会有人由于视力、年龄等各栽各样的因为不光无法享福到科技的便捷,还会由于不克行使智能设备,遭遇生活中的窒碍,甚至被时代所“镌汰”。

此次新模型投入行使的造就会是怎样,语音辅助能否真的让视障人士也能成功冲进“互联网海洋”,照样是未知的。但关注到这片面人群的需求,的确地用科技往解决他们的题目,才能真实地让智能时代不落下任何一幼我。

来源:The Register、Microsoft

posted @ 20-10-25 08:11 作者:admin  阅读:

Powered by 大香蕉伊人97在线视频 @2018 RSS地图 html地图

Copyright 365站群 © 2013-2018 无码中文字幕加勒比高清 版权所有