最新消息:欢迎来到 艺宵网,有任何问题或建议请联系!在线留言

开启全新「智能时代」,云测数据在AI落地的背后做支撑

Jacky 艺宵网

纽约大学教授 Gary Marcus 在他 2019 年的新书《Rebooting AI》中,将深度学习的问题重新归纳为 3 点,其中第一点就是“对数据的极度贪婪和依赖”。

近年来,大数据和AI就和之前的云计算一样,不管是媒体还是企业都言必称大数据,似乎这样就能站在行业的风口浪尖上。实际上部分企业获取到 PB 量级的数据,可能只能做简单的回归分析,要么标签太稀疏,要么缺失,或者在收集上存在主动或被动的错误,给实际业务带来了不小的麻烦。

根据美国高德纳咨询公司报道,质量差的数据使企业在 2017 年平均损失了 1500 万美元。《麻省理工学院斯隆管理评论》进一步证实了这些发现,该报告指出,脏数据使业务平均损失了 15% 至 25%。如此惊人的比例,让企业对数据的质量愈发重视起来。

因此,如果仅仅获得第一手数据,就“万事俱备,只差一个程序员了”,那就大错特错了。数据获取只是第一步,只有经过高效专业处理的数据,才能对趋势预测、统计分析或聚类分类等项目有优质的产出,为提升效率、节约成本或高层决策带来有利支持。

IT 界有这么句话“Garbage in, garbage out”。只有投入高质量的数据,才能得到有意义的结果,对垃圾数据的反复计算迭代,就好比在锅里面对石头进行不断翻炒,即使时间再长加上再多调料也不能吃。低质量的数据将造成资源浪费、生产力增速下甚至是直接影响企业发展方向判断,同时,低质数据也会失去客户的信任,影响企业的竞争力。

随着 AI 公司对高质量数据的需求不断加大,数据标注处理等数据服务开始形成一个行业,在 AI 发展中担当越来越重要的作用。那么对于这个过程,我们有应该如何选择处理方式,才能迎接 AI 时代风起云涌的浪潮呢?

AI数据服务趋势:专业AI数据服务商、众包比例逐渐超越企业自处理

为了获取更多的AI数据,体量大的企业的依靠自己庞大的用户量进行收集,有的使用爬虫,还有些直接购买,但是要获取符合业务需求的有效数据并不容易。qualia.AI 的合伙人 Iason Demiros 曾经在社交网络上表示:AI 行业最贵的就是数据收集、清洗和数据标注。要获得更多收益,就要思考如何把数据处理的成本降低,把困难的东西做简单。

目前,行业内常见的AI数据服务方案有下面几种:

针对企业内部AI数据特点,团队内部或聘请专人来对其进行清洗标注和分析交给专业AI数据服务商来处理交给众包平台

然而这几种方案各有长短,由企业内部自行对AI数据进行处理,需要很高的内部人力成本;交给专业AI数据服务商,则又会有安全方面的担忧;而交给众包平台虽然便宜,但质量和信息安全可能得不到保障。

从近几年的报道来看,无论是国外的 Amazon MTurk、Crowdflower 等,还是国内的百度众包、京东众智,甚至是一些院校“强制”学生进行实习等,保持着流水线工人一样的低成本高劳动密集的特点,其背后的管理模式、信息安全和时效都有很大的不确定性。

据云测数据总经理贾宇航介绍,现阶段 AI 数据有着三个大趋势:

第一,场景的多元化。基于产品落地场景,AI数据需要尽可能覆盖丰富多样的特定场景条件,如:光线强度、拍摄角度、噪声要求、室内室外等,乃至是长尾场景的AI数据需求。

第二,样本的多样性。以声音的AI数据为例,就分不同的年龄、地区、性别等等,除此之外还涉及广泛的AI数据类型,包括图片、视频、音频、文本数据。如果想要发挥人工智能的普惠性,用AI产品服务好各种人群,就需要丰富多样化的样本。

第三,数据的多维化。随着技术和行业的发展,以智能驾驶领域AI数据需求为例,业界已逐渐从单摄像头过渡到多摄像头的方案。但是 2D 图像对于物体的测距仍有着很大的局限性,因此也出现了与激光雷达、超声波雷达等 3D 传感器的融合。通过更多维度的AI数据融合加速人工智能场景的落地。

因此,随着人工智能的落地需求的场景和专业化程度的增加,AI数据本身的复杂度和种类也不断提升,行业亟需场景化、专业化、高质量的AI数据服务,对于数据标注的管理和操作人员的专业性也有了更高的要求。

而解决AI数据问题需要从数据源出发,其过程涉及AI数据的采集、清洗、建立公司标准的企业处理模式,甚至需要对数据进行问责制度,同时需要建立协同机制,避免出现数据孤岛。因此,越来越多的人工智能企业开始选择专业的AI数据服务公司进行合作,以获得更加高质量、高效率的AI数据。

云测数据:AI数据服务的最高精度支持 99.99%

云测数据具有全领域的AI数据服务标注能力,涉及视觉图像、语音语义理解、自然语言处理等;拥有具备自主知识产权的数据标注平台,并不断优化工具易用性和扩展性,以提升标注的效率,同时自研质检工具,确保标注和审核结果的高质量输出,其数据标注的最高交付质量精度可达到 99.99%。

据悉,云测数据拥有自建的数据标注基地和业内首创的数据场景实验室,不管是数据生产效率、数据质量保证、数据隐私安全,还是实力规模、数据交付经验、帮助传统企业智能化转型等方面,都有着不可替代的优势。其合作客户涵盖汽车、安防、驾驶、手机、互联网、金融、新零售、工业等领域的上百家企业和研究机构。

首先,云测数据对AI数据作业的流程进行了严格的规范化,以标准化服务为抓手,前期明确客户的AI数据标准后,经过试标注验收合格之后,才开始规模化作业,标注之后还有几轮质检和交叉审核,用来确保数据的高质量输出,并且项目经理全程跟踪数据作用流程,全力保障数据交付质量。此外,云测数据在流程设置上也进行了优化和管理,确保各环节衔接通畅,实现保证质量的情况下的高效输出。

为了让高质量 AI 数据成为企业的核心壁垒,云测数据以高质、专业、高效、丰富、安全的优势展示了自己的AI数据业务布局。

安全性:数据的安全主要在于数据安全、隐私和版权的保障上。为保证AI数据的隐私安全,云测数据设置了一系列严格措施。其中一条核心原则就是数据绝不复用,当数据合格交付后从不留底,会清毁相关数据;其二,所有和云测数据进行数据采集的用户都会签订数据授权协议,从来源上确保企业用于训练的数据合法合规;同时,云测数据内部还设定了数据隔离、质量保障等一系列数据安全流程和技术。

云测数据总经理贾宇航也曾多次公开表示,无论是 AI 公司还是数据服务公司,眼光都要长远一些,采用未经授权的数据当然可以控制成本,野蛮发展终究会造成不良后果。

高效率高质量:云测数据具有自建的标注基地,支持图像、音视频以及 3D 点云类标注,多重审核,保证准确率。其行业首创的数据场景实验室可支持定制化场景数据的采集,覆盖智能驾驶、智能家居、智慧城市、智能金融等应用场景。同时云测数据具有自研标注平台,扩展性高,具有多年经验和实践打磨,交互流畅。此外,在必要的情况下,云测数据还将提供私有化部署和驻场作业服务。

面对企业自身落地场景和算法模型需要,云测数据做到了模板化的任务创建,并支持不同种类标注类型和标注方法。结合自身业务处理方式及经验,持续迭代标注平台工作业务流及标注方法,效能逐年提升。

云测数据对产业赋能,提供的是一体化服务,从平台自研、场景实验室建立、自建数据交付中心的建立、自身专业工作人员积累,采用高效的组织协同方式。同时,自建数据交付中心以及自有员工,人员专业稳定,为需要特定领域知识积累的AI数据处理内容,做到了有力的保证。

AI数据服务产业前景乐观,向规范化技术密集型产业转型

智研发布的数据标注行业报告指出,2018 年我国数据标注与审核行业规模达到 52.55 亿元,其中 34% 左右的业务量流向专业做数据采标的第三方公司。在《互联网周刊》联合eNet研究院共同发布的《2020 年数据标注公司排行》中,云测数据位列榜首。

随着行业发展和国家的大力支持,AI数据服务也开始从劳动密集向技术密集型发展。而目前数据驱动文化(即人和业务流程)也正在慢慢改变,也会有越来越多的企业向数据驱动转型。此外,AI数据服务行业也将越来越规范化。品牌AI数据服务商在品牌效益、技术实力、服务意识以及业务能力等方面优势明显,而这些品牌服务商也将成为这一领域中的核心玩家。

云测数据的的高质量数据采集、数据标注业务,将在已有的领域继续深耕,同时拓展到更多领域,为更多人工智能产业化提供AI数据支撑。而有了这些AI数据的助力,会在 AI 领域催生出更多令人兴奋应用和场景,把我们带入一个全新的「智能时代」!

大家都在看

incaseformat病毒大面积爆发,请早做防范
科技资讯

incaseformat病毒大面积爆发,请早做防范

观威海 2021-01-14 536浏览 0评论

近期,部分单位政务网、互联网电脑感染“incaseformat病毒”,病毒可通过U盘、光盘等移动介质传播,导致删除大量文件且无法恢复,请各单位及时更新杀毒软件病毒库,专杀工具互联网下载地址:http://59.224.26.143。下班后关闭不使用的电脑,不要长期使电脑处于待机状态。...

2021年需要关注的10个IT趋势
科技资讯

2021年需要关注的10个IT趋势

Danny 2021-01-13 637浏览 0评论

当行业分析师和技术专家在2020年年初做出年度预测时,他们专注于云计算、人工智能、机器人等技术将如何改变市场。他们预测,对IT人才的需求将会供不应求,数据科学将继续发挥重要作用,数字化转型将决定组织业务的成败。但他们却没有预料到在全球爆发的新冠病毒疫情会从根本上改变人们工作和个人生活的各个方面。...

阿里百度等互联网平台上线“绿网计划”
科技资讯

阿里百度等互联网平台上线“绿网计划”

郑合惠子 2020-11-28 898浏览 0评论

每一年,涌入互联网平台的非正常搜索高达数百亿次。这些搜索背后,可能暗藏着试图自杀的人的挣扎与呼救。让每一次搜索背后的求助都能得到回应,而不是冰冷的报错与拦截,阿里百度等互联网平台上线“绿网计划” ,用暖心的宣导呼吁来取代“抱歉,这个页面找不到”。...

云麦科技出席CNBC全球科技大会,探讨智能健康未来
科技资讯

云麦科技出席CNBC全球科技大会,探讨智能健康未来

Jacky 2020-11-20 512浏览 0评论

以东西方科技对话为主题的2020CNBC全球科技大会,于2020年11月17日在广州召开。作为智能运动健康领域的头部企业,云麦科技受邀参加本次大会,云麦科技创始人CEO Wyatt出席,并与古德菲力CEO许捷一同参与《结构后疫情时代健康产业趋势》主题圆桌会谈。 疫情期间,大众对健康的关注度大幅提升,希望通过运动增强免疫,根据CBNDATA调...

奥克斯率先携手中国标准化研究院,联合共建首个符合GB/T33658热舒适实验室!
科技资讯

奥克斯率先携手中国标准化研究院,联合共建首个符合GB/T33658热舒适实验室!

Jacky 2020-11-20 476浏览 0评论

11月17日上午,奥克斯与中国标准化研究院在人类工效学领域达成共识,进行了合作签约,并在奥克斯创研中心举行了热舒适联合共建实验室揭牌仪式。中国标准化研究院作为国家级科研机构,拥有国内唯一经CNAS认可的人类工效学实验室。这是家电企业首次联合中国标准化研究院共建热舒适实验室,对奥克斯乃至整个家电行业来说意义非...

2020电子政务与智慧城市解决方案提供商100强
科技资讯

2020电子政务与智慧城市解决方案提供商100强

Danny 2020-11-18 1328浏览 0评论

智慧城市是电子政务的延伸与拓展,赋予了电子政务新的内涵。某种意义而言,电子政务与智慧城市就是同气连枝的共生关系,电子政务与智慧城市解决方案提供商正是将二者的发展做到“曲尽其妙”之境的重要推手。...

K歌人的狂欢,电商赛拉开2020全民K歌年度盛典大幕
科技资讯

K歌人的狂欢,电商赛拉开2020全民K歌年度盛典大幕

Jacky 2020-11-16 923浏览 0评论

日前,2020全民K歌年度盛典线上大赛电商赛场正式开赛,比赛将从主播、商家和品牌三个维度进行比拼,最终决出年度电商带货主播和商家的优胜者,跨界音乐人们将在这里实现自我价值的又一次飞跃。 除电商赛场之外,今年的年度盛典还设置了其余6大赛道公会、个人、粉丝团、歌房、家族和星计划,平台上的每位主播都将开足火力全...

新技术驱动新商业 网易创新企业大会看点前瞻
科技资讯

新技术驱动新商业 网易创新企业大会看点前瞻

Jacky 2020-11-16 912浏览 0评论

突如其来的疫情对传统商业模式的冲击,让各大企业看到了数字化技术和能力对于商业模式创新和商业生态系统重构的助力。AI、5G、云计算、超高清、VR/AR新技术层见迭出,线上零售、在线会议、互联网医疗、AI 营销新商业模式不断显现,正在重塑全行业。那么企业该如何利用新技术驱动新商业,获得创新发展呢? 11月28日,网易旗...

奢护四季 吾衣例外,COLMO洗衣机 X 例外打造奢品护理季,掀全国奢护美学风暴
科技资讯

奢护四季 吾衣例外,COLMO洗衣机 X 例外打造奢品护理季,掀全国奢护美学风暴

Jacky 2020-11-16 183浏览 0评论

高端衣物的背后,究竟有何奢护美学?自10月17日开始,从北京到重庆、上海、成都等全国十几座城市,高端AI科技家电品牌COLMO携手国内一线时装品牌例外,打造奢品护理季,让1%菁英群体零距离尊享空气洗体验,与数千位对品质生活有着无限追求的消费者一道,共同完成了一场奢护四季吾衣例外高端衣物奢护美学之旅。 尊享奢洗五 步...

网易数帆入选2020年电子信息行业自主创新成果
科技资讯

网易数帆入选2020年电子信息行业自主创新成果

Jacky 2020-11-16 515浏览 0评论

11月12日,2020第二十四届中国国际软件博览会(以下简称软博会),在杭州白马湖国际会展中心开幕。大会以软件铸魂,数智转型为主题,展现软件产业发展新特点、新模式、新业态。会上,中国电子信息行业联合会正式发布《2020年电子信息行业自主创新成果推广目录》。网易数帆基础软件平台成功入编该目录,荣膺自主创新应用称号...

发表我的评论
取消评论
昵称 (必填) 手机号 (必填)

网友最新评论【查看所有评论

阅读原文 阅读 100000+