直击 SMP 2018 六大特邀陈述,看社会媒体处理的多范畴使用

AI科技评论 / 2018年08月25日 12:58

数码

AI 科技谈论按:由我国中文信息学会社会媒体处理专委会主办、哈尔滨工业大学承办的第七届全国社会媒体处理大会(SMP 2018)于 2018 年 8 月 2 日- 4 日在哈尔滨举行。雷锋网作为独家战略媒体带来协作报导。SMP 专心于以社会媒体处理为主题的科学研讨与工程开发,为传达社会媒体处理最新的学术研讨与技能成果供给广泛的交流渠道,旨在构建社会媒体处理范畴的产学研生态圈,成为我国乃至世界社会媒体处理的风向标。

本届 SMP 大会主席由哈尔滨工业大学教授刘挺与伊利诺伊大学芝加哥分校教授 Philip S. Yu 担任,程序委员会主席由哈尔滨工业大学秦兵教授与清华大学刘知远副教授担任。SMP 2018 的六位特邀陈说嘉宾包括:李宇明(北京言语大学)、林学民(澳大利亚新南威尔士大学)、林鸿飞(大连理工大学)、张洪忠(北京师范大学)、胡小华(美国德雷赛尔大学)、李兵(中央财经大学)。

开幕式于 8 月 2 日上午隆重举行,开幕式之后是四场特邀陈说,涉及到世界常识的中文表达、图数据剖析、诙谐核算、交际网络中的 AI 机器人。

第一位特邀陈说嘉宾是北京言语大学言语资源高精尖立异中心主任李宇明教授,他的陈说题为《世界常识的中文表达问题》。

陈说伊始,他标明,我国面对着两个问题:向世界讲好我国故事和向我国讲好世界故事,这两个问题互有相关,而在今日将要点评论世界常识的中文表达,即向我国讲好世界故事。

他说到中文在世界学界「边缘化」的问题,经过对 2006-2015 年全世界各语种宣布论文状况剖析,发现 SCI 论文中中文占比仅 0.59%,在所有言语中排在第三位,在 SSCI 论文中,中文没有进入前 10 位。

这时候,首要有三个应对之策。

其一是全民学英语,可是用外语完成常识获取是有问题的。不行能人人都把一门外语学好,想要将英语到达母语水平简直不行能。此外,常识分类越来越细,不同范畴的常识距离越来越深,经过英语直接阅览了解多方面科技常识难度极大,一起这种办法减少了运用汉语表达现代科技常识的时机。

其二是机器翻译,让机器把世界的常识都翻译成中文,供国人运用。

他标明,跟着信息技能的开展,机器翻译在不久的将来有望完成这一方针。但这时候,为我国人获取信息而规划的翻译体系,翻译的轴心语必当是中文。此外,我国有必要处理常识源头问题,有必要树立我国常识库存的一起体。

但机器翻译也存在「后遗症」,如常识获取永久「慢半拍」,要与「常识源」坚持杰出联系,一起也简略导致原创常识产权缺失。

这时候,应对之策三是提高中文刊物威望,这时候需求力挺中文文本的学术点评体系,他着重,用外文提高我国学术界的世界位置是战略,提高中文的世界学术位置才是底子,需求发起科研成果中文首发。

终究他对自己的陈说内容做出总结,他标明,处理世界常识的中文表达问题十分不易,需求有耐性、有恒心、有决心,国家和常识界须有危机意识,更要经过方针支撑树立「中文自傲」的学术点评体系。

澳大利亚新南威尔士大学的林学民教授做了题为《Towards Big Graph Processing: Applications, Challenges and Advances》的特邀陈说。

他首要介绍了图数据在金融诈骗检测、产品引荐、出资剖析、零售效劳、反洗钱、网络安全等多个范畴的广泛使用,并以 k-Core、k-Truss、k-Edge Connected、k-Vertex Connected 等多种算法为例,结合 ICDE 2016 最佳论文《I/O Efficient Core Graph Decomposition at Web Scale》,SIGMOD 2015 年《Index-based Optimal Algorithms for Computing Steiner Components with Maximum Connectivity》等论文,论述了 Cohesive Subgraph 的相应界说及中心思维。

结合上述算法,他介绍了两个范畴的研讨探究,一个是给定交际网络,判别对应的中心用户在留存及脱离时,关于集体发生的影响剖析;另一个是结合子图查找研讨以交际网络为代表的多维特点,并让图表在每个维度上都出现稠密性。

结合与多家知名企业及团队的协作,他也展示了 Cohesive Subgraph 在不同范畴上的使用,比方在华为公有云上完成人物辨认、社区发现及老友引荐等功用,并将其延伸到时刻维度上;此外,他们也与阿里巴巴协作构建 FLASH Query Language、Biclique 诈骗检测及 RT Cycle 检测,在相应的电商事务、金融事务上完成毫秒级使用。

随后,大连理工大学的林鸿飞教授带来令全场笑声不断的特邀陈说《诙谐核算评论》。

林教师介绍诙谐从浅显层面讲,描述的是风趣或可笑且意味深长的内容,而理论界说则是发生于关于同一陈说两种不同解说结构的混合,是期望与实践成果之间的差异、抵触或不协调。

环绕诙谐点界说及相应规划,他论述了断定诙谐强度的基本原则,包括数量、表达办法的间接性、递进性、双关语成分及因果联系等五大方面。随后,他凭借很多的比方,介绍了言语诙谐、指称诙谐等类别,并结合诙谐的相关理论布景引出诙谐核算结构:以认知言语学、情感图谱、自然言语处理为技能根底,以双关、谐音、隐喻、反讽为表达办法;以笑话、相声、喜剧、歇后语为出现载体;终究区分为诙谐辨认、笑点辨认、诙谐等级、诙谐了解及诙谐生成等使用范畴。

与之相应地,他别离介绍了以 SemEval 2017 Task6 为代表的诙谐等级辨认,以 SemEval 2017 Task7 为代表的双关语辨认、定位与揣度,以 CCL2018 使命 2 为代表的中文隐喻辨认与情感剖析,以 CCL2018 使命 4 为代表的中文诙谐核算等多项评测使命。

他在终究共享了谐音双关语、语义双关语、谐音诙谐生成及相声包袱辨认等诙谐核算研讨在学界及业界的相应测验与实践。他也指出,现在诙谐核算的难点在于常识常识的使用,而中文诙谐的应战在于「音形义结合的标明+根据常识的推理」。他总结道,诙谐核算是一件并不诙谐的工作,不明白诙谐的智能仅仅机械的匹配,缺少情感的核算也仅仅无趣的代码,也进一步着重了诙谐核算于自然言语了解的重要性。

北京师范大学新闻传达学院张洪忠教授的特邀陈说主题是《交际网络中的 AI 机器人:新问题与新范式》。

陈说伊始,他说到交际媒体中的 AI 机器人无处不在,如微软小冰、腾讯 babyQ 等。他标明,AI 机器人的分类,能够从功用类别上区分,也能够从价值上(即「好」和「坏」)进行区分,还能够从人机联系的视点区分。交际网络中的 AI 机器人则分为谈天机器人、废物机器人、移动电话帮手三类。

从传达学视点看,交际网络中的 AI 机器人界说为:在线交际网络中对人的身份的扮演、具有不同程度的品格特点、与人进行互动的虚拟 AI 形象。

他标明,交际网络中 AI 机器人现在有两条研讨途径:

一是从核算机科学的视点,这儿有根据交际网络信息的机器人辨认体系,如机器人排名,群组辨认算法,联合免责,「蜜罐圈套」算法,还有根据众包办法和人工手法的机器人辨认体系,此外还有根据特征工程的机器学习辨认技能。

二是从社会科学的视点,这儿能够从四个方向评论,一是重视作用丈量的核算办法取向,二是重视品德问题的文明批评取向,三是侧重方针分研讨取向,四是着眼未来趋势的探究反思取向。

他标明,AI 机器人已经成为核算机科学和社会科学都一起重视的一个新事物,一个穿插学科的研讨方针。

接下来,他介绍了自己学生的一个试验事例,从选题布景和文献回忆、试验规划和剖析、仿真模型规划和剖析等多个方面进行了评论。他们将交际媒体群组中不存在机器人的原始试验和交际媒体群组中存在机器人的第2次试验比照,得出如下定论:交际机器人参加交际群组评论会改动交际群组的定见表达局势;因为机器人缺少对外部定见局势的感知,虽然交际机器人的功效优于一般账户,但不如要害少数派用户。

之后,他标明对交际网络中机器人影响的研讨应该成为一个重要方向,这儿他还简略介绍了印第安纳大学 Shao 等学者,Murthy 等学者,Vosoughi 等学者的研讨。

而在陈说的终究,他标明,跟着技能的快速迭代,AI 机器人越来越具有品格化特征,但这些品格化特性不同于咱们正常的「人」,会为社会科学带来新的问题。他着重,交际网络中的 AI 机器人将引来社会科学研讨的新范式。

大会第二天的两场特邀陈说,内容包括文本摘要和大数据使用。

德雷塞尔大学核算与信息学学院教授胡小华作为第一位上台嘉宾,他的陈说主题为《Question-based Text Summarization》。

在陈说中,他首要谈到 Facebook、IBM 和 Google 的文本摘要模型,Facebook 模型有 bag-of-words encoder、convolutional encoder、attention-based encoder,其时在 DUC-2004 数据集上到达顶尖水平,IBM 在 Facebook 根底上提出一些改善,encoder 是 bi-directional GRU,decoder 是 uni-directional GRU,随后,Google 又在这两个模型根底上提出改善,取得了十分不错的作用。

随后,他说到文本摘要的一些事例,他标明,大多数摘要受限于陈说句,这时候,提出了这样一个观念,问句能否协助文本摘要?

做根据问题的摘要首要有如下原因:问题读起来更有吸引力,问题能帮读者变得更具互动性。他标明,根据问题的摘要并不是要替换掉陈说性摘要,而是能用来反映源文件的宗旨。

之后,他说到研讨问题的首要方针是保证生成的问题与文本相关,一起文天性答复生成的问题。这时候衍生出三个首要研讨问题:一是问题存在于哪里,二是怎么丈量问题和文本间的相容性,三是怎么点评根据问题的摘要的有效性。

他说到这一体系的全体架构,第一步是问题挑选,这儿涉及到方针、办法等等,第二步是问题多样化。接下来是一些试验,涉及到试验数据集、试验设置、网络模型、点评目标、试验成果等各个方面。

他做出如下总结:这是一个信息检索和自然言语处理的穿插使命,包括问题挑选和多样化的两层结构。在问题挑选上,他评论了根据检索的办法和数据驱动的办法。未来,他们将会延伸到多文本摘要,也将继续扩展至不同的文本,例如新闻、科学类文章、交际媒体等等。

在陈说的终究,他说到即将于 12 月在美国举行的 IEEE Big Data 2018,期望我们积极参加。

终究一位特邀陈说嘉宾是中央财经大学世界经济与交易学院的李兵副教授,他的陈说主题是《经济学中的大数据使用》。他指出,经济学(社会科学)的数据窘境现在面对寻求因果联系、试验数据有限、丈量本钱昂扬等要素,而大数据为经济学研讨供给了低本钱、客观、敏捷的有利条件。

凭借卫星遥感数据、网络渠道数据、行政管理数据和文本数据等多种数据,研讨者能够对经济学进行愈加深化的研讨。比方,经过植被覆盖率的改变,研讨者能够揣度其对温室效应形成的环境影响,乃至相关到国家管理问题;经过银行数据的查询,能够印证凯恩斯等经典经济学理论,并延伸到阶级固化问题于经济增加的含义。

他随后介绍了几个研讨事例,以夜间灯火数据库为样本,他的团队测算出各国 GDP 增加率的灯火拟合值及最优拟合值,并经过这种办法补全了部分数据缺失的国家GDP(如罗马尼亚、阿富汗)。一起还以此为头绪,发现了一些GDP数据被高估/轻视的国家。

此外,经过爬虫抓取大众点评上的商铺称号、地舆位置、产品等揭露信息,团队将数据与第六次人口普查数据进行地舆匹配,评论人口数量、人口活动及菜品之间的联系。他指出研讨显现「人口的集集会从消费端带来不行交易品的集聚,终究给人口愈加集聚的城市带来更大的多样性福利」。一起,人口活动的铺开与约束需求权衡多种要素,方针拟定也需求精巧的规划。

不论是查询电子商务渠道对企业出口商场进入和出口规划的影响,或是根据报纸要害词集的丈量判别对经济方针的影响,本质上都是凭借大数据对经济学进行愈加广泛的研讨和查询。他终究总结道,上述成功事例标明,在用大数据研讨经济学问题时,需求关重视大现实问题,验证重要理论问题,并创造简略有用的办法。未来,学科穿插将成为大趋势,学术研讨的模块化也会成为研讨的新方向。

以上就是 SMP 2018 特邀陈说全部内容,信任听完这六场陈说,我们必然对社会媒体处理的内在和外延发生了更丰厚的知道和见地。接下来,雷锋网将会继续带来更多现场报导,敬请期待。

想知道关于途径规划与自动驾驶的更多常识?

1.黑方糖-您的科技人生遵循行业规范,任何转载的稿件都会明确标注作者和来源;2.黑方糖-您的科技人生的原创文章,请转载时务必注明文章作者和"来源:黑方糖-您的科技人生",不尊重原创的行为黑方糖-您的科技人生或将追究责任;3.作者投稿可能会经黑方糖-您的科技人生编辑修改或补充。