IT资讯音视频技术开发周刊：8K 内容分发挑战

thesshell · 2021-09-14 15:30:06 · 热度: 62

每周一期，纵览音视频技术领域的干货。

新闻投稿：contribute@livevideostack.com。

音视频技术开发周刊：8K 内容分发挑战

GVoice为腾讯旗下的主流游戏提供低延迟语音通话服务，其特点是高并发、覆盖全球。本次分享的嘉宾许路平是GVoice后台负责人，他会详细介绍游戏业务的特点，以及GVoice针对性的架构与协议的设计原则和方法，高可用保障与成本控制，重点性能突破和未来展望等。

陈曦：超低延迟下的实时合唱体验升级

RTC（实时音视频通信）近年来广泛应用于语聊房、直播连麦、视频会议、互动课堂等场景，延迟一般在200ms-300ms，已经可以满足大部分场景的互动需求。但还有一些场景对延迟的要求非常苛刻，延迟的高低直接影响用户体验，如“线上KTV”、“云游戏”等。本文来自即构科技行业解决方案总监陈曦在LiveVideoStack公开课的分享，结合即构科技在实时合唱场景中实现极致工程化的经验，对超低延迟体验的优化思路进行了详细解析。

音视频技术开发周刊：8K 内容分发挑战

对话腾讯云专家工程师常青，聊一聊全真互联网的“小小”变化

三年时间，从“懵懂少年”到能从容应对客户需求，拥有更加成熟和成体系的业务线，覆盖更多场景的产品线，不仅有音视频的传输，还有实时消息的通讯，以及视频内容的制作。这背后是腾讯云各个团队之间完美配合的结果。在迈向全真互联网的过程中，有一位朋友感受到了其中一些“小小”变化：追求越来越低的传输延时；对虚实结合的运用越来越普遍，以及VR 技术有可能会走出“花瓶”阶段进入稳定的发展期。这位朋友就是来自腾讯云的专家工程师，腾讯云音视频终端研发总经理——常青。

对话谷歌技术专家：SoundStream未来有望用于通用音频编码

近期，谷歌推出了一款基于AI的音频编解码器——SoundStream。根据谷歌介绍，SoundStream是首个可以编码不同声音类型、同时提供高质量音频并能在智能手机CPU上实时运行的神经网络编解码器。今年早些时候，谷歌曾发布了一款名为Lyra的超低比特率音频压缩编解码器。一年之内，谷歌推出了两款基于AI的音频编解码器。这两款编解码器究竟有什么不同？谷歌为什么如此专注于低比特率的音频压缩？SoundStream是否将成为一款通用音频编解码器，还是只专注于特定领域？新版Lyra是否有可能替代Opus?

音视频技术开发周刊：8K 内容分发挑战

8K内容分发挑战

这篇文章中 3 位主讲人分别从电视制造商角度、终端用户角度以及编码器从业者角度来分析讨论8K内容的分发问题。

优酷播放体验优化实战（一）--实战概览

随着互联网的发展，用户对于观看体验的需求和预期也在不断提高。千兆光纤入网的用户无法接受频繁的网络卡顿，购买4K电视的用户乐于观看更高画质的视频。播放体验优化，就是持续地去发现用户观影过程中不好的体验或感受，并通过技术手段将这些问题解决。

应对个性化定制语音合成挑战，微软推出AdaSpeech系列研究

当前语音个性化定制仍面临一系列挑战：1）为了支持不同类型的说话人，源 TTS 模型需要支持不同类型的声学条件，比如不同的口音、说话风格、录音环境等，这可能与训练源TTS模型使用的声音数据的声学条件并不相同；2）为了支持大量的说话人，需要减少声音定制过程中使用的目标说话人的数据以及适配参数，以实现高效的声音定制化。面对以上挑战，微软亚洲研究院机器学习组和微软 Azure 语音团队合作推出了 AdaSpeech 1/2/3 系列工作，旨在实现更有泛化性且更高效的语音个性化定制…

如何实现 Android 短视频跨页面的流畅续播？

在一切皆可视频化的今天，短视频内容作为移动端产品新的促活点，受到了越来越多的重视与投入，同时短视频也是增加用户粘性、增加用户停留时长的一把利器。那么如何快速实现移动端短视频功能呢？前两篇我们介绍了盒马短视频秒播优化（iOS 篇/Android 篇），本篇我们聊聊秒播之外，另一个从体感上增加短视频用户体验的能力 - 续播。

音视频技术开发周刊：8K 内容分发挑战

VVC为什么首先在印度落地？

9月10日消息，MX Player宣布在印度市场支持VVC编码的视频服务。据TNW报道，“大约20%的设备能支持VVC解码”，MX Player首席产品官Siddharth Mantri表示。VVC这一新视频编码标准最新的应用案例。去年7月2日，VVC完成定稿。

H.266/VVC 标准之量化技术

H266/VVC中的量化技术包括均匀标量量化(Uniform Reconstruction QuantizationURQ)、符号位隐藏(Sign Data Hiding,SDH)、网格编码量化(Trellis-coded Quantization, TCQ)

ICASSP2021：AV1基于决策树帧间划分早停止

AV1引入了很多新的编码工具，导致其计算复杂度非常高。论文通过决策树在帧间预测进行块划分时预测划分方式，从而及早停止划分以减少时间。

音视频技术开发周刊：8K 内容分发挑战

HTTP 2.0 ，有点炸！

这篇文章我们来聊一聊 HTTP 2.0，以及 HTTP 2.0 它在 HTTP 1.1 的基础上做了哪些改变，以及 HTTP 2.0 都有哪些特征。

音视频技术开发周刊：8K 内容分发挑战

用VMAF进行测试和监测可以实时进行!

BLUEDOT, inc.刚刚在Xilinx Alveo和亚马逊网络服务（AWS）Ec2 F1实例上发布了FPGA加速解决方案。

https://github.com/bluedot-io/Pulsar-VMAF

音视频技术开发周刊：8K 内容分发挑战

[ion-sfu系列]——0为什么用ion-sfu

ion-sfu作为ion分布式架构里的核心模块，SFU是选择转发单元的简称，可以分发WebRTC的媒体流。ion-sfu从pion/ion拆分出来，经过社区打磨，是目前 GO 方案中最成熟且使用最广的SFU。

https://zhuanlan.zhihu.com/p/408323207?utm_source=wechat_session&utm_medium=social&utm_oi=981572951832936448&s_r=0

音视频技术开发周刊：8K 内容分发挑战

视频中的目标检测与图像中的目标检测具体有什么区别？

简单来说，视频检测是比单张图片检测多了Temporal Context（时间上下文）的信息。不同方法想利用这些Context来解决的问题并不相同。一类方法是关注如何使用这部分信息来加速Video Detection。因为相邻帧之间存在大量冗余，如果可以通过一些廉价的办法来加速不损害性能，在实际应用中还是很有意义的。另一类方法是关注这部分信息可以有效减轻单帧图片检测中由于运动模糊，物体面积过小导致的困难，从而来提升性能。

基于学习的光场图像压缩方法

本文提出了一种基于学习的端到端光场图像压缩模型，在图像重建质量和处理速度上展示了比较好的性能。

ICCV 2021 | 基于生成数据的人脸识别

本文是对发表于计算机视觉领域顶级会议ICCV 2021的论文“SynFace: Face Recognition with Synthetic Data” （基于生成数据的人脸识别）的解读。

对抗样本无法被重建！CMU提出通用的无监督对抗攻击检测方法

近日，来自卡内基梅隆大学和KAIST网络安全研究中心的研究团队提出了一种新的技术方法，他们试图引入无监督学习来解决当前对抗性攻击检测所面临的一些挑战。实验表明，利用模型的可解释性和对抗攻击之间的内在联系，可以发现哪些数据样本可能会受到了对抗干扰。目前，这项研究方法已受邀在2021 KDD （Knowledge Discovery and Data Mining）对抗性机器学习研讨会（AdvML）上进行了展示。

音视频技术开发周刊：8K 内容分发挑战

ONNX 浅析：如何加速深度学习算法工程化？

ONNX是一个对计算网络(Computation Graph)的一个通用描述(Intermediate Representation)。它希望被设计成为开放的网络描述格式，减少开发者在各个训练和推理框架间切换的代价，可以让开发者专注于算法和优化。虽然ONNX还处于比较早期的阶段，不过已经有越来越多的人开始关注到它，未来会有机会得到更广泛的应用。

音视频技术开发周刊：8K 内容分发挑战

自动驾驶穿越“生死线” | 甲子光年

本文，「甲子光年」采访了国汽智控CEO兼CTO、国家智能网联汽车创新中心首席技术专家、中国智能网联汽车产业创新联盟基础软件工作组组长尚进博士，同济大学汽车学院朱西产教授，中国电动汽车百人会副理事长董扬等专家，以及元璟资本、轻舟智航、元戎启行、领骏科技、斯年智驾等数位从业者，来探讨自动驾驶安全问题。

泰达观点分享 | 量产智能驾驶或将长期停留在L2阶段

事故频发、过度营销，数据疑云……智能驾驶刚刚成为核心卖点不久，就再次被推至风口浪尖。事实上，从智能驾驶概念被提出以来，尽管其被认为是汽车智能化的核心之一，软硬件技术也在飞跃式发展，但整体进程却不算顺利。直到现在，智能驾驶该如何发展？高阶智能驾驶需要什么？也长期没有定论，更没有统一的标准。近日，在中国汽车产业发展（泰达）论坛上，多位业内专家及从业者对智能驾驶的现状及面临的问题发表了自己的看法。

车端激光和双目相机的自动标定算法

在车端配置一个双目相机再加上一个激光雷达已经成为一种比较常用的配置。但是为了融合相机和激光数据我们需要一个复杂的标定过程。本文提供了一种不需要人干预的自动化的双目和激光雷达的外参估计方法。本文的标定方法是克服在自动驾驶车辆中的传感器的常见的限制，如低分辨率和特殊的传感器的位置（如你在车端在没有升降台的情况下不能让车上下动，roll,pitch旋转）。为了证明算法的可行性，作者分别在仿真和真实环境中做的实验都表现出了比较好的结果。

音视频技术开发周刊：8K 内容分发挑战

07 / LiveVideoStack主编观察：走，卷海外去

上周，和几位技术专家撸串，谈笑间除了常规的八卦和小道消息，值得关注的是很多公司开始发力海外。这主要是由于国内外的竞争压力差导致的，换句话说，海外还没有国内那么卷。国内的卷是全方位的卷，体现在人才的争夺和市场的恶意竞争。

猜你喜欢:

0 个赞 0 收藏

暂无回复。

需要登录后方可回复, 如果你还没有账号请点击这里注册。

IT资讯 音视频技术开发周刊：8K 内容分发挑战

IT资讯音视频技术开发周刊：8K 内容分发挑战