编者按:本文来自微信大众号“AI科技大本营”(ID:rgznai100),作者:Jane,36氪经授权发布。
一个好东西,能进步开发功率,优化项目研制进程,无论是企业仍是开发者个人都在寻求合适自己的开发东西。可是,选择正确的东西并不简略,有时这乃至是一项艰巨的使命。
2018年末,咱们整理了上一年备受重视的Python开源东西与项目Top100、Github开源项目总结状况以及最受欢迎开源项目Top200。今日,AI科技大本营(ID:rgznai100)经过收集这一年(2018.10--2019.10)国内外新发布的AI东西,从中选择出了45个备受欢迎的开源东西,期望你不再错失。
1、Jax【Stars:5.5k】
Jax调集Autograd和XLA的高功用机器学习研讨东西,由Google开源奉献。许多人都说Jax是TF的替代品,更简练易用。开源地址:https://github.com/google/jax
2、AdaNet【Stars:2.9k】
AdaNet是一款依据TensorFlow的轻量型结构。能够运用最少的专家干涉来主动学习高质量模型,AdaNet供给的通用结构,不只能够用于学习神经网络架构,还能够学习集成,然后获得更好的模型。
开源地址:https://github.com/tensorflow/adanet
3、TensorFlowExtended(TFX)【Stars:720】
TFX是面向出产环境的机器学习东西。凭借TFX,能够为满意出产运用布置与最佳实践的许多需求,创立一条出产级机器学习流水线。TFX从提取数据开端,然后经过数据验证、特征工程、练习、评价供给服务。开源地址:https://github.com/tensorflow/tfx
4、TFF【Stars:758】
TensorFlowFederated(TFF)结构可用于去中心化(decentralized)数据的机器学习及运算试验。它完成了联邦学习(FederatedLearning,FL)办法,将为开发者供给分布式机器学习,以便在没有数据脱离设备的状况下,在多种设备上练习同享的ML模型。其间,它经过加密办法供给多一层的隐私维护,而且设备上模型练习的权重与用于接连学习的中心模型同享。
开源地址:https://github.com/tensorflow/federated
5、MediaPipe【Stars:3.5K】
MediaPipe是一款由GoogleResearch开发并开源的多媒体机器学习模型运用结构。谷歌的一系列重要产品如YouTube、GoogleLens、ARCore、GoogleHome以及Nest都已深度整合了MediaPipe。开源地址:https://github.com/google/mediapipe
6、TensorNetwork【Stars:879】
谷歌X试验室与加拿大Perimeter理论物理研讨所(PerimeterInstituteforTheoreticalPhysics)的研讨人员合作开发了张量网络TensorNetwork,以TensorFlow作为后端,针对GPU处理进行了优化。与在CPU上核算作业比较,能够完成高达100倍的加速。这是一个全新的开源库,旨在进步张量核算功率。开源地址:https://github.com/google/tensornetwork
7、GPipe
GPipe是一个分布式机器学习库,运用同步随机梯度下降和流水线并行技能进行练习,适用于任何由多个序列层组成的DNN。重要的是,GPipe让研讨人员无需调整超参数,即可轻松布置更多加速器,然后练习更大的模型并扩展功用。
开源地址:https://github.com/tensorflow/lingvo/blob/master/lingvo/core/gpipe.py
8、MLIR【Stars:1.5k】
MLIR经过界说一个通用的中心表明,将在TensorFlow和相似的ML结构中履行高功用机器学习模型所需的根底设施进行共同,包含高功用核算技能运用或强化学习这类查找算法的集成。MLIR旨在下降开发新硬件的本钱,并进步现有TensorFlow用户的可用性。
开源地址:https://github.com/tensorflow/mlir
DeepMind
1、OpenSpiel【Stars:1.7k】
OpenSpiel是一系列环境和算法,用于研讨一般强化学习和游戏中的查找/规划。OpenSpiel的意图是经过与一般游戏相似的办法促进跨多种不同游戏类型的一般多智能体强化学习,但重点是着重学习而不是竞赛方法。当时版别的OpenSpiel包含20多种游戏的不同类型完成(完美信息、同步移动、不完美信息、网格国际游戏、博弈游戏和某些一般方法/矩阵游戏)。中心的OpenSpiel完成依据C++和Python绑定,这有助于在不同的深度学习结构中选用。该结构包含一系列游戏,答应DRLagent学会合作和竞赛行为。一起,OpenSpiel还包含查找、优化和单一agent等多种DRL算法组合。
开源地址:https://github.com/deepmind/open_spiel
2、SpriteWorld【Stars:259】
Spriteworld是一个依据python的强化学习环境,由一个能够自在移动的形状简略的二维竞技场组成。更详细地说,SpriteWorld是一个二维方形竞技场,周围可随机放置数量可变的五颜六色精灵,但不会发作磕碰。开源地址:https://github.com/deepmind/spriteworld
3、bsuite【Stars:834】
强化学习行为套件(bsuite,TheBehaviourSuiteforReinforcementLearning)的方针是成为强化学习范畴的MNIST。详细来说,bsuite是一系列用来杰出agent可扩展性要害点的试验。这些试验易于测验和迭代,对基本问题,例如“探究”或“回忆”进行试验。开源地址:https://github.com/deepmind/bsuite
悉数开源:
https://ai.facebook.com/results/open-source/?content_types%5B0%5D=blog
1、LASER【Stars:2k】
增强版的LASER是首个能够成功探究大型多语种语句表征的东西包,共包含90多种言语,由28种不同的字母表编写。这项巨大的作业也引发了整个NLP社区的广泛重视。该东西包将一切言语联合嵌入到单个同享空间,而不是为每个言语独自树立模型。开源地址:https://github.com/facebookresearch/LASER
2、Detectron2【Stars:4.9k】
10月11日,Facebook发布了Detectron2,这是依据PyTorch结构,以maskrcnn-benchmark为起点对Detectron的完全重写。经过全新的模块化规划,Detectron2灵敏且可扩展,能够在单个或多个GPU服务器上供给愈加速速的练习。
Detectron2现已包含了许多保质量完成的方针检测算法,包含:DensePose,panopticfeaturepyramidnetworks和MaskRCNN的各种变种。,其模块化特性也使其能够有用协助研讨人员探究最先进的算法规划。
开源地址:https://github.com/facebookresearch/detectron2
3、Habitat-Sim【Stars:549】
Habitat-Sim是一个仿真的、灵敏、高功用的3D模拟器,可装备署理、多个传感器和通用3D数据集处理,让咱们能够在其间练习和评价AI智能体。开源地址:https://github.com/facebookresearch/habitat-sim
4、PyText【Stars:5.5k】
PyText是一个依据PyTorch构建的NLP建模(依据深度学习)结构,中心功用能够支撑文本分类、序列标示等神经网络模型。PyText能够简化作业流程,加速试验,一起还能促进大规划布置。
开源地址:https://github.com/facebookresearch/pytext
5、Nevergrad【Stars:2.1k】
Nevergrad是Facebook内部也在运用的一个无梯度优化Python东西箱。除了内部项目中运用,还能够广泛运用在机器学习的多种问题中,比方多模态问题、可分离或旋转问题、部分可分离问题、离散、接连或混合等问题。开源地址:https://github.com/facebookresearch/nevergrad
6、QNNPACK【Stars:1.2k】
QNNPACK(量化神经网络包)是一个针对低精度高功用神经网络推理的移动端优化库。据官方发布,QNNPACK能够成倍提高神经网络的推理功率,现已成为PyTorch1.0的一部分,也现已被集成到Facebook的运用程序中,布置到数十亿台设备上。开源地址:https://github.com/pytorch/QNNPACK
7、PyTorchBiggraph(PBG)【Stars:1.9k】
PBG是一个用于学习大规划图嵌入的分布式体系,特别适用于处理具有多达数十亿实体和数万亿条边的大型网络交互图。它在2019年的SysML会议上宣告的大规划图嵌入结构论文中提出。PBG比常用的嵌入软件更快,并在规范基准上生成与最先进模型质量适当的嵌入。有了这个新东西,任何人都能够用一台机器或多台机器并行地读取一个大图并快速生成高质量的嵌入。开源地址:https://github.com/facebookresearch/PyTorch-BigGraph
8、CrypTen【Stars:274】
CrypTen是一个依据PyTorch的隐私维护机器学习结构。它的方针是让机器学习的实践者能够运用安全地进行核算。开源地址:https://github.com/facebookresearch/crypten
9、Captum【Stars:581】
Captum是一个依据Pytorch的一个模型解说库,其功用强大、灵敏且易于运用。该库为一切最新的算法供给了解说性,协助研讨人员及开发者更好地了解对模型猜测成果发生作用的详细特征、神经元及神经网络层。开源地址:https:///facebookresearch/dlrm
11、Pythia【Stars:2.9k】
Pythia是一个模块化的深度学习结构。它能够支撑视觉和言语范畴的多使命处理,内置各种数据集,一起还支撑数据并行和分布式数据并行的分布式练习,满意用户对丢失、衡量、调度和优化器的定制需求。开源地址:https://github.com/facebookresearch/pythia
亚马逊
1、DGL【Stars:3.2k】
与传统依据张量(Tensor)的神经网络比较,图神经网络将图(Graph)作为输入,从图结构中学习潜在常识,该办法在近些年已被证明在许多场景能够获得很好的作用。但是,运用传统的深度学习结构(比方TensorFlow、Pytorch、MXNet)并不能方便地进行图神经网络的开发和练习,而DGL作为专门面向图神经网络的结构,能够很好地补偿这一缺点。该结构在开源后于国内外引起了激烈的反应。
开源地址:http://dgl.ai
https://github.com/dmlc/dgl
2、Neo-AI
Neo-AI是AWS开源一个AI模型优化结构,包含了对TVM、Treelite、DLR所做多一些改善与立异。Neo-AI运转时占用的空间并不大,转化模型的速度能够加速2倍,但精度并不会遭到丢失,在方针硬件上运转时并不依赖于结构。开源地址:https://github.com/neo-ai
微软
1、NNI(NeuralNetworkIntelligence)【Stars:3.5k】
NNI是主动机器学习(AutoML)的东西包。它经过多种调优的算法来查找最好的神经网络结构和(或)超参,并支撑单机、本地多机、云等不同的运转环境。开源地址:https://github.com/microsoft/nni/blob/master/README_zh_CN.md
2、OpenPAI【Stars:1.4k】
微软开源的AI核算渠道,协助加速机器学习的模型练习进程。供给了完好的AI模型练习和资源管理才能,能轻松扩展,并支撑各种规划的私有布置、云和混合环境。开源地址:https://github.com/microsoft/pai/blob/master/README.md
3、lnterpretML【Stars:2.1k】
微软开源的可解说机器学习东西包lnterpretML。它不只能履行许多可了解的模型,也期望协助开发人员能测验各种办法解说模型和体系。开源地址:https://github.com/interpretml/interpret
4、PipeDream【Stars:34】
几个月曾经,微软研讨院宣告了Fiddle项意图创立,其包含了一系列的旨在简化分布式深度学习的研讨项目。PipeDreams是Fiddle发布的第一个侧重于深度学习模型并行练习的项目之一。PipeDream选用一种有别于其它办法的办法,运用称为“流水线并行”的技能来扩展深度学习模型的练习。开源地址:https://github.com/msr-fiddle/pipedream
Uber
1、Ludwig【Stars:5.9k】
一个依据TensorFlow的东西箱,不用写代码就能够练习和测验深度学习模型。能够协助开发者更好地了解深度学习方面的才能,并能够推动模型快速迭代。对AI专家来说,Ludwig能够简化原型规划和数据处理进程,然后让他们能够专心于开发深度学习模型架构。开源地址:https://github.com/uber/ludwig
OpenCV
1、OpenVINO【Stars:873】
OpenVINO是一个模型练习结构,供给了很多的预练习模型,一起供给模型从头练习与布置的拓宽通道。开源地址:https://github.com/opencv/dldt
SciSharpSTACK
一个依据.NET的机器学习生态,供给一个和Python生态体会共同的东西库,让模型搬迁更简略、学习曲线最低。SciSharp从最基本的张量核算库NumSharp开端构建,到TensorFlowBinding,再到吸纳其它深度学习库SiaNet做ArrayFire.NET,最后到开发ICSharpCore以支撑JupyterNotebook调试。1、TensorFlow.Net【Stars:807】
TensorFlow.NET坚持和Python代码简直相同的语法和接口,让现在盛行的模型能够快速移植到TF.NET。开发者能够很简略地在.NET上运转用Tensorflow开发的模型,运用JupyterNotebook相同能够在线开发和调试C#言语程序和TensorFlow.NET,并能够实时出现绘图的作用。开源地址:https://github.com/SciSharp/TensorFlow.NET
2、NumSharp【Stars:75】
NumSharp是Python盛行库numpy的纯C#端口,意图是供给快速、零复制和n维核算。现在,它是仅有一个为.NET编写的安稳库,能够在n维之间履行数学运算,如矩阵乘法、换位、加法等。开源地址:https://github.com/SciSharp/Numpy.NET
阿里
1、Euler【Stars:1.8k】
Euler是大规划分布式的图学习结构,合作TensorFlow或许阿里开源的XDL等深度学习东西。Euler选用分层灵敏可扩展规划、大规划高功用异构图学习、灵敏多样的图算法支撑、通用GNN练习加速的规划理念,支撑图切割和高效安稳的分布式练习,能够轻松支撑数十亿点、数百亿边的核算规划。开源地址:https://github.com/alibaba/euler/wiki
2、XDL【Stars:3k】
X-DeepLearning(简称XDL)是面向高维稀少数据场景(如广告/引荐/查找等)深度优化的一整套解决方案。新结构XDL针对阿里妈妈事务数据高维稀少的场景特色进行了优化。开源地址:https://github.com/alibaba/x-deeplearning
3、MNN【Stars:3k】
MNN是一个轻量级的深度神经网络推理引擎,在端侧加载深度神经网络模型进行推理猜测。现在,MNN现已在阿里巴巴的手机淘宝、手机天猫、优酷等20多个App中运用,掩盖直播、短视频、查找引荐、产品图画查找、互动营销、权益发放、安全风控等场景。此外,IoT等场景下也有若干运用。开源地址:https://github.com/alibaba/MNN/blob/master/README_CN.md
腾讯
1、Angel【Stars:5.4k】
腾讯Angel3.0测验打造一个全栈的机器学习渠道,功用特性涵盖了机器学习的各个阶段:特征工程、模型练习、超参数调理和模型服务。开源地址:https://github.com/Angel-ML/angel
字节跳动
1、BytePS【Stars:1.9k】
BytePS是本年字节跳动发布的一款高功用的通用分布式练习结构。它支撑TensorFlow、Keras、PyTorch和MXNet,能够在TCP或RDMA网络上运转。BytePS在很大程度上优于现有的开源分布式练习结构。开源地址:https://github.com/bytedance/byteps
商汤
1、MMLabMMDetection【Stars:7k】
香港中文大学-商汤联合试验室开源了依据PyTorch的检测库——mmdetection。这个开源库供给了已揭露宣告的多种视觉检测中心模块。经过这些模块的组合,能够敏捷搭建出各种闻名的检测结构,比方FasterRCNN,MaskRCNN,和R-FCN等各种新式结构,然后大大加速检测技能研讨的功率。开源地址:https://github.com/open-mmlab/mmdetection
2、PySOT【Stars:2.7k】
PySOT方针盯梢库完成了现在SOTA的多个单方针盯梢算法,包含SiamRPN和SiamMask。PySOT是用Python编写,依据PyTorch结构完成,一起该项目还包含一个评价盯梢器的Python接口。开源地址:https://github.com/STVIR/pysot
搜狗
1、SMRC【Stars:547】
SMRC(SogouMachineReadingComprehension)现在业界最全的TensorFlow版别的阅览了解东西调集,从相关数据集的下载到最后模型的练习和测验,一应俱全。开源地址:https://github.com/sogou/SMRCToolkit
蚂蚁金服
1、ElasticDL【Stars:355】
ElasticDL是一个分布式的智能学习体系,依据TensorFlow2.0构建,经过SQLFlow被调用的模型,会依据根底架构来进行分布式履行。它的容错和弹性调度机制,能让集群的运用功率更高。开源地址:https://github.com/sql-machine-learning/elasticdl/
其他
1、FATE【framework】
微众银行AI团队开源的联邦学习结构。联盟学习开源项目FATE(FederatedAITechnologyEnabler),供给了一种依据数据隐私维护的安全核算结构,为机器学习、深度学习、搬迁学习算法供给强有力的安全核算支撑。安全底层支撑同态加密、隐秘同享、哈希散列等多种多方安全核算机制,算法层支撑多方安全核算形式下的逻辑回归、Boosting、联邦搬迁学习等。
该结构能够协助学术研讨人员快速开发算法原型;为工业界人员快速开发运用供给一种简练有用的解决方案,支撑在多场景下的开辟和运用;凭借其灵敏的架构,用户能够轻松地将核算作业布置到多种渠道(CPU、GPU)和设备(桌面设备、服务器集群、移动设备等)。
开源地址:
https:///FederatedAI/FATE
2、DeepCTR【Stars:2.2k】
DeepCTR一个易于运用、模块化和可扩展的依据深度学习的CTR模型包,带有许多中心组件层,可用于轻松构建自己定制的模型。开源地址:https://github.com/shenweichen/DeepCTR
3、ALiPy【Stars:356】
ALiPy是一个依据Python完成的主动学习东西包,内置20余种主动学习算法,并供给包含数据处理、成果可视化等东西。ALiPy依据主动学习结构的不同部件供给了若干独立的东西类,这样一方面能够方便地支撑不同主动学习场景,另一方面能够运用户自在地安排自己的项目,用户能够不用承继任何接口来完成自己的算法与替换项目中的部件。此外,ALiPy不只支撑多种不同的主动学习场景,如标示价值灵敏,噪声标示者,多符号查询等。开源地址:https://github.com/NUAA-AL/ALiPy
4、Real-TimeVoiceCloning【Stars:9.1k】
Real-TimeVoiceCloning是论文《TransferLearningfromSpeakerVerificationtoMultispeakerText-To-SpeechSynthesis(SV2TTS)》的完成。SV2TTS是一个三阶段深度学习结构,能够在5秒的音频中创立一个语音的数字表明,并运用它来调整一个经过练习的文本到语音模型,以推行到新的语音。开源地址:https://github.com/CorentinJ/Real-Time-Voice-Cloning
5、WeightsandBiases【Stars:1.3k】
一个在机器学习试验进程中用于可视化和盯梢的东西。它与结构无关,比TensorBoard更轻。每次运转一个装有wandb的脚本时,都会保存超参数和输出衡量。在练习进程中可视化模型,还能轻松比照模型的版别,还会主动盯梢你的代码、体系目标和装备参数的状况。
开源地址:https://github.com/wandb/client