Apache Beam

Informations
Développé par	Apache Software Foundation
Première version	15 juin 2016 et 21 décembre 2016
Dernière version	2.60.0 (16 octobre 2024)
Dépôt	github.com/apache/beam
Écrit en	Java, Python et Go
Système d'exploitation	Multiplateforme
Type	Big data
Licence	Licence Apache 2.0
Site web	beam.apache.org

Cet article est une ébauche concernant l’informatique.

Vous pouvez partager vos connaissances en l’améliorant (comment ?) selon les recommandations des projets correspondants.

Si ce bandeau n'est plus pertinent, retirez-le. Cliquez ici pour en savoir plus.

L'article doit être débarrassé d'une partie de son jargon (novembre 2019).

Sa qualité peut être largement améliorée en utilisant un vocabulaire plus directement compréhensible. Discutez des points à améliorer en page de discussion.

Apache Beam est un modèle de programmation unifiée open source pour définir et exécuter des flux de données, y compris ETL, traitement par lot et en flux (en continu)^[3].

Les flux Beam sont définis à l'aide des SDKs et exécutés dans l'un des runners supportés par Beam (back-ends de traitement distribués), y compris Apache Flink, Apache Apex, Apache Samza, Apache Spark et Google Cloud Dataflow^[4].

Il a été appelé uber-API pour le big data^[5].

Histoire

Apache Beam^[4] est une implémentation du modèle de Dataflow^[6]. Le modèle Dataflow est basé sur des travaux antérieurs sur des abstractions de traitements distribués sur Google, en particulier sur FlumeJava^[7] et Millwheel^[8]^,^[9].

Google a publié une implémentation SDK ouverte du modèle Dataflow en 2014 et un environnement pour exécuter Dataflows localement (non distribué) ainsi que dans le service Google Cloud Platform.

En 2016, Google a fait don du SDK de base ainsi que de la mise en place d'un runner local et d'un ensemble d'E/S (connecteurs de données) pour accéder aux services de données Google Cloud Platform à l'Apache Software Foundation.

D'autres sociétés et membres de la communauté ont contribué à la mise en place de plates-formes d'exécution distribuées, ainsi qu'à de nouvelles E/S pour les intégrer à Beam Runners aux bases de données existantes, aux bases de données à valeur-clé et aux messages système. En outre, de nouvelles DSL ont été proposées pour prendre en charge des besoins spécifiques sur le modèle Beam.

Le 10 janvier 2017 Apache Beam devient un projet top-level^[10].

Version	Date de sortie initiale	La dernière version	Date de sortie
0.6.0	2017-03-11	0.6.0	2017-03-11
0.5.0	2017-02-02	0.5.0	2017-02-02
0.4.0	2016-12-29	0.4.0	2016-12-29
0.3.0	2016-10-31	0.3.0	2016-10-31
0.2.0	2016-08-08	0.2.0	2016-08-08
0.1.0	2016-06-15	0.1.0	2016-06-15

Voir aussi

Liste des projets de la Fondation Apache Software

Références

(en) Cet article est partiellement ou en totalité issu de l’article de Wikipédia en anglais intitulé « Apache Beam » (voir la liste des auteurs).

↑ « https://projects.apache.org/json/projects/beam.json » (consulté le 8 avril 2020)
↑ « Release 2.60.0 », 16 octobre 2024 (consulté le 21 octobre 2024)
↑ Alex Woodie, « Apache Beam's Ambitious Goal: Unify Big Data Development », sur Datanami, 22 avril 2016 (consulté le 4 août 2016)
↑ ^{a et b} « Cloud Dataflow - Batch & Stream Data Processing »
↑ Ian Pointer, « Apache Beam wants to be uber-API for big data », InfoWorld, 14 avril 2016
↑ Tyler Akidau, Eric Schmidt, Sam Whittle et Robert Bradshaw, « The dataflow model », Proceedings of the VLDB Endowment, vol. 8, n^o 12,‎ 1^er août 2015, p. 1792–1803 (DOI 10.14778/2824032.2824076, lire en ligne, consulté le 4 août 2016)
↑ Craig Chambers, Ashish Raniwala, Frances Perry et Stephen Adams, « FlumeJava: Easy, Efficient Data-parallel Pipelines », Proceedings of the 31st ACM Sigplan Conference on Programming Language Design and Implementation, ACM,‎ 1^er janvier 2010, p. 363–375 (DOI 10.1145/1806596.1806638, lire en ligne, consulté le 4 août 2016)
↑ Tyler Akidau, Sam Whittle, Alex Balikov et Kaya Bekiroğlu, « MillWheel », Proceedings of the VLDB Endowment, vol. 6, n^o 11,‎ 27 août 2013, p. 1033–1044 (DOI 10.14778/2536222.2536229, lire en ligne, consulté le 4 août 2016)
↑ Ian Pointer, « Apache Beam wants to be uber-API for big data », InfoWorld (consulté le 4 août 2016)
↑ « /blog/beam-graduates/ », sur apache.org (consulté le 12 novembre 2023).

Portail de l’informatique

[wikidata-05a1c1492d321faf2d8da04cb9d5c7aeda83997b-1] « https://projects.apache.org/json/projects/beam.json » (consulté le 8 avril 2020)

[wikidata-7946ae5177e0e8a2dc7578b9316b966eac9fd057-2] « Release 2.60.0 », 16 octobre 2024 (consulté le 21 octobre 2024)

[Woodie2016-3] Alex Woodie, « Apache Beam's Ambitious Goal: Unify Big Data Development », sur Datanami, 22 avril 2016 (consulté le 4 août 2016)

[google.com-4] {a et b} « Cloud Dataflow - Batch & Stream Data Processing »

[uber-5] Ian Pointer, « Apache Beam wants to be uber-API for big data », InfoWorld, 14 avril 2016

[Akidau2015-6] Tyler Akidau, Eric Schmidt, Sam Whittle et Robert Bradshaw, « The dataflow model », Proceedings of the VLDB Endowment, vol. 8, n^o 12,‎ 1^er août 2015, p. 1792–1803 (DOI 10.14778/2824032.2824076, lire en ligne, consulté le 4 août 2016)

[Chambers2010-7] Craig Chambers, Ashish Raniwala, Frances Perry et Stephen Adams, « FlumeJava: Easy, Efficient Data-parallel Pipelines », Proceedings of the 31st ACM Sigplan Conference on Programming Language Design and Implementation, ACM,‎ 1^er janvier 2010, p. 363–375 (DOI 10.1145/1806596.1806638, lire en ligne, consulté le 4 août 2016)

[Akidau2013-8] Tyler Akidau, Sam Whittle, Alex Balikov et Kaya Bekiroğlu, « MillWheel », Proceedings of the VLDB Endowment, vol. 6, n^o 11,‎ 27 août 2013, p. 1033–1044 (DOI 10.14778/2536222.2536229, lire en ligne, consulté le 4 août 2016)

[Pointer2016-9] Ian Pointer, « Apache Beam wants to be uber-API for big data », InfoWorld (consulté le 4 août 2016)

[10] « /blog/beam-graduates/ », sur apache.org (consulté le 12 novembre 2023).

[1]

[2]

[3]

[4]

[5]

[6]

[7]

[8]

[9]

[10]