This is an automated email from the ASF dual-hosted git repository.
kou pushed a commit to branch main
in repository https://gitbox.apache.org/repos/asf/arrow-site.git
The following commit(s) were added to refs/heads/main by this push:
new 70cae4a5cde Remove mentions of unavailable product from blog post
(#784)
70cae4a5cde is described below
commit 70cae4a5cde1121c35396cfd924e79e1455d8695
Author: Ian Cook <[email protected]>
AuthorDate: Tue May 26 17:21:13 2026 -0400
Remove mentions of unavailable product from blog post (#784)
---
_posts/2025-01-10-arrow-result-transfer-japanese.md | 6 +++---
_posts/2025-01-10-arrow-result-transfer.md | 6 +++---
2 files changed, 6 insertions(+), 6 deletions(-)
diff --git a/_posts/2025-01-10-arrow-result-transfer-japanese.md
b/_posts/2025-01-10-arrow-result-transfer-japanese.md
index 077c3dac5d4..8b1ca3bdf1d 100644
--- a/_posts/2025-01-10-arrow-result-transfer-japanese.md
+++ b/_posts/2025-01-10-arrow-result-transfer-japanese.md
@@ -66,7 +66,7 @@ Apache Arrowオープンソースプロジェクトは[データフォーマッ
<figcaption>図1:5行3列のテーブルの物理メモリーレイアウトは行指向と列指向でどのように違うのか。</figcaption>
</figure>
-高性能な分析データベース・データウェアハウス・クエリーエンジン・ストレージシステムは列指向アーキテクチャーを採用することが多いです。これは、よく使われる分析クエリーを高速に実行するためです。最新の列指向クエリーシステムは、Amazon
Redshift・Apache DataFusion・ClickHouse・Databricks Photon Engine・DuckDB・Google
BigQuery・Microsoft Azure Synapse Analytics・OpenText Analytics Database
(Vertica)・Snowflake・Voltron Data Theseusなどです。
+高性能な分析データベース・データウェアハウス・クエリーエンジン・ストレージシステムは列指向アーキテクチャーを採用することが多いです。これは、よく使われる分析クエリーを高速に実行するためです。最新の列指向クエリーシステムは、Amazon
Redshift・Apache DataFusion・ClickHouse・Databricks Photon Engine・DuckDB・Google
BigQuery・Microsoft Azure Synapse Analytics・OpenText Analytics Database
(Vertica)・Snowflakeなどです。
同様に、分析用クエリー結果の多くの出力先も列指向アーキテクチャーを採用しています。出力先は、たとえば、BIツール・データアプリケーションプラットフォーム・データフレームライブラリー・機械学習プラットフォームなどです。列指向のBIツールは、Amazon
QuickSight・Domo・GoodData・Power BI・Qlik
Sense・Spotfire・Tableauなどです。列指向のデータフレームライブラリーは、cuDF・pandas・Polarsなどです。
@@ -94,7 +94,7 @@ Arrowフォーマットはゼロコピー操作をサポートしています。
データ送信元のシステムでは、メモリー上あるいはディスク上にArrowフォーマットのデータがあればシリアライズせずにArrowフォーマットでネットワーク越しにデータ転送できるということです。また、データ受信先のシステムでは、デシリアライズせずにネットワークからメモリー上にデータを読み込んだりディスク上にArrowファイルとして書き出したりできるということです。
-Arrowフォーマットは非常に効率よく分析操作できるメモリー上のフォーマットとして設計されています。このため、多くの列指向データシステムは内部のメモリー上のフォーマットとしてArrowを採用しています。たとえば、Apache
DataFusion・cuDF・Dremio・InfluxDB・Polars・Velox・Voltron Data
Theseusなどが採用しています。これらのシステムがデータ送信元あるいはデータ受信先である場合、シリアライズ・デシリアライズのオーバーヘッドは完全になくなります。他の多くの列指向のデータシステムの場合、それらが使っているプロプライエタリなメモリー上のフォーマットはArrowと非常に似ています。それらのシステムでは、Arrowフォーマットとのシリアライズ・デシリアライズ処理は高速で効率的です。
+Arrowフォーマットは非常に効率よく分析操作できるメモリー上のフォーマットとして設計されています。このため、多くの列指向データシステムは内部のメモリー上のフォーマットとしてArrowを採用しています。たとえば、Apache
DataFusion・cuDF・Dremio・InfluxDB・Polars・Veloxなどが採用しています。これらのシステムがデータ送信元あるいはデータ受信先である場合、シリアライズ・デシリアライズのオーバーヘッドは完全になくなります。他の多くの列指向のデータシステムの場合、それらが使っているプロプライエタリなメモリー上のフォーマットはArrowと非常に似ています。それらのシステムでは、Arrowフォーマットとのシリアライズ・デシリアライズ処理は高速で効率的です。
### 4. Arrowフォーマットはストリーム可能
@@ -119,7 +119,7 @@ Arrowはどんな技術スタック上でも効率的に動くので、この問
### まとめ
-より多くの商用・オープンソースのツールがArrowに対応するにつれ、シリアライズ・デシリアライズのないあるいは少ない高速なクエリー転送がますます一般的になっています。現在では、多くのデータベース・データプラットフォーム・クエリーエンジンがArrowフォーマットでクエリー結果を転送できます。たとえば、Databricks・Dremio・Google
BigQuery・InfluxDB・Snowflake・Voltron Data Theseusといった商用プロダクトや、Apache
DataFusion・Apache Doris・Apache
Spark・ClickHouse・DuckDBといったオープンソースプロダクトがサポートしています。これにより大幅に高速化しています。
+より多くの商用・オープンソースのツールがArrowに対応するにつれ、シリアライズ・デシリアライズのないあるいは少ない高速なクエリー転送がますます一般的になっています。現在では、多くのデータベース・データプラットフォーム・クエリーエンジンがArrowフォーマットでクエリー結果を転送できます。たとえば、Databricks・Dremio・Google
BigQuery・InfluxDB・Snowflakeといった商用プロダクトや、Apache DataFusion・Apache Doris・Apache
Spark・ClickHouse・DuckDBといったオープンソースプロダクトがサポートしています。これにより大幅に高速化しています。
- Apache Doris:
[「20倍から数百倍」高速化](https://doris.apache.org/blog/arrow-flight-sql-in-apache-doris-for-10x-faster-data-transfer)
- Google BigQuery:
[最大「31倍高速化」](https://medium.com/google-cloud/announcing-google-cloud-bigquery-version-1-17-0-1fc428512171)
diff --git a/_posts/2025-01-10-arrow-result-transfer.md
b/_posts/2025-01-10-arrow-result-transfer.md
index 92cf0f1990b..14b8d6c838f 100644
--- a/_posts/2025-01-10-arrow-result-transfer.md
+++ b/_posts/2025-01-10-arrow-result-transfer.md
@@ -68,7 +68,7 @@ Columnar (column-oriented) data formats hold the values for
each column in conti
<figcaption>Figure 1: An illustration of row-oriented and column-oriented
physical memory layouts of a table containing three columns and five
rows.</figcaption>
</figure>
-High-performance analytic databases, data warehouses, query engines, and
storage systems have converged on columnar architecture because it speeds up
the most common types of analytic queries. Examples of modern columnar query
systems include Amazon Redshift, Apache DataFusion, ClickHouse, Databricks
Photon Engine, DuckDB, Google BigQuery, Microsoft Azure Synapse Analytics,
OpenText Analytics Database (Vertica), Snowflake, and Voltron Data Theseus.
+High-performance analytic databases, data warehouses, query engines, and
storage systems have converged on columnar architecture because it speeds up
the most common types of analytic queries. Examples of modern columnar query
systems include Amazon Redshift, Apache DataFusion, ClickHouse, Databricks
Photon Engine, DuckDB, Google BigQuery, Microsoft Azure Synapse Analytics,
OpenText Analytics Database (Vertica), and Snowflake.
Likewise, many destinations for analytic query results (such as business
intelligence tools, data application platforms, dataframe libraries, and
machine learning platforms) use columnar architecture. Examples of columnar
business intelligence tools include Amazon QuickSight, Domo, GoodData, Power
BI, Qlik Sense, Spotfire, and Tableau. Examples of columnar dataframe libraries
include cuDF, pandas, and Polars.
@@ -97,7 +97,7 @@ As a result of these design choices, Arrow can serve not only
as a transfer form
This means that at the source system, if data exists in memory or on disk in
Arrow format, that data can be transmitted over the network in Arrow format
without any serialization. And at the destination system, Arrow-formatted data
can be read off the network into memory or into Arrow files on disk without any
deserialization.
-The Arrow format was designed to be highly efficient as an in-memory format
for analytic operations. Because of this, many columnar data systems have been
built using Arrow as their in-memory format. These include Apache DataFusion,
cuDF, Dremio, InfluxDB, Polars, Velox, and Voltron Data Theseus. When one of
these systems is the source or destination of a transfer, ser/de overheads can
be fully eliminated. With most other columnar data systems, the proprietary
in-memory formats they use [...]
+The Arrow format was designed to be highly efficient as an in-memory format
for analytic operations. Because of this, many columnar data systems have been
built using Arrow as their in-memory format. These include Apache DataFusion,
cuDF, Dremio, InfluxDB, Polars, and Velox. When one of these systems is the
source or destination of a transfer, ser/de overheads can be fully eliminated.
With most other columnar data systems, the proprietary in-memory formats they
use are very similar to Ar [...]
### 4. The Arrow format enables streaming.
@@ -122,7 +122,7 @@ Arrow’s ability to operate efficiently in virtually any
technology stack helps
### Conclusion
-As more commercial and open source tools have added support for Arrow, fast
query result transfer with low or no ser/de overheads has become increasingly
common. Today, commercial data platforms and query engines including
Databricks, Dremio, Google BigQuery, InfluxDB, Snowflake, and Voltron Data
Theseus and open source databases and query engines including Apache
DataFusion, Apache Doris, Apache Spark, ClickHouse, and DuckDB can all transfer
query results in Arrow format. The speedups a [...]
+As more commercial and open source tools have added support for Arrow, fast
query result transfer with low or no ser/de overheads has become increasingly
common. Today, commercial data platforms and query engines including
Databricks, Dremio, Google BigQuery, InfluxDB, and Snowflake and open source
databases and query engines including Apache DataFusion, Apache Doris, Apache
Spark, ClickHouse, and DuckDB can all transfer query results in Arrow format.
The speedups are substantial:
- Apache Doris: [faster “by a factor ranging from 20 to several
hundreds”](https://doris.apache.org/blog/arrow-flight-sql-in-apache-doris-for-10x-faster-data-transfer)
- Google BigQuery: [up to “31x
faster”](https://medium.com/google-cloud/announcing-google-cloud-bigquery-version-1-17-0-1fc428512171)