[GitHub] [incubator-doris] morningman commented on a change in pull request #3584: [OUTFILE] Support `INTO OUTFILE` to export query result

GitBox Wed, 20 May 2020 21:54:09 -0700


morningman commented on a change in pull request #3584:
URL: https://github.com/apache/incubator-doris/pull/3584#discussion_r428443827




##########
File path: docs/zh-CN/administrator-guide/outfile.md
##########
@@ -0,0 +1,183 @@
+---
+{
+    "title": "导出查询结果集",
+    "language": "zh-CN"
+}
+---
+
+<!--
+Licensed to the Apache Software Foundation (ASF) under one
+or more contributor license agreements.  See the NOTICE file
+distributed with this work for additional information
+regarding copyright ownership.  The ASF licenses this file
+to you under the Apache License, Version 2.0 (the
+"License"); you may not use this file except in compliance
+with the License.  You may obtain a copy of the License at
+
+  http://www.apache.org/licenses/LICENSE-2.0
+
+Unless required by applicable law or agreed to in writing,
+software distributed under the License is distributed on an
+"AS IS" BASIS, WITHOUT WARRANTIES OR CONDITIONS OF ANY
+KIND, either express or implied.  See the License for the
+specific language governing permissions and limitations
+under the License.
+-->
+
+# 导出查询结果集
+
+本文档介绍如何使用 `SELECT INTO OUTFILE` 命令进行查询结果的导入操作。
+
+## 语法
+
+`SELECT INTO OUTFILE` 语句可以将查询结果导出到文件中。目前仅支持通过 Broker 进程导出到远端存储，如 HDFS，S3，BOS 
上。语法如下
+
+```
+query_stmt
+INTO OUTFILE "file_path"
+[format_as]
+WITH BROKER `broker_name`
+[broker_properties]
+[other_properties]
+```
+
+* `file_path`
+
+    `file_path` 指向文件存储的路径以及文件前缀。如 `hdfs://path/to/my_file`。
+    
+    最终的文件名将由 `my_file`，文件序号以及文件格式后缀组成。其中文件序号由0开始，数量为文件被分割的数量。如：
+    
+    ```
+    my_file_0.csv
+    my_file_1.csv
+    my_file_2.csv
+    ```
+
+* `[format_as]`
+
+    ```
+    FORMAT AS CSV
+    ```
+    
+    指定导出格式。默认为 CSV。
+
+* `[broker_properties]`
+
+    ```
+    ("broker_prop_key" = "broker_prop_val", ...)
+    ``` 
+
+    Broker 相关的一些参数，如 HDFS 的 认证信息等。具体参阅[Broker 文档](./broker.html)。
+
+* `[other_properties]`
+
+    ```
+    ("key1" = "val1", "key2" = "val2", ...)
+    ```
+
+    其他属性，目前支持以下属性：
+
+    * `column_separator`：列分隔符，仅对 CSV 格式适用。默认为 `\t`。
+    * `line_delimiter`：行分隔符，仅对 CSV 格式适用。默认为 `\n`。
+    * `max_file_size_bytes`：单个文件的最大大小。默认为 1GB。取值范围在 5MB 到 2GB 
之间。超过这个大小的文件将会被切分。
+
+1. 示例1
+
+    将简单查询结果导出到文件 `hdfs:/path/to/result.txt`。指定导出格式为 CSV。使用 `my_broker` 并设置 
kerberos 认证信息。指定列分隔符为 `,`，行分隔符为 `\n`。
+
+    ```
+    SELECT * FROM tbl
+    INTO OUTFILE "hdfs:/path/to/result"
+    FORMAT AS CSV
+    WITH BROKER "my_broker"
+    (
+        "hadoop.security.authentication" = "kerberos",
+        "kerberos_principal" = "[email protected]",
+        "kerberos_keytab" = "/home/doris/my.keytab"
+    )
+    PROPERTIELS
+    (
+        "column_separator" = ",",
+        "line_delimiter" = "\n",
+        "max_file_size_bytes" = "100MB"
+    );
+    ```
+    
+    最终生成文件如如果不大于 100MB，则为：`result_0.csv`。
+    
+    如果大于 100MB，则可能为 `result_0.csv, result_1.csv, ...`。
+
+2. 示例2
+
+    将 CTE 语句的查询结果导出到文件 `hdfs:/path/to/result.txt`。默认导出格式为 CSV。使用 `my_broker` 
并设置 hdfs 高可用信息。使用默认的行列分隔符。
+
+    ```
+    WITH
+    x1 AS
+    (SELECT k1, k2 FROM tbl1),
+    x2 AS
+    (SELECT k3 FROM tbl2)
+    SELEC k1 FROM x1 UNION SELECT k3 FROM x2
+    INTO OUTFILE "hdfs:/path/to/result.txt"
+    WITH BROKER "my_broker"
+    (
+        "username"="user",
+        "password"="passwd",
+        "dfs.nameservices" = "my_ha",
+        "dfs.ha.namenodes.my_ha" = "my_namenode1, my_namenode2",
+        "dfs.namenode.rpc-address.my_ha.my_namenode1" = "nn1_host:rpc_port",
+        "dfs.namenode.rpc-address.my_ha.my_namenode2" = "nn2_host:rpc_port",
+        "dfs.client.failover.proxy.provider" = 
"org.apache.hadoop.hdfs.server.namenode.ha.ConfiguredFailoverProxyProvider"
+    );
+    ```
+    
+    最终生成文件如如果不大于 1GB，则为：`result_0.csv`。
+    
+    如果大于 1GB，则可能为 `result_0.csv, result_1.csv, ...`。
+    
+3. 示例3
+
+    将 UNION 语句的查询结果导出到文件 `bos://bucket/result.txt`。指定导出格式为 PARQUET。使用 
`my_broker` 并设置 hdfs 高可用信息。PARQUET 格式无需指定列分割符。
+    
+    ```
+    SELECT k1 FROM tbl1 UNION SELECT k2 FROM tbl1
+    INTO OUTFILE "bos://bucket/result.txt"
+    FORMAT AS PARQUET
+    WITH BROKER "my_broker"
+    (
+        "bos_endpoint" = "http://bj.bcebos.com";,
+        "bos_accesskey" = "xxxxxxxxxxxxxxxxxxxxxxxxxx",
+        "bos_secret_accesskey" = "yyyyyyyyyyyyyyyyyyyyyyyyyy"
+    )
+    ```
+    
+    最终生成文件如如果不大于 1GB，则为：`result_0.parquet`。
+    
+    如果大于 1GB，则可能为 `result_0.parquet, result_1.parquet, ...`。
+    
+## 返回结果
+
+导出命令为同步命令。命令返回，即表示操作结束。
+
+如果正常导出并返回，则结果如下：
+
+```
+mysql> SELECT * FROM tbl INTO OUTFILE ...                                      
                                                                                
                                                                                
                                                          Query OK, 100000 row 
affected (5.86 sec)
+```
+
+其中 `100000 row affected` 表示导出的结果集行数。
+
+如果执行错误，则会返回错误信息，如：
+
+```
+mysql> SELECT * FROM tbl INTO OUTFILE ...                                      
                                                                                
                                                                                
                                                            ERROR 1064 (HY000): 
errCode = 2, detailMessage = Open broker writer failed ...
+```
+
+## 注意事项
+
+* 查询结果是由单个 BE 节点，单线程导出的。因此导出时间和导出结果集大小正相关。

Review comment:
       这里目前只是简单复用了查询返回结果的逻辑。
   多线程的支持会麻烦一点。比如需要判断select语句是否包含order by 等信息。如果包含，则只能使用单线程顺序写（因为结果是顺序返回的）。
   即使不包含order 
by，目前查询框架结果还是单线程返回的，最多是改成多线程写文件。但是很多远端系统不支持指定offset写，所以多个线程只能写到多个文件里。也比较麻烦。
   
   不太确定其他系统对于select结果的导出具体是怎么实现的。




----------------------------------------------------------------
This is an automated message from the Apache Git Service.
To respond to the message, please log on to GitHub and use the
URL above to go to the specific comment.

For queries about this service, please contact Infrastructure at:
[email protected]



---------------------------------------------------------------------
To unsubscribe, e-mail: [email protected]
For additional commands, e-mail: [email protected]

[GitHub] [incubator-doris] morningman commented on a change in pull request #3584: [OUTFILE] Support `INTO OUTFILE` to export query result

Reply via email to