<bdo id='6L2v0'></bdo><ul id='6L2v0'></ul>

<small id='6L2v0'></small><noframes id='6L2v0'>

    1. <legend id='6L2v0'><style id='6L2v0'><dir id='6L2v0'><q id='6L2v0'></q></dir></style></legend>
      1. <tfoot id='6L2v0'></tfoot>

      2. <i id='6L2v0'><tr id='6L2v0'><dt id='6L2v0'><q id='6L2v0'><span id='6L2v0'><b id='6L2v0'><form id='6L2v0'><ins id='6L2v0'></ins><ul id='6L2v0'></ul><sub id='6L2v0'></sub></form><legend id='6L2v0'></legend><bdo id='6L2v0'><pre id='6L2v0'><center id='6L2v0'></center></pre></bdo></b><th id='6L2v0'></th></span></q></dt></tr></i><div id='6L2v0'><tfoot id='6L2v0'></tfoot><dl id='6L2v0'><fieldset id='6L2v0'></fieldset></dl></div>

        sqoop读取postgresql数据库表格导入到hdfs中的实现

        我们以导入postgresql的employees表为例,执行以下命令:

          <legend id='swJN8'><style id='swJN8'><dir id='swJN8'><q id='swJN8'></q></dir></style></legend>
        1. <small id='swJN8'></small><noframes id='swJN8'>

              <tbody id='swJN8'></tbody>
          • <i id='swJN8'><tr id='swJN8'><dt id='swJN8'><q id='swJN8'><span id='swJN8'><b id='swJN8'><form id='swJN8'><ins id='swJN8'></ins><ul id='swJN8'></ul><sub id='swJN8'></sub></form><legend id='swJN8'></legend><bdo id='swJN8'><pre id='swJN8'><center id='swJN8'></center></pre></bdo></b><th id='swJN8'></th></span></q></dt></tr></i><div id='swJN8'><tfoot id='swJN8'></tfoot><dl id='swJN8'><fieldset id='swJN8'></fieldset></dl></div>

              <bdo id='swJN8'></bdo><ul id='swJN8'></ul>
                <tfoot id='swJN8'></tfoot>
                1. sqoop读取postgresql数据库表格导入到hdfs中的实现

                  Sqoop是一个开源工具,用于将关系型数据库和数据仓库(例如PostgreSQL)中的数据传输到Hadoop的HDFS(Hadoop分布式文件系统)/ Hive中。
                  Sqoop支持批量导入和导出,支持多种数据源的数据传输。

                  步骤一:安装sqoop

                  1. 首先,下载和安装sqoop所需的jar包以及hive所需的jar包。
                  2. 下载安装包后,将其解压,并且将其路径添加到系统环境变量中。您可以使用以下命令检查环境变量是否正确设置:
                  $ echo $PATH
                  

                  步骤二:配置sqoop

                  Sqoop的配置文件位于$SQOOP_HOME/conf/sqoop-env.sh中。 在这个文件中为以下变量设置适当的值:
                  * $HADOOP_HOME
                  * $HIVE_HOME
                  * $JAVA_HOME

                  步骤三:导入postgresql到HDFS

                  我们以导入postgresql的employees表为例,执行以下命令:

                  $ sqoop import \
                      --connect jdbc:postgresql://localhost:5432/mydb \
                      --table employees \
                      --username user \
                      --password password \
                      --target-dir /user/hadoop/hdfs/employees \
                      --delete-target-dir \
                      --num-mappers 1 \
                      --fields-terminated-by ,
                  

                  命令说明:
                  * --connect:JDBC连接字符串,用于指定需要连接的数据库和其它相关信息。
                  * --table:要导入的postgresql表名。
                  * --username:postgresql数据库连接用户名。
                  * --password:postgresql数据库连接密码。
                  * --target-dir:HDFS上的目标目录。
                  * --delete-target-dir:在运行Sqoop之前,删除任何已存在的HDFS目标文件夹。
                  * --num-mappers:指定使用的Map任务数,默认为4个。
                  * --fields-terminated-by:指定输出文件中,每个值之间的分隔符。

                  另外,您还可以使用其他Sqoop选项来定制导出过程。

                  示例一:导入部分表格

                  有时,您可能想将postgresql表的一部分导入到HDFS中。这可以通过添加一个WHERE语句来实现。例如,您可以使用以下命令将employees表中工资100000美元以上的所有员工导入到HDFS中:

                  $ sqoop import \
                      --connect jdbc:postgresql://localhost:5432/mydb \
                      --table employees \
                      --username user \
                      --password password \
                      --target-dir /user/hadoop/hdfs/employees \
                      --delete-target-dir \
                      --num-mappers 1 \
                      --fields-terminated-by , \
                      --where "salary > 100000"
                  

                  示例二:自定义导入表格

                  有时您需要自己动手指定要导入的列。这可以通过--query选项和SQL查询来实现。例如,下面的命令指定要从employees表中仅导入id和name列并设置其分隔符为“^”:

                  $ sqoop import \
                      --connect jdbc:postgresql://localhost:5432/mydb \
                      --query "SELECT id, name FROM employees WHERE \$CONDITIONS" \
                      --username user \
                      --password password \
                      --target-dir /user/hadoop/hdfs/employees \
                      --delete-target-dir \
                      --num-mappers 1 \
                      --fields-terminated-by '^'
                  

                  --query选项中,\$CONDITIONS是一个特殊占位符,Sqoop会将其替换为一个WHERE子句,用于并行分布式地读取数据。

                  到此,Sqoop从postgresql数据库表导入数据到HDFS中的实现已完成。由于Sqoop支持多种导入和导出类型,因此您可以使用不同的选项和自定义查询来做到这一点。

                  本站部分内容来源互联网,如果有图片或者内容侵犯了您的权益,请联系我们,我们会在确认后第一时间进行删除!

                  相关文档推荐

                  下面是针对PostgreSQL中的权限问题的完整攻略。
                  MySQL是一种流行的关系型数据库系统,它提供了多种时间类型和模式,用于存储和处理时间数据。本文将详细介绍MySQL时间类型和模式的详细攻略。
                  首先在官网下载CentOS7镜像,并在VMware虚拟机中新建一台CentOS7虚拟机,将镜像挂载到虚拟机中并启动。
                  首先,当我们使用Spring Boot开发项目时,可能会遇到Error starting ApplicationContext错误,一般这种错误是由于配置文件、依赖包或者代码逻辑等原因引起的。下面我将提供一条包含两条详细示例说明的完整攻略,用来解决上述问题。
                  下面我将详细讲解如何为PostgreSQL数据库中的用户授予权限和撤销权限,包括两个实例。
                  MySQL中出现lock wait timeout exceeded问题的原因是由于两个或多个事物同时请求相同的资源造成的,并且在某一时刻至少一个事务无法获取资源,超过了MySQL默认的等待时间,从而导致事务失败。这种问题的出现会极大地影响数据库的性能和并发能力。
                2. <tfoot id='sGhNt'></tfoot>

                  <small id='sGhNt'></small><noframes id='sGhNt'>

                3. <i id='sGhNt'><tr id='sGhNt'><dt id='sGhNt'><q id='sGhNt'><span id='sGhNt'><b id='sGhNt'><form id='sGhNt'><ins id='sGhNt'></ins><ul id='sGhNt'></ul><sub id='sGhNt'></sub></form><legend id='sGhNt'></legend><bdo id='sGhNt'><pre id='sGhNt'><center id='sGhNt'></center></pre></bdo></b><th id='sGhNt'></th></span></q></dt></tr></i><div id='sGhNt'><tfoot id='sGhNt'></tfoot><dl id='sGhNt'><fieldset id='sGhNt'></fieldset></dl></div>
                    <tbody id='sGhNt'></tbody>

                        • <bdo id='sGhNt'></bdo><ul id='sGhNt'></ul>
                          • <legend id='sGhNt'><style id='sGhNt'><dir id='sGhNt'><q id='sGhNt'></q></dir></style></legend>