日韩性视频-久久久蜜桃-www中文字幕-在线中文字幕av-亚洲欧美一区二区三区四区-撸久久-香蕉视频一区-久久无码精品丰满人妻-国产高潮av-激情福利社-日韩av网址大全-国产精品久久999-日本五十路在线-性欧美在线-久久99精品波多结衣一区-男女午夜免费视频-黑人极品ⅴideos精品欧美棵-人人妻人人澡人人爽精品欧美一区-日韩一区在线看-欧美a级在线免费观看

歡迎訪問 生活随笔!

生活随笔

當前位置: 首頁 > 运维知识 > 数据库 >内容正文

数据库

hive通过外表把数据存到mysql中_hive数据去重

發布時間:2025/3/21 数据库 28 豆豆
生活随笔 收集整理的這篇文章主要介紹了 hive通过外表把数据存到mysql中_hive数据去重 小編覺得挺不錯的,現在分享給大家,幫大家做個參考.

Hive是基于Hadoop的一個數據倉庫工具,可以將結構化的數據文件映射為一張數據庫表,并提供類SQL查詢功能

hive的元數據存儲:通常是存儲在關系數據庫如 mysql(推薦) , derby(內嵌數據庫)中

hive的組成部分 :解釋器、編譯器、優化器、執行器

hive具有sql數據庫的外表,但應用場景完全不同,hive只適合用來做批量數據統計分析

hive中的數據表分為內部表、外部表

當刪除內部表的時候,表中的數據會跟著一塊刪除

刪除外部表時候,外部表會被刪除,外部表的數據不會被刪除

使用hive之前需要啟動hadoop集群,因為hive需要依賴于hadoop集群進行工作(hive2.0之前)

以下是對hive重復數據處理

先創建一張測試表

建表語句:create table hive_jdbc_test (key string,value string) ? partitioned by (day string) row format delimited fields terminated by ‘,‘ ?stored as textfile

準備的數據

uuid,hello=>0

uuid,hello=>0

uuid,hello=>1

uuid,hello=>1

uuid,hello=>2

uuid,hello=>2

uuid,hello=>3

把數據插入到2018-1-1分區

此時我們對hive表數據進行去重操作

insert overwrite table hive_jdbc_test partition(day=‘2018-1-1‘)

select key,value

from (SELECT *, Row_Number() OVER (partition by key,value ORDER BY value desc) rank

FROM hive_jdbc_test where day=‘2018-1-1‘) t

where t.rank=1;

此時重復數據會被處理完畢

總結

以上是生活随笔為你收集整理的hive通过外表把数据存到mysql中_hive数据去重的全部內容,希望文章能夠幫你解決所遇到的問題。

如果覺得生活随笔網站內容還不錯,歡迎將生活随笔推薦給好友。