日韩性视频-久久久蜜桃-www中文字幕-在线中文字幕av-亚洲欧美一区二区三区四区-撸久久-香蕉视频一区-久久无码精品丰满人妻-国产高潮av-激情福利社-日韩av网址大全-国产精品久久999-日本五十路在线-性欧美在线-久久99精品波多结衣一区-男女午夜免费视频-黑人极品ⅴideos精品欧美棵-人人妻人人澡人人爽精品欧美一区-日韩一区在线看-欧美a级在线免费观看

歡迎訪問 生活随笔!

生活随笔

當前位置: 首頁 > 编程资源 > 编程问答 >内容正文

编程问答

hive自定义函数过滤emoj表情符

發布時間:2024/3/13 编程问答 40 豆豆
生活随笔 收集整理的這篇文章主要介紹了 hive自定义函数过滤emoj表情符 小編覺得挺不錯的,現在分享給大家,幫大家做個參考.

mysql插入數據問題:java.sql.SQLException: Incorrect string value: ‘\xF0\x9F\x98\x8D\xE8\xBE…’ for column ‘job_title’ at row 1

問題原因:
數據中存在Emoj表情內容,每個字符占用4個字節,在Mysql中utf-8默認最大支持3個字節,超長了,所以報錯了。
解決辦法:

(1)在較新版本的Mysql上可選擇修改數據類型為utf8mb4
(2)hive 數據處理過濾掉Emoj表情內容(Emoj數據一般無用),處理完再集成到MySQL數據庫。用自定義函數
create temporary function StringFilter as ‘UppUDF.StringFilter’
using jar ‘hdfs://namenodeha/user/p66_u1038_upp_ludp1/tmp/StringFilter.jar’;
自定義函數代碼如下:

import org.apache.commons.lang3.CharEncoding; import org.apache.commons.lang3.CharUtils; import org.apache.hadoop.hive.ql.exec.UDF;import java.net.URLEncoder; import java.nio.charset.StandardCharsets;/**** 過濾emoj表情符**/ public class StringFilter extends UDF {public String evaluate(String str){if(str == null || str == ""){return null;}else{StringBuilder sb = new StringBuilder();byte[] bytes = str.getBytes(StandardCharsets.UTF_8);for(int i=0; i<bytes.length; i++) {byte b = bytes[i];if(CharUtils.isAscii((char)b)){sb.append(new String(new byte[] {b}));}else if((b & 0xE0) == 0xC0) {sb.append(new String(new byte[] {b, bytes[++i]}));}else if((b & 0xF0) == 0xE0) {sb.append(new String(new byte[] {b, bytes[++i], bytes[++i]}));}else if((b & 0xF8) == 0xF0) {String str1 = new String(new byte[] {b, bytes[++i], bytes[++i], bytes[++i]});try{sb.append(URLEncoder.encode(str1, CharEncoding.UTF_8));}catch(Exception ignore) {}}}return sb.toString();}} }

總結

以上是生活随笔為你收集整理的hive自定义函数过滤emoj表情符的全部內容,希望文章能夠幫你解決所遇到的問題。

如果覺得生活随笔網站內容還不錯,歡迎將生活随笔推薦給好友。