日韩性视频-久久久蜜桃-www中文字幕-在线中文字幕av-亚洲欧美一区二区三区四区-撸久久-香蕉视频一区-久久无码精品丰满人妻-国产高潮av-激情福利社-日韩av网址大全-国产精品久久999-日本五十路在线-性欧美在线-久久99精品波多结衣一区-男女午夜免费视频-黑人极品ⅴideos精品欧美棵-人人妻人人澡人人爽精品欧美一区-日韩一区在线看-欧美a级在线免费观看

歡迎訪問 生活随笔!

生活随笔

當前位置: 首頁 > 运维知识 > 数据库 >内容正文

数据库

mysql 分词搜索_打造一个蓝奏云网盘搜索引擎

發布時間:2023/12/19 数据库 33 豆豆
生活随笔 收集整理的這篇文章主要介紹了 mysql 分词搜索_打造一个蓝奏云网盘搜索引擎 小編覺得挺不錯的,現在分享給大家,幫大家做個參考.

目前存在的網盤搜索引擎好多,可以歸于兩類:


1.搜索引擎索引
2.爬蟲入庫索引


第一種:搜索引擎索引
這種索引方式是目前比較主流的方式,依靠百度,谷歌建立索引鏈接,當用戶進行搜索的時候,網盤搜索引擎會抓取谷歌和百度已經收錄的頁面然后反饋給用戶。


第二種:爬蟲入庫索引
通過爬蟲(python或者其他語言)進行對網盤站點的資源爬取,將資源統一存放到數據庫,通過分詞將搜索結果展現給用戶。


這兩種方式各有優缺點,第一種屬于間接搜索,如果搜索引擎不收錄該站點資源,那么將無從搜索。第二種屬于直接搜索,資源準確度較高,但是實時更新速度比不上第一種。


下面進入主題,說說塵心盤搜索的技術搜索模式
地址:https://pan.ischenxin.com/


很早之前就想打造一個藍奏云的網盤搜索引擎,無奈之前時間一直不充裕,終于有時間可以做開發了。


藍奏云的優點:不限速速度快。
藍奏云的缺點:非會員上傳限制100M


缺點導致資源不會太大,視頻內容肯定就非常少了,但其他類的資源,比如app,音樂,小說肯定非常豐富。


由于藍奏云的Robots限制了百度對其網頁的收錄,使用百度高級搜索語法是沒有搜索結果的,但是谷歌就可以搜索到。


本身也沒有想著使用搜索引擎的方式去做引擎,只是抱著嚴謹的態度搜索看一看。


廢話太多,下面進入主題。


技術架構:
1.前端使用Vue+Element UI ,本身前端不復雜,就沒有使用webpack打包
2.后端使用了PHP+Apache+Mysql 經典的后端組合
3.分詞引擎使用了國人開源的xunsearch 漢語嘛 當然是國人最懂漢語了
4.爬蟲使用了基于python的Scrapy 分布式進行資源的爬取


整套系統的復雜點在于分詞,因為數據庫存儲資源后,由于數據的龐大,若使用數據庫查詢語句 like,效率和吞吐量肯定滿足不了。此時分詞的重要性就顯得非常重要了,將數據庫存儲標題的字段進行分詞,然后建立全文索引鏈,這樣大大提高了搜索速度和吞吐量。


雖然mysql目前是支持中文的全文索引的,但是效率和分詞的結果非常不理想,尋找了幾個分詞引擎,最后選擇了xunsearch,百萬級搜索速度只有幾毫秒,有需要的朋友可以百度xunsearch了解下,使用并不復雜,文檔寫的有點亂,還是需要認真多分析幾遍的。


爬蟲還是萬年不變的python,使用西瓜皮作為爬蟲框架,一共有三臺服務器分布式爬取,由于藍奏的種種限制,目前資源入庫的速度還算是理想。這里有一點需要說明,爬蟲和分詞并不是實時響應的,每爬取一段時間后,服務器會進行分詞處理,資源存在一定的滯后,這個后期會在優化這個滯后的時間。

總結

以上是生活随笔為你收集整理的mysql 分词搜索_打造一个蓝奏云网盘搜索引擎的全部內容,希望文章能夠幫你解決所遇到的問題。

如果覺得生活随笔網站內容還不錯,歡迎將生活随笔推薦給好友。