當前位置：首頁 > 编程资源 > 编程问答 >内容正文

编程问答

todo 一些杂记

發布時間：2024/1/8 编程问答 46 豆豆

生活随笔收集整理的這篇文章主要介紹了 todo 一些杂记小編覺得挺不錯的,現在分享給大家,幫大家做個參考.

對機器學習的一些理解

仿生算法：神經網絡里的連接矩陣里記錄了變換（卷積核是局部連接，全連接是全面連接，transformer是稀疏的全連接，RNN是加入了時間維度的全連接），神經細胞胞體里的激活函數記錄了非線性變換。

網絡的本質：

信息的容器，
信息過濾算法容器。?

輸入真實世界的數據，用適合的容器，用合適的算法才能容納、處理數據，例如卷積（高效）、RNN（時間維度的引入）、詞嵌入（高效）、transformer（聯想），yolo（端到端的思想），gan（壓縮到基本維度，從稀疏矩陣到稠密矩陣，再次擴張到稀疏矩陣）

工程實現的條件：

更多的數據? ? ??--更好的表征世界，
更大的模型? ? ??-學習更多內容，網絡有更多容量
更強的算力? ? ??更高的每瓦算力，更快的訓練速度和推力速度，（cpu，gpu，憶阻器）
更好的算法框架（學習能力）
更好的可解釋性，安全性。視覺化--聚類算法，0shot 先驗知識的植入--gpt的預訓練+微調
成本、速度、能耗的平衡

todo 如果用教師網絡(多個)做自動標簽,是否可以訓練出一個能夠?充分提取照片信息的網絡??

進而,是否能夠做到網絡的可追因性?可解釋性?

每個實例只有很少維度信息，但是數據集包含多個維度信息，

FPN(Feature Pyramid Networks)：特征金字塔網絡? 能夠從不同幾何尺度提取信息

todo 深度網絡和詳細標簽的探索目的現在的深度網絡僅僅提取了一部分的照片信息,原因是標簽不充分.如果用教師網絡(多個)做自動標簽,是否可以訓練出一個能夠充分提取照片信息的網絡?進而,是否能夠做到網絡的可追因性?可解釋性? 輸入,人臉, 輸出,五官性別,年齡,膚色,種族,發型,飾品(眼鏡,耳環,刺青),表情,人臉3D位姿,相機3D位姿,眼睛的視線3D位姿燈光

todo 算法 attention 里面有很多被transformer (或 RNN) 瓶頸算法壓縮的高維信息 ,是否可以用于計算機視覺里多物體表征

todo 建立一個模型抽取雙目視差圖片的立體信息

先分割再融合雙目以降低算量
同時分割+雙目，以補充深度信息，更有利于分割。
人類V1區有左右眼疊層結構，構建空間感。輔助算法：光圈blur、雙目對準，多次視覺焦點跳躍、三維空間記憶。

雙目或多目包含了立體場景的一部分信息,為了減少計算量,可以用雙目表征立體.用一層或多層的卷積網絡去抽取雙目視差圖片的立體信息一層,得到一個好的卷積核多層,得到一個網絡某些維度和方向的卷積計算

todo? yolo? 是不是已經有了逆向預測的雛形,或者是預測訓練并記憶了全息信息

yolo 1 最后輸出了 7格子x 7格子x (5預測框+ 5預測框+ 20類別)yolo 同時預測了類別, 和位置(+置信度)雖然不是預測了類別+位置然后逆推各個部件,然后看逆推的部件和輸入的部件是否匹配, 但是也可以認為,在訓練階段已經隱式地做了這個工作,并將信息記錄在網格當中.可以結合2階段模型改進yolo,讓第一階段預測出實體,第二階段看逆推的部件和輸入的部件位姿是否匹配 ,部件是否匹配也許會極大的改善top1的正確率. 也許還能改進top5正確率需要很好的標注數據集,,全景實例分割(全圖全類別標注)為降低標注成本,可以用電腦動畫生成. 改造yolo讓yolo預測主體的位姿,并預測各個子部件的位姿,可以更充分地挖掘訓練集的信息關鍵點骨架模型也許可以幫助自動標注圖片,完善訓練集,也可以用電腦動畫生成.

todo 如何用簡單的規則,實現復雜的好結果?

壓縮擴張（復現）結構，gan和視覺分割使用了這個思想。

todo 多對比試驗，確定瓶頸容量的大小，手位姿，人體位姿，物體分割

端到端的結構，yolo訓練的結果是同時輸出標注物體類別和位置。不再用二級網絡。

ResNet論文中添加了一個短路的路徑,相當與魔改了網絡的結構,讓網絡實現了長程的聯想,記憶和注意力,最后得到了好的效果.沿著這個思路, 向網絡中添加簡單的結構,添加空間和時間,添加逆向的聯想(大部件的子部件),添加和諧度檢測(五官的朝向是否一致,異常的不符合預期的物品亂放),手動或自動嵌入100個詞todo 如何添加這種簡單結構GAN 生成輸出MAE 補全圖片YOLO 端到端的結構生物腦中的位置細胞和網格細胞諧度檢測從正向的角度,如果各個元素的和諧度很高,說明世界符合神經網絡的記憶從逆向預測的角度,如果各個元素的和諧度很高,說明網絡的輸出和判斷是正確的.可以用這種方法,從幾個預測結果中挑出一個對的.=============================todo 數據集的分析,看訓練數據集覆蓋了多少從角度(位姿)從燈光從色彩從人物動作然后統計一個圖表或空洞圖,空洞表示數據集沒有覆蓋的空間

人類生活在3維空間和1維時間中，因為有立體視覺（立體聽覺），能夠正確的反映真實世界的數據分布。

todo? Hinton 的路由網絡試圖將世界表征為 3維，有改進空間。
?

先討論3維空間人眼為何水平生長，因為地平線的方向信息更多，動物關心不太關心腳下和天空蜻蜓等昆蟲有接近360度x180度視角，食草動物有有接近300度x150度視角，人類視角在雙眼視角極限大約為垂直方向150度，水平方向230度雙眼的水平視角最大可達188度。（兩眼重合視域有124度），圖像的垂直方向視角為20度，水平方向的視角為36度時，就會有非常好的視覺臨場感，而且也不因為頻繁轉動眼球造成疲倦單眼的水平視角最大可達156度，單眼舒適視域為60度，注視點30度以外的周邊部分稱為周邊視野，人眼可以感知3維空間，圖片分割非常方便（自訓練），圖片分割后再處理信息語義性更強，可以代表一個個概念。

預測的算法，作用

1，減少計算量，

能在低分辨率情況下，不使用高分辨率。不在每一幀里都使用預測。

計算的稀疏性：根據外部客觀環境的持續性，仿生青蛙對運動物體敏感性，自動過濾不運動的物體。

2，增加算法的有效性

對客觀環境的高分辨率，對環境中前景和背景3D位姿判別、3D協調性的判別，都需要大量計算，

可以抽取間隔幀計算，在保持算法有效性的同時減低計算量。

? ? 另外，加入記憶和預測，在slam中平滑環境的特征點，特征點的數量和位置不產生跳變。

算法? 反向解析

一個音軌可以理解為一種樂器演奏。音樂是由幾個到幾十個音軌組成。這些音軌是隨時間變化的機械波，一旦機械波組合起來（相加），反向解析成各自音軌的音符+音色就變的異常困難。

需要設計一個網絡,解決這個問題

基本組件, 多級時間片(金字塔)傅立葉變換(高時間分辨率和高頻率分辨率)----加上時間得到二維圖片----再次通過cnn(傅立葉變換)過濾出不同樂器(音色).不同音高

總結

以上是生活随笔為你收集整理的todo 一些杂记的全部內容，希望文章能夠幫你解決所遇到的問題。

如果覺得生活随笔網站內容還不錯，歡迎將生活随笔推薦給好友。

ToDo
杂记

上一篇： 2023秋招大厂经典面试题及答案整理归纳
下一篇：云栖社区订阅周刊大盘点