leeguooooo commented 1 year ago

https://v26-web.douyinvod.com/f6c2fa017ff1e0d0dc6018f4449ca2d6/6475cf0f/video/tos/cn/tos-cn-ve-15c001-alinc2/ocztBxbnaQIp7ZIB724myvZZeCqAkDfQeg63IA/?a=6383&ch=0&cr=0&dr=0&er=0&cd=0%7C0%7C0%7C0&cv=1&br=440&bt=440&cs=0&ds=4&ft=GN7rKGVVywIiRZm8Zmo~xj7ScoApZ8ai6vrKHcqRcto0g3&mime_type=video_mp4&qs=0&rc=NTQ7ZWg4NzdmMztlODlkaUBpamY1dzc6ZndmazMzNGkzM0A2YGFjYzNeNS8xYWMvYDA2YSNtbWticjRvc2NgLS1kLWFzcw%3D%3D&l=20230530171617758CA2B60B9F29046BF3&btag=e00030000

github-actions[bot] commented 1 year ago

Hi! 👋

Thanks for using my services! ❤️! 🤖 I've received your request and currently working on it.

⚙️ It might take a few minutes 🙏 You can check the progress here

In the meantime, feel free to chat with me ! 😊 I'll notify you as soon as I'm done! 😊

If you find my services helpful, you can support me by buying me a coffee ☕️

github-actions[bot] commented 1 year ago

Mission accomplished! 🥳🥳🥳 Here's the result:

github-actions[bot] commented 1 year ago

ocztBxbnaQIp7ZIB724myvZZeCqAkDfQeg63IA

Summary Text

Original text

ocztBxbnaQIp7ZIB724myvZZeCqAkDfQeg63IA: 當年我還在某個遊戲項目著作開發的時候從企鵝那邊挖來的遊戲策劃信誓旦旦的說我們接下來要做的這款遊戲《老少皆宜》肯定是爆款,要做成全球同服上線至少過億註冊,十萬人同時在線要好好規劃設計,當年過億註冊什麼概念要是放在今天也是個可以媲美原神的存在我們當時算了下,信它能有一個億的註冊量考慮到單表放這麼多數據,性能肯定會很慢於是分了四張表,搞得我熱血沸騰那天晚上下班,夏天的慘叫的都比平時還要更大聲我聽著《折葉紅枝》的歌,就算是開著電瓶車我都感覺自己像是在開高達一年後,遊戲上線前一天通知運回家機器怕頂不住,要整夜關注後來上線了,全球最高在線人數58人其中有7個是項目組成員還是夏天,還是同樣的下班路想哭,但我不能哭因為騎電瓶車的時候擦眼淚不安全你幹嘛今天這個視頻就聊聊數據庫分庫分表相信在接下來的開發生涯中,你一定會有機會遇到現在我們假設我們做的就是《原神》這款遊戲需要對它的數據庫表進行設計我們通常會在數據表裡記錄玩家角色信息假設有張user表,一行記錄就是一個玩家一開始做遊戲demo的時候,通常會先用一張數據表跑就行老闆看到遊戲demo效果還行,就會考慮立項對於一款商業級的遊戲來說一旦項目立項,就需要考慮上線後的玩家人數假設上線註冊玩家人數過億,全都塞在一張user表裡 MySQL底層B加速的層級結構就可能會變得很高不同層級的數據頁一般都放在磁盤裡不同的地方也就是說磁盤IO會變多,查詢性能就會變差於是我們不得不考慮數據庫分表這裡的分表分為垂直分表和水平分表兩種垂直分表的原理比較簡單一般就是把某幾列拆成一個新表這樣原來的表就小了,查詢性能就快了是不是懵了雖然好像很符合常理但為什麼拆幾列出去,表查詢就變快了絕大部分資料說到這裡就結束了完全不提為什麼我來告訴你 MySQL底層用的是B加速而B加速本質上是一個個16K的數據頁實現的表裡的一行行數據其實是放在數據頁裡當要查詢數據表裡的某行數據時就可能要將數據頁從磁盤加載到內存中也就產生了磁盤IO 這是個很慢的操作拆幾列出去那數據表裡的每行數據就會變少單個16K數據頁就能放入越多的行數這樣發生查詢時需要的數據頁就會越少那磁盤IO也會越少所以性能就會越快到這裡垂直分表就講完了下面我們重點說說最常見的水平分表水平分表有好幾種做法但不管是哪種本質上都是將原來的user表變成user0到userN這樣的N張小表每一張小表裡只保存了一部分數據一般是500萬到2000萬那分表具體怎麼做呢最常見的就是根據ID取模分表這是個比較簡單直接的做法假設我們一共分了兩張表分別是user0和user1 此時模等於2 我們將輸入的ID與模進行求余數操作比如ID等於246的時候 2取模得到0 會被寫到user0這張表裡 ID等於135和2取模得到1 於是就能知道應該寫到user1這張表裡根據ID取模分表這個方案的優點是比較簡單而且讀寫數據都可以很均勻的分攤到每個分表上但缺點也比較明顯如果想要擴展表的個數比如從兩張表變成三張表那同樣還是ID等於3的數據以前3和2取模得到1 所以ID等於3的數據會放在user1表裡現在3和3取模得到0 那就要放在user0這張表裡跟原來的user1就對不上了這就需要考慮數據遷移的問題了就很頭突為了避免後續擴展的問題我見過一些業務一開始就將數據預估的很大然後一狠心一跺腳分成100張表一張表如果存個2000萬條數據那100張表就能存20個億的數據了也不是說這樣不行就是這個業務直到最後放棄的時候也就存了幾百條數據每次打開數據庫表都能看到茫茫多的user0xx表就是不太舒服專業點叫增加了程序員的心智負擔那有沒有更好的方案有根據ID範圍分表假設我們每張分表都能存放2000萬條數據那user0xx就存放ID為1到2000萬的數據 user1xx就存放ID在2000萬到4000萬之間的數據以此類推假設現在有條數據ID等於3000萬要讀寫這條數據就需要將3000萬除以2000萬得到1.5 向下取整得到1 那就可以知道這條數據屬於user1xx表於是就去讀寫user1xx表就行了根據ID範圍去分表就能很好的解決 ID取模時數據表的擴展問題數據少的時候表也少隨著數據增多表會慢慢變多這樣數據表就可以無限擴展了但根據ID範圍去分表就沒有缺點嗎也不是舉個例子假設原神新註冊玩家的ID是不斷加1的那麼在某段時間內 ID會集中在某個分片範圍內比如在4000萬到6000萬的範圍裡數據會不斷寫入這個特定的分表中這樣雖然你有很多個分表但大部分時候可能只有那麼一兩張分表會被頻繁的讀寫其他表都很空閒像這樣一表有難八方圍觀的情況就沒有起到分攤數據讀寫壓力的效果這就是所謂的讀寫熱點問題解決讀寫熱點問題最簡單的方案就是讓ID變成隨機這樣ID就能隨機分散到所有表上分攤讀寫壓力除此之外還可以用我接下來要介紹的第三種分表方法同時結合ID取模分表和ID範圍分表的方案我們可以先用ID範圍去分表然後在某個ID範圍內引入取模的功能比如以前2000萬到4000萬是user1表現在可以在這個範圍裡再分成多個表比如引入user1-0 user1-1 在這兩個表裡進行取模操作一個例子還是ID等於3000萬的這條數據根據ID範圍分表會被分到user1表裡然後再進行取模 3000萬和2取模得到0 也就是說讀寫user1-0這張表這樣就可以將讀寫單表分攤為讀寫多表這還只是在一個數據庫裡做分表如果範圍再搞大點還能在多個數據庫裡做分表也就是所謂的分庫分表如果我們將不同的庫部署到不同的機器上就能充分利用各個機器的性能不管是單庫分表還是分庫分表都需要通過一個中間層邏輯做路由我們把這部分邏輯封裝起來放在數據庫和業務代碼之間這樣對於業務代碼來說他只知道自己在讀寫一張user表根本不知道底下還分了那麼多張小表對於數據庫來說他並不知道自己被分表了他只知道有那麼幾張表只是正好名字長得比較像而已還真的就應了那句話沒有什麼是加中間層不能解決的如果有就多加一層至於這個中間層的實現方式就更靈活了它可以像第三方ORM庫那樣加在業務代碼中但這樣就需要根據不同語言實現不同的代碼庫比較繁瑣所以不少大廠都選擇在mySQL和業務代碼之間加個Proxy服務去做這個中間層分表路由邏輯這樣就不需要關心上游服務用的是什麼語言了你學廢了嗎但光講這些其實我覺得沒什麼意思還不夠硬還不夠傑克你聽說過讀擴散問題嗎你知道分庫分表為什麼會引發讀擴散問題嗎怎麼解決讀擴散問題呢點贊破500馬上燃燒生命為大家安排一下算了算了我現在就燃燒生命我們上面提到的好幾種分表方式都用了ID這一列作為分表的依據這其實就是所謂的分片鍵實際上我們一般也是用的數據庫組件作為分片鍵這樣理想情況下我們已知一個ID 不管是根據哪種規則我們都能很快定位到該讀哪個分表但很多情況下我們的查詢又不是只查組件比如原神數據庫表裡有那麼一列是用來保存用戶名字的並且加了個普通索引假設我現在需要查詢名字叫小白的用戶有哪些我需要執行上面的sql語句主語Name並不是分片鍵我們沒法定位到具體要到哪個分表去執行這條sql 於是就會對所有的分表都並發執行上面的sql語句假設我有100張分表就執行100次sql查詢如果我有200張表就執行200次sql查詢隨著我的表越來越多查詢的次數也會越來越多這就是所謂的讀擴散問題這是個比較有趣的問題它確實是個問題但大部分的業務不會去處理它讀100次怎麼了業務不賺錢人和代碼有一個能跑就行話是這麼說沒錯該面試官問你的時候你得知道怎麼說這個問題的核心在於組件是分片鍵而普通索引列並不分片那好辦我們再單獨建個新的分片表這個新表裡的列就只有舊表的組件ID和普通索引列重點來了這次換普通索引列來做分片鍵這樣當我們要查詢普通索引列時先到這個新的分片表裡做一次查詢就能迅速定位到對應的組件ID 然後再拿組件ID去舊的分片表裡再查一次數據這樣就從漫無目的的全表擴散查詢縮減為只查固定幾個表了但這個做法的缺點也比較明顯你需要維護兩套表並且普通索引列更新時要兩張表同時進行更改有一定的開發量那麼有沒有更簡單的方案呢歡迎留言討論點贊破500 答案就發到評論區能看到這裡我猜你肯定是一個有技術追求的程序員雖然天天寫代碼跟前後端打交道都用到網絡通信但遇到問題的時候你是不是也會感到束手無策比如502問題怎麼排查連一個不存在的IP地址內核到底會發生什麼如果你對這些感興趣又對厚厚的網絡黑皮書束手無策那一定要看看左下角的教程你是一個有判斷力的人你應該知道你的時間很寶貴與其花時間自己摸索不如直接看一下過來人的經驗總結如果他能在面試或工作中幫到你那我覺得這件事情太酷了我是小白下期會講一個很特別的話題先賣個關子我們下期見

github-actions[bot] commented 1 year ago

🙌

If you find my services helpful, you can support me by buying me a coffee ☕️ Thanks for using my services! ❤️

JohannLai / audio-to-text