大家都知道TikTok上有一個(gè)叫“for you”的功能,這個(gè)功能非常智能,會(huì)根據(jù)用戶的喜好做出推薦,深受大家喜愛,而這背后的的具體技術(shù)性其實(shí)就是人工智能。
TikTok推薦算法的構(gòu)架可分為3個(gè)構(gòu)成部分:大數(shù)據(jù)框架、人工神經(jīng)網(wǎng)絡(luò)以及分布式架構(gòu)。
1、大數(shù)據(jù)框架
TikTok的大部分?jǐn)?shù)據(jù)信息來(lái)源于用戶的智能機(jī),包含了系統(tǒng)軟件和安裝的應(yīng)用軟件等,TikTok特別關(guān)心用戶的主題活動(dòng)日志,例如收看時(shí)間、滾動(dòng)、關(guān)注點(diǎn)贊、共享和評(píng)價(jià)等。
日志數(shù)據(jù)信息根據(jù)Flume和scribe開展整理和歸納,他們根據(jù)管路傳送到Kafka隊(duì)列中。隨后Apache Storm與Apache Hadoop生態(tài)體系中的別的部件并行處理數(shù)據(jù)流分析。
Apache Hadoop生態(tài)體系是一個(gè)用以數(shù)據(jù)處理方法和儲(chǔ)存的分布式架構(gòu)。這包含第一代分布式系統(tǒng)數(shù)據(jù)處理系統(tǒng)MapReduce,它與批處理命令并行計(jì)算數(shù)據(jù)信息。
YARN是一個(gè)用以工作生產(chǎn)調(diào)度和群集資源優(yōu)化配置的架構(gòu),HDFS是一個(gè)分布式存儲(chǔ),HBase是一個(gè)可拓展的分布式數(shù)據(jù)庫(kù),適用大中型報(bào)表的非結(jié)構(gòu)化數(shù)據(jù)儲(chǔ)存。
Hive是給予數(shù)據(jù)統(tǒng)計(jì)和查找的數(shù)據(jù)庫(kù)管理基礎(chǔ)設(shè)施建設(shè)。
Zookeeper是一個(gè)性能卓越的融洽服務(wù)項(xiàng)目。伴隨著信息量的持續(xù)增長(zhǎng),即時(shí)數(shù)據(jù)處理方法架構(gòu)應(yīng)時(shí)而生。
ApacheSpark是第三代架構(gòu),有利于對(duì)互聯(lián)網(wǎng)大數(shù)據(jù)工作中附和開展幾近即時(shí)的分布式系統(tǒng)解決。Spark根據(jù)在存儲(chǔ)空間中解決,來(lái)提高MapReduce的特性。在過(guò)去的數(shù)年里,TikTok運(yùn)用了第四代架構(gòu)Flink。