由于工作很忙,不停没有时间静下心来好好整理文档。文档的功夫不仅反映了一个人对相关知识的掌握,也可以发现不足之处,从而进步本身,增加本身的内功。希望从这篇开始,日积月累,成为一个优秀的步调员。
本文的stmmac驱动以linux内核5.15为参考。
stmmac驱动用于支持synopsys ip的系列网卡芯片,包括xgmac,以及gmac。xgmac对应的是10G网卡芯片,gmac对应的则是千兆网卡芯片。我将从三个方面举行网卡驱动的分析,分别是网卡驱动架构,link方式,以及收发包流程。
1.网卡驱动架构
xgmac 网卡重要有两种应用场景,分别是Local xgmac和PCIe xgmac 应用场景。Local xgmac方式下,cpu通过内部高速总线访问xgmac,而PCIe xgmac则通过PCIe总线与host主机相连。stmmac目录中,dwmac-intel-plat对应着Local xgmac方式,而dwmac-intel.c,stmmac_pci.c则对应这PCIe xgmac的方式。stmmac_main.c包括对xgamc硬件举行操纵,调用dwxgmac_core.c,dwxgamc_desc.c,dwxgmac_dma.c,以及提供各种网卡接口feature,包括mmc软硬件计数,ethtool,ptp,以及xdp等。
本文重要以PCIe方式即以stmmac_pci.c举行说明。
- static struct pci_driver stmmac_pci_driver = {
- .name = STMMAC_RESOURCE_NAME,
- .id_table = stmmac_id_table,
- .probe = stmmac_pci_probe,
- .remove = stmmac_pci_remove,
- .driver = {
- .pm = &stmmac_pm_ops,
- },
- };
复制代码 利用stmmac_id_table的device_id以及vendor_id举行driver和devcie的匹配,匹配成功后调用stmmac_pci_probe函数。stmmac_pci_probe函数流程为
1.分配plat、plat->mdio_bus_data、plat->dma_cfg结构体,plat结构体提供硬件以及ndev的一些基本参数,mdio_bus_data重要与mdio相关,dma_cfg配置xgmac dma 通路,好比rxpbl,txpbl等等。
- plat = devm_kzalloc(&pdev->dev, sizeof(*plat), GFP_KERNEL);
- plat->mdio_bus_data = devm_kzalloc(&pdev->dev,sizeof(*plat->mdio_bus_data), GFP_KERNEL);
- plat->dma_cfg = devm_kzalloc(&pdev->dev, sizeof(*plat->dma_cfg),GFP_KERNEL);
- plat->safety_feat_cfg = devm_kzalloc(&pdev->dev,sizeof(*plat->safety_feat_cfg),GFP_KERNEL);
复制代码 2.由于PCIe xgmac下,网卡是一个PCIe设备,既然是PCIe设备,则必须对网卡的bar空间举行初始化。包括使能pci设备,获取网卡设备的bar空间机制,并对bar空间举行映射。
- pcim_enable_device(pdev);
- for(i=0; i<6; i++)
- ret = pcim_iomap_regions(pdev, BIT(i), pci_name(pdev));
- pci_set_master(pdev);
复制代码 3.赋值一些必要信息,中断初始化(msi或者msix),处理完毕后进入stmmac_dvr_probe函数。
4.进入stmmac_dvr_probe函数后,就是申请网卡设备net_device和私有数据stmmac_priv,网卡设备和私有数据牢牢挨在一起:网卡设备+私有数据结构,通过netdev_pri获取私有数据结构。

5.dwxgmac2_core.c,dwxgmac2_dma.c,dwxgmac2_desc.c实现了xgmac 的操纵接口,那么怎样将xgmac的操纵接口与netdev或者priv强绑定呢,stmmac的做法是根据网卡芯片的型号(xgmac以及gmac芯片的型号都不一样),去绑定差别的操纵接口的回调函数。hwif.c中的stmmac_hw数组来举行注册管理。
- // dwxgmac210_ops mac相关操作接口注册如下
- const struct stmmac_ops dwxgmac210_ops = {
- .core_init = dwxgmac2_core_init,
- .set_mac = dwxgmac2_set_mac,
- .rx_ipc = dwxgmac2_rx_ipc,
- .rx_queue_enable = dwxgmac2_rx_queue_enable,
- .rx_queue_prio = dwxgmac2_rx_queue_prio,
- .tx_queue_prio = dwxgmac2_tx_queue_prio,
- ......
- }
- // dwxgmac210_ops dma 相关操作接口注册如下
- const struct stmmac_dma_ops dwxgmac210_dma_ops = {
- .start_tx = dwxgmac2_dma_start_tx,
- .stop_tx = dwxgmac2_dma_stop_tx,
- .start_rx = dwxgmac2_dma_start_rx,
- .stop_rx = dwxgmac2_dma_stop_rx,
-
- ......
- }
- const struct stmmac_desc_ops ndesc_ops = {
- .tx_status = ndesc_get_tx_status,
- .rx_status = ndesc_get_rx_status,
- .get_tx_len = ndesc_get_tx_len,
- .init_rx_desc = ndesc_init_rx_desc,
- .init_tx_desc = ndesc_init_tx_desc,
- .get_tx_owner = ndesc_get_tx_owner,
- ......
- }
- static const struct stmmac_hwif_entry {
- bool gmac;
- bool gmac4;
- bool xgmac;
- ......
- const void *desc;
- const void *dma;
- const void *mac;
- const void *hwtimestamp;
- const void *mode;
- const void *tc;
- const void *mmc;
- int (*setup)(struct stmmac_priv *priv);
- int (*quirks)(struct stmmac_priv *priv);
- } stmmac_hw[] = {
- {
- .gmac = false,
- .gmac4 = false,
- .xgmac = true,
- ......
- .desc = &dwxgmac210_desc_ops,
- .dma = &dwxgmac210_dma_ops,
- .mac = &dwxgmac210_ops,
- .hwtimestamp = &stmmac_ptp,
- .mode = NULL,
- .tc = &dwmac510_tc_ops,
- .mmc = &dwxgmac_mmc_ops,
- .setup = dwxgmac2_setup,
- .quirks = NULL,
- },
- ..... // .gmac = true,
- }
复制代码 6.stmmac_dvr_probe函数重要作用是申请netdev结构体和priv结构体,并对结构体举行赋值,包括将各个接口的回调函数赋给priv结构体。而stmmac_open 函数则对应着上层的下令(ifconfig eth up),通过调用stmmac_open函数,网卡真正能工作起来,即可以开始收发包。
- stmmac_open
- |--- stmmac_hw_setup(dev, true)
- |---stmmac_init_dma_engine(priv) /* DMA initialization and SW reset */
- |---stmmac_core_init(priv, priv->hw, dev) /* Initialize the MAC Core */
- |---stmmac_mtl_configuration(priv) /* Initialize MTL*/
- |---stmmac_mac_set(priv, priv->ioaddr, true) /* Enable the MAC Rx/Tx */
- |---stmmac_set_rings_length(priv) /* set TX and RX rings length */
- |---stmmac_start_all_dma(priv) /* Start the ball rolling... */
- |---stmmac_start_rx_dma(priv, chan)
- |---stmmac_start_rx(priv, priv->ioaddr, chan)
- |---stmmac_start_tx_dma(priv, chan)
- |---stmmac_start_tx(priv, priv->ioaddr, chan)
- |---stmmac_do_void_callback(__priv, dma, start_tx, __args)
- //#define stmmac_do_void_callback(__priv, __module, __cname, __arg0, __args...)
- // (__priv)->hw->__module->__cname((__arg0), ##__args);
- |--- __priv->hw->dam->start_tx((__arg0), ##__args);
- |---dwxgmac2_dma_start_tx
复制代码 2.link架构
stmmac支持两种形式的phy,一种是外置phy,phy单独存在,通过mdio总线与xgmac相连,另一种是内置phy,即pcs。xpcs作为xgmac的一部分,访问时不再必要通过mdio访问,而是将xpcs相关寄存器映射到一段bar空间上,直接通过读写寄存器的方式访问。在5.15内核,stmmac驱动的link架构依赖于phylink模块。phylink层是一个软件层面的中心层,它没有对应的硬件,重要功能是连接phy_device和mac层以及phy层的状态。
对于外置phy的方式,phylink工作方式如下:

当phy_device的状态改变时,mac层能及时作出改变。phy_device层和phylink层均采取了定时器轮询的方式,phy_device层通过phy_state_machine()函数获取phy的状态,当状态改变时,将信息通过phylink_phy_change()函数转达给phylink.phylink层也采取了轮询的方式,利用phylink_resolve()函数将信息传给mac层。
对于内置phy即xpcs的方式,phylink的工作方式如下:

phylink层维护了1s钟轮询一次的定时器,通过该定时器,会定期去查察xpcs的link状态,假如xpcs是linkup的,则会配置xgmac的mac层,使其linkup。
phylink_resolve函数的核心逻辑如下
- static void phylink_resolve(struct work_struct *w)
- {
- ...
- bool mac_config = false;
- bool retrigger = false;
- bool cur_link_state;
- if (pl->netdev) //得到当前的link状态
- cur_link_state = netif_carrier_ok(ndev);
- else
- cur_link_state = pl->old_link_state;
- if (pl->phylink_disable_state) { //判断当前状态phylink_disable_state和mac_link_dropped状态
- pl->mac_link_dropped = false;
- link_state.link = false;
- } else if (pl->mac_link_dropped) {
- link_state.link = false;
- retrigger = true;
- } else { //其他情况
- switch (pl->cur_link_an_mode) {
- ...
- case MLO_AN_INBAND:
- /*获取当前的link_state*/
- phylink_mac_pcs_get_state(pl, &link_state);
-
- if (!link_state.link) {
- if (cur_link_state)
- retrigger = true;
- else
- phylink_mac_pcs_get_state(pl,&link_state);
- }
- phylink_apply_manual_flow(pl, &link_state);
- break;
- }
- }
- ...
- /*这里我的理解是如果link_state的link不等于当前状态的link,
- 那么如果link=0,实际是link的,所以需要link up;
- 如果link=1,那么实际是没link,所以需要link down.如果两者都为0和1就不需要动作了*/
- if (link_state.link != cur_link_state) {
- pl->old_link_state = link_state.link;
- if (!link_state.link)
- phylink_link_down(pl);
- else
- phylink_link_up(pl, link_state);
- }
- if (!link_state.link && retrigger) { //如果link为0,并且需要马上retrigger,那么就重新调度resolve函数
- pl->mac_link_dropped = false;
- queue_work(system_power_efficient_wq, &pl->resolve);
- }
- mutex_unlock(&pl->state_mutex);
- }
复制代码 对于外置phy,其与xgmac通讯的总线为mdio。这里重要说明以下mdio总线的注册流程。要用到mdio读写寄存器的方式对phy举行配置,一般读写方式有两种,分别是c45和c22.

对于xpcs的方式,重要必要获取xpcs的型号从而执行差别的硬件操纵函数。
pcs是物理编码子层,位于和谐子层(通过GMII)和物理介入接入层(PMA)子层之间。pcs子层完成将颠末完善界说的以太网MAC功能映射到现存的编码和物理层信号体系的功能上去、pcs子层和上层MAC的接口由MII提供,与下层PMA接口使用PMA服务接口。而XPCS顾名思义,则是支持更高速率的pcs层。
差别厂家的xpcs不大相同,以stmmac源码为参考,pcs_xpcs的初始化位置位于stmmac_main.c的stmmac_dvr_probe函数下的stmmac_xpcs_setup函数中,该函数流程为利用从0到32的phy地点举行循环遍历的方式举行mdio设备以及xpcs的创建,假如phy地点不正确,那么xpcs则无法正确创建。若xpcs成功创建,将xpcs_create函数返回的xpcs结构体给priv->hw->xpcs。
- for (addr = 0; addr < PHY_MAX_ADDR; addr++) {
- mdiodev = mdio_device_create(bus, addr);
- if (IS_ERR(mdiodev))
- continue;
- xpcs = xpcs_create(mdiodev, mode);
- if (IS_ERR_OR_NULL(xpcs)) {
- mdio_device_free(mdiodev);
- continue;
- }
- priv->hw->xpcs = xpcs;
- break;}
复制代码 与前面xgmac的硬件操纵函数一致,xpcs也必要根据差别的型号来执行差别操纵函数。
- //关键结构体数组
- xpc_id_list[] = {
- {
- .id = SYNOPSYS_XPCS_ID,
- .mask = SYNOPSYS_XPCS_MASK,
- .compat = synopsys_xpcs_compat,
- }, {
- .id = NXP_SJA1105_XPCS_ID,
- .mask = SYNOPSYS_XPCS_MASK,
- .compat = nxp_sja1105_xpcs_compat,
- }, {
- .id = NXP_SJA1110_XPCS_ID,
- .mask = SYNOPSYS_XPCS_MASK,
- .compat = nxp_sja1110_xpcs_compat,
- },
- };
- //赋值后的xpcs结构体
- struct dw_xpcs {
- struct mdio_device *mdiodev;
- const struct xpcs_id *id;
- struct phylink_pcs pcs;
- }xpcs;
- xpcs.mdiodev=mdiodev;
- xpcs->id=&xpcs_id_list[i]; //根据id匹配得到
- xpcs->pcs.ops =&xpcs_phylink_ops;
- xpcs->pcs.poll = true;
复制代码 3.收发包流程
Stmmac 以太网收发包驱动,核心是两个函数,一个是 stmmac_xmit, 用于将协议栈发送的数据包映射出DMA地点给硬读取; 另一个是 stmmac_rx,用于将硬件写入内存的数据,构造成 skb 并转达给协议层。
TX方向的流程如上图所示:
- 网络设备层_qdisc_run 函数调用 驱动注册的 stmmac_xmit 函数举行发送数据包
- Stmmac_xmit 对skb->data举行dma_map_single流式映射,获取dma物理地点,供网卡芯片 DMA 获取数据报文
- stammac_xmit 将 skb映射后的dma 物理地点 更新到 TX Ring 的描述符中,然后更新描述符队列的 cur_tx
- stammac_xmit 将当前生产的数据包位置 写入 XGMAC 的doorbell寄存器,同时flush 描述符,并开启软件定时器,举行tx方向的中断聚合
- 硬件DMA 读取数据报文,转达给 MAC 层之后,根据描述符的IC值判定是否发送硬中断给CPU
- CPU 执行硬中断处理函数 stmmac_msi_intr_tx
- 硬中断处理函数 调用 napi_schedule(tx_napi)
- Linux 内查对应当前CPU 核心的软中断线程 Ksoftirqd/N 通过net_rx_action, 调用驱动注册软中断处理函数stmmac_napi_poll_tx
- Poll tx 调用 stmmac_tx_clean 清算 tx 描述符,tx skb buffer,tx dma mpping 等
RX方向的流程如上图所示:
- 网卡收到数据后,产生rx中断,并发送给CPU;
- CPU执行硬中断处理函数stmmac_msi_intr_rx
- 硬中断处理函数调用napi_schedule(rx_napi)
- 执行netif_napi_add中绑定的stmmac_napi_poll_rx函数
- 进入驱动层的stmmac_rx;
- 调用dma_sync_single_for_cpu,确保在读取rx buffer数据之前,dma操纵已经完成,申请skb,将rx buffer的数据copy到skb中,并更新描述符 cur_rx。
- 将skb通过napi_gro_receive 上送到协议栈。
免责声明:如果侵犯了您的权益,请联系站长,我们会及时删除侵权内容,谢谢合作!更多信息从访问主页:qidao123.com:ToB企服之家,中国第一个企服评测及商务社交产业平台。 |