andrewbytecoder
diff --git a/‎k8s/attachments/Pasted image 20250903152200.png
114 KB b/‎k8s/attachments/Pasted image 20250903152200.png
114 KB
diff --git a/‎k8s/attachments/Pasted image 20250903153424.png
144 KB b/‎k8s/attachments/Pasted image 20250903153424.png
144 KB
diff --git a/‎k8s/attachments/Pasted image 20250903162541.png
115 KB b/‎k8s/attachments/Pasted image 20250903162541.png
115 KB
diff --git a/‎k8s/attachments/Pasted image 20250903164021.png
156 KB b/‎k8s/attachments/Pasted image 20250903164021.png
156 KB
diff --git a/‎k8s/attachments/Pasted image 20250903164708.png
154 KB b/‎k8s/attachments/Pasted image 20250903164708.png
154 KB
diff --git a/‎k8s/kubernetes_network.md
Lines changed: 233 additions & 1 deletion b/‎k8s/kubernetes_network.md
Lines changed: 233 additions & 1 deletion
@@ -12,7 +12,7 @@ Kubernetes集群至少应该包含三个网络，如图网络环境所示。一
 
 ![[image-2025-01-27-01-07-54-828.png]]
 
-## Docker网络基础
+## 云网络基础
 
 Docker技术依赖于近年来Linux内核虚拟化技术的发展， 所以Docker对Linux内核有很强的依赖。 Docker使用到的技术有网络命名空间（ Network Namespace） 、 Veth设备对、 网桥、 ipatables和路由。
 
@@ -76,6 +76,238 @@ ip link set dev veth3 up
 ip link set <veth1> up
 ```
 
+### 网络命名空间实践
+创建一个名为netns1的 network namespace
+```bash
+ip netns add netns1
+```
+这个时候查看网络命名空间，只有一个lo网卡，而且是down状态
+```bash
+sudo ip netns exec netns1 ip addr
+1: lo: <LOOPBACK> mtu 65536 qdisc noop state DOWN group default qlen 1000
+    link/loopback 00:00:00:00:00:00 brd 00:00:00:00:00:00
+```
+通过 `ip netns list` 查看 netns1也已经创建成功，但是这个时候lo网卡并不能使用，需要先将lo网卡拉起才能使用
+```bash
+ip netns exec netns1 ip link set dev lo up
+# 执行 ping 命令 lo网卡通了
+sudo ip netns exec netns1 ping 127.0.0.1       
+PING 127.0.0.1 (127.0.0.1) 56(84) bytes of data.
+64 bytes from 127.0.0.1: icmp_seq=1 ttl=64 time=0.030 ms
+64 bytes from 127.0.0.1: icmp_seq=2 ttl=64 time=0.028 ms
+```
+
+但是只有一个本地的回环网卡设备是无法和外界进行通讯的，如果我们想与外界进行通讯，就需要在namespace里创建一对虚拟的以太网卡，即所谓的veth pair，顾名思义， veth pair总是成对出现且相互连接， 它就像Linux的双向管道（pipe） ， 报文从veth pair一端进去就会由另一端收到。
+下面的命令将创建一对虚拟以太网卡， 然后把veth pair的一端放到netns1 network namespace。
+```bash
+ip link add veth0 type veth peer name veth1
+# 将其中一块虚拟网卡veth1通过ip link set命令移动到netns1 network namespace
+ip link set veth1 netns netns1
+```
+这两块网卡刚创建出来还都是DOWN状态， 需要手动把状态设置成UP。 这个步骤的操作和上文对lo网卡的操作类似， 只是多了一步绑定IP地址，
+```bash
+ip netns exec netns1 ifconfig veth1 10.1.1.1/24 up
+ifconfig veth0 10.1.1.2/24 up
+```
+网卡拉起来之后两边就能进行相互通信了，比如在主机上可以 `ping 10.1.1.1` 或者进入到netns1里面 `ping 10.1.1.2` 
+
+用户可以随意将虚拟网络设备分配到自定义的network namespace里， 而连接真实硬件的物理设备则只能放在系统的根network namesapce中。 并且， 任何一个网络设备最多只能存在于一个network namespace中。
+
+### veth pair
+veth是虚拟以太网卡（Virtual Ethernet） 的缩写。 veth设备总是成对的， 因此我们称之为veth pair。 veth pair一端发送的数据会在另外一端接收， 非常像Linux的双向管道。 根据这一特性， veth pair常被用于跨network namespace之间的通信， 即分别将veth pair的两端放在不同的namespace里
+![[Pasted image 20250903152200.png]]
+前文已经提到， 仅有veth pair设备， 容器是无法访问外部网络的。为什么呢？ 因为从容器发出的数据包， 实际上是直接进了veth pair设备的协议栈。 如果容器需要访问网络， 则需要使用网桥等技术将veth pair设备接收的数据包通过某种方式转发出去。
+可以使用 `ip link list` 查看创建的veth pair
+
+veth pair设备的原理较简单， **就是向veth pair设备的一端输入数据，数据通过内核协议栈后从veth pair的另一端出来**。
+![[Pasted image 20250903153424.png]]
+veth网卡内核实现代码，任意一端网卡收到信息，都会无串改的发送到另一端
+```c
+static netdev_tx_t veth_xmit(struct sk_buff *skb, struct net_device *dev)
+{
+	struct veth_priv *rcv_priv, *priv = netdev_priv(dev);
+	struct veth_rq *rq = NULL;
+	struct netdev_queue *txq;
+	struct net_device *rcv;
+	int length = skb->len;
+	bool use_napi = false;
+	int ret, rxq;
+
+	rcu_read_lock();
+	rcv = rcu_dereference(priv->peer);
+	if (unlikely(!rcv) || !pskb_may_pull(skb, ETH_HLEN)) {
+		kfree_skb(skb);
+		goto drop;
+	}
+
+	rcv_priv = netdev_priv(rcv);
+	rxq = skb_get_queue_mapping(skb);
+	if (rxq < rcv->real_num_rx_queues) {
+		rq = &rcv_priv->rq[rxq];
+
+		/* The napi pointer is available when an XDP program is
+		 * attached or when GRO is enabled
+		 * Don't bother with napi/GRO if the skb can't be aggregated
+		 */
+		use_napi = rcu_access_pointer(rq->napi) &&
+			   veth_skb_is_eligible_for_gro(dev, rcv, skb);
+	}
+
+	skb_tx_timestamp(skb);
+
+	ret = veth_forward_skb(rcv, skb, rq, use_napi);
+	switch (ret) {
+	case NET_RX_SUCCESS: /* same as NETDEV_TX_OK */
+		if (!use_napi)
+			dev_sw_netstats_tx_add(dev, 1, length);
+		else
+			__veth_xdp_flush(rq);
+		break;
+	case NETDEV_TX_BUSY:
+		/* If a qdisc is attached to our virtual device, returning
+		 * NETDEV_TX_BUSY is allowed.
+		 */
+		txq = netdev_get_tx_queue(dev, rxq);
+
+		if (qdisc_txq_has_no_queue(txq)) {
+			dev_kfree_skb_any(skb);
+			goto drop;
+		}
+		/* Restore Eth hdr pulled by dev_forward_skb/eth_type_trans */
+		__skb_push(skb, ETH_HLEN);
+		/* Depend on prior success packets started NAPI consumer via
+		 * __veth_xdp_flush(). Cancel TXQ stop if consumer stopped,
+		 * paired with empty check in veth_poll().
+		 */
+		netif_tx_stop_queue(txq);
+		smp_mb__after_atomic();
+		if (unlikely(__ptr_ring_empty(&rq->xdp_ring)))
+			netif_tx_wake_queue(txq);
+		break;
+	case NET_RX_DROP: /* same as NET_XMIT_DROP */
+drop:
+		atomic64_inc(&priv->dropped);
+		ret = NET_XMIT_DROP;
+		break;
+	default:
+		net_crit_ratelimited("%s(%s): Invalid return code(%d)",
+				     __func__, dev->name, ret);
+	}
+	rcu_read_unlock();
+
+	return ret;
+}
+```
+
+
+#### 容器与host veth pair的关系
+容器中的eth0实际上和外面host上的某个veth是成对的（pair） 关系， 那么，有没有办法知道host上的vethxxx和哪个container eth0是成对的关系呢？
+
+- 如果没有ip命令可以通过 `iflink` 关系查看
+首先在容器中查看
+```bash
+~ $ cat /sys/class/net/eth0/iflink 
+38
+```
+然后再主机上遍历 `/sys/class/net` 下面的全部子目录中的ifindex的值和容器中查出来的iflink值一样的veth名，这个veth就是和容器里面成对的veth
+
+- 如果能使用ip命令，可以通过ip命令查看
+先查看容器内部eth0的网卡信息
+```bash
+/prometheus $ ip link show eth0
+4: eth0@if38: <BROADCAST,MULTICAST,UP,LOWER_UP,M-DOWN> mtu 1500 qdisc noqueue 
+    link/ether 4a:50:c6:a2:74:94 brd ff:ff:ff:ff:ff:ff
+```
+这里的4是eth0接口的index，38就是和他成对的veth的index
+
+然后去主机上，查找index为38的网卡
+```bash
+[root@andrew ~]# ip link show |grep ^38
+38: caliee699845661@if4: <BROADCAST,MULTICAST,UP,LOWER_UP> mtu 1500 qdisc noqueue state UP mode DEFAULT group default
+```
+
+- 如果容器有 `ethtool`工具
+先查看容器网卡eth0的peer网卡index
+```bash
+# ethtool -S eth0
+NIC statistics:
+     peer_ifindex: 38
+```
+然后在主机上查看index为38的网卡
+```bash
+ip addr
+```
+
+### linux bridge - 连接你我他
+两个network namespace可以通过veth pair连接， 但要做到两个以上network namespace相互连接， veth pair就显得捉襟见肘了。
+
+我们在计算机网络课本上学的网桥正如其字面含义所描述的，有“牵线搭桥”之意， 用于连接两个不同的局域网， 是网线的延伸。 网桥是二层网络设备， 两个端口分别有一条独立的交换信道， 不共享一条背板总线， 可隔离冲突域。 网桥比集线器（hub） 性能更好， 集线器上各端口都是共享同一条背板总线的。 后来， 网桥被具有更多端口、 可隔离冲突域的交换机（switch） 所取代。
+
+顾名思义， Linux bridge就是Linux系统中的网桥， 但是Linux bridge的行为更像是一台虚拟的网络交换机， 任意的真实物理设备（例如eth0） 和虚拟设备（例如， 前面讲到的veth pair和后面即将介绍的tap设备） 都可以连接到Linux bridge上。 需要注意的是， Linux bridge不能跨机连接网络设备。
+
+Linux bridge与Linux上其他网络设备的区别在于， 普通的网络设备只有两端， 从一端进来的数据会从另一端出去。 例如， 物理网卡从外面网络中收到的数据会转发给内核协议栈， 而从协议栈过来的数据会转发到外面的物理网络中。 Linux bridge则有多个端口， 数据可以从任何端口进来， 进来之后从哪个口出去取决于目的MAC地址， 原理和物理交换机差不多。
+
+#### linux bridge实践
+使用 iproute2如那件包里面的ip命令创建一个bridge
+```bash
+ip link add name br0 type bridge
+ip link set br0 up
+```
+除了使用ip命令，我们还可以使用bridge-utils软件包里面的brctl工具管理网桥，例如创建网桥
+```bash
+brctl addbr br0
+```
+
+刚创建一个bridge时， 它是一个独立的网络设备， 只有一个端口连着协议栈， 其他端口什么都没连接， 这样的bridge其实没有任何实际功能
+![[Pasted image 20250903162541.png]]
+将eth0连接到 br0
+```bash
+ip link set dev veth0 master br0
+```
+同样也能使用 brctl 命令添加到一个设备到网桥上
+```bash
+brctl addif br0 veth0
+```
+设置成功之后就可以通过 bridge命令查看网桥上都有哪些设备
+```bash
+bridge link
+```
+也可以使用brctl命令显示当前存在的网桥及其连接的网络端口
+```bash
+brctl show
+```
+经过上述设置可以看到上述网络拓扑变为了
+![[Pasted image 20250903164021.png]]
+br0和veth0相连之后发生了如下变化：
+- br0和veth0之间连接起来了， 并且是双向的通道
+- 协议栈和veth0之间变成了单通道， 协议栈能发数据给veth0， 但veth0从外面收到的数据不会转发给协议栈；
+- br0的MAC地址变成了veth0的MAC地址。
+
+#### 把ip让给linux bridge
+通过上面的分析可以看出， 给veth0配置IP没有意义， 因为就算协议栈传数据包给veth0， 回程报文也回不来。 这里我们就把veth0的IP地址“让给”Linux bridge：
+```bash
+ip addr del 1.2.3.101 dev eth0
+ip addr add 1.2.3.101 dev br0
+```
+![[Pasted image 20250903164708.png]]
+#### 将物理网卡添加到Linux bridge
+将物理网卡eth0添加到bridge
+```bash
+ip link set dev eth0 master br0
+
+bridge link 
+2: ens18: <BROADCAST,MULTICAST,UP,LOWER_UP> mtu 1500 master br0 state forwarding priority 32 cost 100 
+```
+Linux bridge不会区分接入进来的到底是物理设备还是虚拟设备， 对它来说没有区别。因此， eth0加入br0后， 落得和上面veth0一样的“下场”， 从外面网络收到的数据包将无条件地转发给br0， 自己变成了一根网线。
+
+### linux bridge 在虚拟化中的应用
+
+
+
+
+
+
+
 ### Docker的网络实现
 
 标准的Docker支持以下4类网络模式: