refactor: #11 parse confluence index.html tree

shaunthegeek · shaunthegeek · commit 689e15cd9783 · 2021-07-09T13:26:25.000+08:00
diff --git a/app/Commands/WikiImportCommand.php b/app/Commands/WikiImportCommand.php
@@ -160,36 +160,17 @@ private function handleConfluenceHtml(): int
             $this->info('空间名称：' . $space['name']);
             $this->info('空间标识：' . $space['key']);
 
-            $divElements = $this->document->getElementById('content')->getElementsByTagName('div');
-            $divElement = null;
-            foreach ($divElements as $divElement) {
-                if ($divElement->getAttribute('class') != 'pageSection') {
-                    continue;
-                }
-                $h2Element = $divElement->getElementsByTagName('h2')[0];
-                if (!empty($h2Element) && $h2Element->nodeValue == 'Available Pages:') {
-                    break;
-                }
-            }
-            if (empty($divElement)) {
+            $pages = $this->confluence->parseAvailablePages($this->document);
+            if (empty($pages['tree'])) {
                 $this->info("未发现有效数据");
                 return 0;
-            }
-            $xpath = new \DOMXPath($this->document);
-            $firstLevelLiElements = $xpath->query('ul/li', $divElement);
-            $this->info("发现 {$firstLevelLiElements->count()} 个一级页面");
-            if ($firstLevelLiElements->count() == 0) {
-                return 0;
+            } else {
+                $this->info('发现 ' . count($pages['tree']) . ' 个一级页面');
             }
 
             $this->info("开始导入 CODING：");
-            $pageTitles = [];
-            foreach ($firstLevelLiElements as $firstLevelLiElement) {
-                $aElement = $xpath->query('a', $firstLevelLiElement)->item(0);
-                $pageTitles[$aElement->getAttribute('href')] = $aElement->nodeValue;
-            }
-            foreach ($pageTitles as $page => $title) {
-                $this->info('标题：' . $title);
+            foreach ($pages['tree'] as $page) {
+                $this->info('标题：' . $pages['titles'][$page]);
                 $markdown = $this->confluence->htmlFile2Markdown($dataPath . $page);
                 $mdFilename = substr($page, 0, -5) . '.md';
                 $zipFilePath = $this->coding->createMarkdownZip($markdown, $dataPath, $mdFilename);
diff --git a/app/Confluence.php b/app/Confluence.php
@@ -2,7 +2,9 @@
 
 namespace App;
 
+use JetBrains\PhpStorm\ArrayShape;
 use League\HTMLToMarkdown\HtmlConverter;
+use phpDocumentor\Reflection\Types\Array_;
 
 class Confluence
 {
@@ -38,4 +40,44 @@ public function htmlFile2Markdown(string $filename)
         $html = $this->document->saveHTML($this->document->getElementById('main-content'));
         return $this->htmlConverter->convert($html);
     }
+
+    /**
+     * @param \DOMDocument $document
+     * @return array ['tree' => "array", 'titles' => "array"]
+     * @todo document 对象和本类别的方法不一致
+     */
+    public function parseAvailablePages(\DOMDocument $document): array
+    {
+        $pages = [
+            'tree' => [],
+            'titles' => [],
+        ];
+        $divElements = $document->getElementById('content')->getElementsByTagName('div');
+        $divElement = null;
+        foreach ($divElements as $divElement) {
+            if ($divElement->getAttribute('class') != 'pageSection') {
+                continue;
+            }
+            $h2Element = $divElement->getElementsByTagName('h2')[0];
+            if (!empty($h2Element) && $h2Element->nodeValue == 'Available Pages:') {
+                break;
+            }
+        }
+        if (empty($divElement)) {
+            return $pages;
+        }
+
+        $xpath = new \DOMXPath($document);
+        $firstLevelLiElements = $xpath->query('ul/li', $divElement);
+        if ($firstLevelLiElements->count() == 0) {
+            return $pages;
+        }
+
+        foreach ($firstLevelLiElements as $firstLevelLiElement) {
+            $aElement = $xpath->query('a', $firstLevelLiElement)->item(0);
+            $pages['tree'][] = $aElement->getAttribute('href');
+            $pages['titles'][$aElement->getAttribute('href')] = $aElement->nodeValue;
+        }
+        return $pages;
+    }
 }