HNOI2007 咒语破解

Question

用 c++ 做这道题：

[HNOI2007] 所罗门的咒语

题目描述

所罗门的宝藏被一个强大的咒语封印着，只有用特殊的咒语才能打开。为了给后来人留下一线开启的希望，所罗门将开启宝藏的咒语隐藏在巨大的所罗门广场。

所罗门广场由边长为 1 米的正方形大理石板铺成，据说由于所罗门魔法的作用，在每个雷电交加的黎明，广场上的每块大理石板会发出不同的微弱的光芒，而那些亮度大于某个值的大理石板作为一个整体来看，就是开启所罗门宝藏的咒语，但由于年久失修，有的大理石板可能产生错误的亮度。

图 1 为在一个雷电交加的黎明从太空看所罗门广场的一个实例。通过所罗门的藏书可以知道，开启所罗门宝藏的咒语是由 15 种字符 0,1,2,3,4,5,6,7,8,9,A,D,E,L,X 中的若干个组成的长度小于 10 的符号串，这些符号按照从左到右的顺序大致排成一行，如图 1 所示。

现已在一个雷电交加的黎明搜集到所罗门广场上各块大理石板的亮度，亮度值用 0 到 255 的整数来度量，你能破译出开启所罗门宝藏的咒语么？

输入格式

第一行包含用一个空格隔开的 2 个整数 L 和 H，其中 L 表示所罗门广场包含的大理石板的列数，5<=L<=100，H 表示所罗门广场包含的大理石板的行数，5<=H<=100。

接下来的 H 行，每行有 L 个由一个空格隔开的整数，不妨记接下来的第 i 行，第 J 列的整数为 Vij，则有 0<=Vij<=255。

输出格式

第一行为正整数 t，表示咒语的长度。第 2 行为一个长度为 t 的字符串，表示识别出的咒语。

样例 #1

样例输入 #1

text
17 18
74 82 82 76 101 114 97 97 92 77 86 92 77 81 121 75 83
89 82 74 61 67 74 77 90 75 83 119 125 121 138 175 124 81
69 64 64 69 69 75 75 69 72 108 160 162 166 178 193 145 82
57 64 75 99 110 122 117 75 64 81 119 110 119 127 137 91 61
70 97 113 113 114 148 170 127 78 72 82 72 89 96 96 78 72
69 128 123 92 72 108 161 141 72 61 69 72 110 102 75 70 65
69 141 118 75 59 75 130 123 83 72 89 108 166 156 108 97 72
92 148 108 69 64 78 130 130 78 66 72 83 158 167 138 138 72
85 143 80 66 72 80 141 121 72 66 64 80 72 92 150 150 74
83 146 92 75 78 85 146 134 66 75 72 75 66 61 107 146 69
82 139 89 69 69 78 141 141 64 75 64 69 72 64 93 144 82
96 148 104 82 83 95 148 148 70 69 69 69 64 69 113 155 78
91 143 104 78 84 104 141 127 72 86 128 114 61 72 128 146 69
101 145 96 61 70 102 139 117 80 97 175 175 114 120 132 97 76
119 170 127 75 81 124 141 104 75 84 152 169 139 135 103 57 55
101 172 162 115 119 142 127 70 75 72 110 104 87 84 57 53 32
78 110 154 154 132 116 80 57 91 99 81 70 53 50 48 18 14
72 80 107 99 83 81 69 64 77 87 76 70 55 53 48 18 10

样例输出 #1

text
2
03

简要题意

给一张图，每个像素有亮度，识别图片中的文字

Answer 1

下面的代码仅为参考范例，展示了解题的大致思路和实现框架。由于本题来源于 HNOI2007，需要对比赛提供的字符模板、判定方法和阈值选择策略有深刻理解，并根据题意进行相应的图像处理和匹配操作。以下代码并非直接可用的最终解答（尤其是字符模板部分和特定阈值设定，以及匹配算法需要根据官方题解或数据进行补充和调整）。但它可以为你实现完整的解决方案提供一个大致的框架参考。

解题思路概述

读入数据：获取 L（列数）、H（行数）以及 H 行 L 列的亮度值矩阵。
二值化处理：
根据题意，需要选择一个阈值 T，将亮度大于 T 的格子视为“亮”（前景），否则视为“暗”（背景）。
阈值的选择策略在题解中应有所说明，可能需要依靠统计信息（如亮度分布的某个百分位）或根据题目中的隐含规则。在此处，我们假设已知阈值（例如从题解中得出），下例中简单设定阈值为 T = 100（仅举例）。
连通区域提取：
对二值化后的图像进行连通分量分析（通常使用 DFS 或 BFS），找出所有的前景连通块。这些连通块每个对应一个可能的字符。
特征提取与匹配：
对每个连通块提取其最小外接矩形，然后对该区域进行归一化处理（如缩放到标准大小）以便与预先给定的 15 种字符模板进行比对。模板应在赛题中给出或可以从赛题的辅题资料中获得。

将归一化后的字符图样与每个已知字符模板进行相似度匹配，选出最接近的字符。匹配方法可能包括：
- 像素级对比计数差异
- 特征点匹配
- 形态学特征
由于题中给定可识别字符集为 {'0','1','2','3','4','5','6','7','8','9','A','D','E','L','X'}，可事先将每个字符的标准二值模板硬编码或由文件读入。
字符排序与输出：
识别得到的多个字符需按其左上角位置（或者中间位置）的横向坐标排序，构造出咒语字符串并输出。

样例代码框架（仅为参考）

cpp
#include <bits/stdc++.h>
using namespace std;

int L, H;
int V[110][110];
bool visited[110][110];
int dx[4] = {1, -1, 0, 0};
int dy[4] = {0, 0, 1, -1};

int main() {
    ios::sync_with_stdio(false);
    cin.tie(nullptr);

    cin >> L >> H;
    for (int i = 0; i < H; i++) {
        for (int j = 0; j < L; j++) {
            cin >> V[i][j];
        }
    }

    // Step 1: 二值化（阈值需要根据题意与实际情况选择）
    int T = 100; // 示例阈值(需要根据题解或实际要求修改)
    vector<vector<int>> binImage(H, vector<int>(L, 0));
    for (int i = 0; i < H; i++) {
        for (int j = 0; j < L; j++) {
            if (V[i][j] > T) binImage[i][j] = 1;
        }
    }

    // Step 2: 连通分量标记
    // 每个连通块存储其像素点坐标
    vector<vector<pair<int,int>>> components;
    for (int i = 0; i < H; i++) {
        for (int j = 0; j < L; j++) {
            if (!visited[i][j] && binImage[i][j] == 1) {
                vector<pair<int,int>> comp;
                queue<pair<int,int>>q;
                q.push({i,j});
                visited[i][j] = true;
                while(!q.empty()){
                    auto [x,y] = q.front(); q.pop();
                    comp.push_back({x,y});
                    for(int k=0;k<4;k++){
                        int nx = x+dx[k], ny = y+dy[k];
                        if(nx<0||nx>=H||ny<0||ny>=L) continue;
                        if(!visited[nx][ny] && binImage[nx][ny] == 1){
                            visited[nx][ny]=true;
                            q.push({nx,ny});
                        }
                    }
                }
                components.push_back(comp);
            }
        }
    }

    // Step 3: 对每个连通分量进行字符识别
    // 准备字符模板（本例中需根据题解提供的模板数据进行硬编码或读入）
    // 模板数据格式：map<char, vector<vector<int>>> char_templates;
    // TODO: 从题解给定数据初始化 char_templates

    // 定义一个函数用于将一个连通块标准化为固定大小的矩阵
    auto normalize = [&](const vector<pair<int,int>> &comp) {
        int minx=1e9, miny=1e9, maxx=-1, maxy=-1;
        for (auto &p : comp) {
            minx = min(minx, p.first);
            maxx = max(maxx, p.first);
            miny = min(miny, p.second);
            maxy = max(maxy, p.second);
        }
        int h = maxx - minx + 1;
        int w = maxy - miny + 1;
        vector<vector<int>> mat(h, vector<int>(w,0));
        for (auto &p : comp) {
            mat[p.first - minx][p.second - miny] = 1;
        }
        // 若需要将字符缩放到统一大小，可在此实现
        return mat;
    };

    // 定义一个函数计算和模板的相似度
    auto match_char = [&](const vector<vector<int>> &mat) {
        // TODO: 对 mat 进行缩放/标准化为固定大小，如(20x20)
        // 然后与 char_templates 中的每个字符计算差异度，选出最匹配字符。

        // 以下为伪代码
        char bestChar = '0';
        int bestScore = 1e9;
        // for (auto &kv : char_templates) {
        //     char c = kv.first;
        //     const auto &tmpl = kv.second;
        //     int diff = computeDifference(mat, tmpl);
        //     if (diff < bestScore) {
        //         bestScore = diff;
        //         bestChar = c;
        //     }
        // }
        return bestChar;
    };

    // 对每个组件识别字符
    struct Recognized {
        char c;
        int leftPos; // 用于排序
    };
    vector<Recognized> recognizedChars;
    for (auto &comp : components) {
        auto mat = normalize(comp);
        char c = match_char(mat);
        // leftPos 可用组件的最左列确定
        int leftPos = 1e9;
        for (auto &p: comp) leftPos = min(leftPos, p.second);
        recognizedChars.push_back({c, leftPos});
    }

    // 按照 leftPos 排序
    sort(recognizedChars.begin(), recognizedChars.end(), [](auto &a, auto &b){
        return a.leftPos < b.leftPos;
    });

    // 拼接成字符串
    string result;
    for (auto &rc : recognizedChars) {
        result.push_back(rc.c);
    }

    // 输出结果
    cout << (int)result.size() << "\n" << result << "\n";

    return 0;
}

后续工作

阈值的选择：需要根据赛题的具体说明或测试数据进行调整。可能需要统计图中亮度分布后选择合适的阈值，或是根据某些条件自动确定阈值。
字符模板的建立：题中提供的字符集需要有一套标准模板，这些模板可来自题目的附加数据文件或官方提供的参考。在没有模板数据的情况下，代码无法完成识别。实际比赛中，这部分数据应是给定的。
相似度匹配算法：需要实现 computeDifference() 或其他匹配方法来比较识别到的图像块与模板之间的差异。
精调和优化：根据实际数据测试，不断调试以得到正确输出。

上面的代码仅展示了解题框架，实际实现需要根据题目提供的参考信息、模板以及特定的阈值和匹配策略进行调整和完善。